Estrategias para Mejorar la Web Semántica y sus Ontologías en Turismo Basados en Indexadores y Buscadores

June 26, 2017 | Autor: Carlos Arias Ramos | Categoría: Ontologias, Recuperación de la información, Tesauros, Web Semántica, Búsquedas, Indexación
Share Embed


Descripción

V Congreso Iberoamericano SOCOTE - Soporte del Conocimiento con la Tecnología Universidad de San Martín de Porres, 15-16 de octubre de 2013

Estrategias para Mejorar la Web Semántica y sus Ontologías en Turismo Basados en Indexadores y Buscadores Carlos Arias Ramos1, Augusto Bernuy Alva2 [email protected], [email protected], [email protected] Facultad de Ingeniería y Arquitectura, Universidad de San Martin de Porres 1

Resumen La búsqueda y recuperación de la información, tanto la clasificación como la indización manual son dos procesos básicos del análisis del contenido, el primero utilizando vocabularios controlados, y el segundo por medio de términos libres. La clasificación y la indización informatizada para la búsqueda y recuperación de información, se han convertido en bases fundamentales para el tratamiento del contenido de documentos digitales. Muchos software documentales se basan en lenguaje natural para las búsquedas en bases de datos, pero también, la indización y clasificación automáticas han evolucionado con lenguajes totalmente libres, hasta el uso creciente de tesauros y ontologías automatizadas, desarrollando lenguajes con posibilidad de una estructuración semántica muy rica que favorecen la búsqueda y recuperación de información. Se analiza como las empresas y las organizaciones, han cambiado sus archivos manuales por sistemas de tratamiento automatizado de datos y la gestión electrónica de documentos como práctica habitual para el almacenamiento, recuperación, acceso y reproducción de documentos, etc. Como resultado se proponen estrategias de comprensión y deducción de contenidos para la gestión electrónica de documentos para optimizar la descripción e indización automática, con el fin de la posterior recuperación.

Palabras clave: Indexación, Búsqueda, Recuperación, Tesauros, Ontologías, Web Semántica.

Abstract Search and recovery of information, both the classification and manual indexing are two basic processes of analysis content, the first using controlled vocabularies and the second by use of free terms. The computerized classification and indexing for search and retrieval of information, have become cornerstones in the treatment of digital document content. Many software documentaries are based on natural language search in databases, but also the automatic indexing and languages have evolved completely free to increasing use of thesauri and ontologies automated, developing languages with semantic structuring possibility of very favoring rich search and retrieval. It analyzes how companies and organizations have changed their systems manual files for automated data processing and electronic document management as a practice for the storage, retrieval, access and reproduction of documents, etc. As a result proposed deduction comprehension strategies and content for electronic document management to optimize the description and automatic indexing, for the purpose of the subsequent recovery.

Keywords: Indexing, Search, Recovery, Thesauri, Ontologies, Semantic Web.

1.

Introducción

Los textos que aparecen en los documentos se escriben en lenguaje natural y, por lo tanto, están sujetos a las imprecisiones y ambigüedades del lenguaje natural: polisemia, homonimia, sinonimia, anfibologías, metáforas, anáforas, etc. que impiden la identificación entre un significante y un significado, entre una palabra y un único significado concreto y preciso. Caracterizar el contenido de un documento sigue siendo una tarea compleja tanto en su vertiente manual como en la vertiente automatizada, puesto que la indización depende no solo del conocimiento y control de los lenguajes y técnicas documentales, sino también del grado de conocimiento que se tenga sobre el tema o materia de que trate el documento e, incluso, de la facultad y dominio en el manejo de procesos de abstracción conceptual. Para la indización se suele utilizar los títulos, encabezados, párrafos introductorios, resúmenes, conclusiones, etc. La proliferación de documentos digitales ha conducido, a un desarrollo exponencial de la indización automática, puesto que describir de forma manual toda la información que aparece en la red se ha convertido en un imposible. Además, la permanencia de los documentos tanto en Internet, como en cualquier Intranet, suele tener una duración limitada. La mayoría de los sistemas de gestión electrónica de documentos, incluyen ya un motor de indización y búsqueda automática que procesa el lenguaje natural y que permite la recuperación del contenido y existen muchas y muy variadas herramientas y aplicaciones informáticas para realizar estas nuevas funciones. 2.

El objetivo del artículo es proponer los alcances necesarios para plantear las estrategias para mejorar la Web Semántica y sus ontologías en Turismo basados en Indexadores y Buscadores.

Estado del arte

Los modelos de indización automática son muy variados y van desde métodos muy simples como es la mera extracción de palabras del lenguaje natural, hasta métodos muy complejos basados en una indización inteligente que no trata las palabras, sino los conceptos. Todos estos métodos conviven a la vez, aunque podamos hablar de un proceso evolutivo en la indización automatizada sirviéndonos del tratamiento que se ha ido dando al lenguaje natural y que podemos resumir así: 2.1.

Primera etapa: las palabras se entienden como objetos

En los años 60, a comienzos de la utilización del ordenador como procesador de textos, los primeros intentos de indización automática se basaban en la identificación de las palabras que aparecen en los títulos. Las palabras vacías son descartadas mediante un filtro y las demás pasan a considerase descriptores. Se trata pues, de una indización morfológica. Sin embargo, si se manipula el texto completo, se obtiene una indización indiscriminada que no distingue las ambigüedades de los términos, puesto que no diferencia las formas flexivas (género y número) ni tampoco los sinónimos, homónimos, polisemias, etc.; por lo que se empieza a analizar también el contexto, igual que se venía haciendo con los índices de concordancias. Se configuran así índices permutados con una entrada por cada palabra no vacía que aparece en el documento. Y, en muchos casos, se utiliza la información que presentan los registros bibliográficos o se parte de los títulos y resúmenes para obtener términos más representativos y adecuados. Un gran avance fue introducir métodos estadísticos y probabilísticos, analizando la frecuencia estadística de aparición de cada palabra. Se dejan fuera las palabras cuya aparición es excesiva y aquellas cuya aparición es muy escasa o rara, y se eligen las palabras que aparecen con una frecuencia media.

2.2.

Segunda etapa: el análisis lingüístico

Se comienza a procesar el lenguaje natural en todos sus aspectos: morfológico, sintáctico, semántico y pragmático. 2.2.1. Procesamiento morfológico-léxico

Primero se segmenta el texto en unidades más pequeñas. Se identifican así no solo las palabras, sino también los sintagmas, las locuciones, siglas, etc. a los que se dan una serie de identificadores para ser utilizados como puntos de referencia. Se cuenta con dos diccionarios, un diccionario que contiene todas las entradas de una lengua y otro diccionario con locuciones. Estas palabras, en los métodos usados actualmente, pueden sufrir un proceso de lematización, esto es, se puede extraer la forma canónica transformando las formas conjugadas y flexivas en entradas de un diccionario. 2.2.2. Procesamiento sintáctico

Una vez obtenido el léxico mediante este procesamiento morfológico, se pasa a utilizar una gramática o diccionario sintáctico que describa la estructura de las oraciones. Se separan las oraciones en simples y compuestas, y se desambiguan las distintas categorías morfológicas. Los analizadores sintácticos pueden determinar las funciones de las palabras en el texto: sujeto, verbo, tipo de complemento, etc. Estas dos etapas anteriores se pueden realizar a la vez mediante los llamados analizadores morfosintácticos que utilizan un analizador con una gramática particular adaptada a la naturaleza de los textos que indizan. 2.2.3. Procesamiento semántico

Posteriormente, el análisis semántico permitirá agrupar y jerarquizar el contenido del texto a través de un nuevo reconocimiento morfológico que tenga en cuenta los significados, y a través del reconocimiento de sinónimos e hiperónimos. También puede realizarse un análisis semántico desde el punto de vista gramatical, que estudie las relaciones sintagmáticas bien sea en el contexto de la frase o en el documento completo. Se reducen así los términos léxicos indizados y se homogenizan. Se pueden elaborar árboles que representen gráficamente los enlaces dentro de estos esquemas para poder descender desde los términos genéricos a los términos específicos, y viceversa, con el fin de establecer y representar los diferentes dominios semánticos, temáticos o conceptuales del texto y sus jerarquías o asociaciones. 2.2.4. Procesamiento pragmático

Esta indización es muy compleja ya que se basa no solo en el conocimiento lingüístico, sino también en el conocimiento del mundo real. Se trata de que el universo del discurso solo puede comprenderse poniéndolo en relación o enmarcándolo en el contexto del universo real. Se utilizan, entonces, algoritmos muy complejos que recogen las relaciones contextuales para poder comprender el contexto del discurso. 2.3.

Tercera etapa: indización inteligente

Se trata de la etapa actual en la cual se integran todos los modelos anteriores intentando dotar a las máquinas de competencias lingüísticas y cognitivas basadas tanto en la lingüística, como en las bases de conocimiento. Lo que se persigue es el acceso directo a los documentos a través del procesamiento lingüístico y cognitivo automáticos y la utilización del lenguaje natural, combinado con otras técnicas como el análisis estadístico o la medición

terminológica. No haría falta que los usuarios conocieran los lenguajes documentales, sino que interfaces inteligentes facilitarían utilizar el lenguaje natural y los ordenadores, mediante agentes inteligentes, se encargarían de todo el proceso de manipulación, selección y procesamiento de la información.

La diferencia entre los tesauros y las ontologías es que los tesauros contienen relaciones de asociación, pero las ontologías especifican cómo es esa asociación y la representan mediante estructuras en forma de árbol o en planos. Los sistemas más complejos combinan el modelo lingüístico con el estadístico y suelen estar conformados por cuatro módulos distintos: módulo de construcción de reglas para la canonización de las palabras flexivas y derivativas, un motor de indización, un módulo de cálculo estadístico y una base del conocimiento o diccionario electrónico. Se trata de sistemas de Gestión Electrónica de Documentos (GED), Sistemas de Gestión del Conocimiento (SGC) en los que el motor de indización y los métodos de Procesamiento del Lenguaje Natural (PLN) cumplen un papel fundamental. Las etapas de la indización automática que hemos analizado anteriormente, podemos destacar, las distintas herramientas o instrumentos de análisis utilizados en el procesamiento lingüístico de los documentos, que también han variado con el paso del tiempo. Podemos destacar tres instrumentos principales:

2.4.

Diccionarios; para llevar a cabo el análisis morfológico y sintáctico utilizando reglas gramaticales. Tesauros; para llevar a cabo el análisis semántico mediante el establecimiento de enlaces de equivalencia, jerarquía o asociación a la hora de aplicar las reglas documentales. Ontologías; para indicar los tipos de relaciones que se dan entre los conceptos, con el fin de eliminar las ambigüedades en el contenido de los documentos. Buscadores

En la actual era del conocimiento, las búsquedas se han instaurado como un aspecto esencial en la obtención de respuestas a diferentes interrogantes de la cotidianidad, las evidencias de estas búsquedas y obtención de respuestas se ven claramente visibles y plasmadas entre otras formas de difusión, en los artículos científicos. La utilización de los artículos científicos para evidenciar los resultados de búsquedas e investigaciones, ha logrado que la comunidad académica y profesional, pueda acceder y conocer la producción existente en diferentes áreas del conocimiento. Por ello es necesario que al momento de realizar una búsqueda de información acerca de una temática en particular, el resultado de esta proporcione lo que el usuario realmente necesita. Es necesario precisar que la estructura de la web actual dificulta el objetivo de obtener respuestas, debido a que está estructurada por medio de la utilización de hipervínculos, donde usuarios navegan de una página a otra, direccionados por los buscadores, pero finalmente las máquinas entienden el significado de esta.

Figura 1. Funcionamiento actual de la Web (Cantera, Hierro and Romo, 2007)

Es por ello que el mismo autor de la web Tim Berners-Lee, propone la incursión de la Web Semántica, la cual adiciona significado a la Web, modificando además la forma de estructura de los contenidos disponibles en la WWW. En contraposición con el caos y desorden que muestra la web actual, esta propone un esquema de clasificación, modificación de la estructura y anotación de los recursos en forma semántica y entendible por las máquinas.

Figura 2. Funcionamiento de la Web Semántica (Cantera, Hierro and Romo, 2007)

La web semántica, tiene como fundamento las características generales en cuanto a accesibilidad que lograron el éxito de la web actual, pero le adiciona, las ontologías, emanado del campo de la inteligencia artificial, necesarias para la resolución de dificultades como las búsquedas. Una Ontología Web representa una jerarquización de conceptos, por medio de atributos y relaciones, como finalidad tienen la creación de las denominadas redes semánticas. Con la creación de las ontologías, su estructura de clases y relaciones definidas de un dominio de conocimiento. La finalidad de la incursión de la web semántica es la conformación de nodos que se encuentran tipificados por medio de clases y relaciones definidas en las ontologías, lo cual no solamente permite el acceso a contenidos, sino que le agrega funcionalidad y procedimientos para describir servicios web. A continuación se presenta una definición estándar de cada una de las herramientas de búsqueda y recuperación de información (Martínez, J.A., 1999): Índice temático/directorio; página web donde de forma manual se organizan jerárquicamente un conjunto de recursos web que han sido recopilados a partir de búsquedas (también manuales) en la red. Motor de búsqueda; programa que tiene por objetivo la estructura hipertextual de la web para recoger e indexar de forma automática los recursos disponibles en la Red, formando una gran base de datos integrada por documentos html (ahora también otros DTDs de SGML como xml, vml, dhtml etc.). Agente inteligente; un agente inteligente es un software que asiste al cliente y actúa en su nombre.

Un motor de búsqueda está formado por cuatro elementos básicos (Codina, 1997):

Un programa (también denominado robot, rastreador o webcrawler) que recorre el WWW buscando recursos de información y sus respectivas URLs. Un sistema automático de análisis de contenidos e indexación de los documentos localizados por el robot. Un sistema de interrogación generalmente basado en la lógica booleana, que permite al usuario expresar su necesidad de información. Un programa que actúa de pasarela entre el servidor de documentos html y la base de datos.

Funcionamiento

El motor de búsqueda recibe la consulta del usuario (query), formada por uno o más términos, realiza una consulta interna en la base de datos que contiene los recursos web indexados y ofrece una lista de aquellos recursos que cumplen una parte o el total de los requisitos establecidos en la consulta. Generalmente, los resultados aparecen ordenados según una puntuación (score) que el programa asocia automáticamente a cada recurso. El usuario a través de la interfaz única realizará su búsqueda. La aplicación filtrará la información procedente de varias fuentes en función de los parámetros de la búsqueda y sus relaciones semánticas y conceptuales, para evitar bajarse toda la información de todas las fuentes (Murua et. al, 2010). La forma tradicional de encontrar resultados en motores de búsqueda robustos es por medio de comparaciones de texto realizadas entre las páginas html de los sitios previamente almacenados e indexados en su base de datos (si el sitio web no es de mucha importancia, solo se guardan de una a dos páginas); procedimientos de motores de búsqueda menos complejos usan la información puntual delos sitios (títulos, palabras claves) como criterio de resultado o la concurrencia sobre un dominio, es decir, las veces que se accede a ella (implementado por Google) (Messino, A. et. al, 2009). Las búsquedas ontológicas, basadas en esquemas conceptuales, generan resultados coherentes con el criterio del usuario sobre uno o varios dominios de información. El dominio es el conjunto de conceptos que se definen por medio de la ontología (Messino, A. et. al, 2009).

Para realizar una consulta es necesario tener en cuenta un conjunto de variables (Martínez J., 1999):

2.5.

Lenguaje de interrogación, que debe ofrecer diferentes tipos de operadores: lógicos, de comparación, de truncamiento, de proximidad, de especificación de campo. Posibilidad de refinar (refine) una búsqueda inicial. Campos limitadores que nos permitan reducir la búsqueda: dominios, lenguas, países, fecha de creación del recurso. Búsquedas alternativas: búsqueda simple, búsqueda avanzada, búsquedas combinando operadores e índices temáticos, etc. Opciones avanzadas: buscar diferentes recursos (texto, sonido, imagen), guardar y reutilizar búsquedas, diferentes formatos en los resultados de búsqueda (estándard, detallado, compacto, etc.), búsqueda de conceptos relacionados (related topics), consulta directa en bases de datos (intranets), etc. Ontologías Aplicadas a la búsqueda

Existen muchos aplicativos (clientes) o buscadores Web que tienen como objetivo principal buscar información sin discriminación alguna. No obstante es necesario precisar que al momento de realizar estas búsquedas, los resultados que estos arrojan por lo general no satisfacen los que el usuario espera. Las ontologías tienen su origen en la Inteligencia Artificial (Gruber, 2003). Según Gruber: “Una ontología es una especificación formal y explicita de una conceptualización compartida, esto se entiende mejor de la siguiente manera: Formal; se refiere al hecho de que la ontología debe ser legible por un ordenar, excluyendo el lenguaje natural. Explícita; significa que los conceptos que se utilizan y sus limitaciones se definen explícitamente.

Conceptualización; se refiere a la identificación de los conceptos más relevantes de un fenómeno del mundo. Compartida; cuando una ontología captura un consenso de conocimiento, es decir que el conocimiento no proviene de un solo individuo sino que es aceptada por un grupo”.

Las ontologías pueden ser representadas por diferentes lenguajes a saber: RDF (Resource Description Framework), RDF Scheme, XML (Extensible Markup Languaje), XML Schema, OWL (Ontology Web Languaje). De los lenguajes mencionados anteriormente OWL, es considerado el más completo debido a que tiene mayor capacidad al momento de expresar el significado y la semántica. Razonador

El objetivo principal de los razonadores, es realizar inferencias sobre la Ontología Web, para el caso específico de este artículo, se utilizó JENA (Semantic Web Framework). Jena es un framework de Java, diseñado exclusivamente para la programación de aplicaciones que soporten la Web Semántica y es de código abierto. Es una API (Application Programing Interface), que permite trabajar con ontologías que se encuentren enmarcadas en los lenguajes: OWL y RDF Schema, adicionalmente permite el procesamiento de consultas de tipo SPARQL (Query Languaje for RDF), posee motores de inferencia y conectores a motores externos. Para realizar las diferentes consultas que se han de realizar a la Ontología Web, con el objetivo de interactuar con esta representación del conocimiento. Se utilizó Protegé, el cual es un editor de código abierto y a la vez es un sistema de adquisición de conocimiento y está hecho en Java usando fuertemente la Librería Swing, desarrollado por una comunidad. 3.

Agentes

La incursión de los agentes Inteligentes dentro de la propuesta, cobra un papel primordial debido a que se convierte en su factor diferenciador en la Web 3.0. Puede entenderse como agente inteligente, “una entidad capaz de percibir su entorno, procesar tales percepciones y responder o actuar en su entorno de manera racional, es decir, de manera correcta y tendiendo a maximizar un resultado esperado” (Rodríguez, 2010). El artículo Is there and Intelligente Agent in Your Future? (Hendler, 1999). Da a conocer cuáles han de ser las principales características de un agente inteligente.

Figura 3. Características Generales de un Agente Inteligente (Hendler, 1999)

En primera instancia un agente inteligente debe ser comunicativo, puesto que debe tener la capacidad de entender cuáles son las necesidades reales del usuario, debido a que sin esta cualidad es imposible desempeñarse en forma eficiente. En segunda instancia debe ser capaz, debido a que debe desarrollar la facultad no solo de mostrar información sino también de inferir. En tercera instancia debe ser autónomo, es decir debe poseer la capacidad de tomar decisiones por sí solo a través de reglas establecidas con antelación. En última instancia debe

ser adaptable, acoplarse a diferentes preferencias de los usuarios en cuanto a visualización, fuentes de información, debe ser capaz de aprender del entorno. Tipos de herramientas de segunda generación - Agentes Inteligentes (Lara, P., y Martínez, J.A., 1999):

4.

Cliente z39.50; permite la consulta simultánea de un elevado número de servidores, mediante un único protocolo, es decir, un único interfaz y lenguaje de interrogación. Es especialmente útil en recuperar la información que se encuentra en la llamada “Internet Invisible”, información que no es indizada por los motores de búsqueda (Bases de Datos). Volcadores; permiten volcar automáticamente una copia idéntica de sedes, directorios y documentos, manteniendo su estructura y sus elementos, incluso los enlaces, y creando así un archivo offline. Se puede programar la hora del volcado, reduciendo considerablemente el tiempo y el coste, y permite activar el vuelco de diferentes documentos especiales (.html, .doc, .pdf, .gif). Multibuscadores y Metabuscadores; permiten realizar la recuperación de la información en varios motores de búsqueda simultáneamente. A diferencia de los multibuscadores de primera generación, la mayoría de las tareas pueden automatizarse y son muy flexibles en su configuración: traducen expresiones y procesan los resultados, eliminando los duplicados, y ordenando los contenidos según criterios y formatos definidos. Trazadores; permite la búsqueda en las páginas enlazadas desde una página web determinada o desde una lista de resultados de un buscador. Desde una primera sede, llamada “semilla”, y aprovechando la naturaleza hipertextual de internet, van comprobándose las páginas que se encuentran enlazadas según una serie de criterios de pertinencia, y así sucesivamente hasta un nivel prefijado. Aunque generan mucho ruido y es una técnica lenta, permite recuperar información que es imposible de localizar para los buscadores. Indizadores; permite indizar y resumir automáticamente diferentes páginas web, y exportar los resultados en diferentes formatos reutilizables por editores web. Mapeadores; describen íntegramente una serie, detallando cada fichero y directorio y proporcionando un mapa de contenidos. Permite obtener datos numéricos que ayudan a evaluar dichos contenidos y establecer una comparativa entre diferentes sedes web, en base a valores como tamaño, la densidad hipermedia de la sede, su estructura de niveles, la tipología de enlaces, etc.

Estrategia

Modelo de Catalogación

El modelo de catalogación realiza un razonamiento supervisado a través de reglas de inferencia sobre los datos categorizados en una ontología de dominio, con el objetivo de mejorar la clasificación y el acceso a los recursos. La ontología a través de una estructura de conocimientos formalizada, referencia a los datos por medio de las anotaciones semánticas, en un esquema común normalizado sobre el dominio del conocimiento. Los metadatos no solo especifican el esquema de datos que debe aparecer en cada instancia, también contienen la información adicional de cómo hacer deducciones sobre ellos. En modelo de catalogación, que representa una arquitectura web de tres capas: presentación, semántica y persistencia (Martínez, L., 2012). La capa de presentación contiene las interfaces gráficas de publicación e interacción con el usuario, búsquedas y recuperación de la información (IR) que son visualizadas mediante un

navegador web. Estas capas semánticas contienes otras subcapas que se describen a continuación:

Búsquedas; lugar donde se encuentra la lógica que efectúa la inferencia (razonamiento) para la obtención de los datos, aplicando las reglas expresadas en la ontología y en la base de reglas. Se detalla modelos de IR en la Tabla 1. Lógica; son Reglas de Inferencia utilizando la lógica de descripciones y consultas para localizar aserciones sobre el conjunto de datos. Ontología de dominio; ofrece el criterio para catalogar y clasificar la información, esta capa permite enriquecer las clases y propiedades del dominio, mediante el lenguaje OWL, con el cual se generan las anotaciones semánticas, además del proceso de extracción y filtrado de los recursos a través del sistema y de modo colaborativo con la participación de los usuarios.

La capa de persistencia mantiene una comunicación con la capa semántica, mediante el gestor de base de datos, que garantiza la continuidad de los documentos electrónicos y de los metadatos en el sistema. Podemos distinguir tres tipos principales de consultas: las consultas basadas en términos clave, las consultas de reconocimiento de patrones en texto y las consultas sobre la estructura de los textos.

Figura 4. Proceso de recuperación y búsqueda (Martínez, L., 2012) Modelos para Recuperación de Información (IR) Modelo Booleano Modelo Vectorial

Conclusiones

Modelo Probabilístico Modelo de Indexado de Semántica Latente

Medidas de Similitud Semántica Similitud basada en árboles Similitud basada en grafos

Tabla 1. Otros Modelos para recuperación y búsqueda (Elaboración propia)

Como resultado de este artículo se puede apreciar, que haciendo uso de las Ontologías Web, Razonadores y Agentes Inteligentes de Búsqueda, pueden ser mejoradas las formas tradicionales de búsqueda en la Web.

A través de la aplicación de técnicas de pruebas de caja negra, se puede determinar que el funcionamiento de los aplicativos en función del tiempo de respuesta y concordancia de las búsquedas realizadas, resultó bastante competidor al ser contrastado con esquemas tradicionales de implementación de aplicativos Web. Sin lugar a dudas, esta afirmación se basa primordialmente en la inclusión de agentes inteligentes, que permiten incrementar en forma circunstancial la coherencia en los resultados emitidos por este. En cuanto a los trabajos futuros, resultado del análisis de esta propuesta, se puede apreciar la posible aplicación de la arquitectura propuesta, para lograr búsquedas eficientes en empresas del sector público tales como: alcaldías, gobernaciones, notarías públicas, entre otras.

Las funciones de similitud evalúan el grado de cercanía entre los elementos bajo estudio, y se pueden aplicar para evaluar la relación documento-documento, documento-consulta, término-

término. En la representación vectorial la calidad dependen de la base elegida y la ponderación. La definición de documentos se realiza en función de los términos y estos en función de los términos. Las relaciones entre las partes de los documentos pueden ser utilizadas en la generación automática de links y de resúmenes.

La generación de las categorías atendiendo a las relaciones completas presenta un coste computacional que es muy elevado. Referencias

Cantera, J., Hierro, J., Romo, P., (2007) La Web Semántica, la siguiente generación de Webs. Disponible desde Internet en: http://sociedadinformacion.fundacion.telefonica.com/DYC/SHI/seccion=1188&idioma=es_E S&id=2009100116310013&activo=4.do?elem=4299

Codina, L. (1997) Cómo funcionan los servicios de búsqueda en Internet: un informe especial para navegantes y creadores de información. Part I. Information World en Español, vol. 6, nº 5, 1997, p. 22-26 Gruber, T. R. (1993) “Toward principles for the design of ontologies used for knowledge sharing,”

Gruber, T. (2003) It Is What It Does: The Pragmatics of Ontology. Invited presentation to the meeting of the CIDOC Conceptual Reference Model committee, Smithsonian Museum, Washington, D.C., March 26, 2003.Disponible desde Internet en: http://cidoc.ics.forth.gr/docs/symposium_presentations/gruber_cidoc-ontology-2003.pdf

Hendler, J. (1999) Is there and Intelligente Agent in Your Future? Disponible desde Internet en: http://www.nature.com/nature/webmatters/agents/agents.html Hendler, J. (2004). Frequently Asked Questions on W3C’s Web Ontology Language (OWL).

Lara Navarra, Pablo y Martínez Usero, José Ángel (1999) Agentes inteligentes en la búsqueda y recuperación de información. In Conferencia de asignatura, 4 Mayo 1999, Murcia. Martínez Usero, José Ángel (1999) Agentes inteligentes aplicados a la gestión de información para la investigación. In Conferencia de asignatura, 4 Mayo 1999, Murcia.

Martínez García, Laura, (2012) Hacia una clasificación automática de textos, a través de anotaciones semánticas y ontologías de dominio. Messino Soza Alexis y Tovar Garrido Luis C. (2009) Lenguaje de ontologías web aplicadas al sector turístico Murua Idoia, Lladó Esteve, LlodràBel (2010) La web semántica aplicada al empaquetamiento dinámico de servicios y productos turísticos

Rodríguez, H (2010). A propósito de Convergencia hacia normas únicas: Un modelo para la aplicación de principios y reglas basadas en principios. Disponible desde Internet en: http://www.actualicese.com/opinion/a-proposito-de-convergencia-hacia-normas-unicas-unmodelo-para-la-aplicacion-de-principios-y-reglas-basadas-en-principios-hernan-a-rodriguezg/

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.