Visto y Leído

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Desplegar lista

Página de inicio

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Los Vengadores

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

21.2.08 | Tutorial sobre Ontologías
· [leer]
· [10 comentarios]

Tutorial sobre Ontologías

Autores: Jesús Contreras, Juan Antonio Martínez Comeche
Fuente: SEDIC
Url documento: http://blog.sedic.es/...

A raíz del taller sobre Ontologías y Recuperación de información que, organizado por el grupo Normaweb de SEDIC, se desarrolló en la Facultad de Ciencias de la Documentación de la Universidad Complutense de Madrid el pasado septiembre, Jesús Contreras y Juan Antonio Martínez-Comeche han escrito un tutorial que resume los aspectos más destacados que se analizaron:

Ontologías, recuperación de información y web semántica
Concepto y clasificación
Principales ventajas y desventajas
Terminología
Metodologías de desarrollo de ontologías
Herramientas de edición
Instalación y funcionamiento de Protégé
Pasos para el desarrollo de ontologías mediante Competency Questions

[Comienza tutorial]

Objetivo de las Ontologías: la Web semántica

La web actual consiste esencialmente en un conjunto enorme de páginas que contienen texto no estructurado, es decir, texto cuyo contenido no nos hemos preocupado por caracterizar. Básicamente nos hemos limitado a reseñar la manera en que debe visualizarse dicho contenido, como lo demuestra la naturaleza de las etiquetas HTML. Esta simplicidad ha favorecido, sin duda, el éxito de la web actual y justifica su enorme crecimiento en número de páginas y usuarios, pero al tiempo acarrea problemas y dificultades a la hora de manejar y recuperar tal cantidad ingente de información.

Los seres humanos somos incapaces de controlar la información que en un momento dado puede sernos de utilidad en relación a una necesidad informativa entre los millones de páginas existentes en la web, máxime cuando los cambios en la misma se suceden a un ritmo vertiginoso. De hecho, se estima que un 40% de la red se modifica mensualmente. En tales circunstancias, hemos ideado buscadores que nos ayudan a decidir qué páginas pueden incluir información relevante ante un problema cualquiera. Pero dado que la información textual de los sitios web no está estructurada, en cuanto que no está descrita ni caracterizada de alguna forma, los algoritmos de los motores de búsqueda únicamente pueden basarse en la aparición de las palabras consideradas aisladamente.

Ello provoca, sin duda, falta de precisión y exhaustividad en los resultados obtenidos. Falta de precisión por cuanto en los resultados que nos presenta un buscador se hallan páginas que no tienen relación alguna con nuestra necesidad informativa. Eso sucede, por ejemplo, cuando las palabras poseen varios significados. Si consultamos por la palabra banco obtendremos páginas relativas a entidades bancarias, pero también a un tipo de asiento. De igual forma, la falta de exhaustividad puede venir provocada, entre otros motivos, por la utilización de un sinónimo en una página en lugar de la palabra empleada en la consulta. En tal caso, la página no será recuperada pues no contiene estrictamente la palabra introducida en la búsqueda.

Además, los buscadores proporcionan enlaces a documentos que pueden ser útiles para el usuario, pero no son capaces de proporcionar la respuesta concreta que busca en muchas ocasiones. Si una persona busca los coches más baratos entre los concesionarios de una zona geográfica concreta, hoy día el usuario debe ocupar muchas horas comparando la información de los distintos concesionarios que un buscador le ha facilitado previamente.

Otro problema de la web actual consiste en la falta de fiabilidad de las fuentes. El usuario no tiene elementos de juicio sobre la veracidad y confiabilidad de los datos presentes en los sitios web recuperados.

La evolución de la web diseñada por Tim Berners-Lee trata de solucionar los problemas planteados en los párrafos anteriores. Imaginemos por un momento una web donde el contenido de. las páginas está caracterizado y descrito de tal manera que sea capaz de discernir los distintos significados de las palabras, pueda deducir la existencia de relaciones de sinonimia entre palabras en cierto contexto temático, de manera que sea capaz de recuperar páginas útiles en relación a la necesidad informativa del usuario aunque en ellas no aparezcan las palabras introducidas expresamente en la consulta, o que fuese capaz de comparar datos e información procedentes de varias fuentes, efectuar inferencias o deducciones lógicas a partir de ellos para mostrarnos directamente la información que buscábamos (el concesionario cercano con los coches más baratos, por ejemplo). Incluso que fuese capaz de emitir juicios sobre la fiabilidad de los datos presentes en las diversas páginas y considerar en la respuesta exclusivamente los más veraces, desechando los menos confiables.

Tim Berners-Lee ha denominado Web Semántica a la web donde las aplicaciones serán capaces de efectuar un procesamiento de la información mucho más profundo. Esta web estará caracterizada por programas capaces de "comprender" el contenido de las páginas web, y por tanto, de relacionar la información contenida en páginas hoy aisladas, de procesarla, de discriminar la más fiable en un momento dado, e incluso de deducir o inferir información no registrada previamente, tomando decisiones con un cierto grado de autonomía.

Para que estas aplicaciones y servicios más "inteligentes" sean posibles es necesario que la información de las páginas web esté estructurada, esto es, perfectamente descrita y clasificada de manera que su significado exacto esté al alcance de las máquinas. De esta manera los ordenadores podrán manipular y procesar la información adecuadamente. De ahí la denominación de Web Semántica.

La manera que se ha ideado para codificar los significados de la información contenida en las páginas web consiste en el empleo de etiquetas que especifiquen el valor semántico o la interpretación correcta de los contenidos. Así, un número puede indicar, según las circunstancias, un precio, un año o una longitud. Su significado preciso en cada caso se especificará mediante la presencia de una etiqueta.

El marcado y anotación de los contenidos de la web debe realizarse siguiendo unas reglas y formatos comunes, pues de lo contrario sería imposible la manipulación efectiva de la información por parte de los ordenadores. En primer lugar, un marcado consistente implica la estructuración previa del dominio que se representa, detallando las entidades principales que lo componen, su jerarquía y la naturaleza de las relaciones existentes entre ellas. En segundo lugar, debe cuidarse que todos los usuarios empleemos formatos compatibles, pues si coexisten varios conjuntos de etiquetas y no se procura un método para garantizar su utilización conjunta, todos los esfuerzos serían inútiles.

El cumplimiento de ciertas normas necesarias para desarrollar de manera coherente el etiquetado de los contenidos web supone la creación de ontologías sobre el dominio o área de conocimiento que deseamos representar semánticamente. En consecuencia, las ontologías son el medio principal para lograr el objetivo de la web semántica, al facilitar la definición formal de las entidades y conceptos presentes en los diferentes dominios, la jerarquía que les sustenta y las diferentes relaciones que los unen entre sí. De esta manera garantizamos una representación formal legible por las máquinas, basado en un lenguaje común -XML- que puede ser compartido y utilizado por cualquier sistema de manera automática.

No menos importante que los retos tecnológicos y de formalismos se plantea el reto de la explotación y uso de la web semántica. Haciendo un símil con la web actual, que presenció su auge en cuanto se perfilaron nuevos modelos de negocio, se esbozan aquí algunas posibilidades o visiones sobre los tipos de aplicaciones en la web semántica.

La tecnología de la web semántica ofrece la posibilidad de construir contenido de manera formal y completa de acuerdo a modelos semánticos consensuados. La existencia de estos modelos permite que las funcionalidades ofrecidas por estos sistemas abarquen, entre otras, las siguientes aplicaciones:

Recuperación de información mediante buscadores semánticos: las búsquedas semánticas, al contrario que las tradicionales -basadas en palabras clave-, trabajan con el significado de las palabras de acuerdo al modelo subyacente asegurando la precisión del 100%en las búsquedas. El resultado presentado al usuario pasa a ser la información solicitada en forma de conceptos del modelo, en lugar de los documentos posiblemente relacionados, tal como hacen los buscadores actuales.
Publicación de la información de acuerdo al modelo. La navegación y la presentación de la información se podrá hacer de acuerdo a su contenido, de manera que el usuario puede visualizar los conceptos del modelo y consultar los conceptos relacionados independientemente de los documentos presentes en el sistema.
La presencia del modelo permite la incorporación de Interfaces inteligentes como son los basados en lenguaje natural. La posibilidad de formular consultas en un lenguaje cercano al natural asegura la usabilidad del sistema final.
Sistema de inferencia y compleción de información. En base a los axiomas de los modelos de la web semántica es posible validar y aumentar la información mediante sistemas de inferencia automáticos.
Intercambio de información a formatos de aplicaciones específicas. La posibilidad de traducir la información a formatos de otras aplicaciones, como pueden ser aplicaciones educativas, permite aumentar la rentabilidad de la codificación de la misma. Actualmente el gasto de las empresas en hacer compatibles a sistemas heterogéneos supone un 30%del gasto de toda la industria de tecnologías de la información.

[Continúa tutorial] (PDF, 172 Kb)

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Tutorial sobre Ontologías

Objetivo de las Ontologías: la Web semántica

[21.2.08] [10 comentarios] [#] [lista]

Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Tutorial sobre Ontologías

Objetivo de las Ontologías: la Web semántica

[21.2.08] [10 comentarios] [#] [lista]

Visto y Leído, document.write(year);

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído,