Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

  • 3.5.07 | Navegadores semánticos o semantizar el navegador
    · [leer]
    · [0 comentarios]

Navegadores semánticos o semantizar el navegador

Autor: José A. Senso (Universidad de Granada)
Fuente: IWETEL - Thinkepi
Url documento: http://www.thinkepi.net/... / http://listserv.rediris.es/...

El siguiente texto, junto con las réplicas a que dio lugar, fue publicado originalmente en la lista de distribución IWETEL el pasado 10/04/2007. Como se ha comentado, dio lugar a interesantes réplicas que pueden localizarse sueltas, en días sucesivos, en el archivo de la lista IWETEL, o bien agrupadas junto con el texto inicial en el repositorio de Thinkepi.

[Comienza texto]

Transcurridos varios años desde la aparición del concepto de Web Semántica parece que, en determinados aspectos, el "invento" está evolucionando de forma más que favorable. Existe gran cantidad de proyectos que emplean alguna (o casi todas) las capas del famoso gráfico explicativo de Berners-Lee. En la actualidad podemos encontrar muchos programas que, con mayor o menor éxito, han logrado plasmar muchas de las ideas introducidas en esta filosofía de gestionar los datos. Pero, donde todavía se han dado pocos pasos -o al menos no son muy firmes- es en la práctica más visible para los usuarios: los navegadores. Se supone que toda esa gran cantidad de información que estará estructurada en xml, descrita con metadatos, organizada gracias a las ontologías y recuperada por medio de los agentes inteligentes, debería ser visible por algún método. ¿Y qué mecanismo es con el que el usuario medio está más familiarizado e integrado dentro del actual web?

Efectivamente, los navegadores sirven de unión entre el internauta y la información, obviando y haciendo transparente todo ese conglomerado de siglas, protocolos y normas. Si esto sucede en la web "normal", es decir, con la que trabajamos hoy en día, independientemente de si tiene el apellido 2.0, dinámica, blogesfera o el nuevo que se quieran inventar, lo lógico es que algo parecido pase con la evolución natural: la web semántica.

Un rápido recorrido por los proyectos y, especialmente, por el software semántico nos permite distinguir entre dos métodos diferentes para realizar navegadores que brindan visualizar la información semántica. La primera de ellas, que llamaré Navegadores Semánticos, es la que pretende hacer browsers pensados especialmente para la web semántica. La segunda, que denominaré Semantizar el Navegador, añade elementos a los actuales programas para extender sus posibilidades de navegabilidad aprovechando determinadas características semánticas incorporadas a las páginas web.

En el grupo de los Navegadores Semánticos destaca, como no, una invención de Tim Berners-Lee que, para ser sinceros, no está teniendo tanto éxito como debiera. Tabulator es su nombre y, aunque en estas primeras versiones trabaja como un navegador dentro de otro navegador, lo lógico es que con el paso del tiempo la evolución lo convierta en un software independiente. Este programa open source, basado en Ajax, funciona dentro de Firefox (es necesario solventar un pequeño problema de seguridad tal y como se explica en su ayuda) o como widget de Opera.

Este navegador se basa en un protocolo que sus creadores han llamado de migas de pan (bread-crumbs). La idea es navegar por recursos de forma escalable, lo que supone que no necesita cargar en memoria toda la información contenida dentro del fichero que está visualizando (generalmente en RDF, pero no de forma excluyente). La información se va mostrando conforme el usuario la va necesitando, al igual que una persona va recogiendo poco a poco migas de pan del suelo para llegar al destino deseado.

Junto a este nuevo sistema de navegación, el browser permite identificar en un mapa la localización geográfica expresada en un fichero (por ejemplo, quien tenga identificado en un fichero FOAF las coordenadas de su lugar de trabajo, puede mostrar su ubicación exacta) por medio de Google Mashup o realizar consultas empleando el lenguaje de búsqueda sobre RDF SPARQL. Aunque todavía le queda mucho camino que recorrer, la plataforma propuesta es bastante prometedora. Por supuesto, existen otros navegadores dentro de esta categoría que son capaces de mostrar información semántica de manera similar. Entre ellos, destacan BigBlogZoo, el cliente Haystack que funciona sobre Eclipse o Aktive Space.

Aunque hay muchos programas para Semantizar el Navegador, el que más se está extendiendo y más posibilidades de futuro presenta es Piggy Bank. Se trata de una extensión escrita en Java para el navegador Firefox que hace posible extraer determinados elementos clave de una página web y almacenarlos en RDF.

Dependiendo de la información que encontremos en una página web, Piggy actuará de dos maneras diferentes. Así, si el sitio tiene un fichero RDF o cualquier aplicación de éste, como FOAF, o meta-información independientemente de si es Dublin Core o meta tags del HTML, el programa capturará esa información y la integrará en un repositorio, a modo de base de datos local, organizada en función de la estructura descrita. Si, por el contrario, el sitio no dispone de información de este tipo, el software invocará a un scraper para que extraiga esta información y la estructure.

El Screen Scraping es una técnica que se emplea para la extracción automática de texto, obviando la información binaria (imágenes, multimedia, etc.). Los scrapers son programas capaces de trabajar con cualquier texto para procesarlo y estructurarlo. De hecho, son muy empleados por los buscadores de internet como anexo al trabajo realizado por sus arañas. Scroogle, por ejemplo, utiliza esta técnica para hacer búsquedas en Google sin que salgan los molestos anuncios alrededor de los resultados.

Piggy incluye tres scrapers diferentes escritos en JavaScript que son totalmente configurables -sólo hay que tener unos conocimientos mínimos en este lenguaje de programación- pero, además, se pueden emplear nuevos pensando en recuperar imágenes en Flickr (FlickrPhotoScraper) o búsqueda de amistades para activar redes sociales o Orkut Friendo Scraper o LikedIn). Incluso te explica cómo deberías hacer uno para realizar búsquedas de apartamentos.

A la información recogida se le pueden añadir tags para describirla. La técnica de contribuir cada uno poniendo palabras clave se ha hecho muy popular gracias a sitios como del.icio.us o CiteULike, ya que da lugar a que una comunidad construya una taxonomía y la publique en un banco semántico global, y ésta es otra de las opciones interesantes que observamos en Piggy Bank. El banco semántico es un repositorio comunitario de descripciones realizadas en RDF que permite a sus usuarios compartir la información que han recogido. Es un mecanismo muy sencillo de publicar y compartir información estructurada. Aunque en la actualidad sólo hay dos: uno genérico, que es un caos; y otro específico creado para el congreso ISWC2005. La idea de poder crear bancos semánticos para grupos profesionales, por áreas temáticas, etc., es más que interesante. No deja de ser menos interesante el estudiar un mecanismo que consiga aglutinar todas las tags creadas individualmente por los usuarios del sistema. Si una ontología fuese capaz de recoger los nombres aportados en una folksonomía y permitiese que, además, la gente pudiera definir las relaciones entre ellos, se facilitaría la creación de folksologies (folk ontologies). Pero esto ya es tema para otro texto.

Además de Piggy, existen otros programas, que se presentan como extensiones de Firefox y que ofrecen ampliar las posibilidades del navegador. De todos ellos destaco especialmente Greasemonkey y Chickenfoot, ya que facilitan la inclusión de scripts para manipular elementos de las páginas web de forma automatizada.

En realidad no se puede cerrar este texto con una conclusión. No se puede decir que los proyectos que opten por crear navegadores semánticos específicos tengan una base más sólida que los que se decidan por extender las posibilidades semánticas de los navegadores actuales. A lo mejor un sistema híbrido, que contemplase el protocolo de migas de pan de Tabulator, con la generación automática de descripciones RDF y el banco semántico de Piggy Bank, junto con las capacidades de navegabilidad y búsqueda de mSpace (por cierto, que tras ver la demo a cualquiera se le ocurren multitud de posibilidades de aplicar ese programa a una biblioteca) conformaría el navegador ideal.

[Continúan las réplicas]

[3.5.07] [0 comentarios] [#] [lista]


Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.