Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

  • 23.2.08 | La nueva generación de motores de búsqueda basados en procesamiento de lenguaje natural
    · [leer]
    · [14 comentarios]

La nueva generación de motores de búsqueda basados en procesamiento de lenguaje natural

Autor: José Ramón Pérez Agüera (*)
Fuente: IWETEL (17/05/2007) / Thinkepi
Url documento: http://www.thinkepi.net/...

(*) Dept. de Ingeniería del Software e Inteligencia Artificial, Facultad de Informática, Universidad Complutense de Madrid

En el último año hemos visto florecer toda una serie de nuevos buscadores cuya característica común ha sido la integración de técnicas de procesamiento de lenguaje natural en el proceso de búsqueda.

Los dos baluartes de esta nueva tendencia son Powerset [1] y Hakia [2], detrás de los cuales se ha reunido la creme de la creme del Procesamiento de Lenguaje Natural para conseguir un nuevo salto de calidad en la evolución de los buscadores web.

La idea de integrar conocimiento lingüístico en los buscadores no es nueva en absoluto, y desde los años 90, si no antes, se han repetido los intentos de implementar buscadores que fueran más allá de recuentos más o menos complicados de frecuencias de palabras. El más sonado fracaso a este respecto fue sin duda el intento de Ellen Voorhees, allá por 1993, de usar Wordnet, una base de datos enorme con información semántica, para expandir las consultas de los usuarios.

Los resultados de este experimento, como se puede ver en su artículo [3] fueron bastante desoladores y desde entonces, más allá de estudios puntuales cuyos resultados no han sido concluyentes, el uso de lenguaje natural en recuperación de información ha quedado relegado a la aplicación de técnicas bastante triviales como el stemming y la eliminación de palabras vacías.

La razón de este nuevo resurgimiento del Lenguaje Natural en el entorno de los buscadores se corresponde en parte con un ciclo natural, típico de cualquier disciplina científica, donde se prueban viejas ideas desde enfoques nuevos. Pero también se trata de una cuestión de marketing, donde nuevos buscadores tratan de entrar en el mercado vendiendo la idea de que tienen una nueva tecnología revolucionaria que superará con creces el enfoque actual de los grandes buscadores.

Desde el punto de vista científico, el león no es tan fiero como lo pintan, y al igual que Powerset y Hakia han puesto a trabajar a importantes investigadores en Procesamiento de Lenguaje Natural, Google, Yahoo y Microsoft llevan tiempo trabajando también en esta dirección.

La conclusión que podemos sacar de aquí es que pese a que la inclusión de lenguaje natural en los buscadores es sin duda una de las líneas de trabajo futuro para mejorar no sólo la calidad de los resultados de los buscadores sino también sus posibilidades e interacción con los usuarios, aún queda mucho por hacer a este respecto, y raro será que ningún nuevo buscador desbanque a Google simplemente porque utiliza técnicas de procesamiento natural.

En este sentido, hemos de ser conscientes que el braguetazo de Google en 1998 estuvo más relacionado con su entrada en un mercado prácticamente virgen respaldados por una fuerte inversión económica que con una ventaja tecnológica decisiva, ya que sin menospreciar la importancia del Pagerank es importante recordar que no eran los únicos que usaban un algoritmo de análisis de enlaces.

Pese a todo lo dicho, merece la pena seguir los avances que se hagan a este respecto, tanto aquellos que vengan de ultramar, como lo que se desarrollen aquí en España, por ejemplo de la mano de empresas como Bitext, no vaya a ser que un día nos sorprendamos de las maravillas lingüísticas que son capaces de hacer los buscadores americanos sin saber, que aquí cerca tenemos una empresa española que es la que hace posible esas maravillas.

[1] http://www.hakia.com

[2] http://www.powerset.com

[3] Voorhees, E. M. 1993. Using WordNet to disambiguate word senses for text retrieval. In Proceedings of the 16th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Pittsburgh, Pennsylvania, United States, June 27 - July 01, 1993). R. Korfhage, E. Rasmussen, and P. Willett, Eds. SIGIR '93. ACM Press, New York, NY, 171-180. DOI= http://doi.acm.org/10.1145 /160688.160715

[23.2.08] [14 comentarios] [#] [lista]


Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.