Visto y Leído

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Desplegar lista

Página de inicio

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Los Vengadores

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

7.4.05 | Indexación de Información
· [leer]
· [0 comentarios]

Indexación de Información

Esta pequeña introducción a los procedimientos y técnicas de indexación (automática) de información, está tomada de un apéndice técnico (en formato PDF), elaborado por Berta Araujo (que a su vez forma parte de un documento más amplio: Motor de búsqueda para un SRI con agrupamiento), en el que se describe la aplicación Lucene, una API de Java aplicable a la indexación y recuperación de información:

"Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform. [...] is an open source project [...]"
[Fuente]

En el mencionado apéndice técnico (apartado 2.1), podemos leer lo siguiente:

"Lucene es una [...] herramienta que permite tanto la indexación cómo la búsqueda de documentos. Creada bajo una metodología orientada a objetos e implementada completamente en Java, no se trata de una aplicación que pueda ser descargada, instalada y ejecutada sino de una API [...] a través de la cual se pueden añadir [...] capacidades de indexación y búsqueda a cualquier sistema [...]."
[Fuente]

El texto que se reproduce a continuación es por tanto el apartado introductorio del documento mencionado que da cuenta de las principales características y capacidades de Lucene, y sirve de repaso general sobre su campo de aplicación, a modo de revisión del estado de la cuestión. En el apartado "Articles..." de la web de Lucene, se puede localizar más información sobre este sistema y sus tecnologías asociadas. Y muy a propósito de las cuestiones tratadas en el texto, recomiendo la lectura de la serie de artículos publicados por Javier Martínez en su bitácora IRSweb sobre el Modelo de Espacio Vectorial de Recuperación de Información, así como de la anotación Luhn, Zipf y los términos de indización.

Introducción: Indexación de Información

Autora: Berta Araujo
Url documento: http://trevinca.ei.uvigo.es/... (en PDF)

El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los últimos años, ha motivado la aparición de un creciente interés por los sistemas de clasificación automática de documentos. Estos sistemas realizan diferentes operaciones de clasificación basándose en el análisis del contenido del texto de los documentos que procesan. La mayoría de las técnicas de análisis y representación de documentos utilizadas en la actualidad en los sistemas de clasificación, se basan en criterios fundamentalmente estadísticos, centrados en frecuencias de aparición de términos en documentos.

Dentro de los sistemas de clasificación de documentos podemos distinguir los sistemas de recuperación de texto, que seleccionan aquellos textos o documentos que son adecuados a una necesidad del usuario entre un conjunto más amplio, y sistemas de agrupamiento de textos que, a partir de un conjunto de textos, construyen subconjuntos de éstos con contenidos semejantes.

Si trabajamos con este tipo de sistemas, debemos centrarnos en tres cuestiones fundamentales:

Método de representación: forma en que serán representados internamente los documentos.
Método de análisis: proceso que permitirá obtener las representaciones concretas de los documentos a partir del análisis de su contenido.
Método de cálculo de similitud: entre las representaciones de los documentos y la representación del otro elemento de la operación de clasificación.

En la figura que se muestra a continuación se representa la operación de recuperación de textos centrada en las tres cuestiones descritas. En ella se puede observar que, en este caso, el elemento específico de la operación de clasificación es una consulta de usuario; es decir, que los documentos que se recuperarían serían aquellos cuya representación interna presentase una mayor similitud con la de la consulta del usuario.

     Documentos         Consulta
     de texto           del usuario
         |                  |
         |                  |
     Análisis           Análisis
         |                  |
         |                  |
     Representación     Representación
     de Documentos      de consulta
          \                /
           \              /
         Cálculo de similitud
                  |
                  |
        Documentos recuperados

Una vez introducida la recuperación de textos, diremos que el término de indexación hace referencia a un método que engloba la definición de uno de representación y uno de análisis. El término proceso de indexación hace referencia al proceso de análisis de documentos para la obtención de una representación concreta de los mismos.

Existe una serie de elementos que se pueden utilizar para la definición de métodos de indexación y cálculo de similitud. En concreto, el modelo del espacio vectorial proporciona las bases para definir un método de representación y cálculo de similitud.

En el modelo del espacio vectorial se propone la representación de cada documento mediante un vector cuyos componentes son los pesos asociados a los términos utilizados en la representación.

Para realizar el proceso de indexación utilizando una representación basada en el espacio vectorial se pueden utilizar los siguientes elementos, que permiten obtener la representación interna de los documentos mediante un análisis automático de su contenido:

Peso de los términos
El concepto de poder de resolución de un término proporciona una base para los métodos de indexación basados en frecuencia de aparición de términos. El poder de resolución de un término proporciona información acerca de su adecuación como término de indexación.
Listas de parada
Las listas de parada (stoplists) se utilizan en el análisis de los documentos para la eliminación de una serie de palabras que no resultan útiles para la obtención de términos de indexación, por ejemplo, de, en, el, etc.
Extracción de raíces
Los algoritmos de extracción de raíces (stemming), o de eliminación de sufijos, se encuentran orientados a obtener un único término a partir de diferentes palabras que constituyen, esencialmente, variaciones morfológicas con un mismo significado. El resultado del algoritmo debe ser una misma forma regular para las diferentes variantes morfológicas de una palabra, que no tiene por qué ser, necesariamente, la raíz lingüística.
Frases de términos
Las frases de términos se orientan a la obtención de términos de indexación con un significado más preciso que el de los términos obtenidos directamente a partir de las palabras individuales. Una frase de términos es una tupla de términos y constituye en sí misma un nuevo término de indexación.
Thesaurus
Un thesaurus proporciona una agrupación o clasificación de términos en un determinado dominio o área en categorías denominadas clases. Permite recuperar documentos que son relevantes a la consulta de un usuario, aunque no aparezcan en ellos los términos de la consulta, pero si sinónimos de estos.

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Indexación de Información

Introducción: Indexación de Información

[7.4.05] [0 comentarios] [#] [lista]

Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Indexación de Información

Introducción: Indexación de Información

[7.4.05] [0 comentarios] [#] [lista]

Visto y Leído, document.write(year);

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído,