Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.
Guardado por meses.
Temáticas afines
Política, sociedad
Fuera de contexto
De Jacques Derrida, en Derrida en castellano:
Esta página traducida:
Traducción al catalán, internostrum; traducción al portugués, universia.
Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).
Esta pequeña introducción a los procedimientos y técnicas de indexación (automática) de información, está tomada de un apéndice técnico (en formato PDF), elaborado por Berta Araujo (que a su vez forma parte de un documento más amplio: Motor de búsqueda para un SRI con agrupamiento), en el que se describe la aplicación Lucene, una API de Java aplicable a la indexación y recuperación de información:
"Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform. [...] is an open source project [...]"[Fuente]
En el mencionado apéndice técnico (apartado 2.1), podemos leer lo siguiente:
"Lucene es una [...] herramienta que permite tanto la indexación cómo la búsqueda de documentos. Creada bajo una metodología orientada a objetos e implementada completamente en Java, no se trata de una aplicación que pueda ser descargada, instalada y ejecutada sino de una API [...] a través de la cual se pueden añadir [...] capacidades de indexación y búsqueda a cualquier sistema [...]."[Fuente]
El texto que se reproduce a continuación es por tanto el apartado introductorio del documento mencionado que da cuenta de las principales características y capacidades de Lucene, y sirve de repaso general sobre su campo de aplicación, a modo de revisión del estado de la cuestión. En el apartado "Articles..." de la web de Lucene, se puede localizar más información sobre este sistema y sus tecnologías asociadas. Y muy a propósito de las cuestiones tratadas en el texto, recomiendo la lectura de la serie de artículos publicados por Javier Martínez en su bitácora IRSweb sobre el Modelo de Espacio Vectorial de Recuperación de Información, así como de la anotación Luhn, Zipf y los términos de indización.
Autora: Berta
Araujo
Url documento: http://trevinca.ei.uvigo.es/... (en PDF)
El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los últimos años, ha motivado la aparición de un creciente interés por los sistemas de clasificación automática de documentos. Estos sistemas realizan diferentes operaciones de clasificación basándose en el análisis del contenido del texto de los documentos que procesan. La mayoría de las técnicas de análisis y representación de documentos utilizadas en la actualidad en los sistemas de clasificación, se basan en criterios fundamentalmente estadísticos, centrados en frecuencias de aparición de términos en documentos.
Dentro de los sistemas de clasificación de documentos podemos distinguir los sistemas de recuperación de texto, que seleccionan aquellos textos o documentos que son adecuados a una necesidad del usuario entre un conjunto más amplio, y sistemas de agrupamiento de textos que, a partir de un conjunto de textos, construyen subconjuntos de éstos con contenidos semejantes.
Si trabajamos con este tipo de sistemas, debemos centrarnos en tres cuestiones fundamentales:
En la figura que se muestra a continuación se representa la operación de recuperación de textos centrada en las tres cuestiones descritas. En ella se puede observar que, en este caso, el elemento específico de la operación de clasificación es una consulta de usuario; es decir, que los documentos que se recuperarían serían aquellos cuya representación interna presentase una mayor similitud con la de la consulta del usuario.
Documentos Consulta de texto del usuario | | | | Análisis Análisis | | | | Representación Representación de Documentos de consulta \ / \ / Cálculo de similitud | | Documentos recuperados
Una vez introducida la recuperación de textos, diremos que el término de indexación hace referencia a un método que engloba la definición de uno de representación y uno de análisis. El término proceso de indexación hace referencia al proceso de análisis de documentos para la obtención de una representación concreta de los mismos.
Existe una serie de elementos que se pueden utilizar para la definición de métodos de indexación y cálculo de similitud. En concreto, el modelo del espacio vectorial proporciona las bases para definir un método de representación y cálculo de similitud.
En el modelo del espacio vectorial se propone la representación de cada documento mediante un vector cuyos componentes son los pesos asociados a los términos utilizados en la representación.
Para realizar el proceso de indexación utilizando una representación basada en el espacio vectorial se pueden utilizar los siguientes elementos, que permiten obtener la representación interna de los documentos mediante un análisis automático de su contenido: