Visto y Leído

En esta página:

7.1.04 | Tendencias en los Sistemas de Indización Automática
· [leer]
· [0 comentarios]

Tendencias en los Sistemas de Indización Automática

Autores: I. Gil Leiva, J. V. Rodríguez Muñoz
Fecha de publicación/fuente: 1996, REDC
Tema: indización automatizada, recuperación de información
URL documento: http://ttt.upv.es/...

Este texto es un resumen del artículo "Tendencias en los Sistemas de Indización Automática. Estudio Evolutivo", publicado en la Revista Española de Documentación Científica (vol. 19, nº 3, p. 273-290, julio-septiembre 1996). El texto completo, junto con otros artículos relacionados con las técnicas de indización y resumen, se puede obtener, en formato PDF, a través la página del profesor Gil Leiva (Universidad Politécnica de Valencia). Dado el tiempo transcurrido desde su publicación, es muy posible que partes del artículo estén desactualizadas y requieran una revisión.

La indización es considerada una operación compleja, dificultad que se acrecienta cuando se trata de llevar a cabo automatizadamente, ya que en este caso intervienen, además de la Documentación, disciplinas tales como la Estadística, la Probabilidad, la Lingüística y la Programación entre otras, por lo que la indización automatizada (IA), se presenta como un conjunto de técnicas interdisciplinares, que ha suscitado entre los especialistas en la materia, desde los años 60, el debate en torno a las ventajas e inconvenientes de la IA frente a la indización por parte de indizadores humanos. Los partidarios de los métodos automatizados alegan la economía en tiempo de proceso y en presupuesto, aparente mayor objetividad y una disminución de los errores. Los partidarios de la indización manual alegan la imposibilidad de los sistemas automatizados de captar el conjunto de matices que concurren en torno a un documento y su contenido, apreciables por el indizador humano. Los principales focos de estudio e investigación en torno a la IA se sitúan en Francia, en menor medida Brasil y, sobre todo, en Estados Unidos. El documento original trata por tanto, analizando las principales líneas de investigación y los sistemas automatizados existentes más importantes, establecer las bases conceptuales y metodológicas que deben concurrir en los sistemas de IA.

Los motivos que explican las primeras iniciativas, a finales de los años 50 y en los años 60, de desarrollo de sistemas para la automatización de los procesos de indización, son el aumento exponencial que en esos años se produce en la información científica, que se ve acompañada de unas necesidades de información crecientes por parte de los científicos, el aumento consecuente del número de especialistas dedicados al estudio y diseño de sistemas de información, y el desarrollo de los sistemas informáticos y el entusiasmo generado en torno a sus posibilidades, que consolidaron la percepción de la gran utilidad de los ordenadores en las operaciones repetitivas como la indización, al ser considerada una herramienta que garantizaba la objetividad, frente a los problemas de falta de consistencia que presenta la indización manual. El aumento de la potencia de los sistema informáticos permitió por otro lado desarrollar sistemas verdaderamente operativos y funcionales.

Partiendo de las aportaciones teóricas desarrolladas en la década de los años 60 por especialistas en la materia como M. E. Stevens, se han marcado dos grandes líneas de estudio y desarrollo en lo referente al diseño e implementación de sistemas de IA: 1) métodos no lingüísticos y 2) métodos lingüísticos.

Los métodos no lingüísticos implican la utilización de criterios cuantitativos y matemáticos, haciendo uso para ello de las aportaciones de disciplinas como la Estadística, la Probabilidad, las técnicas de atribución de pesos, el "clustering", y otras. Este conjunto de técnicas, criterios y metodologías, atienden a aspectos conceptuales tales como:

a) Frecuencia de aparición de los términos en una colección de documentos. Se acepta que los términos de frecuencia muy alta, son demasiado generales y generan por tanto menor precisión en la búsqueda. Los de frecuencia muy baja son por su parte muy específicos e implican por tanto una baja exhaustividad. H. P. Luhn entiende que los mejores términos son los de frecuencia media. La frecuencia relativa de los términos, se obtendría analizando con criterios estadísticos la acumulación de la frecuencia de aparición de palabras en una amplia colección de documentos. La frecuencia de términos obtenida analizando dicha colección permitiría, comparándola con la frecuencia de aparición de palabras en un documento, seleccionar los términos de indización.

b) Probabilidad. Las estimaciones de probabilidad han servido a algunos especialistas en el estudio de la IA para la evaluación de los sistemas de indización ya existentes, y la elaboración de listas de términos asociados, que puedan ser utilizadas por los indizadores como una herramienta auxiliar, como paso previo al desarrollo de sistemas de indización asistidos por ordenador.

c) "Clustering" o análisis de clases de palabras. El estudio de las apariciones de palabras, han permitido el establecimiento de normas formales útiles para la identificación de los vocablos capaces de transmitir el tema de un documento, mediante el análisis estadístico.

d) Valor de discriminación. Técnica desarrollada a mediados de los años 70 para la clasificación de los vocablos de un texto según su capacidad para discriminar unos documentos de otros dentro de una colección. Así, el modelo de valor de discriminación es un sistema de indización que atribuye un mayor peso a aquellos términos que causan la mayor separación posible entre los documentos de una colección, entendiendo por valor de discriminación la medida de los cambios en la separación espacial, cuando una palabra cualquiera es asignada a una colección de documentos como término de indización para representar la diferencia entre los documentos.

e) Relevancia de los términos. La teoría de la relevancia de un término, distingue entre la aparición del mismo en un documento relevante, y su aparición en un documento no relevante, siendo aplicada esta distinción en las técnicas probabilísticas asociadas al establecimiento de la precisión de los términos y en el valor de utilidad de los términos.

f) Imitación de la indización humana, mediante la aplicación de métodos desarrollados a principios de los años 80, fundamentados en la probabilidad, suministrando al sistema automatizado un conjunto de documentos previamente indizados, para que éste asuma aquellos términos que serían usados por un indizador humano en determinado documento. Las líneas de investigación iniciadas en los años 80, sobre la base de los anteriores métodos no lingüísticos, añaden un soporte cada vez mayor de componentes lingüísticos.

Los principales sistemas de IA, desarrollados mediante la aplicación de métodos no lingüísticos son los siguientes:

1) INDEX + INDEXD. Sistema combinado desarrollado en la Universidad de Louisiana, se basa en métodos estadísticos pero se apoya también en un cierto componente lingüístico, representado por el programa INDEXD, que, de la lista de palabras vacías analizadas estadísticamente por INDEX, genera un diccionario de raíces de vocablos con capacidad de preasignar pesos a las palabras, entre otras funcionalidades.

2) SAPHIRE. Desarrollado en la Universidad de Oregon, EE.UU., y aplicado al dominio de la Biomedicina, se basa en un algoritmo que obtiene una lista ordenada de todos los conceptos hallados en determinado texto, tras su comparación con un metatesauro, desarrollado por la Biblioteca Nacional de Medicina, asignando un peso a cada concepto en función de su frecuencia tanto en el documento analizado como en la base de datos del sistema. La aplicación práctica del sistema, ha permitido concluir que produce menor exhaustividad y precisión en la fase de recuperación, respecto de los métodos tradicionales, tanto de indización como de recuperación, aplicados a la base de datos MEDLINE.

3) Proyecto del Centro de Información Aerospacial de la NASA para el diseño de un sistema de indización asistida por ordenador. Este sistema se halla formado por varios módulos: un primer módulo encargado, entre otras operaciones, de identificar las fuentes que van a ser procesadas, la limitación de las series de palabras del texto, almacenamiento de los términos de indización propuestos para su validación, y otras; un segundo módulo que lleva a cabo la búsqueda de frases significativas del texto sobre la base de una base de conocimiento formada por más de 115.000 entradas, potenciales términos de indización, y establece las posibles relaciones jerárquicas entre los términos y su desambiguación.

El punto de arranque de los métodos lingüísticos se sitúa en las investigaciones iniciadas a partir de los años 50 en torno al procesamiento del lenguaje natural (PLN) y la relación con disciplinas como la lingüística formal, las ciencias de la computación y otras. A estas investigaciones ayudaron las aportaciones teóricas de los trabajos de investigación dirigidos por el lingüista norteamericano N. Chomsky, y el desarrollo de la Inteligencia Artificial, disciplina que comporta elementos relacionados con el PLN. La incorporación de los avances en torno al PLN, se producen a principios de los años 60, al considerar necesaria algunos investigadores, en el campo de la IA, la aplicación de criterios lingüísticos en combinación con los métodos no lingüísticos. La mayor parte de los procesadores del lenguaje natural utilizados en los sistemas existentes, cuentan en su base léxica con un significado conceptual -contenido cognoscitivo de las palabras- o con un significado superficial, representado por las asociaciones entre las palabras o clases de vocablos. Por su parte, la adquisición de conocimiento semántico, se basa generalmente en métodos que utilizan diccionarios on-line o bien "corpus" de palabras como fuente de datos, que contienen además las relaciones entre ellas y los fenómenos del lenguaje.

Los sistemas de IA basados en principios de carácter lingüístico, utilizan alguno de los tres posibles niveles de análisis en este terreno, morfológico, sintáctico y semántico, si bien lo común es que hagan uso del análisis morfológico y el sintáctico, para llevar a cabo la desambiguación de las categorías gramaticales propuestas en el nivel morfológico. No es infrecuente la combinación de los dos criterios expuestos, no lingüístico y lingüístico, a la hora de implementar un sistema para la IA:

1) SMART. Proyecto iniciado en 1961 por G. Salton, para el análisis automático y la recuperación de textos, sigue siendo desarrollado en la actualidad. El sistema informático se encarga de procesar automatizadamente los documentos y posteriormente de atender las peticiones de búsqueda, esencialmente sobre la base de cálculos estadísticos, a los que se añaden operaciones de carácter lingüístico, encaminadas a la extracción de las raíces de las palabras, un diccionario de sinónimos, análisis sintáctico, y herramientas de comparación de términos que posibilitan la confrontación entre los documentos analizados y las peticiones de búsqueda. La comparación de este sistema con la indización manual por medio del sistema MEDLARS (Medical Literature Analysis and Retrieval System), permitió comprobar que SMART ofrecía una exhaustividad algo superior, siendo mejor la precisión con el primero.

2) CLARIT. Este sistema trata de capturar la estructura lingüística de los textos e identificar los conceptos, para de esta forma seleccionar los que representen el contenido del documento analizado. Lleva a cabo tres procesos sobre los textos: a) formateado, en el que se añaden símbolos de demarcación de las estructuras formales del texto (párrafos, etc.); b) procesamiento del lenguaje natural, llevando a cabo primero un análisis morfológico y después un análisis sintáctico, junto con la desambiguación léxica; y c) filtrado de los términos de indización.

3) SIMPR. Prototipo desarrollado por un grupo interdisciplinar de lingüistas computacionales, informáticos y documentalistas de Finlandia, Escocia y Alemania respectivamente, realiza un análisis del lenguaje utilizando una nueva técnica basada en la explotación de contrastes, que lista las posibles interpretaciones léxicas y sintácticas de una palabra, eliminando aquellas no adecuadas en función del contexto de la palabra analizada, utilizando una base de conocimiento interna.

4) Se propone en la bibliografía el análisis de dos de las primeras experiencias llevadas a cabo por investigadores españoles sobre la IA. La primera se corresponde con un sistema de indización y coordinación de descriptores de modo automático, individualizando una serie de unitérminos, proceso que permite posteriormente caracterizar las estructuras sintagmáticas pertinentes presentes en los títulos de los documentos analizados. La segunda experiencia hace referencia al trabajo desarrollado por Simón Granda y E. de Lema para el desarrollo de un sistema de indización asistida por ordenador.

Por otra parte, es posible encontrar en el mercado francés y en regiones de habla francófona, una serie de programas comerciales para la indización automática, que permiten el análisis, almacenamiento y recuperación de información, sobre la base de instrumentos de análisis morfológico, y en menor medida sintáctico o semántico:

1) SPIRIT (1980). Programa de gestión documental desarrollado en Francia por la Comisaría de la Energía Atómica (CEA) y la Facultad de Lingüística de Orsay, que permite la adquisición, indización, almacenamiento, búsqueda y difusión de información. Analiza textos jurídicos, científico, técnicos, comerciales e informáticos, que estén en francés, inglés y alemán. Dispone de un diccionario de 500.000 palabras para llevar a cabo el análisis morfológico, y una serie de herramientas para el reconocimiento de locuciones, desambiguación, identificación de palabras compuestas, normalización de términos, etc. El módulo estadístico permite la asignación de peso a cada concepto, en relación al conjunto de los conceptos contenidos en la base de datos.

2) GOLEM. Sistema de almacenamiento y recuperación documental desarrollado por la división de productos informáticos de Siemens.

3) ALETH (1988). Programa de la empresa francesa Erli, se vale de una serie de componentes para llevar a cabo la IA: tesauro con términos excluidos y descriptores unitérminos, asociados a códigos numéricos para poder establecer relaciones entre los términos y diccionario lingüístico que recoge tanto aspectos sintácticos como semánticos.

4) DARWIN (1987). Cuenta con un diccionario gramatical para llevar a cabo la desambiguación morfológica, tras lo cual realiza un análisis sintáctico y extrae las palabras y expresiones significativas, para finalmente indizar el texto analizado mediante conceptos (sintagmas nominales). Es posible interrogar al sistema en lenguaje natural.

5) SINTEX y ALEXDOC. Sistemas de indización asistida por ordenador, el primero se orienta hacia las operaciones estadísticas, y el segundo hacia las operaciones de carácter lingüístico.

6) INDEXICON. Software desarrollado por el organismo norteamericano Iconovex. Lee los documentos, localizando términos y frases significativas, generando un listado de términos de indización. El análisis semántico y sintáctico permite la desambiguación de términos, teniendo en cuenta el contexto en el que aparecen. Se ayuda de un diccionario de 55.000 palabras y de una serie de normas para determinar las partes de los vocablos y expresiones.

Además de la investigación en sistemas de IA, basada en dos posibles criterios, no lingüístico y lingüístico -o bien combinación de ambos- otras líneas de investigación en este campo del tratamiento informativo y documental, surgidas desde finales de los años 80, son las representadas por los trabajos en materia de reconocimiento de sonidos y conjuntos de sonidos, indización a través de atributos y características geográficas (Universidad de Berkeley) extraídos de los documentos mediante un algoritmo y la comparación con los términos contenidos en un tesauro, y el análisis e indización del contenido de imágenes y gráficos. El análisis de material gráfico, implica la localización de las formas asociadas a estructuras de interés, su descripción, y la evaluación de sus propiedades. Uno de los mayores problemas al que se enfrentan los sistemas que tratan de implementar bases de datos de imágenes, que permitan un almacenamiento y recuperación eficaces, es la dificultad para definir e interpretar con exactitud el contenido de las mismas, ya que pueden ser muy ricas en contenido semántico, y prestarse por tanto a diversas interpretaciones.

Como conclusiones se apuntan las siguientes:

1) La IA es una técnica interdisciplinar en la que intervienen la Lingüística, la Informática, la Estadística y la Documentación, y se presta a cierta polémica entre los profesionales de este último campo.

2) Las primeras líneas de investigación se enfocaron hacia la utilización de criterios estadísticos y probabilísticos para ir dejando paso, en los años 60, a la utilización de métodos como los defendidos por G. Salton (modelo de valor de discriminación y relevancia de los términos). En la década de los años 80 la presencia de criterios de carácter lingüístico es más notoria a la hora de abordar el análisis de los textos, sin perder la perspectiva de la utilización de herramientas no lingüísticas para ciertas operaciones.

3) Los sistemas comerciales exceden la tarea de la IA para abordar un campo de actuación más amplio, la gestión documental, que implica, además del tratamiento, el almacenamiento y recuperación de los documentos.

4) No existe un único fundamento teórico para el desarrollo de sistemas de IA.

5) En los proyectos de desarrollo e implementación de sistemas de IA, la presencia más notoria, en detrimento de los profesionales de la Biblioteconomía y la Documentación, corresponde a los informáticos, lingüistas computacionales e investigadores de otras áreas científicas. La actividad en España en torno a la IA es escasa y tiene pocos antecedentes.

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Tendencias en los Sistemas de Indización Automática

[7.1.04] [0 comentarios] [#] [lista]

Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Archivo de anotaciones

Enlaces a otros sitios

Lecturas recomendadas

Varios

En esta página:

Tendencias en los Sistemas de Indización Automática

[7.1.04] [0 comentarios] [#] [lista]

Visto y Leído, document.write(year);

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.

Visto y Leído,