Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

  • 27.2.07 | El procesamiento del lenguaje natural en el caso del español: reglas y base de conocimiento
    · [leer]
    · [0 comentarios]

El procesamiento del lenguaje natural en el caso del español: reglas y base de conocimiento

Autor: Martínez Comeche, Juan Antonio (*)
Fuente: Boletín de la ANABAD, 2005, 55(1-2): 87-96.

(*) Facultad de Ciencias de la Documentación, Departamento de Biblioteconomía y Documentación, Universidad Complutense de Madrid (UCM)

Resumen

En Recuperación de Información, una posible técnica para aumentar la precisión de los resultados obtenidos por el sistema en respuesta a las demandas de los usuarios consiste en someter los textos en lenguaje natural de la colección a un proceso de unificación de las variantes lingüísticas de las palabras del idioma de que se trate. Dichas variantes lingüísticas pueden ser tanto flexivas como derivativas. La unificación de variantes flexivas busca reunir bajo un único término de indización palabras que se distinguen entre sí por el género (gato, gata), por el número (gato, gatos) o por la flexión verbal (amo, amaré, amase, había amado...). La unificación de vanantes derivativas, por su parte, trata de reunir bajo un único término todas las palabras que forman parte de un mismo campo semántico aunque presenten terminaciones diversas (por ejemplo, angustia, angustiadamente, angustiarse, angustioso...).

De Martínez Comeche véase también en relación con el documento anterior:

SREC-I: prototipo de Sistema de Recuperación Inteligente [PDF]
En Documentación de las Ciencias de la Información, Volúmen 28, 2005

Resumen

Descripción de un prototipo de sistema de recuperación inteligente llamado SREC-I desarrollado en PROLOG. Se explican sus características generales, motivadas por su finalidad inicialmente didáctica. A continuación se detallan los principales módulos que lo componen y el código en PROLOG de dos de ellos.

[Comienza texto, se han omitido las notas a pie de página del original]

La recuperación de información, como área de estudio, tiene tras de sí más de cuarenta años de andadura. Desde sus comienzos el objetivo primordial no ha variado, de manera que satisfacer las necesidades informativas de los usuarios mostrando normalmente los documentos donde se hallará la información buscada y automatizar el proceso con la máxima eficacia y eficiencia, sigue siendo el reto fundamental de los numerosos investigadores que trabajan en este campo.

Durante estas décadas muchos enfoques distintos han sido ensayados, desde los ya tradicionales modelos booleano, vectorial o probabilístico, hasta los que podemos englobar bajo la denominación común de técnicas de inteligencia artificial, donde incluiremos las redes neuronales o los algoritmos genéticos.

Ya desde la primera conferencia TREC (Text REtrieval Conference), que tuvo lugar en Gaithersburg, Maryland, entre el 4 y el 6 de noviembre de 1992, se prestó una especial atención a la evaluación de los sistemas, y en concreto a la necesidad de contar con sistemas donde comprobar los resultados obtenidos y con unas colecciones de prueba en las que comparar las mejoras obtenidas con las técnicas sometidas a examen. Entre los diversos sistemas de recuperación de información (SRI) de acceso libre que se emplearán destacan SMART y ZPRISE.

Pero el haber sido diseñados específicamente para la investigación y evaluación disminuye, sin embargo, su utilidad desde el punto de vista docente. Las colecciones de prueba que sirven de entrada a estos SRI, por ejemplo, reúnen todos los documentos en un único fichero de texto, reservando caracteres especiales para indicar el comienzo y el final de cada uno de ellos. Por el contrario, en los SRI reales la colección no es fija; lo habitual es que las altas y bajas de documentos sean constantes. A fin de que los alumnos también pudieran observar estos procesos de incorporación y eliminación en los fondos, SREC-I se diseñó de manera que cada documento se almacenase en un fichero independiente.

Por señalar otro aspecto importante, estos sistemas suelen exigir que las decisiones sobre parámetros de funcionamiento (método de cálculo de los pesos de los términos, por ejemplo) se adopten previamente a la ejecución del programa, de manera que mientras se ejecutan los usuarios/alumnos ni pueden intervenir ni se les comunica las técnicas concretas empleadas o los valores de los parámetros utilizados por los sistemas en ese momento. Gracias a ello los tiempos de computación pueden ser comparados y evaluados, aunque la utilidad didáctica quede seriamente mermada. Como inicialmente el enfoque prioritario en nuestro caso era el docente, SREC-I se diseñó de modo interactivo: el sistema advierte al alumno de muchos de los posibles errores cometidos por él al ejecutarlo, le explica su naturaleza y le ayuda a solucionarlos sin que se vea obligado a reiniciar el sistema. Además, le consulta expresamente sobre cada una de las técnicas y parámetros que puede adoptar en cada momento, con lo que se fuerza al alumno a ser mucho más consciente del modo de funcionamiento interno de los SRI.

A estas dos características señaladas debemos añadir una tercera no menos importante: SREC-I no se diseñó adoptando un modelo o enfoque específico a la hora de concebir la recuperación de información. Al contrario, la carga de documentos se realiza de modo que cualquiera de los tres modelos de recuperación denominados clásicos (booleano, vectorial y probabilístico) pueda en principio efectuarse con la colección, aunque todavía no se haya implementado el modelo probabilístico en SREC-I. Se decidió así en su momento pensando en que el alumno pudiera de esta manera adquirir conciencia de sus posibilidades si en el futuro debiese adoptar decisiones sobre los sistemas y las colecciones a su cargo.

Más aún, desde un principio se pensó en ir añadiendo al sistema nuevos módulos que aumentasen sus opciones de funcionamiento, principalmente provenientes del campo de la Inteligencia Artificial y más específicamente del área del Procesamiento del Lenguaje Natural. Es por ello que se le impuso el nombre de inteligente (SREC-I) y el motivo por el que se ha desarrollado íntegramente en PROLOG, considerando las capacidades específicas de este lenguaje para el desarrollo de programas relacionados con la manipulación del lenguaje natural y en general con la Inteligencia Artificial.

La primera de tales ampliaciones se halla en fase avanzada de desarrollo. Se trata de un lematizador para el castellano que espero vea la luz durante el año próximo. También se ha programado en PROLOG y existe la posibilidad de que SREC-I pueda emplearse para su evaluación. Su utilización o no con este propósito dependerá principalmente de la implementación de un algoritmo de carga que admita las colecciones de prueba existentes en un único fichero.

SREC-I ya ha sido probado durante los cursos académicos pasados con grupos de tercer curso de la Diplomatura en Biblioteconomía y Documentación (en la asignatura optativa Sistemas Avanzados de Tratamiento y Recuperación de la Información) y de segundo curso de la Licenciatura en Documentación (en la asignatura troncal Técnicas Avanzadas de Recuperación de Información), habiendo obtenido buena acogida y unos resultados en general satisfactorios. Esta circunstancia me anima a continuar con el proyecto e introducir mejoras en las deficiencias observadas.

Mi intención es ponerlo a disposición de todos los profesores que lo deseen a través de un portal web cuya puesta en marcha está prevista para el próximo curso. Mientras no sea posible efectuar la descarga del programa en su integridad, al menos podrá el lector interesado consultar en las páginas que siguen las características más destacadas de los módulos actuales de SREC-I y el código en PROLOG de dos de ellos, los que a mi juicio presentan mayor dificultad de desarrollo a pesar del ya numeroso material bibliográfico existente sobre PROLOG, pues aunque en ocasiones sea muy valioso, hasta donde conozco ninguno aborda específicamente la creación de código correspondiente a un SRI en dicho lenguaje.

[Continúa]

[27.2.07] [0 comentarios] [#] [lista]


Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.