Visto y Leído

[Sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial]

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Sobre este sitio

Selección de artículos, ensayos, noticias, entrevistas, reseñas, y otro tipo de textos, publicados en medios impresos y digitales, sobre Biblioteconomía y Documentación, Recuperación de Información, Lógica, Inteligencia Artificial, y áreas afines del conocimiento, sin descartar la inclusión ocasional de textos relativos a la actualidad política y social.

Archivo de anotaciones

Guardado por meses.

Enlaces a otros sitios

Temáticas afines

Política, sociedad

Fuera de contexto

Lecturas recomendadas

De Jacques Derrida, en Derrida en castellano:

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

En esta página:

Enseñanza de la Inteligencia Artificial

Título: Algunas experiencias en la utilización de sistemas de EAC para la enseñanza de la Inteligencia Artificial
Autores: M. Lezcano Brito, V. Giraldo Valdés
Fuente: Divulgaciones Matemáticas, vol. 6 nº. 2, 1998
Url documento: http://www.emis.de/... (PDF)

EAC: Enseñanza Asistida por Computadora; en inglés CAI: Computer Aided Instruction, o bien Computer-assisted Instruction.

Resumen

El presente trabajo expone las experiencias adquiridas en la utilización de dos sistemas para la enseñanza de la disciplina Inteligencia Artificial que se imparte como parte del Plan de Estudios de la carrera Ciencias de la Computación en la Universidad Central de Las Villas (UCLV), Cuba. El primero de ellos se denomina Sistema para la Enseñanza de Sistemas Expertos (SESE) y se utiliza para impartir tópicos relacionados con la programación de máquinas de inferencia y la comprensión de algunos mecanismos internos de los sistemas expertos. El segundo sistema se utiliza en la enseñanza del paradigma de la Programación Lógica. [...]

Introducción

La enseñanza de la Inteligencia Artificial [IA] debe vencer dos obstáculos fundamentales: el primero tiene que ver con el reducido tiempo que se le asigna en los planes de estudio y el segundo está relacionado con la diversidad de los temas. La solución puede parecer obvia si logramos añadirle más tiempo a los temas tratados, pero las cosas no son tan sencillas como para resolverlas con esa sola medida.

Muchos de los temas tratados en IA son conceptos y temas fundamentales compartidos con otras disciplinas de Ciencias de la Computación, tales como: Lógica Matemática, Prueba de Teoremas, Teoría de Probabilidades, etc., el problema es que esos tópicos no se abordan en las asignaturas precedentes desde el punto de vista de la IA. Se hace necesario entonces establecer una vinculación entre todas las asignaturas relacionadas, lo que ayudaría, en gran medida, a resolver algunos de los problemas tratados. En la inauguración del AAAI Fall Symposium on Improving Instruction of Introductory AI, Marti A. Hearst expresó: "Este simposio ha sido motivado por el deseo de dirigir las voces que lastimosamente se quejan de lo notoriamente difícil que resulta enseñar bien los cursos iniciales de Inteligencia Articial..."

El reconocimiento al problema de la enseñanza de la IA queda claro en estas palabras, en la sola idea de organizar un evento para discutir esta problemática y en el propio desarrollo que éste tuvo.

Con el aporte de nuestra experiencia pretendemos contribuir modestamente a la solución de este problema. Hemos seguido la idea de fomentar un aprendizaje activo de manera que el estudiante no sea un mero recipiente que debe ser llenado de conocimientos ni el profesor el encargado de llenarlo. [continúa]

[29.4.05] [0 comentarios] [#] [lista]

El libro en el siglo XXI (y siguientes)

Autor: Sixto Jiménez Muniain (*)
Fuente: Gara, 23/04/2005
Url documento: http://www.gara.net/...

(*) Eusko Ikaskuntza-Sociedad de Estudios Vascos

La invención de la imprenta de tipos móviles en 1454 por Gutenberg hizo económicamente posible la difusión del conocimiento en proporciones descomunales frente al carísimo procedimiento de la escritura a mano. Hoy estamos en los albores de una segunda gran revolución en la rapidez y reducción de costo de la transmisión del conocimiento gracias a Internet y, como les ocurrió a las gentes de mediados del siglo XV, no nos es fácil prever todas las consecuencias culturales, económicas y sociológicas que este hecho tendrá para futuras generaciones.

Antes de debatir sobre el futuro, hagamos un poco de historia: la imprenta llegó a Navarra en 1490 de la mano de Arnao Guillén de Brocar, tal vez natural de Orthez (Bearn, territorio entonces de los reyes de Navarra), con cierto retraso frente a su implantación en Europa probablemente debido a las guerras civiles que asolaron el Reyno de Navarra en la segunda mitad del siglo XV (en Castilla se conoce desde 1472 y tres años más tarde en Aragón). La pequeñez del Reyno y su expresión mayoritaria en euskera eran desventajas económicas de difícil superación como declarara el impresor navarro Adrián de Amberes en un memorial que dirige a las Cortes de Navarra en 1569: «en el reino de Castilla se ha vedado que ninguna cosa impresa en romance, fuera del dicho reino de Castilla, pueda entrar en dicho reino, ni venderse; y como este reino (el de Navarra) sea tan pequeño, y la mayor parte de él sea bascongado, se vende muy poco de lo que se imprime; y si no se da lugar a que se venda en Castilla, recibirá mucho daño el suplicante, y no podrá mantener su casa...».

La economía fue siempre un obstáculo a la edición de libros en Euskal Herria y lo es aún hoy, en cierta medida, para las ediciones en euskera o referidas a asuntos locales. Pues bien, Internet ha hecho que sea insignificante el coste de transmisión de información al mundo entero y ha reducido a segundos el tiempo necesario para ello. Es la segunda revolución a la que me refería.

Atenta a esta revolución, la Sociedad de Estudios Vascos-Eusko Ikaskuntza lleva desde hace años invirtiendo esfuerzos humanos, económicos y técnicos para la puesta en la red de amplios contenidos culturales abiertos a todos los interesados en la realidad vasca, sean ciudadanos de los territorios históricos, vascos de la diáspora, o ciudadanos de cualquier rincón del mundo interesados en lo vasco. Con estas iniciativas tenemos herramientas que permiten educar, informar, acumular conocimiento con fácil acceso, y comunicar a las personas con intereses comunes a nivel mundial.

Pero, ¿qué hacer con todo el saber acumulado en libros en los siglos pasados? La respuesta la ha dado Google con su proyecto de digitalización de 15 millones de libros de bibliotecas norteamericanas, que ha tenido la réplica de la inmediata reacción del presidente francés Jacques Chirac impulsando el estudio de viabilidad de un proyecto semejante para Francia y la Unión Europea, para que Europa siga siendo faro cultural del mundo.

En Euskal Herria hay una serie de iniciativas de digitalización muy valiosas y cuya coordinación debe cuidarse para evitar duplicidades y dispendios. Eusko Ikaskuntza, a través de la Fundación Euskomedia, lleva a cabo trabajos de digitalización encargados por entidades públicas o privadas, así como de propia iniciativa, que están poniendo al alcance del mundo libros y revistas de gran interés y difícil acceso con una espectacular facilidad de búsqueda en sus contenidos. Pero la tarea que queda por delante es inmensa y se requiere sensibilidad y sentido histórico para entender, como el presidente Chirac, que el momento es histórico, la oportunidad magnífica, y el coste importante pero sus réditos los disfrutaremos nosotros y las generaciones venideras.

La imprenta aportó riqueza cultural a Europa, pero dejó en inferioridad a la creación cultural sobre temas y en idiomas autóctonos por su falta de masa crítica, paliada por la producción de tantos intelectuales y viajeros europeos admiradores de la cultura vasca. Internet nos obliga a un gran esfuerzo inicial pero permite a los pequeños colectivos capacidades extraordinarias a bajo coste.

Como amante de los libros en papel por su contenido e incluso como objetos, quisiera hacer, para terminar, algunas observaciones en su defensa. Internet aporta eficacia en coste, tiempo de transmisión, tiempo de búsqueda...; pero cada libro antiguo es un monumento de la humanidad que ha aportado saber, ha estado en manos de gentes de sucesivas generaciones que se creyeron sus dueños cuando sólo eran sus usuarios temporales y ha sobrevivido a mil vicisitudes y enemigos de la capacidad de informar que representa. El libro actual, en papel, aporta a su vez su presencia a nuestra vista, que nos recuerda su contenido y las vivencias que nos aportó, la capacidad de disfrute táctil y visual, la transportabilidad, subrayado y notas personales... que la pantalla no ha sabido, por ahora, reproducir.

La cultura de la imagen empobrece la capacidad conceptual del hombre transformando al homo sapiens en homo videns, según expresión de Giovanni Sartori. El libro en cambio es un ejercicio intelectual desde su mera lectura, contiene conceptos y desarrolla ideas que permiten al ser reflexivo enriquecer las propias.

El libro ha sido la gran herramienta del progreso, es el depósito histórico del saber, es un amigo dispuesto a hablar con nosotros cuando queramos. Epicuro, Séneca, Erasmo, Gracián, Axular, Unamuno y cuantos sabios ha habido nos abren la puerta de su pensamiento cada vez que lo deseamos con sólo abrir ese libro que tan poco nos costó frente a lo que nos puede aportar, si además de tenerlo lo leemos y pensamos por nosotros mismos tras el estímulo intelectual recibido por su lectura.

[23.4.05] [0 comentarios] [#] [lista]

Babel en la pantalla del ordenador

El anuncio de que Google volcará 15 millones de libros en la red pone en guardia al mundo editorial

Autores: Jesús Ruiz Mantilla / Tomás Delclós / Octavi Martí
Fuente: El País, 10/04/2005

Un proyecto gigantesco es el que ha puesto en marcha el buscador Google: volcar 15 millones de libros en la red, provenientes de bibliotecas e instituciones públicas y exentas de derechos de autor. Su proyecto se enmarca en el ámbito anglosajón y la reacción europea ha tenido como protagonista a Francia, cuyo presidente ha anunciado que los países de la UE deberían ofrecer algo semejante. El sector editorial ya empieza a buscar nuevos caminos que den respuesta a iniciativas como la de Google. No tienen que objetar nada a este primer paso. Pero la cosa cambia si se ponen en marcha iniciativas que afecten a los libros más actuales, algo que empieza a moverse con alianzas entre distintos portales.

Si Borges levantara la cabeza... Pues hoy seria feliz. Imagínenselo sentado en el salón de su casa de Buenos Aires, convencido ya de las bondades de la informática y sabiendo que con darle a unas pocas teclas podría acceder, utilizar, merodear por todos los laberintos del saber, no como ocurre en cualquiera de sus ficciones, sino acomodado en la mera realidad de los tiempos que corren. Sergey Brin y Larry Page, de 30 y 31 años, respectivamente, creadores del servidor Google y hoy multimillonarios, serian sus particulares genios de la lámpara maravillosa, más después de haber anunciado el proyecto que ha supuesto una sacudida para el mundo editorial a escala global: que volcarán 15 millones de libros en su servidor, provenientes de fondos públicos como bibliotecas o instituciones culturales, para que cualquiera los pueda consultar... ¡Y gratis!

No parece ninguna fantasmada y los responsables del buscador, que con ese anuncio ha dado un giro espectacular a lo que es el futuro del saber en la red, ya han empezado a gastarse 150 millones de dólares (116,2 millones de euros) presupuestados para ponerlo en marcha, que provienen de los beneficios que ha ocasionado su salida a bolsa. Los libros que volcarán en la Red, en principio, son de dominio público y están ausentes de pagos de derechos y otras obligaciones, pero la magnitud del proyecto es tal, que el mundo editorial ha empezado a ponerse en guardia por lo que pueda suponer lo que en un principio se reduce al ámbito anglosajón.

Aunque como la información y las ideas por las redes vuelan, el asunto no tardará en extenderse por otros ámbitos, más después de que los franceses ya hayan anunciado iniciativas al respecto. Europa, como espacio de referencia en la cultura, debe ya empezar a dar respuestas y sobre todo desde el ámbito público, porque el órdago de Google, que viene de la iniciativa privada, ya ha sacado los colores a todos aquellos que cobran por acceder a la sabiduría exenta de derechos.

José Antonio Millán, experto en nuevas tecnologías aplicadas al campo de la cultura y colaborador del portal de la Edad de Plata, impulsado por la Residencia de Estudiantes, lanza una pregunta que cualquier día puede ocurrir: "¿Qué pasaría si Google o cualquier servidor privado llama a las puertas de la Biblioteca Nacional y les ofrece digitalizar sus fondos sin que ellos tengan que poner un duro?", Ya lo han hecho en bibliotecas de Estados Unidos y del Reino Unido. Y antes de que llegue Google, ¿por qué no dar un paso desde la iniciativa pública? "Los buscadores son la llave para que acceda todo el mundo, pero los gobiernos, las instituciones públicas, deben hacerlos accesibles con estándares muy abiertos, que permitan la interrelación fácil. ¿Qué problema hay para hacerlo?", insiste Millán.

Abierta ya la veda desde el sector privado, parece que sobran las excusas desde lo público; "El patrimonio cultural debe ser accesible para todo el mundo y los poderes públicos deben apostar por la creación de buenos softwares que lo permitan", añade Millán. Seguro que estas buenas intenciones están en la mente de buena parte de los gobernantes, pero en este caso, existe también una barrera difícil de saltar desde algunos lugares y es la siguiente: 150 millones de dólares (116,2 millones de euros).

Google saca beneficios de la publicidad y como su servidor recibe al día la friolera de más de 200 millones de consultas, supone un escaparate inagotable y con futuro prometedor, eso sin contar los 1.670 millones de dólares que ganaron con su salida a bolsa. Sus ingresos permiten eso y más. Así que algo comparable y público tendría que hacerse a escala europea. En España existen algunos portales con libros volcados, pero, sobre todo, destacan algunas direcciones que orientan sobre fuentes, como el famoso Oteador del Centro Virtual Cervantes, que dirige Andrés Elhazaz. Éste cree que el proyecto de Google es muy positivo por varios motivos: "La primera razón es por seguridad. Servirá para digitalizar todo aquello que corre el riesgo de perderse o deteriorarse, y además, en segundo lugar, acerca los fondos de bibliotecas que en otros casos serían inaccesibles para muchos".

El proyecto será de gran utilidad sobre todo para los investigadores, dice Elhazaz. "Para lo científicos puede ser impresionante. Tener disponibles las herramientas desde casa es todo un lujo", agrega.

Donde ya empiezan las dudas es en otros ámbitos. El mercado editorial ve luces y sombras por igual. Se trata de un sector dividido en cuatro partes que comen del pastel de un libro troceado en porcentajes más o menos fijos, con un 10% para el autor, un 30% para el librero y un 60% que queda en las editoriales y los distribuidores. El autor, en este proyecto queda fuera. Los editores tampoco pierden mucho. Pero los distribuidores y libreros tendrán que inventar algo para sobrevivir en el mundo digital.

Las organizaciones dedicadas a la cultura y la educación a escala internacional van avisando de lo que llega. Hace unas semanas, Milagros del Corral, subdirectora general adjunta para la Cultura de la Unesco, ofreció una conferencia en Madrid ante la Asociación de Editores en la que comentó el asunto de Google. "Las inversiones del sector del libro en España no destacan por una dedicación a la alta tecnología", asegura. Es hora para ella de encender alarmas: "No existe un motor de búsqueda comparable a Google y no crecen los proyectos de investigación y desarrollo", añade. En cuanto a otras vertientes, donde ya se adivina un gran negocio sobre los contenidos, Del Corral se preguntó en su intervención en Madrid: "¿Cuánto tardará en cristalizar un acuerdo entre Google y Amazom -una de las librerías online más potentes del mundo- para gestionar estas nuevas ofertas?".

El aviso está lanzado. Pero, pese a que el asunto da mucho de sí para que se desaten los comentarios más apocalípticos, los editores se muestran tranquilos? por ejemplo. Antonio María Ávila, representante de la Federación de Gremios de Editores (FGEE), asegura que se impone llegar a acuerdos. "Si los proyectos que pueden desarrollarse en la Red salen de acuerdos de los servidores y los portales con las editoriales, por nosotros no puede haber ningún problema", asegura. La pregunta es saber si cuando todas esas fuentes viajen por la red, las tecnologías son lo suficientemente seguras como para confirmar que no va a producirse piratería. "Disponemos de la tecnología que permite la identificación del consultador y su pago?", pregunta Ávila.

En Estados Unidos ya hay servidores que han anunciado macroproyectos para hacer grandes negocios con libros actuales por la Red. "Me gustaría saber cuántas editoriales se han decidido a hacerlo. Ahí saldríamos de dudas". Aunque no duda de su proyección. "Como nueva fuente de negocio es bienvenida", afirma el representante del gremio editorial en España. Tampoco cree que deba ser algo de lo que se encarguen los poderes públicos. "Todo esto lo deben hacer las empresas", asegura. ¿Y afectaría a los precios de los libros, teniendo en cuenta que sería un negocio con menos intermediarios y podrían bajar? "Lo normal es que afecte", sostiene Ávila.

Tampoco lo ven tan negro los libreros. Tienen confianza ciega en el invento que gracias a Johann Gutenberg cambió la historia a partir de 1455. Es curioso que el libro, que es eterno gracias a sus contenidos, vaya a salvarse en este caso gracias a la forma, al aspecto, a su físico. Paradojas de la vida. Michelle Chevallier, representante de la Confederación Española de Gremios y Asociaciones de Libreros (CEGAL), ve blanco y ve negro. "¿Estamos preocupados por el panorama que se abre? Sí y no. En principio, no afecta mucho a lo que puede encontrarse en las librerías, son libros descatalogados, en gran parte. Lo que nos inquieta de la iniciativa de Google es que sea sólo el anuncio de una primera fase que vaya más allá y entre en los terrenos de cosas más nuevas", afirma Chevallier.

Pero ahí es donde el libro puede defenderse como objeto, como gran invento en el aspecto material, tangible. "Es cómodo y a la larga barato. Un libro online, para no leerlo en la pantalla necesita papel, tinta y tiempo para la impresora, es un gasto que resulta más barato fabricado", dice.

Son cosas que preocupan en su sector, que abordó el tema de la edición digital en su último congreso. Como les preocupan otros juegos que no comparten. "Las editoriales y las bibliotecas públicas están llegando a acuerdos para hacer acceder a los investigadores a muchos libros especializados por ser usuario de determinada biblioteca", denuncian en CEGAL. Son algunas pistas que van conduciendo al sector a nuevos retos del futuro, un tiempo que ya se ha instalado aquí sin que todavía haya llegado todo el mundo.

El Proyecto Gutenberg empezó en 1991 a almacenar libros en Internet

La oferta gratuita e íntegra en Internet de obras literarias o científicas no es un invento de Google. Con un número de títulos dispar y orientaciones temáticas igualmente distintas hay una serie de bibliotecas digitales en la Red que ofrecen la lectura de obras que están en el dominio público o que se cuelgan con permiso de quien detenta los derechos. La ambición de algunas ya se detecta en su apellido. La Universidad de Carnegie Mellon impulsa el Million Book Project.

El archivo pionero fue el Gutenberg Project. Aunque sus antecedentes conceptuales son anteriores, el proyecto multilingüe, basado en voluntarios, empezó a engrosar su catálogo en 1991. Actualmente alberga unos 15.000 libros. Con más de 50 títulos, hay obras en español, chino, alemán, inglés, holandés, finlandés y francés. En catalán hay referenciadas tres obras.

En España, el empeño mayor es el que sostiene la Universidad de Alicante con el apoyo de la Fundación Marcelino Botín y otros patronos. Se trata de la Biblioteca Virtual Miguel de Cervantes. Atento a la creación hispánica, con más de 12.000 títulos, la primera parte de El Quijote ha recibido 197.260 consultas en línea. El mayor porcentaje de visitas procede de España, México y Estados Unidos, pero en sus registros figura incluso una petición formulada desde Micronesia. Un indicador de su crecimiento lo da el número de páginas servidas. En 1999, fueron 288.314. En marzo de 2005, rozaron los seis millones y medio. Su catálogo incluye también ensayos y tesis doctorales. Dominan los originales en castellano, pero hay un fondo en catalán y, en colaboración con la Biblioteca Nacional de Brasil, crecen los textos en portugués. También se atiende a la creación en gallego y en otras lenguas americanas. La biblioteca no digitaliza obras de creación en inglés, pero ofrece textos críticos en este idioma, francés e italiano.

Tim Berners-Lee, el creador de la web, lanzó en 1991 la WWW Virtual Library. Una "confederación" de voluntarios suministra enlaces, ordenados por temas, a copias digitales. En una navegación por el mismo se puede localizar, por ejemplo, un rincón digital especializado en teatro que, entre muchas otras piezas, recopila 30 de Calderón de la Barca.

Muchos sitios están cobijados por instituciones académicas. El MIT (Estados Unidos), un caso, mantiene The Internet Classics Archive. Enfocado a clásicos grecorromanos, chinos y persas, cobija 441 obras de 59 autores, siempre traducidos al inglés. Ahí puede leerse una edición de La Ilíada de Homero.

Los títulos más conocidos pueden hallarse en distintos sitios editados en distintos soportes informáticos. La Regenta, de Clarín, puede consultarse directamente en la web de la Miguel de Cervantes y, en formato PDF, descargarse de Biblopia. La Biblioteca Nacional Francesa, a través de Gallica, despliega 70.000 facsímiles.

Según la Miguel de Cervantes, los empleos de su material digital, en proporciones similares, son: el ocio, la docencia o aprendizaje del idioma y la investigación erudita.

Francia quiere una gran biblioteca virtual europea

La iniciativa de Google para digitalizar 15 millones de volúmenes en la Red es un proyecto que inquieta en París. "Corremos el riesgo de una dominación aplastante por parte de los EE UU, que pueden imponer a las próximas generaciones una idea de la definición del mundo", ha dicho Jean-Noël Jeanneney, el presidente de la Biblioteca Nacional Francesa (BNF).

Su gran centro de saber, en la actualidad ofrece a la consulta gratuita 80.000 títulos, además de 70.000 imágenes y la colección íntegra de 22 periódicos, que van desde el siglo XIX hasta el presente. El presidente de la República, Jacques Chirac, ha prestado atención a la denuncia de Jeanneney, al que recibió el pasado día 16 de marzo para que, junto con el ministro de Cultura, sondeen a distintas autoridades europeas -directores de grandes bibliotecas, pero también responsables de política cultural- para "preparar un contraataque europeo".

Para Chirac, esa propuesta no es "una operación dirigida contra nadie, sino a favor de la diversidad cultural. Francia y el conjunto de Europa tienen una riqueza patrimonial extraordinaria y han de ponerla a la disposición de todos, darla a conocer". Lo importante para el presidente es que "exista un punto de vista europeo" y que el ciudadano no esté obligado a ceñirse "a la omnipresencia de la cultura anglosajona, que tiene tendencia a querer borrar a todas las demás aunque sea corriendo el riesgo de generar una subcultura general".

Francia dedica 15 millones de euros anuales a la digitalización de su patrimonio artístico. Pero ahora quisiera organizar la operación en colaboración con las grandes bibliotecas británica, alemana y española.

[12.4.05] [0 comentarios] [#] [lista]

Indexación de Información

Esta pequeña introducción a los procedimientos y técnicas de indexación (automática) de información, está tomada de un apéndice técnico (en formato PDF), elaborado por Berta Araujo (que a su vez forma parte de un documento más amplio: Motor de búsqueda para un SRI con agrupamiento), en el que se describe la aplicación Lucene, una API de Java aplicable a la indexación y recuperación de información:

"Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly any application that requires full-text search, especially cross-platform. [...] is an open source project [...]"

En el mencionado apéndice técnico (apartado 2.1), podemos leer lo siguiente:

"Lucene es una [...] herramienta que permite tanto la indexación cómo la búsqueda de documentos. Creada bajo una metodología orientada a objetos e implementada completamente en Java, no se trata de una aplicación que pueda ser descargada, instalada y ejecutada sino de una API [...] a través de la cual se pueden añadir [...] capacidades de indexación y búsqueda a cualquier sistema [...]."

El texto que se reproduce a continuación es por tanto el apartado introductorio del documento mencionado que da cuenta de las principales características y capacidades de Lucene, y sirve de repaso general sobre su campo de aplicación, a modo de revisión del estado de la cuestión. En el apartado "Articles..." de la web de Lucene, se puede localizar más información sobre este sistema y sus tecnologías asociadas. Y muy a propósito de las cuestiones tratadas en el texto, recomiendo la lectura de la serie de artículos publicados por Javier Martínez en su bitácora IRSweb sobre el Modelo de Espacio Vectorial de Recuperación de Información, así como de la anotación Luhn, Zipf y los términos de indización.

Introducción: Indexación de Información

Autora: Berta Araujo
Url documento: http://trevinca.ei.uvigo.es/... (en PDF)

El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los últimos años, ha motivado la aparición de un creciente interés por los sistemas de clasificación automática de documentos. Estos sistemas realizan diferentes operaciones de clasificación basándose en el análisis del contenido del texto de los documentos que procesan. La mayoría de las técnicas de análisis y representación de documentos utilizadas en la actualidad en los sistemas de clasificación, se basan en criterios fundamentalmente estadísticos, centrados en frecuencias de aparición de términos en documentos.

Dentro de los sistemas de clasificación de documentos podemos distinguir los sistemas de recuperación de texto, que seleccionan aquellos textos o documentos que son adecuados a una necesidad del usuario entre un conjunto más amplio, y sistemas de agrupamiento de textos que, a partir de un conjunto de textos, construyen subconjuntos de éstos con contenidos semejantes.

Si trabajamos con este tipo de sistemas, debemos centrarnos en tres cuestiones fundamentales:

En la figura que se muestra a continuación se representa la operación de recuperación de textos centrada en las tres cuestiones descritas. En ella se puede observar que, en este caso, el elemento específico de la operación de clasificación es una consulta de usuario; es decir, que los documentos que se recuperarían serían aquellos cuya representación interna presentase una mayor similitud con la de la consulta del usuario.

     Documentos         Consulta
     de texto           del usuario
         |                  |
         |                  |
     Análisis           Análisis
         |                  |
         |                  |
     Representación     Representación
     de Documentos      de consulta
          \                /
           \              /
         Cálculo de similitud
                  |
                  |
        Documentos recuperados

Una vez introducida la recuperación de textos, diremos que el término de indexación hace referencia a un método que engloba la definición de uno de representación y uno de análisis. El término proceso de indexación hace referencia al proceso de análisis de documentos para la obtención de una representación concreta de los mismos.

Existe una serie de elementos que se pueden utilizar para la definición de métodos de indexación y cálculo de similitud. En concreto, el modelo del espacio vectorial proporciona las bases para definir un método de representación y cálculo de similitud.

En el modelo del espacio vectorial se propone la representación de cada documento mediante un vector cuyos componentes son los pesos asociados a los términos utilizados en la representación.

Para realizar el proceso de indexación utilizando una representación basada en el espacio vectorial se pueden utilizar los siguientes elementos, que permiten obtener la representación interna de los documentos mediante un análisis automático de su contenido:

  1. Peso de los términos
    El concepto de poder de resolución de un término proporciona una base para los métodos de indexación basados en frecuencia de aparición de términos. El poder de resolución de un término proporciona información acerca de su adecuación como término de indexación.
  2. Listas de parada
    Las listas de parada (stoplists) se utilizan en el análisis de los documentos para la eliminación de una serie de palabras que no resultan útiles para la obtención de términos de indexación, por ejemplo, de, en, el, etc.
  3. Extracción de raíces
    Los algoritmos de extracción de raíces (stemming), o de eliminación de sufijos, se encuentran orientados a obtener un único término a partir de diferentes palabras que constituyen, esencialmente, variaciones morfológicas con un mismo significado. El resultado del algoritmo debe ser una misma forma regular para las diferentes variantes morfológicas de una palabra, que no tiene por qué ser, necesariamente, la raíz lingüística.
  4. Frases de términos
    Las frases de términos se orientan a la obtención de términos de indexación con un significado más preciso que el de los términos obtenidos directamente a partir de las palabras individuales. Una frase de términos es una tupla de términos y constituye en sí misma un nuevo término de indexación.
  5. Thesaurus
    Un thesaurus proporciona una agrupación o clasificación de términos en un determinado dominio o área en categorías denominadas clases. Permite recuperar documentos que son relevantes a la consulta de un usuario, aunque no aparezcan en ellos los términos de la consulta, pero si sinónimos de estos.

[7.4.05] [0 comentarios] [#] [lista]


Visto y Leído,

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia.