Indizacion 99

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.
11-24 ____________________________________________________________________________________
Lenguaje natural e Indizacin automatizada

(Natural Language and Automatic Indexing) Eva M Mndez Rodrguez Jos A. Moreiro Gonzlez
Departamento de Biblioteconoma y Documentacin Universidad Carlos III de Madrid (Espaa)
Resumen: Se plantea una aproximacin terica a la indizacin automtica, poniendo de relieve el papel que ha desempeado el lenguaje natural, no controlado, en su evolucin, sealando sobre todo las ltimas tendencias en indizacin automatizada fundamentadas en bases de conocimiento. Palabras clave: Indizacin automatizada / Lenguaje natural / Recuperacin de informacin mediante lenguaje libre / Bases de conocimiento. Abstract: It is thought about a theoretical approach to the automatic indexing, pointing out the role that has carried out the natural language, not controlled, on its evolution, pointing out the last tendencies on automatic indexing grounded on knowledge bases. Keywords: Automatic indexing / Natural language / Information retrieval by natural language / Knowledge bases.
1. Introduccin.
Vivimos en un mundo esencialmente lingstico en el que las cosas son lenguaje y el lenguaje es una cosa. La cultura, la produccin cientfica, y en definitiva, el conocimiento que aporta al ser humano el dominio de la realidad, se conforma, se construye y difunde a travs del lenguaje. El hombre piensa, lee, y escribe gracias al lenguaje (al lenguaje natural) de tal suerte que su cdigo se erige como un potencial comunicativo.
Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________
En este contexto de la comunicacin humana, la Documentacin presenta una estructura lingstica1 ya que el discurso sobre el que se emiten los datos se ejecuta en lenguaje natural, como un aluvin de estructuras cognitivas en lenguaje natural. Si bien es cierto que el lenguaje natural es aquel conjunto de signos y smbolos orales y escritos por medio de los cuales los seres humanos se comunican entre s, dentro de este trabajo definiremos lenguaje natural como aquel conjunto de palabras utilizadas por un autor para expresar sus ideas en un documento. Es evidente pues, que existe una estrecha relacin entre la Lingstica y la Gestin de la informacin, que podramos explicar haciendo una extrapolacin del concepto saussuriano de signo lingstico, compuesto por significante (plano de la expresin, esto es, los grafemas que componen los trminos de los documentos cientfico-tcnicos) y significado (plano del contenido, o de la esencia semntica de los conceptos sobre los que se realiza el anlisis de contenido en Documentacin):
Significante anlisis formal Anlisis morfolgico Anlisis sintctico Anlisis morfosintctico Anlisis fonolgico descripcin fsica o catalogacin resumen e indizacin Anlisis semntico (de base textual) Significado anlisis de contenido
ANLISIS DOCUMENTAL
= Referencia del documento fruto del anlisis
A pesar de la omnmoda implicacin de la Lingstica en el Anlisis Documental, en esta aproximacin nos centraremos en la semntica, y concretamente en la semntica informtica de cuyo desarrollo depende en gran medida la indizacin automatizada.
Como venimos diciendo, la comunicacin cientfica se establece en lenguaje natural, un lenguaje que en su expresin escrita adolece de serias ambigedades e imprecisiones derivadas precisamente de la falta de significado unvoco y preciso de las palabras que lo componen; presenta mltiples dificultades para el tratamiento de la
Antonio GARCA GUTIRREZ. Estructura lingstica de la documentacin, teora y mtodo. Murcia: Universidad, Secretariado de Publicaciones, 1990. p. 18 2
1
informacin al estar compuesto por decenas de miles de palabras, y estar sujeto a diferentes accidentes lxico-semnticos (como la homonimia, polisemia, sinonimia, y figuras retricas como anfibologa, metfora, smil, metonimia, anfora, sincdoque, etc.) que impiden la univocidad del signo lingstico, y por ende, la comunicacin exacta.
Pese a ello, hoy, el tratamiento y la recuperacin de informacin en Lenguaje Natural es posible gracias a la intervencin del ordenador. Cada vez son ms abundantes los software documentales basados en el lenguaje natural que se destinan a interrogar bases textuales constituidas tanto en lenguaje cotidiano como en una terminologa especializada. La trascendencia de estos programas para el tratamiento y la indizacin del lenguaje natural aumenta en el contexto en que nos encontramos: la explosin de la informacin textual posibilitada por ordenador, donde la edicin electrnica a finales del siglo XX se ha convertido en un hecho a la vez que un problema para la recuperacin de informacin. Por ello, a travs de este trabajo, proponemos mostrar cmo ha evolucionado la indizacin automtica en la gestin de las palabras desde los inicios en lenguajes absolutamente libres, hasta el momento presente determinado por la regularizacin de las palabras en trminos contrastados mediante tesauros y bases de conocimiento.
2. De la indizacin a la indizacin automatizada: justificacin
La indizacin ha sido tradicionalmente uno de los temas ms importantes de investigacin en Documentacin, ya que los ndices han facilitado la recuperacin de informacin tanto en los sistemas manuales tradicionales como en los nuevos sistemas informatizados. La indizacin per se, est abocada a la recuperacin de informacin. Con las oportunas salvedades histricas, podramos decir que, el concepto de recuperacin de informacin es tan antiguo como el mundo escrito, y se magnifica su importancia cuando hablamos de un mundo informativo digital, en el que numerosas representaciones del conocimiento humano se hacen en formato electrnico. La indizacin es uno de los procesos fundamentales del anlisis de contenido, y son muchas las definiciones que se han dado pero todas ellas la definen como una tcnica, la de caracterizar el contenido tanto del documento como de las consultas de los usuarios, reteniendo las ideas ms representativas para vincularlas a unos trminos de indizacin, bien extrados del lenguaje natural empleado por los autores, o de un vocabulario controlado o lenguaje documental seleccionado a priori. Hoy en da es
3
posible vincular el proceso de indizacin al lenguaje natural del documento gracias a los computadores; para hacerlo debemos discriminar la informacin aprovechando las estrategias utilizadas por los propios autores para presentar sus publicaciones, pues destacan la informacin esencial en ttulos, resmenes, y en los prrafos iniciales de las diferentes partes de los textos. Tambin nos valemos de otras estrategias sintcticas y semnticas, como las que se derivan de la funcin que cumplen las palabras en las oraciones y del peso semntico que tienen las palabras en los textos. Si optamos por manejar el texto completo, slo ser posible una recuperacin eficaz en aquellos lenguajes cuyos trminos gocen de gran estabilidad. Tal sucede en los propios de las ciencias aplicadas y de la tecnologa, donde la bsqueda se podra hacer en las mismas expresiones usadas por el autor. Lo ms frecuente es que el texto original y su traduccin documental se den dentro de los dominios propios de las distintas reas del saber. En este caso la amplitud de uso de los trminos, de la expresin y del estilo que es propia del lenguaje natural, se ve limitada por las caractersticas fundamentales del discurso cientfico, lo que favorece la pertinencia de uso del lenguaje natural con fines documentales2: - Recepcin y emisin cualificada (competencia) - Vocabulario especializado - Organizacin estructural til a la ciencia - Modelado lgico-formal - Determinacin ms sistemtica que el lenguaje comn De igual forma que en la indizacin manual, el principio de indizacin automatizada es identificar un documento por un conjunto de palabras claves representativas de su contenido, que pertenezcan a un conjunto abierto de trminos, indizacin libre, o que pertenezcan a un conjunto cerrado y referenciado en una lista de autoridad o en un tesauro indizacin controlada. As pues, podemos definir la indizacin automatizada como el uso de mquinas para extraer o asignar trminos de indizacin sin intervencin humana, una vez se han establecido programas o normas relativas al procedimiento. Los factores que hacen posible pensar en el paso de una indizacin manual a una indizacin automatizada son, los siguientes: a) Alto coste de la indizacin humana (tiempo).
L. BLOOMFIELD. Aspectos lingsticos de la ciencia. Madrid: Taller de ediciones, 1973. p. 105 4
b) Aumento exponencial de la informacin electrnica y la proliferacin del full-text. c) La Gestin Electrnica de Documentos (GED) y a la informatizacin de los procesos documentales. d) Automatizacin de los procesos cognitivos y la investigacin creciente y los avances en el Procesamiento del Lenguaje Natural (PLN) . a) Alto coste de la indizacin humana en trminos de tiempo es uno de los argumentos ms slidos que se ostentan para justificar el desarrollo de Sistemas de Indizacin Automatizada3. Cmo explotar de manera pertinente con un coste y tiempo reducidos, el volumen siempre creciente de informacin textual, se ha convertido en un tema recurrente y obsesivo en todos los estudios de anlisis documental de contenido, dando lugar a mltiples trabajos destinados a evaluar la coherencia y la pertinencia de indizacin automtica frente a la humana4. Otros autores5 encuentran la justificacin de las investigaciones en indizacin automatizada, partiendo de la base que la indizacin humana es inadecuada para minimizar la subjetividad inherente a la indizacin, ya que el grado de consistencia alcanzado, depende no slo del conocimiento de tcnicas de abstraccin conceptual, ni del conocimiento y manejo de lenguajes documentales, depende tambin del grado de conocimiento que el analista tenga sobre el tema que se trata, exigindole que est siempre actualizado en esa materia. Es importante sealar tambin la inconsistencia entre los indizadores e incluso de un mismo indizador en distintos
Este argumento aparece desde las primeras investigaciones sobre indizacin automatizada llevadas a cabo en los aos 50 (Cfr. E. GARFIELD. The relationship between mechanical indexing, structural linguistics and information retrieval. Journal of Information Science, (18):343-354. 1992) hasta las ms recientes investigaciones de la dcada de los 90 llevadas a cabo en el INIST (Cfr. J. CHAUMIER et M. DEJEAN. Lindexation documentaire: de lanalyse conceptuelle humaine lanalyse automatique morphosyntaxique. Documentaliste-Sciences de lInformation, 27(6): 275-279. 1990)
4
Tal es el caso v.gr. del trabajo de Plaunt y Norgard, que describen la evaluacin de dos algoritmos basados en la tcnica de disposicin lxica aplicados a 4626 documentos de la base de datos INSPEC, para crear un diccionario de asociaciones entre los tems lxicos que contienen los ttulos, autores y resmenes y los trminos controlados asignados a esos documentos por indizadores humanos, que servir, en un primer estadio de aplicacin del algoritmo, para comparar los encabezamientos de materia asignados de forma automtica con los asignados por un catalogador. Christian PLAUNT and Barbara A. NORGARD. An Association-Based Method for Automatic Indexing with a Controlled Vocabulary. Journal of the American Society for Information Science, 49(10): 888-902. 1998 V. gr. Ghislaine CHARTON. Indexation manuelle et indexation automatique: dpasser les oppositions. Documentaliste-Sciences de l'information, 26(4-5): 181-187. Juillet-octobre 1989; Isidoro GIL LEIVA, Jos Vicente Rodrguez Muoz. De la indizacin humana a la indizacin automtica. En: Organizacin del conocimiento en Sistemas de Informacin y Documentacin. Zaragoza: Fco. Javier Garca Marco, ed., 1997, p. 201-215 5
5
momentos anmicos, ya que la indizacin es algo subjetivo; el ser humano utiliza el lenguaje en funcin de mltiples condicionamientos, parcialidades y sesgos personales y culturales involuntarios.
Le exacerbacin de lo humano como sinnimo de lo racional y lo perfecto es fruto del conservadurismo y de la fidelidad a la idea de ser humano, pero objetivamente desde el punto de vista de la indizacin o descripcin caracterstica del contenido de un documento, hay muchos casos de malos ejemplos en que la indizacin manual, es a todas luces, deficiente. Por tanto, todas estas argumentaciones nos han llevado a pensar que la indizacin automtica es la formalizacin y/o automatizacin de la indizacin, con el objetivo de reducir la subjetividad del proceso, y el alto coste en tiempo de la indizacin manual. b) El aumento exponencial de la informacin electrnica y la proliferacin del full-text. En este sentido es interesante evocar la afirmacin que haca Jones6 en los aos 80:
El valor de la indizacin automtica se incrementar cuando la literatura de forma legible a mquina sea ms importante que la producida por medios tradicionales. Entre tanto, el ordenador ser de importante ayuda para el indizador en la elaboracin de los ndices, alivindole de tareas rutinarias como la ordenacin, clasificacin e impresin. No obstante, por el momento, las acciones especficas de determinar lo que constituye la materia indizable del texto, y cmo se debe expresar, son funciones todava de la inteligencia y creatividad humanas.
Esta afirmacin que Jones haca en 1986 como futurible, parece que es una situacin del presente, no porque la literatura producida en forma legible por mquina sea ms importante que la produccin impresa, pero s hay que tener en cuenta que la propia naturaleza de la informacin ha cambiado y cada vez ms se presenta en formato electrnico. El crecimiento exponencial de cantidades de informacin producidas y/o reproducidas en redes Internet e Intranet es hoy ya una realidad; por ello parece inevitable que el valor de la indizacin automatizada se incremente y tienda a dominar con respecto a la indizacin tradicional humana. El incremento de la ciencia y de la comunicacin electrnica, crece de manera imparable; cada vez son ms las bases de datos que se pueden consultar a texto completo, al mismo tiempo que la vida media de la informacin tiende a disminuir, todo ello contribuye a que no exista un paradigma unificado para la recuperacin de informacin. La tarea de convertir en accesibles todas estas informaciones
6
Kevin P. JONES. Getting Started in Computerized Indexing. The Indexer, 15(1): 12. 1986
relevantes requiere una serie de actividades que componen el ciclo documental, entre las cuales, el anlisis de contenido tiene un papel fundamental, con lo cual es lgico que las investigaciones en documentacin busquen nuevas alternativas para optimizar la recuperacin de informacin. Una de estas alternativas es la indizacin automatizada donde, acudiendo a otras disciplinas como la lingstica o la estadstica, se pretende dar solucin al problema de la caracterizacin del contenido documental, y con ello, de la recuperacin de informacin. c) La Gestin Electrnica de Documentos (GED) y a la informatizacin de los procesos documentales. Las organizaciones estn asumiendo en la actualidad una tendencia incipiente de conversin de los archivos basados en papel a los Sistemas de Gestin Electrnica de Documentos (EDMS: Electronic Data Management Systems). Esta tendencia supone una nueva filosofa en el tratamiento de la documentacin, combinando la imagen con la informacin textual asociada a ella, que requiere una planificacin exhaustiva, donde la indizacin de documentos digitales insta un proceso informatizado de comprensin e inferencia del contenido para su posterior integracin y recuperacin en los procesos. La automatizacin de los procesos documentales almacenamiento, recuperacin y reproduccin de los documentos mediante herramientas y aplicaciones informticas, est estrechamente ligado a la indizacin automatizada, ya que la mayora de los sistemas GED incluyen un motor de indizacin y bsqueda para procesar el lenguaje natural y efectuar la recuperacin por contenido.
d) La automatizacin de los procesos cognitivos y la investigacin creciente y los avances en el Procesamiento del Lenguaje Natural (PLN). Existen numerosas metforas antropomrficas aplicadas a las mquinas en el sentido de que la eficacia en el procesamiento de la informacin es la caracterstica esencial que comparten el ordenador y la mente humana. La mente humana posee una eficacia cualitativa en sus procesos cognitivos (percepcin, decisin, planificacin y lenguaje). Existen distintas teoras que avalan que el Lenguaje Natural, lenguaje de comunicacin humana, no es un lenguaje interno de pensamiento sino que es un lenguaje fruto del aprendizaje. De esta afirmacin, podemos deducir que las mquinas tambin pueden aprender el procesamiento del lenguaje natural, mxime si tenemos en cuenta que se pueden automatizar, con un relativo margen de adecuacin o calidad, aquellos procesos o tareas en que se den dos condiciones: 1) que las tareas se puedan describir por una
7
secuencia perfectamente definida de acciones elementales y 2) cuando esas tareas se deban repetir muchas veces; ambas condiciones se dan en los procesos de indizacin, por ello, son perfectamente automatizables. El lenguaje refleja y contiene infinitas posibilidades del pensamiento humano, mientras que las estructuras formales que son los modelos con los que puede operar el ordenador son de naturaleza finita. Una palabra es ms que la secuencia de las letras de su significante, a causa del significado que se asocia a stas y de su relacin con otras palabras y con el contexto que las rodea. Podramos explicarlo de una manera un tanto metafrica, que las relaciones que contiene un significante con su significado denotativo y connotativo en cada hablante, son como una nube que cuelga de cada elemento del texto y que le parece distinta a cada persona, y el ordenador, no procesa esa nube, lo que hace es transformar las cadenas de caracteres. Con todo lo indicado hasta ahora, podemos decir que nos encontramos en un momento de transicin, donde la indizacin tradicional realizada manualmente para el anlisis de contenido de documentos en formato impreso, convive con la indizacin automatizada destinada al anlisis masivo de informacin textual en formato electrnico.
La indizacin consiste pues, en recorrer el documento para comprender y abstraer su magnitud significativa, de tal forma que d como resultado una representacin sinttica de su contenido. Esta tarea compleja, exige conocimientos cientficos, la comprensin del lenguaje natural y de la lengua del texto y un dominio prctico de un lenguaje documental (sea tesauro, sea lista de encabezamientos o lista de descriptores), adems de una capacidad de anlisis y sntesis. Todas estas exigencias que podemos estimar para una buena indizacin pueden concurrir o no en un indizador humano, pero son las que debemos exigirle a un sistema de indizacin automatizada. todo anlisis semntico de un texto cientfico es una operacin eminentemente intelectual que exige una doble competencia, primero en el plano de la lengua y tambin en el plano del pensamiento cientfico, y la mquina debe ser instruida de la misma manera en ambos rdenes de competencia
Los distintos modelos de indizacin automatizada irn, como veremos a continuacin, de una mera extraccin en lenguaje natural, donde la palabra se entiende como objeto, pasando por una indizacin por tratamiento lingstico sobre un
vocabulario abierto, a una indizacin "inteligente" por conceptos, donde los sistemas de indizacin y bsqueda se erigen como una verdadera herramienta de bsqueda y recuperacin documental.
3. Modelos de indizacin automatizada y lenguaje natural
En todos los estudios genricos como ste sobre indizacin automatizada se realizan distintas aproximaciones para caracterizar o tipificar los modelos de indizacin automatizada, atendiendo a diversos criterios: uno de los ms habituales es el criterio evolutivo7, en tanto que al ser la indizacin automatizada un campo de investigacin creciente se trata de primar ms los avances de esta tcnica informatizada de anlisis de contenido que la tendencia proftica que trate de discernir el futuro de estos sistemas; otro de los criterios ms seguidos es el que se fundamenta en mtodo de extraccin terminolgica, que distingue fundamentalmente los mtodos de extraccin lingsticos de los no lingsticos, donde los mtodos lingsticos abarcan todas las tcnicas derivadas del PLN y los no lingsticos el resto de las formas de extraccin del vocabulario de corte estadstico, probabilstico e incluso, bibliomtrico8 o informtrico; otro de los parmetros que se tienen en cuenta para estudiar los sistemas de indizacin automatizada es la parte del documento que indizan, distinguiendo esencialmente, los sistemas que indizan las partes principales del documento (ttulo, resumen9) de los que se destinan a indizar el texto completo; finalmente, sealamos un criterio fundamental que aparece en mltiples trabajos: el control del vocabulario, que trata de hacer hincapi en la presencia de lenguajes controlados (tesauros o listas de materias) como elemento
Este es el enfoque del estudio, por ejemplo, de Isidoro GIL LEIVA y Jos Vicente RODRGUEZ MUOZ. Tendencias en los sistemas de indizacin automtica. Estudio evolutivo. Revista Espaola de Documentacin Cientfica, 19(3): 273-291. 1996 Vnia Lisba DA SILVEIRA GUEDES, es una representante de la corriente brasilea (Ro de Janeiro) de aplicacin de criterios estadsticos y de leyes bibliomtricas concretamente las leyes de Zipf y la Ley del punto T de Goffman a la indizacin automatizada. Vid. Estudo de um critrio para indexao automtica derivativa de textos cientficos e tecnolgicos. Ciencias da Informao, 23(3): 318-326. 1994. Concretamente, es este artculo, realiza una aplicacin de la bibliometra para la indizacin de un conjunto de textos sobre la mecnica de suelos.
9 8
Segn Garfield, en facetas del conocimiento muy especializadas (como la Qumica), un 60% de los trminos pertinentes para la indizacin, estn de forma explcita en el ttulo, un 30% est implicado en alguna palabra del ttulo, y slo el 10% restante se extraa propiamente del texto del artculo. Cfr. E. GARFIELD. Op. cit, p. 344
de control semntico del sistema de indizacin automatizada frente a una indizacin exclusivamente full-text10. Todos estos criterios utilizados para establecer una clasificacin de los Sistemas de Indizacin Automatizada no son excluyentes, ms bien responden a un continuum de evolucin. Lo ms habitual es que a tenor de los cambios y de los avances, los modelos no se suplanten, sino que convivan11 y se anen en un fin comn, en este caso, conseguir una indizacin totalmente automatizada. Por ello, trataremos de incluir todos ellos en lo que hemos decidido llamar generaciones de indizacin automatizada, donde parece primar un criterio evolutivo, por razones de claridad expositiva, pero en realidad no queremos revelar slo la evolucin de los sistemas, sino el papel que ha desarrollado en Lenguaje Natural en cada uno de ellos. As distinguiremos: - Una primera generacin de la indizacin automatizada, donde las palabras se entendan como objetos; - Una segunda generacin donde lo que prima es el anlisis lingstico para la desambiguacin de conceptos; - Y finalmente, distinguimos una tercera generacin a la que hemos denominado indizacin "inteligente" en tanto que trata de abstraer no slo conceptos sino modelos conceptuales fundamentados en bases de conocimiento.
3.1. Identificacin automtica de las entradas: la palabra como objeto.
Los primeros ndices automticos, construidos por permutacin de los elementos que componen las unidades susceptibles de indizacin (hasta entonces, slo palabras) fueron los de tipo
KWIC-KWOC.
En los aos 60, Luhn12, consegua aplicar la capacidad
electrnica de los ordenadores a un campo ajeno al de las matemticas. Pas as el
10
Michel REMIZE. Le thsaurus face au texte intgral: une volution tourne vers l'utilisateur. Archimag, (112): 40-41. Mars 1998
11
Un indicio de esto, puede ser el ttulo tan sugerente de un artculo de 1995 de Isabelle GACHOT. Linguistique + statistiques + informatique = indexation automatique. O por ejemplo el sistema SMART emprendido por Salton en 1961, que intentaba procesar documentos de forma automtica fundamentado en principios estadsticos, pero tomando como base principios lingsticos utilizando tanto la morfologa de las palabras como la sintaxis de las frases. Vid. G. Salton. The SMART system 1961-1976. Experiments in dynamic document processing. Encyclopedia of Library and Information Science, vol. 28, 1980, pp. 1-28 (citado por Gil Leiva y Rodrguez Muoz. Tendencias...Op. cit., p. 290) Hans Peter Luhn, especialista de IBM, fue el pionero en aplicar el anlisis estadstico del vocabulario para efectuar una indizacin automatizada, constituy un gran paso en la automatizacin o, ms bien entonces, mecanizacin del anlisis de contenido gracias a la autocodificacin de los textos y la constitucin de ndices KWIC (Key Word In Context) que an hoy se siguen utilizando para la localizacin de trminos en algunos vocabularios controlados (tesauros).
12
10
ordenador a ser considerado capaz de hacer anlisis del contenido de los textos. Pero en realidad comenzaba una larga evolucin que se desarrollara entre la capacidad contable inicial y la reflexin cognitiva a la que aspiran las aplicaciones actuales. Desde el comienzo, los ordenadores se utilizaron para procesar textos, en especial para realizar traducciones automticas13, lo que est muy cerca de los usos documentales.
Estos primeros intentos se basaron en la identificacin de las palabras que aparecan en ttulos14 de artculos cientficos. Para hacerlo se utilizaba una base tcnica muy sencilla: las palabras se consideraban como objetos exclusivamente y por tanto, desde su significante. Para llegar a ser una entrada del ndice las palabras pasaban primero por el filtro de un antidiccionario, cualquier palabra que constase en ste (palabra vaca) y en la unidad que se deba indizar, se eliminaba, y as, las que permanecan se consideraban significativas y pasaban a ser elementos de indizacin. En la base de cualquier proceso de indizacin automtica se iba a situar desde entonces un algoritmo, cuyo funcionamiento se puede explicar en tres pasos, segn muestra en la figura:
Fig. 1. Esquema del funcionamiento del algoritmo (Robredo15)
La obtencin por este medio de palabras claves daba como resultado innumerables referencias cuando se manipulaba el texto completo, ya que se alcanzaba una indizacin no selectiva e indiscriminada, incapaz de diferenciar, para el resultado final, las formas flexionadas de una misma palabra por gnero y nmero. Y mucho menos an de reconocer
13
William LOCKE y Donald BOOTH. Machine translation of languages. Cambridge: MIT Press, 1955
14
Recordemos lo que apuntaba Garfield al respecto de la relevancia de los trminos del ttulo en disciplinas muy especializadas. E. Garfield, Loc.cit. (nota 9)
15
Jaime ROBREDO. Indexao automtica de textos. Uma abordagem otimizada e simples. Cincia da Informao, 20(2):131. 1991. La figura muestra el algoritmo de trabajo de los sistemas que extraan el lenguaje natural fundamentndolo en un antidiccionario, segn muestra fig. 1, el algoritmo se desarrolla en tres pasos: 1) Las palabras del texto son comparadas con las del antidiccionario; 2) se desprecian aquellas que aparezcan a la par en el texto y en la lista y 3) las que permanecen son consideradas palabras-clave.
11
los sinnimos (de tal forma que se podan dar varias entradas para un mismo significado) ni los homnimos (sumando significados distintos al mismo significante). La nica posibilidad de orientacin hacia el contenido que cada palabra quera representar vena a travs de su presentacin en contexto. Determinacin sta utilizada desde antiguo en la confeccin de los denominados ndices de concordancias16. Cuyo establecimiento se haca sabiendo que la posible ambigedad producida cuando las palabras se presentan aisladas quedaba limitada por un contexto que las defina y explicaba.
Los ndices permutados tienen una entrada por cada palabra no vaca del documento o fragmento a indizar. Descomponen, por tanto, en elementos simples las expresiones sintagmticas. La candidatura a ser palabra de indizacin se originaba exclusivamente en no haber sido eliminada por la lista negativa y en aparecer como caracteres de estructura independiente entre dos espacios del texto en blanco. El texto en ningn caso es tomado como una composicin macroestructural, si no como una sucesin de smbolos.
Una consideracin que aminora la diferencia entre la utilizacin del lenguaje natural sin limitaciones y la deseable regulacin se establece al observar que muchos de los intentos hechos para indizar mediante ordenadores se han valido de la informacin presentada en los registros bibliogrficos para facilitar su tratamiento. Partir de ttulos y resmenes ofrece como ventajas tener que procesar un menor volumen, hacerlo sobre la expresin de las ideas sustanciales y encontrar un vocabulario ms representativo y, por tanto, ms idneo. Se utiliza as un recurso heurstico de interpretacin sumaria del texto completo, aprovechando estrategias que ofrece el propio texto.
Un paso ms en la representacin automatizada consisti en hacer clculo de la frecuencia estadstica con que aparecan las palabras. Ya no bastaba simplemente con aparecer en la unidad documental que se indizara para ser considerado candidato, ahora los trminos se seleccionaban si su tasa se situaba prxima a una frecuencia de aparicin media, quedando fuera las palabras cuyo umbral era muy alto y tambin aquellas que lo era muy escaso17. La utilizacin del mtodo cuantitativo es la nica manera que permite
16
Jennifer E. ROWLEY. Abstracting and Indexing. 2nd ed. London: Clive Bingley, 1988, p. 46 J. CHAUMIER et M.
DEJEAN.
17
Loc. cit. 12
generar algoritmos que haga a las mquinas entender la lengua18. An as continuaba siendo una indizacin morfolgica, aunque corregida hacia la pertinencia mediante la limitacin de aquellas palabras cuya aparicin fuera excesivamente abundante o rara dentro de un texto19. Sin embargo, el texto segua siendo considerado una sucesin de smbolos o caracteres, sin prestar atencin a la composicin macroestructural. Y por ello, al situarnos an dentro de una indizacin por palabras, lo implcito, las materias no nombradas, quedaban sin poderse recoger en los ndices.
Podemos decir, no obstante, que esta primera generacin de modelos para la indizacin automatizada, basada en criterios meramente estadsticos o probabilsticos, tiene una importancia significativa: por un lado desde el punto de vista de que son los primeros modelos que surgen como alternativa a la tediosa operacin documental de la indizacin aprovechando el desarrollo de la informtica, y por otro, porque son mtodos que siguen usndose (bien combinados con otros modelos de base ms lingstica para la indizacin o bien, como herramienta para la extraccin de palabras en los procesos de elaboracin de lenguajes controlados tesauros) en reas especficas del conocimiento.
3.2. Progresos hacia la desambiguacin: la funcin de las palabras.
Ya en los primeros intentos de los aos 50 estaba latente un largo proceso para conocer la estructura sintctica de las oraciones textuales. A principios de los 70 se iniciaban los modelos de anlisis lingstico que se han perpetuado en la mayora de los sistemas actuales. Este nueva generacin de sistemas de indizacin automtica, deberan de valerse del Procesamiento del Lenguaje Natural (PLN) cuyos primeros conatos surgan en aquella poca, y que en la actualidad ha conseguido unos resultados que sitan al PLN en posicin para liderar una nueva dimensin en las aplicaciones
G. SALTON, L. ALLAN, y C. BUCKLEY. Automatic Structuring and Retrieval of Large Text Files. Communications of the ACM, 37(2): 97-108. 1994
19
18
La utilizacin de la frecuencia estadstica de aparicin de las palabras en la representacin automtica fue ampliamente tratada por V. ROSENBERG. A study of statistical measures for predicting terms used to index documents. Journal of the American Society for Information Science, 22(1): 41-50. 1971
13
informticas del futuro: los medios de comunicacin del usuario con el ordenador pueden ser ms flexibles y el acceso a la informacin almacenada ms eficiente20. El objetivo era eliminar la ambigedad de las palabras filtrndolas a travs de cuatro procesamientos, anlisis o etapas sucesivas parsers lingsticos (fig.2) de menor a mayor complejidad. Con ellas se busca comprender realmente el significado de los documentos: a) morfolgico-lxico; b) sintctico; c) semntico y d) pragmtico
a) Procesamiento morfolgico-lxico: En primer lugar, se realiza una segmentacin del corpus de textos en unidades menores, procediendo a una verticalizacin de las oraciones y asignndoles una serie de identificadores que sern utilizados como puntos de referencia en los diferentes anlisis posteriores. Se trata no slo de identificar las palabras, si no tambin las formas sintagmticas, las siglas y las locuciones. Los elementos delimitados se contrastan con los dos diccionarios con los que el sistema trabaja (un diccionario que contiene todas las entradas de una lengua; otro con las locuciones e idiotismos), incluso en los sistemas ms actuales, las palabras identificadas son sometidas a un proceso de lematizacin para alcanzar su forma cannica21. Debe advertirse que presenta gran dificultad la captacin de los conceptos del texto desde el lxico: en primer lugar, porque las asociaciones de palabras se alejan a veces mucho del sentido que tenan sus componentes originales, lo mismo que sucede con los trminos polismicos donde slo el contexto determina el significado concreto. Esta etapa tiene como funcin principal la de obtener el lxico, componente bsico de los posteriores anlisis sintctico y semntico; gracias al analizador morfolgico, el anlisis estadstico de frecuencias se realizar sobre datos formalizados y unvocos semnticamente.
b) Procesamiento sintctico: utilizando una gramtica y/o diccionarios, se analizan las

palabras sintcticamente y se describe la estructura de las oraciones. El anlisis sintctico tiene un doble objetivo: por un lado, permite separar las unidades lingsticas con sentido simples o compuestas, y por otro, permite desambiguar las
20
Eduardo Sosa. Procesamiento del lenguaje natural : revisin del estado actual, bases tericas y aplicaciones. En : Information World en Espaol, vol. 6, n 12, enero-febrero 1997, p. 26 Por forma cannica entendemos la transformacin de las formas conjugadas y flexivas en entradas de un diccionario. 14
21
categoras gramaticales asignadas por el analizador morfolgico22 y al mismo tiempo enriquecer y autogenerar los diccionarios de aplicacin. Los analizadores sintcticos determinan la construccin de las oraciones localizando la funcin que cumplen las palabras como sujeto, verbo, complemento (y tipos de complementos23) c) Procesamiento semntico: Su objetivo es alcanzar el conocimiento temtico de los textos, el significado, por tanto, de sus oraciones. Esta es la etapa se fundamentar, normalmente, bien en un anlisis semntico-lxico estudio de las relaciones paradigmticas de significado: este anlisis permite agrupar y jerarquizar el
contenido del texto a travs del reconocimiento nuevamente morfolgico y del reconocimiento de sinnimos e hipernimos, o/y en un
anlisis semntico-gramatical estudio de las relaciones sintagmticas, en el plano de la frase o, y su significado concreto en el contexto del documento todo ello con la finalidad de
Fig. 224
reducir y homogeneizar la informacin lxica del texto que se pretende indizar. Los enlaces dentro de esos esquemas pueden representarse grficamente mediante estructuras arborescentes que permiten refinar las bsquedas ascendiendo hacia los genricos descendiendo por los especficos. La base de este anlisis se encuentra en los procesos deductivos por los que se establecen inclusiones conjuntivas, llegndose a representar los diferentes dominios conceptuales de un texto.
22
Por esta proximidad en el anlisis, algunos modelos de indizacin de segunda generacin, prefieren hablar de analizadores morfosintcticos, tratando de realizar un analizador con una gramtica particular gobernada por la naturaleza de los textos que se indizan, y cuyo cometido ser constituir una serie e modelos que constituyan un repertorio con todas las formas posibles para, a travs del anlisis flexional y de la lematizacin, reducirlos a su forma cannica. Esto demuestra que la serie de principios lingsticos que operan en este tipo de modelos, es constante, pero su orden o fundamentacin terica es aleatoria.
23
William WOODS. Transition network grammars for natural language analysis. Communications of the AMC, 13(10): 591-606. 1970
24
Fases de la indizacin automatizada en un modelo de base lingstica de segunda generacin, basado en Isabelle GACHOT. Linguistique +statistiques+informatique=indexation automatique. Archimag, 84: 34-37. Mai 1995;. y Michelle LUBKOV. Labc du langage naturel. Archimag, (103): 24-25, abril 1997 15
Para efectuar este nivel del anlisis se emplean autnticos tesauros de trminos. Los enlaces que stos establecen, ya sea por jerarquas o por asociaciones, permiten precisar o ampliar cada bsqueda dentro de los textos de un campo especializado. No olvidemos que un tesauro contiene los conceptos (y las relaciones que existen entre ellos) mediante los que se representa el conocimiento de un campo cientfico-tcnico. Precisamente la utilizacin de los mismos tesauros supuso un avance que consisti en que, una vez procesado el texto y extrados los trminos preferentes, pasaron stos a asociarse con dos descriptores de un tesauro. Fue ste el inicio de los mapas lxicos donde se representaban los trminos del texto y una o varias parejas de trminos del tesauro. El ejemplo clsico ha sido el definido por el programa PASSAT (Programm
zur automatischen Selektion vo Stichwrtern aus Texten) que es el mdulo de

anlisis de textos del software de recuperacin de informacin GOLEM de la empresa informtica Siemens. d) Procesamiento pragmtico: El anlisis pragmtico del texto es el ms difcil de automatizar ya que implica un conocimiento del mundo real o semntica de mundo. Se trata de analizar las relaciones contextuales haciendo uso de algoritmos que permiten comprender el contexto del discurso25. Grishman26, por ejemplo, advierte en su Introduccin a la lingstica computacional, que una de las mayores dificultades para analizar el contenido del los textos en lenguaje natural es que gran parte de lo significativo est implcito en el discurso. Por eso, algunos de los estudios ms avanzados en el desarrollo de software para el anlisis de contenido, que por ello podramos incluir en la generacin siguiente abocada a una indizacin inteligente se basan, adems de en un anlisis puramente semntico, en un Anlisis Cognitivo Discursivo27 (ACD) y extraen, lo que se denomina Estructura Fundamental del Significado (SFS), adems de otras tcnicas como la constitucin de Redes Semnticas, que veremos en el apartado siguiente.
25
H. KAMP. Discourse representation theory: What It is and Where It Ought to go?. En: Natural Language at the Computer, 1988, p. 95
26
R. GRISHMAN. Introduccin a la lingstica computacional. Madrid: Visor, 1991
Sobre este aspecto, Vid. Rodolphe GHIGLIONE, et al. L'analyse automatique des contenus. Paris: Dunod, 1998. Donde se describen las tcnicas lingsticas e informticas del software francs para el procesamiento del contenido textual y la recuperacin de informacin: Tropes de Acetic. Informacin relativa a este programa, se puede recabar tambin en la web en: http://www.acetic.fr/prsentat.htm 16
27
3.3. Hacia una indizacin inteligente.
Las ltimas tendencias, que nos permiten hablar de una nueva generacin de sistemas de indizacin automatizada, giran en torno al acceso directo a los documentos a travs del procesamiento lingstico automtico y la utilizacin del lenguaje natural, combinando otras tcnicas como el anlisis estadstico o la ponderacin terminolgica. Se busca asegurar la coherencia a la vez que, al utilizar el lenguaje natural, permitir el acceso a los documentos sin formacin previa en lenguajes documentales y sin conocer el vocabulario terminolgico especfico del campo interrogado, esto es, sistemas funcionales que permitan incluir interfaces inteligentes que posibiliten la utilizacin del lenguaje natural como lenguaje de intercambio de conocimiento entre el documentalista o el usuario final y el sistema. Se trata de integrar todos los modelos y de aprovechar la modularidad en los sistemas para imprimir al ordenador una especie de competencia lingstica y/o cognitiva, teniendo como soporte no slo bases lingsticas, sino bases de conocimiento. Podemos decir que en la evolucin del procesamiento lingstico de los documentos ha habido tres momentos marcados por la utilizacin de otros tantos instrumentos de anlisis. 1. Diccionarios: que guiaron el anlisis morfolgico y el sintctico utilizando reglas lingsticas (gramtica). 2. Tesauros, que permitieron explicitar las unidades semnticas mediante los enlaces de equivalencia, jerarqua y asociacin que existan entre ellos, al aplicar reglas documentales. 3. Bases de conocimiento, que incluso indican los tipos de relaciones que se dan entre los conceptos y desambiguan el contenido del documento. La gestin del conocimiento, que es la tendencia de todos los sistemas de informacin actuales, no tratan de crear un simple almacenamiento y acceso a la informacin, sino todo un proceso de manipulacin, seleccin, mejora y preparacin de la informacin, para dotarla de un valor aadido.
17
Fig. 3. Utilizacin de una red semntica.
En este sentido la indizacin automatizada (genricamente motor de indexacin y bsqueda) sern un elemento fundamental para la recuperacin de informacin en los nuevos sistemas de gestin del conocimiento, y por ello se conciben como sistemas de extraccin de conceptos, construyendo Redes semnticas input-output (fig.3) basadas en bases de conocimiento. Podemos definir un concepto como una representacin general y abstracta de un objeto, que permite la recuperacin de informacin por ideas, definidas stas como representaciones distintivas y detalladas de los objetos contenidos en los textos. En estos nuevos motores de indizacin y bsqueda (v.gr. Spirit, y su mdulo de anlisis semntico Spirit Sense28 o Tropes29) incluidos dentro de software documentales destinados a la GED o a la Gestin del Conocimiento, podemos atisbar un influjo de las teoras lingsticas de Saussure y una utilizacin de la lgica universal aristotlica para construir la semntica del texto y asociar las relaciones del contexto. Las bases de conocimiento, traduccin forzada del trmino ingls knowledge bases segn Leloup30, aparecen pues, en estos sistemas, como un tesauro enriquecido con informacin morfolgica, sintctica y semntica, cuyo vocabulario se obtiene del corpus de documento de un rea del saber. Los textos especializados presentan trminos enlazados. Se trata de identificarlos tal como estn en los textos, incluso nominalizando los verbos. Como los autores de un campo cientfico-tcnico estn al frente de la investigacin, su lenguaje est por encima de los controlados y, por tanto, de los que
Sobre este programa de la empresa T-Gid, vid. Catherine LELOUP. Motores de bsqueda e indexacin: entornos cliente servidor, Internet e Intranet. Barcelona: Ediciones Gestin 2000, 1998, p. 251-257. O la homepage de la empresa en: http://www.technologies-gid.com
29
28
Sobre el funcionamiento y arquitectura del software Tropes, resulta muy interesante el libro de: Rodolphe GHIGLIONE, et al. Op. cit. Catherine LELOUP. Op. cit., p. 146 18
30
poseen los analistas31. Este anlisis se fundamenta en el conocimiento que los expertos han depositado en los documentos, es decir, un conocimiento pragmtico a travs de la aprehensin de su realidad (semntica de mundo). Su aplicacin precisa la intervencin de la estadstica, la informtica, la lingstica y la Inteligencia Artificial. En estos sistemas de indizacin de ltima generacin, se trata pues, adems de asimilar el PLN, de establecer relaciones semnticas desde un hecho con sus causas y consecuencias. Los tesauros ya tenan relaciones de asociacin, pero las bases de conocimientos especifican cmo es esa asociacin, la representan mediante estructuras arborescentes (generalmente B-tree) o en planos. Los trminos existen en el texto igual que en los bancos de datos terminolgicos, lo que ofrece ms posibilidades que el uso de los tesauros que funcionan realmente como diccionarios. El tratamiento lingstico permite recuperar palabras tanto en su forma cannica como flexionada. Precisamente, al tratar las palabras desde el nivel lxico, su procesamiento se complica, ya que las variaciones terminolgicas son innumerables en los textos cientficos debido a la insercin de unos trminos en otros, a las coordinaciones entre trminos, a las variaciones coordinadas y a la morfologa derivacional.
Fig. 4 Software de gestin documental destacando el tipo de indizacin que soporta cada uno de ellos: p-c: palabra clave, full-text: texto ntegro, Ln: lenguaje natural
La ltima generacin de sistemas de indizacin, busca la representacin del contenido utilizando conceptos y algoritmos que dan lugar a nuevas herramientas de software ms complejas y dirigidas a la gestin del conocimiento (algunas de ellas se
31
Xavier POLANCO. Infomtrie et ingnierie de la connaisance. Nancy: INIST-CNRS, 1995. 19
encuentran descritas en la fig.4). Estn dirigidas a la indizacin de textos electrnicos digitalizados; responden a una arquitectura cliente-servidor y a entornos Internet/Intranet; permiten la indizacin e interrogacin en lenguaje natural; combinan tanto el modelo estadstico (ponderacin) con el lingstico y suelen estar formados por 4 mdulos: un mdulo de construccin de reglas (canonizacin), un motor de indizacin; mdulo de clculo estadstico y un diccionario electrnico o base de conocimiento. Podemos decir con todo, que estos sistemas suponen la asuncin del contexto informacional y la solucin integrada para indizar el conocimiento electrnico.
4. Conclusiones. A pesar de que a lo largo de toda la exposicin venimos introduciendo algunos puntos de vista sobre el tema, de forma recopilatoria, podemos concluir lo siguiente : Las investigaciones en torno a la Indizacin Automatizada se deben al alto coste de la indizacin humana (tiempo), al aumento exponencial de la informacin electrnica, a la proliferacin del full-text, a la GED, a la informatizacin de los procesos documentales, a la posibilidad de automatizar los procesos cognitivos y, sobre todo, a la investigacin creciente y a los avances PLN. Fruto de estas investigaciones podemos hablar de distintas generaciones de indizacin automatizada, segn el modelo seguido. La tendencia que siguen las investigaciones en indizacin automatizada es a integrar todos los modelos y a la modularidad en procesos ms simples anlisis estadstico + anlisis lingstico (anlisis sintctico, morfolgico y semntico) de un proceso complejo como es la indizacin. Aunque son muchos los autores, a los cuales nos adscribimos, que anuncian que el xito de la indizacin automatizada vendr de la mano del desarrollo de las tcnicas de Procesamiento del Lenguaje Natural y en el desarrollo de sistemas hbridos y de la Inteligencia Artificial, esta modularidad en la que creemos para el desarrollo de la indizacin automatizada, puede reflejarse tambin en la necesidad de crear sistemas mixtos que conjuguen el software para el tratamiento del texto completo y la GED, con el software para el PLN. Las ltimas tendencias en indizacin automatizada han dado lugar a programas especficos para la indizacin automatizada, pero dentro de software que se destinan a la gestin, almacenamiento y recuperacin de informacin verdaderos Sistemas de Gestin Electrnica de Documentos o Sistemas de Gestin del conocimiento donde el mdulo de procesamiento/indizacin (motor de indizacin) constituye una parte fundamental del sistema (tales programas son por ejemplo: Search'97, ZyIndex, Excalibur, entre otros). Se tiende pues a indizar los documentos en
20
formato digital, por medios electrnicos y al acceso directo a los documentos a por su contenido a travs del procesamiento lingstico automtico a fin de alcanzar una indizacin coherente. Al utilizar lenguaje natural, se accedera a los documentos sin formacin previa en lenguajes documentales, donde creemos el papel del tesauro, como herramienta fundamental para la recuperacin de informacin, no desaparecer con el desarrollo de las bases de conocimiento, sino que reconvertir su utilidad ms, transparente para el usuario, en los momentos input-output del sistema. El campo de investigacin de la indizacin automatizada y de la recuperacin de informacin es inagotable y se ve magnificado al introducir en l el fenmeno de la gestin de la informacin en Red (Internet/Intranet). Se trata pues, de ser receptivos y coherentes con el desarrollo tecnolgico de nuestro tiempo, ya que en todo lo que implica extraccin de datos (data mining), la gestin y la bsqueda del contenido son la prxima etapa, por ello los sistemas de indizacin "inteligentes" sern el futuro para una verdadera gestin del conocimiento (estructurado o no).
5. Bibliografa.
BLOOMFIELD, CHARTON,
L. Aspectos lingsticos de la ciencia. Madrid: Taller de ediciones, 1973
Ghislaine. Indexation manuelle et indexation automatique: dpasser les oppositions. Documentaliste-Sciences de l'Information, 26(4-5): 181-187. Juilletoctobre 1989
CHAUMIER, Jaques et Martine DEJEAN. Lindexation documentaire: de lanalyse conceptuelle humaine lanalyse automatique morphosyntaxique. DocumentalisteSciences de l'Information, 27(6): 275-279. 1990 COULON, Daniel, Daniel KAYSER. Informatique et langage naturel: prsentation gnrale des mthodes dinterpretation des textes crits. Technique et science informatique, 5(2): 103-128. 1986 GACHOT,
Isabelle. Linguistique +statistiques+informatique=indexation automatique. Archimag, 84: 34-37. Mai 1995

GARFIELD,
E. The relationship between mechanical indexing, structural linguistics and information retrieval. Journal of Information Science, (18): 343-354. 1992 Rodolphe, et al. L'analyse automatique des contenus. Paris: Dunod, 1998 Isidoro. La automatizacin de la indizacin de documentos. Gijn: Trea,
GHIGLIONE, GIL LEIVA,
1999
21
GIL LEIVA,
Isidoro, Jos Vicente RODRGUEZ MUOZ. De la indizacin humana a la indizacin automtica. En: Organizacin del conocimiento en Sistemas de Informacin y Documentacin. Zaragoza: Fco. Javier Garca Marco, ed., 1997, p. 201-215 Isidoro y Jos Vicente RODRGUEZ MUOZ. Tendencias en los sistemas de indizacin automtica. Estudio evolutivo. Revista Espaola de Documentacin Cientfica, 19(3): 273-291.1996
IBEKWE, Fidelia. Traitement linguistique des donnes textueles pour la recherche des tendances thmatiques [documento www]. Grenoble: Universit Stendhal, 1995. Disponible en: http://atlas.irit.fr/vsst95/vsst95p8M2.html (consultado el 11 de mayo de 1999) GIL LEIVA,
Digital Documents it's NOT an Option [documento www]. University of Texas, rev. 27 de julio de 1997. Disponible en: http://fiat.gslis.utexas.edu/~scisco/inel.html (consultado el 11de mayo de 1999)
INDEXING
Kevin P. Getting Started in Computerized Indexing. The Indexer, 15 (1): 9-13. April 1986
KAMP,
JONES,
H. Discourse representation theory: What It is and Where It Ought to go? En: Natural Language at the computer, 1988
LELOUP,
Catherine. Motores de bsqueda e indexacin: entornos cliente servidor, Internet e Intranet. Barcelona: Ediciones Gestin 2000, 1998
LISBA DA SILVEIRA GUEDES, Vnia. Estudo de um critrio para indexao automtica derivativa de textos cientficos e tecnolgicos. Ciencias da Informao, 23 (3): 318326. set-dez 1994 LUBKOV,
Michel. Labc du langage naturel. Archimag, (103): 24-25, abril 1997
MOREIRO GONZLEZ,
Jos Antonio. Implicaciones documentales en el procesamiento del lenguaje natural. Ciencias de la Informacin, 24(1):48-54. Marzo1993
PLAUNT,
Christian and Barbara A. NORGARD. An Association-Based Method for Automatic Indexing with a Controlled Vocabulary. Journal of the American Society for Information Science, 49(10): 888-902. 1998. [Tambin accesibe en la web en: Papers on Information Retrieval and Autonomous Agents. Berkeley: University of California, Chris Plaunt's UC Berkeley Web Page, 25 de agosto de 1997, rev. 20 de diciembre de 1995. Disponible en: http://bliss.berkeley.edu/papers/assoc/assoc.html]
POLANCO,
Xavier. Infomtrie et ingnierie de la connaisance. Nancy: INIST-CNRS,
1995
REMIZE,
Michel. Le thesaurus face au texte intgral: une volution tourne vers l'utilisateur. Archimag, (112): 40-41. Mars 1998
22

ROBREDO,
Jaime. Indexao automatica de textos: uma abordagem otimizada e simple. Ciencia da Informao, 20(2): 130-136. Jul/Dez 1991 V. A study of statistical measures for predicting terms used to index documents. Journal of the American Society for Information Science, 22(1): 41-50. 1971
ROWLEY, SALTON, ROSENBERG,
Jennifer E. Abstracting and Indexing. 2nd ed. London: Clive Bingley, 1988
G. Automatic text processing: The transformation, analysis, and retrieval of information by computer. Boston: Addison-Wesley, 1989 G., L. ALLAN and C. BUCKLEY. Automatic structuring and retrieval of large text files. Communications of the ACM, 37(2): 97-108. 1994
SOSA, SALTON,
Eduardo. Procesamiento del lenguaje natural : revisin y estado actual, bases tericas y aplicaciones. Information World en Espaol, 6(12): 26-29. Enero-febrero 1997
SLYPE,
Georges van. Los lenguajes documentales de indizacin: concepcin, construccin y utilizacin en los sistemas documentales. Madrid: Fundacin Germn Snchez Ruiprez, 1991
VERDEJO MAILLO,
M. F. Comprensin del lenguaje natural: avances, aplicaciones y tendencias. Procesamiento del lenguaje natural: 5-29. 1994
WOODS, William. Transition network grammars for natural language analysis. Communications of the AMC, 13(10): 591-606. 1970
23

Indizacion 99

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Indizacion 99

Cargado por

Copyright:

Formatos disponibles

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.

Lenguaje natural e Indizacin automatizada

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

= Referencia del documento fruto del anlisis

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

2. De la indizacin a la indizacin automatizada: justificacin

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

L. BLOOMFIELD. Aspectos lingsticos de la ciencia. Madrid: Taller de ediciones, 1973. p. 105 4

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

3. Modelos de indizacin automatizada y lenguaje natural

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

3.1. Identificacin automtica de las entradas: la palabra como objeto.

En los aos 60, Luhn12, consegua aplicar la capacidad

electrnica de los ordenadores a un campo ajeno al de las matemticas. Pas as el

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Fig. 1. Esquema del funcionamiento del algoritmo (Robredo15)

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

3.2. Progresos hacia la desambiguacin: la funcin de las palabras.

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

b) Procesamiento sintctico: utilizando una gramtica y/o diccionarios, se analizan las

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

zur automatischen Selektion vo Stichwrtern aus Texten) que es el mdulo de

R. GRISHMAN. Introduccin a la lingstica computacional. Madrid: Visor, 1991

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

3.3. Hacia una indizacin inteligente.

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Fig. 3. Utilizacin de una red semntica.

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Xavier POLANCO. Infomtrie et ingnierie de la connaisance. Nancy: INIST-CNRS, 1995. 19

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

L. Aspectos lingsticos de la ciencia. Madrid: Taller de ediciones, 1973

Isabelle. Linguistique +statistiques+informatique=indexation automatique. Archimag, 84: 34-37. Mai 1995

GHIGLIONE, GIL LEIVA,

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

Michel. Labc du langage naturel. Archimag, (103): 24-25, abril 1997

Xavier. Infomtrie et ingnierie de la connaisance. Nancy: INIST-CNRS,

Publicado en: Ciencias de la Informacin, vol. 30 , n 3, septiembre 1999, p.11-24 ____________________________________________________________________________________

También podría gustarte