Está en la página 1de 5

MTODOS ICONOGRFICOS DE OBSERVACIN, EXPLORACIN Y COMUNICACIN APLICADOS A LA MINERA DE TEXTOS

Cesari, M.1, Rodrguez, D. 1, Rancn, C. 1, Merlino, H. 1, 2, Britos, P.1, 2, Garca-Martnez, R.1, 2


1

Centro de Ingeniera del Software e Ingeniera del Conocimiento. Instituto Tecnolgico de Buenos Aires 2 Laboratorio de Sistemas Inteligentes. Facultad de Ingeniera. Universidad de Buenos Aires {drodrigu, crancan, hmerlino, pbritos, rgm}@itba.edu.ar

1. INTRODUCCION La lingstica computacional es la ciencia que trata de la aplicacin de los mtodos computacionales en el estudio del lenguaje natural (Gelbukh and Bolshakov, 1999). El objetivo ms importante es la comprensin del lenguaje, es decir, la transformacin del lenguaje hablado o escrito a una representacin formal del conocimiento, como por ejemplo una red semntica. Algunas de estas otras reas de investigacin son procesamiento de voz, generacin de texto y procesamiento de texto. El procesamiento automtico de textos es una de las reas mas importantes dentro de esta area. El mismo considera una gran diversidad de tareas, como la separacin de palabras, y tareas de minera de texto (categorizacin, clasificacin de textos, clustering, descubrimiento de patrones, tendencias, desviaciones, etc.). La minera de texto es la ms reciente rea de investigacin del procesamiento de textos. Ella se define como el proceso de descubrimiento de patrones interesantes y nuevos conocimientos en una compilacin de textos, es decir, la minera de texto es el proceso encargado del descubrimiento de conocimientos que no existan explcitamente en ningn documento textual, pero que surgen de relacionar el contenido de varios de ellos (Hearst, 1999; Kodratoff, 1999). Tiene como objetivo principal la bsqueda de conocimiento til en enormes colecciones de documentos estructurados y no-estructurados (e-mails, actas, libros, artculos, discursos, encuestas, etc.). Los problemas a abordar pueden surgir del estudio de textos (comparacin de estilos, atribucin de autor, bsqueda documental, etc.) o ser de naturaleza no textual, pero cuyo tratamiento lleve a considerar ciertos textos como datos portadores de informacin (ser el caso en psicologa y sociologa con las entrevistas en profundidad y tests, en politologa con los discursos, programas polticos y artculos periodsticos, etc.). Entre los textos se encuentran las opiniones de respuestas abiertas de encuestas. El tratamiento de estos tipos de texto, se enriquece con la informacin complementaria obtenida con las respuestas al cuestionario estructurado. Una de las herramientas de la minera de texto es el Cartografiado de Texto, que nos permite extraer unidades en los textos, enriquecer la lexicometra con los mtodos de anlisis multivariado y aplicar las herramientas de visualizacin a las tablas lxicas o volmenes de datos lingsticos. Estas herramientas de visualizacin involucran tcnicas estadsticas de anlisis lxico, tcnicas estadsticas de exploracin multivariada y tcnicas de Inteligencia Artificial como mapas autoorganizados de Kohonen. 2. DESCRIPCIN DEL PROBLEMA El tesoro ms valioso de la raza humana es el conocimiento. Gran parte de este conocimiento existe en forma de lenguaje natural: libros, peridicos, informes tcnicos, encuestas de opinin, etctera. La posesin real de todo este conocimiento depende de nuestra habilidad para hacer ciertas operaciones con la informacin. Muchos datos que el investigador se ve obligado a procesar provienen de textos, para obtener datos relevantes de un texto es necesario sistematizar el conjunto de la informacin contenida en el mismo y para esto hace falta ciertos principios y tcnicas de

WICC 2008

466

anlisis. La minera de texto provee de estos principios y tcnicas, se enfoca en el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, es decir, su objetivo es descubrir cosas tales como tendencias, desviaciones y asociaciones entre grandes cantidades de informacin textual. Existen grandes volmenes de Informacin textual organizados en documentos (Corpus), internamente poco estructurados, esto lleva a que el anlisis clsico de datos textuales no sea econmico y consuma muchos recursos en especialistas y tiempo. Este tipo de procesamiento masivo de la informacin plantea mayor volumen de parmetros y variables. Esta situacin ha motivado el desarrollo de nuevas metodologas con tcnicas y paradigmas existentes, y la integracin de los mtodos de anlisis que faciliten el proceso de exploracin de datos textuales. En este argumento se plantea la necesidad de contar una metodologa que permita completamente la preparacin, el tratamiento, el anlisis y visualizacin de informacin apreciable de grandes volmenes de datos textuales. El Cartografiado de Texto, constituye una nueva estrategia de comunicacin de la informacin aportada por la observacin de un sistema estudiado y la sistematizacin del gran conjunto de datos textuales, de modo que la informacin contenida y su estructura de dependencia, pueda representarse grficamente y comunicarse eficazmente. El Cartografiado, permite brindar una representacin de toda la estructura de la informacin en un slo grfico, aunque los datos sean numricos, alfanumricos o textuales y adems las relaciones entre ellos, lo que permite brindar un diagnstico a travs de la imagen de los mismos, una rpida y completa comunicacin y la interpretacin clara de toda la informacin contenida en su estructura. 3. ABORDAJE DE LA SOLUCION Para poder llevar adelante la solucin al problema planteado, se seguirn los siguientes pasos: 1. Definicin de un marco terico que presente en forma sistemtica la integracin de las distintas tcnicas estadsticas de anlisis lxico existentes, tcnicas estadsticas de exploracin multivariada de reciente utilizacin y tcnicas de Inteligencia Artificial como mapas autoorganizados de Kohonen aportadas por la minera de datos; y utilizarlas en el trazado de una metodologa para la exploracin y diagnstico por imagen de datos textuales. 2. Comparacin de herramientas lingsticas, estadsticas, e inteligentes permiten la extraccin, la comparacin y el mapeo (Cartografiado) de los contenidos en textos. 3. Aplicacin la metodologa de Cartografiado de Texto propuesta, a Casos de Ejemplo (estudios de textos literarios, anlisis de respuestas abiertas de encuestas, estudios de test psicolgicos,). 3.1. Estado de avance 3.1.1. Propuesta metodolgica 3.1.1.1. Elaboracin de documentos lxico mtricos - Preparacin del documento para el registro de los datos textuales. Edicin del corpus: Componentes posibles del corpus: narraciones, artculos periodsticos, informes, desgrabaciones de entrevistas y grupos, respuestas libres a preguntas abiertas, y variables sociodemogrficas, socioeconmicas, actitudinales, que tipifican o segmentan las entrevistas o grupos, variables que actan como predictores - variable independiente- , del criterio -variable dependiente. - Estudio de las unidades estadsticas (formas, lemas, segmentos) Segmentacin del texto en unidades. La segmentacin del corpus textual implica diferenciar las unidades elementales: la forma grfica (una secuencia de letras comprendidas entre dos espacios), el lema (todos los vocablos que cuentan con una misma raz y con significado equivalente, es decir, una familia de palabras), los segmentos repetidos (una secuencia de dos o ms palabras que aparecen ms de
WICC 2008 467

una vez en un corpus de datos textuales), los cuasi segmentos (palabras que aparecen en una determinada secuencia pero que presentan alguna diferencia en el gnero o nmero). - Estudio de la riqueza de vocabulario (frecuencia de segmentos repetidos). Construccin del vocabulario del texto. Este se presenta en una tabla (Glosario) de orden lxico mtrico donde se muestra el nmero identificatorio de cada palabra, la palabra del glosario del corpus, la frecuencia de aparicin y la longitud de la unidad medida en nmero de caracteres. 3.1.1.2. Anlisis y cartografiado Nos permiten dos tipos de aplicaciones: text mining, para buscar y extraer informacin significativa y clasificada (sobre las diversas entidades lingsticas); text mapping, para explorar grficamente las relaciones entre temas y palabras clave; - Armado de la Tablas lxicas. formar una tabla de contingencia (Respuestas*formas) o sea una tabla lxica bsica y una tabla de contingencia (Formas*textos) o sea una tabla lxica agregada. - Anlisis multivariado de datos textuales. Aplicacin del 1Anlisis Factorial de Correspondencias, sobre las tablas lexicogrficas o la Clasificacin Automtica (Clasificacin jerrquica ascendente) de las formas lexicales y textos. Identificacin de Los Textos caractersticos, Seleccin de frases enteras caractersticas de cada texto, escogidas segn un cierto criterio como representantes del texto. Identificacin de frases modales. Obtencin de Tipologas o grupos a partir de respuestas y de textos. Asociacin de variables estructuradas, al anlisis de las tablas lxicas permitiendo la clasificacin segn los lxicos empleados y las modalidades escogidas en las variables. Visualizacin de los resultados del Anlisis multivariado. Representacin de la distribucin del corpus lexicogrfico mediante Mapas preceptales. Utilizacin del Anlisis de Correspondencias para la representacin grfica de la informacin contenida en las Tablas lxicas. Anlisis discriminante textual. Prediccin de variables lxicas objetos de estudio (opiniones, actitudes, predisposiciones, perfil de imagen, etc.) a partir del texto. Aplicacin del Anlisis Factorial Discriminante de los mtodos multivariados. - Aplicacin de los 2Mapas Autoorganizados de Kohonen (SOM): Clasificacin de documentos y Creacin de
mapas de un corpus

3.1.2. Algoritmos a utilizar Para poder efectuar los procedimientos enunciados en el esbozo de la metodologa, de forma eficiente, se ha escogido los principales algoritmos que sern expuestos: Codificacin del 3Corpus. Ordenamiento lexicogrfico. Recorrido de un rbol binario lxico. rbol binario de Bsqueda del vocabulario de un corpus rbol Binario de Bsqueda de prefijos
1

La aplicacin del Anlisis Factorial en el campo de anlisis de datos textuales, se centra, principalmente, en el Anlisis Factorial de Correspondencias, algoritmo estadstico desarrollado por Jean Pau Benzcri (1973, 1976). Se trata de un mtodo descriptivo (no explicativo) que se clasifica entre los mtodos multivariables de interdependencia y permite visualizar los datos (que pueden ser cualitativos o cuantitativos) mediante la representacin de una nube de puntos en un espacio de dimensiones reducidas, en funcin de las distancias euclidianas entre los puntos. T. Kohonen present en 1982 un sistema con un comportamiento semejante al del cerebro. Se trataba de un modelo de red neuronal con capacidad para formar mapas de caractersticas de manera similar a como ocurre en el cerebro.

Coleccin completa de textos


WICC 2008 468

rbol Binario de Bsqueda de segmentos Construccin implcitas de particiones Deteccin de cadenas repetidas. Construccin de sub espacios invariantes de la matriz de datos textuales. Anlisis Factorial de Correspondencias. Anlisis Factorial Discriminante. Clasificacin jerrquica ascendente Concordancia de formas grficas. Criterio del Valor de Test para la significacin estadstica en la exploracin de datos. Clasificacin y creacin de Mapas autoorganizados del corpus (mapa de Kohonen)

4. FORMACIN DE RECURSOS HUMANOS En la lnea de investigacin cuyos resultados parciales se reportan en esta comunicacin, se encuentran trabajando: dos tesistas de maestra de Ingeniera del Software y un tesista de grado. 5. CONCLUSIONES Los mtodos del Cartografiado de Texto, proporcionan herramientas extraordinarias para poder extraer la informacin contenida en textos. Cuando se trata de comprimir miles de palabras en unos resultados concisos, siempre hay una simplificacin que puede producir alguna deformacin. Por otra parte, como manifiesta L. Lebart, cada anlisis textual es una verdadera investigacin. El objetivo principal del Cartografiado de la informacin, es la construccin de un nuevo lenguaje de la informacin. Se trata de realizar grficos de amplios conjuntos de datos donde las personas, los entes, los objetos o el medio a describir se trasforman en representaciones sobre un plano. La metodologa propuesta permite: Utilizase como una aplicacin general que permita una lectura fcil de la informacin que contiene, ya que la regla de interpretacin es la de la proximidad de los puntos representados. El mtodo algortmico que aplica su transformacin, tiene el papel de instrumento de observacin, sistematizando los volmenes de datos y proporcionando imgenes a partir de una realidad. Utilizar las facultades de percepcin humana cotidianamente utilizadas. Sobre los grficos se ve con los ojos y el misterioso anlisis iconogrfico que nuestro celebro hace de una imagen: las agrupaciones, oposiciones y tendencias, imposibles de discernir directamente sobre una tabla de datos, inclusos despus de un examen prolongado. Diagnosticar situaciones debido a que las tablas de datos son precisamente un obstculo para su lectura fcil y su asimilacin directa; el cartografiado de la informacin contenida se ofrece mediante una panormica excepcional, permitiendo una crtica particular de la realidad para el usuario. Las figuras dadas por los grficos presentan constataciones, inferencias, estimaciones, entraan conjeturas, y por esto constituyen preciosos instrumentos de anlisis y comunicacin simultneamente. Conocer la realidad: uno de los principales problemas con los que se enfrenta todo periodista, gobernante, poltico o investigador, es la conceptualizacin del medio en donde se desarrolla; es decir, lograr sintetizar afirmaciones generalizables a una situacin determinada. Es aqu donde precisamente el servicio propuesto tiene su mxima aportacin. Medir ciertos aspectos intrnsecos del medio real y transformarlos a un espacio de informacin bsico que produce un modelo simulado, que es imagen actualizada de esa realidad. En ese sentido, esto constituye principalmente el Servicio de Cartografiado. Permitir exhibir aspectos que se escapan a la observacin directa: propone ir ms lejos de las apariencias de los datos: el Servicio de cartografiado de la informacin establece un compromiso entre el poder explicativo y la simplicidad; cumple una funcin de transferencia iconogrfica y su contribucin ms importante es hacer viva la estructura de la informacin y trasmitirla a todos los usuarios por igual.

WICC 2008

469

Permitir crear un vnculo, entre la prestacin de consultora a travs de mapas de indicadores estadsticos con el debate social, la argumentacin y justificacin de las decisiones ejecutivas y la comunicacin eficiente de la informacin al medio. La metodologa propuesta, constituye una nueva estrategia de representacin grfica de la informacin, aportada por una observacin de los multiatributos de un medio o sistema estudiado y la sistematizacin del gran conjunto de datos aportados, de modo que la informacin contenida y su estructura de dependencia, pueda representarse grficamente y comunicarse eficazmente. Aunque se ha expuesto una gua metodolgica de anlisis, sta no es totalmente automtica, el investigador dispone de muchas opciones y tiene que tomar decisiones no excluyentes o realizar el anlisis de varias formas diferentes para comparar los resultados.

6. REFERENCIAS
GELBUKH AND BOLSHAKOV (1999), Avances en Anlisis Automtico de Textos. Proc. Foro: Computacin, de la Teora a la Prctica. IPN, Mexico City, May 26 28, 1999. HEARST (1999), Untangling Text Data Mining, Proc. of ACL99: The 37th Annual Meeting of the Association for Computational Linguistics, University of Maryland, June 20-26, 1999. KODRATOFF (1999), Knowledge Discovery In Texts: A Definition And Applications, Proc. Of The 11th International Symposium On Foundations Of Intelligent Systems (ISMIS-99), 1999.

WICC 2008

470