Está en la página 1de 8

Uso de Lattices para la Recuperaci on de T erminos

Liset Fraguela C., H ector Jim enez S.


Facultad de Ciencias de la Computaci on B. Universidad Aut onoma de Puebla Edif. 135. Ciudad Universitaria, Puebla, Pue. CP 72570. M exico Tel. (01222) 229 55 00 ext. 7212 Fax (01222) 229 56 72 lisetfraguela@hotmail.com, hjimenez@fcfm.buap.mx

Gerardo Sierra M.
Grupo de Ingenier a Ling u stica Universidad Nacional Aut onoma de M exico Torre de Ingenier a, Ciudad Universitaria, M exico, DF GSierraM@iingen.unam.mx

Abstract: According to the formal concept theory, this paper presents the use of superior and inferior approximations for terminological information retrieval. The experiments show the need to incorporate synonym dictionaries to information retrieval systems, in order to expand users keywords. Resumen: Este art culo presenta el uso de las aproximaciones superior e inferior, con base en la teor a de conceptos formales, para la b usqueda de informaci on terminol ogica a partir de la descripci on del concepto. Se observa la necesidad de incorporar diccionarios de sin onimos a los sistemas de recuperaci on de informaci on, a n de expandir las palabras clave usadas por el usuario. Palabras clave: Recuperaci on de informaci on terminol ogica, lattices, b usqueda onomasiol ogica.

1.

Introducci on

En el campo de la recuperaci on de informaci on terminol ogica, se conoce como b usqueda onomasiol ogica a aquella en la que se parte de la descripci on del concepto para llegar al t ermino que lo designa[8]. El problema es: a partir de la descripci on de alg un concepto obtener las palabras clave cuya denici on se aproxime a la descripci on dada. La propuesta que hacemos en este trabajo consiste en utilizar la aproximaci on en lattices para aplicarlo a Sistemas de Recuperaci on de Informaci on. Para la aplicaci on particular en un diccionario onomasiol ogico, se realiz o una prueba con un glosario o listado de conceptos de

la F sica, con base en los trabajos que desarrolla G.Sierra y J.McNaught[9]. La teor a de conceptos formales fue introducida por R. Wille [2]. A partir de este planteamiento se han realizado varias aplicaciones en diferentes a mbitos [1]. La motivaci on para utilizar esta teor a es el hecho de que un concepto se representa por una pareja cuyo primer componente es el conjunto de ejemplares que denota el concepto, y la segunda componente es el conjunto de caracter sticas que tienen todos los ejemplares del concepto. Adem as, consideramos los trabajos realizados en cuanto a la aproximaci on de conceptos [4][3]. Con estas aproximaciones es posible encontrar en el lattice de conceptos elementos que aproximan a conjuntos de objetos o a conjuntos de atributos. La aplicaci on que aqu presentamos considera la consulta del usuario como un conjunto de atributos y espera obtener un conjunto de objetos que aproximen a la descripci on dada.

2.

Antecedentes

Para precisar las ideas de concepto formal deber an considerarse las cotas superiores e inferiores de un subconjunto S de un conjunto ordenado P , asimismo, si existen, la m nima cota superior y m axima cota inferior de S : supS e inf S , tambi en denotadas por S y S , respectivamente. Dado un conjunto ordenado P , si x y y x y existen para toda pareja x, y P , llamamos a P lattice (o ret cula ). Un contexto (G, M, ) est a formado por un conjunto de objetos, G, un conjunto de rasgos, M , y una correspondencia de G en M , . Se dene as un concepto como la pareja (A, B ), donde A G es llamado extento del concepto, B M es llamado intento del concepto. Las parejas (A, B ) deben cumplir: A = B = {g G | (g ) = m, m B } B = A = {m M | (g ) = m, g A} (1) (2)

Una relaci on de orden parcial puede ser construida sobre los elementos del lattice de conceptos. Dados (A1 , B1 ) y (A2 , B2 ) decimos que (A1 , B1 ) es m as particular que (A2 , B2 ), (A1 , B1 ) (A2 , B2 ), si y s olo si A1 A2 , o equivalentemente B2 B1 . Con lo anterior, en un contexto puede demostrarse que para cada pareja (A1 , B1 ) y (A2 , B2 ) existe el sup e inf, es decir L es un lattice. En un lattice L, x es inf-irreducible si para cada y, z L, x = y z implica x = y o x = z ; dualmente, un elemento x es sup-irreducible si para cualesquier y, z L, x = y z implica x = y o x = z . Por otro lado, el enfoque de conjuntos rugosos [6] considera el empleo de relaciones de equivalencia o tolerancia para hacer aproximaciones a conjuntos. En un sistema de informaci on (G, M ), se considera G, un conjunto de objetos y M un conjunto de atributos. En (G, M ) se denen las aproximaciones inferior y superior de X G como: X B = {x G|[x]B X } y X B = {x G|[x]B X = }, respectivamente, donde [x]B es la clase de equivalencia que induce B M , 2

las cuales se determinan por [x]B = {y |x.b = y.b, b B }. En el caso de las aproximaciones que se han intentado manejar en la teor a de conceptos formales hay variantes sobre el tipo de relaci on que induce las clases de los elementos de G, permitiendo, por ejemplo, relaciones de tolerancia (reexivas y sim etricas). Para este trabajo se emple o la aproximaci on propuesta por Keyun Hu et.al. [4], como veremos enseguida. Dado el contexto (G, M, ) y correspondiente lattice de conceptos L, se dene gR = {m M |(g ) = m} para g G. As , puede denirse una relaci on binaria J en G como: g1 Jg2 si y s olo si g1 R g2 R, donde g1 , g2 G. Claramente, J es una relaci on de orden parcial en G. Denotamos las cotas superiores de g como la clase de orden parcial [g ], espec camente [g ] = {g G : gJg }, y con P el conjunto de parejas ([g ], [g ] ). Si SI es el conjunto de todos los elementos sup-irreducibles de L puede probarse que P = SI [4]. Similarmente, dado Rm = {g G|(g ) = m}, para un contexto (G, M, ), la relaci on binaria K sobre M denida como: m1 Km2 si y solo si Rm1 Rm2 , donde m1 , m2 M , permite referirnos a la clase parcial de m con [m]: [m] = {m M : mKm }. De manera semejante a los elementos sup-irreducibles tenemos que si II es el conjunto de todos los elementos inf-irreducibles de L y Q es el conjunto de todos los pares ([m] , [m]), entonces Q = II . Dados B M , la aproximaci on inferior (A-Inf) y la aproximaci on superior (A-Sup) de B con respecto a L son: B = {B B | (B , B ) II, } y B = {B B | (B , B ) SI.} (4) Con estas aproximaciones es posible encontrar en el lattice de conceptos elementos que aproximan a conjuntos de objetos o a conjuntos de atributos. La aplicaci on realizada considera a la consulta del usuario como un conjunto de atributos y espera obtener un conjunto de objetos que aproximen a la descripci on dada. (3)

3.

Aplicaci on en un diccionario onomasiol ogico

Se consideraron los siguientes datos de entrada al sistema: dos glosarios del a rea de F sica, uno de ellos tiene una denici on para cada vocablo y el otro tres deniciones; una colecci on de consultas y, tambi en, fue utilizado un diccionario de sin onimos. Un glosario est a formado por una lista de registros, a la vez, cada registro est a compuesto por el nombre del concepto o vocablo (D), que ser a la entrada del diccionario, y a continuaci on el conjunto de palabras clave (T ), que describen dicho vocablo. El vocabulario utilizado estar a formado por las palabras clave que describen a todos los vocablos del glosario, eliminando de este las palabras cerradas, y truncando el resto con un truncador de Porter adaptado al espa nol.

Las clases parciales pertenecientes a los elementos de II se obtienen de una tabla inversa donde se representan por cada palabra clave de la denici on, Ti , todos los vocablos donde esta aparece. Las clases que pertenecen a los SI, por otra parte, se obtienen de una tabla donde aparece cada vocablo Dj representado por las palabras clave que componen su denici on. Partiendo de estas dos tablas se realizan las aproximaciones superior e inferior dada una consulta. Para la aproximaci on superior se utiliza la tabla del SI y para la aproximaci on inferior la tabla del II. Estas aproximaciones se obtienen realizando las operaciones que a continuaci on se indican.

3.1.

Aproximaci on Inferior por atributo (T )

Suponemos formada, entonces, la tabla II. Dada una consulta, que a su vez debe tener las mismas caracter sticas que el texto (es decir, truncado, sin palabras repetidas y sin palabras cerradas), para cada palabra clave que compone dicha consulta se determina en qu e deniciones de vocablos aparece. El pr oximo paso ser a traslapar el resultado anterior y la Aproximaci on Inferior (ecuaci on 3) estar a dada por aquellos vocablos que contengan en su descripci on a las palabras clave de la consulta. As la ecuaci on 3 se reexpresa como: T = {T T | (T , T ) II } (5)

3.2.

Aproximaci on Superior por atributo (T )

Se parte de una tabla de vocablos (SI ) representados con sus respectivas deniciones, donde el texto se encuentra truncado, sin palabras repetidas y sin palabras cerradas. La aproximaci on superior (ecuaci on 4) es la uni on del conjunto de vocablos en el que las palabras clave de su denici on est an contenidas en la consulta. Teniendo en cuenta que en muy pocos casos se van cumplir las contenciones exactas en ambas aproximaciones, se introduce el criterio de mayor a. Para la Aproximaci on Superior, el criterio consiste en aceptar como v alido un vocablo donde la mayor a (la mitad del total m as uno) de las palabras clave que lo denen aparezcan en la consulta. Y, en el caso de la Aproximaci on Inferior se reere a que la mayor a de las palabras clave de la consulta est en contenidas en la denici on de un vocablo. Puede suceder que no se utilicen en la consulta las palabras clave que aparecen en las deniciones de los vocablos sino alg un sin onimo de estas, y es por ello que en una de las pruebas se hizo la representaci on de las palabras clave, tanto de las que componen las deniciones como de la consulta, con un diccionario de sin onimos.

3.3.

M etodo directo

Esta primera prueba fue realizada con el contexto de conceptos del a rea de la F sica. Las consultas utilizadas versaron sobre nociones de Mec anica y 4

Cinem atica dadas por profesores de Ingenier a, estudiantes de computaci on y otras extra das del libro de L.Landau /E.Lifshitz[5], las cuales se presentan en la tabla 1. C1 C2 C3 C4 Consulta (truncadas) tercer planet sistem sol choqu conserv cantidad movimient lineal energi aplic fuerz provoc desplaz mism direccion movimient sistem describ line rect cambi veloc tiemp Resp. Correcta (RC ) Tierra Choque el astico Energ a mec anica Movimiento lineal Movimiento rectil neo (Rectil neo ) Aceleraci on (Aceleraci on angular y Aceleraci on centr peta )

C5

Tabla 1. Consultas utilizadas y respuestas correctas. Para las respuestas correctas de la Consulta C5 se encuentran entre par entesis los hip onimos de Aceleraci on. Mientras que la consulta C4 tiene tres posibles respuestas correctas, dos de ellas son sin onimos y la que se encuentra entre par entesis es un hiper onimo de las anteriores. Describiremos ahora los resultados de la aplicaci on de las f ormulas de aproximaci on a los glosarios y consultas. Para la consulta C2 no hubo resultados. Se observ o que en ocasiones el usuario no utiliza una descripci on como las que aparecen en el glosario y, por lo tanto, no se encuentra la respuesta deseada. Esta consulta en particular fue obtenida en el libro L.Landau /E.Lifshitz[5]. Con respecto a los resultados de AInf se puede decir que la evocaci on aument o en algunos casos (particularmente en la A-Inf de la consulta C5) y que la precisi on se mantuvo igual. Los resultados obtenidos en esta prueba con respecto a las Aproximaci on Superiores (A-Sup) fueron los esperados. Para las tres primeras consultas no hubo resultados puesto que es dif cil que las descripciones de los vocablos estuvieran contenidas en la consulta.

3.4.

Uso de un diccionario de sin onimos

En esta prueba se utiliz o un diccionario de sin onimos (41.5 Kb) para representar las palabras clave de la consulta y de las deniciones mediante una palabra equivalente. Las consulta CN homogenizada con el diccionario la denotamos con CNeq. El diccionario de sin onimos es una lista de registros, cada uno est a compuesto por el sin onimo representante (un total de 523) y a continuaci on el listado de sin onimos de dicho vocablo. La sustituci on de las palabras clave, tanto de la consulta como de las deniciones, por su sin onimo representante (en caso que lo tenga) se lleva a cabo de la siguiente forma: 5

1. Buscar la palabra clave de la consulta o de la denici on dentro de las palabras en el listado de sin onimos. 2. Si la palabra clave se encuentra en el listado de sin onimos, entonces la palabra clave se sustituye por el sin onimo representante de la lista. 3. Si la palabra clave no se encuentra en dicho listado de sin onimos, se mantiene esta en la representaci on.

4.

An alisis de resultados

Las tablas 2 y 3 resumen los resultados de la aplicaci on de los dos m etodosaplicadosa las consultas dadas por la tabla 1. En estas tablas se dispone el n umero de respuestas correctas separado por una diagonal del n umero de respuestas entragadas por el sistema. Al comparar los resultados de los m etodos Directo y Sin onimos se podr a decir que el uso de un diccionario de sin onimos para la representaci on, tanto de las consultas como de los glosarios, aumenta levemente la precisi on con respecto al m etodo directo. Esta mejora se intu a antes de aplicar este segundo m etodo, sencillamente porque una misma consulta puede ser expresada por varios usuarios de manera diferente, y esta diferencia es en parte por el uso de sin onimos. Por ejemplo, para la consulta C3, en nuestro caso, la expresamos de la siguiente manera: aplicaci on de una fuerza que provoca desplazamiento en una misma direcci on, sin embargo otro usuario podr a expresar lo mismo deciendo: generaci on de una fuerza que produce un movimiento en el mismo sentido. En ambos casos estar amos buscando que nuestro sistema nos devolviera como respuesta correcta Energ a mec anica o Trabajo mec anico. Aunque se puede considerar que hubo una mejora de los resultados del m etodo de representaci on de palabras claves usando un diccionario de sin onimos con respecto al m etodo directo, los resultados de A-Sup y A-Inf son muy parecidos. Por ejemplo, A-Sup aument o la precisi on utilizando el glosario de tres deniciones para cada vocablo en la consulta C2eq y la cantidad de resultados aument o en las A-Inf de la consulta C5eq, al usar los dos glosarios y en la A-Sup de la consulta C4eq. Aparte de estos cambios, los dem as resultados se mantuvieron igual a los del m etodo anterior. Nos preguntamos, sin embargo, por qu e no mejoraron a un m as estos resultados. Un elemento que inuye en dichas pruebas est a relacionado con las entradas del diccionario de sin onimos utilizado. Otra limitaci on que tuvimos es que el diccionario de sin onimos un diccionario general y, por otra parte, no se considera el contexto de la palabra para hacer la elecci on del sin onimo correcto. Hay que tener en cuenta que partimos de dos glosarios donde como m aximo contabamos con tres deniciones por vocablo. Sin embargo, siempre habr a m as de tres formas de describir dichos vocablos.

Consulta C1 C2 C3 C4 C5

Directo A-Inf A-Sup 1/2 0/0 0/0 0/0 1/1 0/0 1/2 2/2 3/15 2/2

Sin onimo A-Inf A-Sup 1/2 0/0 0/0 0/0 1/1 0/0 1/2 2/2 3/21 2/2

Tabla 2. Comparaci on de resultados de las A-Inf y A-Sup de los dos m etodos en cuanto a precisi on (mediante la relaci on P = R/N Res); usando glosario de una denici on por vocablo. Directo A-Inf A-Sup 1/2 0/0 0/0 0/0 1/1 0/0 1/2 2/2 3/19 2/2 Sin onimo A-Inf A-Sup 1/2 0/0 0/0 1/1 1/1 0/1 1/2 2/2 3/27 2/2

Consulta C1 C2 C3 C4 C5

Tabla 3. Comparaci on de resultados de las A-Inf y A-Sup de los dos m etodos en cuanto a precisi on (mediante la relaci on P = R/N Res); usando glosario de tres deniciones por vocablo.

5.

Conclusiones

En este art culo se present o el uso de las aproximaciones superior e inferior, con base en la teor a de conceptos formales, con el n de obtener los vocablos cuya denici on se aproxima a la descripci on de un concepto dado por un usuario. Los resultados fueron satisfactorios con el m etodo Directo para un glosario de una denici on. De manera general, el m etodo mejora para glosarios con tres deniciones y a un m as con el m etodo de representaci on por Sin onimos. Estos resultados hacen evidente la necesidad de expandir la consulta dada por un usuario en una b usqueda de informaci un, ya que una misma consulta puede ser expresada por los usuarios de manera diferente. En este sentido, el an alisis de los resultados nos permite proponer dos puntos principales para mejorar, en trabajos futuros, el uso de las aproximaciones superior e inferior en la obtenci on de t erminos en sistemas de recuperaci on de informaci on. El primero es el uso de diccionarios de sin onimos especializados en el a rea que se est an realizando las b usquedas. El segundo es contar con glosarios m as extensos en cuanto a formas de describir un vocablo, incorporando, de ser posible, descripciones dadas por diferentes tipos de usuarios.

Referencias
[1] Hans-Hermann Bock (Ed.): Classication, Data Analysis, and Knowledge Organization, North-Holland, Amsterdam, 1991. [2] Bernhard Ganter & Rudolph Wille: Formal Concepts Analyisis, Springer Verlag, 1999. [3] R. Kent: Rough Concepts Analysis: A sythesis of rough set and formal concept analysis, Fundamenta Informaticae 27(1996), 169-181. [4] Keyun Hu, Yuefei Sui, Yuchang Lu, Ju Wang & Chunyi Shi: Concept Approximation in Concept Lattice. PAKDD 2001, LNAI 2035, Springer Verlag, pp. 167-173 2001. [5] L. Landau & E. Lifshitz: Curso Abreviado de F sica Te orica, Mec anica y Electrodin amica. Editorial Mir Mosc u, 1979. [6] Z. Pawlak: Rough Sets -theoretical aspects of reasoning about data, Kluwer, 1991. [7] C.J. van Rijsbergen: Information Retrieval. University of Glasgow, pp. 114 - 117. Second Edition, 1999. [8] Gerardo Sierra & John McNaught: Design of an onomasiological search system: A concept-oriented tool for terminology. Terminology. Vol. 6 (1), 2000. [9] Gerardo Sierra & John McNaught: Natural Language System for Terminological Information Retrieval. CICLing 2003, LNCS 2588, Springer Verlag, pp. 541-552, 2003.