Está en la página 1de 32

INSTITUTO POLITCNICO NACIONAL CENTRO DE INVESTIGACIN EN COMPUTACIN

Serie: Verde

Fecha: Marzo del 2002

La Anfora indirecta en la lingstica computacional

Ral Morales Carrasco1,2

RESUMEN
Se presentan los principales intentos para explicar el fenmeno de la anfora (en particular la anfora indirecta como uno de los casos extremos del fenmeno), las condiciones que la determinan, sus mecanismos de procesamiento y los desarrollos computacionales para resolverla existentes en la actualidad. En los ltimos aos la resolucin de la anfora ha sido foco de atencin para investigadores en conocimiento e Inteligencia Artificial, filsofos, lingistas, sicolingistas y lingistas computacionales. Su importancia radica en ser uno de los fenmenos ms complejos dentro del lenguaje natural y la necesidad de lograr su resolucin para un amplio rango de tareas del Procesamiento del Lenguaje Natural como: interfaces hombre-mquina, comprensin del lenguaje, traduccin, extraccin de informacin y generacin de resmenes.

Palabras Clave: lenguaje natural, lingstica computacional, anfora indirecta o asociativa

1 Instituto Tecnolgico de Puebla

2 Laboratorio de Lenguaje Natural del Centro de Investigacin del IPN

ADVERTENCIA

Este reporte contiene informacin desarrollada por el Centro de Investigacin en Computacin del Instituto Politcnico Nacional a partir de datos y documentos con derechos de propiedad y por lo tanto su uso queda restringido a las aplicaciones que explcitamente convenga. La aplicacin no convenida exime al Centro de su responsabilidad tcnica y da lugar a las consecuencias legales que para tal efecto se determinen. Informacin adicional de este reporte podr obtenerse recurriendo a la Unidad de Publicaciones y Reportes Tcnicos del Centro de Investigacin en Computacin del I.P.N. Av. Juan de Dios Btiz s/n telfono 5729-60-00 ext. 56500, 56608 y 56610.

Contenido

Contenido.........................................................................................................................................3 1 Introduccin...................................................................................................................................4 2 Antecedentes..................................................................................................................................5 2.1 Evolucin histrica.................................................................................................................5 2.2 Modelos de anlisis................................................................................................................7 2.3 Mtodos utilizados................................................................................................................12 3 Situacin actual............................................................................................................................14 3.1.1 El preprocesamiento automtico de texto......................................................................14 3.1.2 Desambiguacin del sentido de la palabra (DSP)..........................................................15 3.1.3 Resolucin de la anfora................................................................................................20 4 La anfora indirecta.....................................................................................................................21 4.1 Problemas pendientes de resolver.........................................................................................22 5 Conclusiones................................................................................................................................24 6 Obras referenciadas.....................................................................................................................25

1 Introduccin

Desde los primeros estudios del lenguaje, pero ms en los ltimos aos, la resolucin de la anfora ha sido foco de atencin para investigadores en conocimiento e Inteligencia Artificial, filsofos, lingistas, sicolingistas y lingistas computacionales. Su importancia radica, entre otras razones, en que la anfora: es uno de los fenmenos ms complejos dentro del lenguaje natural y es necesaria en un amplio rango de tareas del Procesamiento del Lenguaje Natural como: interfaces en lenguaje natural, comprensin del lenguaje, traduccin automtica, extraccin de informacin y generacin automtica de resmenes. La anfora indirecta, mencionada por primera vez por Chafe en 1976, es uno de los casos ms difciles de relacin anafrica y poco abordada en la lingstica computacional a pesar de su importancia para determinar la coherencia del texto. Descubrir conocimiento sobre ella, las condiciones que la determinan, sus mecanismos de procesamiento y dotar de ellos a la computadora para apoyar el PLN son las metas inmediatas a lograr. La programacin que sea necesaria buscar slo corroborar las hiptesis que se formulen. En el captulo 2 se hace un bosquejo histrico de los principales problemas que de una u otra forma se relacionan con la anfora en el rea de la lingstica computacional. Despus en los captulos 3 y 4 se establecen el problema a resolver y el objetivo a lograr, continuando en el captulo 5 con los beneficios que se obtendrn en el procesamiento del lenguaje natural con la resolucin de la anfora indirecta. En el captulo 6 se esbozan las consideraciones bsicas del mtodo propuesto en el captulo 7, con sus lmites y limitantes posibles en el captulo 8. Se presentan adems, la planeacin de las actividades acadmicas, de difusin y del proyecto desglosadas en los captulos 9 al 11; concentrando todas en los cronogramas por semestre en la seccin 9.2. Finalmente en los captulos 12 al 14 se reportan las referencias citadas, consultadas y pendientes de consultar.

2 Antecedentes

La anfora indirecta, mencionada por primera vez en el trabajo de Chafe [1976], es uno de los casos ms difciles de relacin anafrica [Erk y Gundel, 1987; Kempson, 1988a; Matsui, 1993, 1995; Huang, 1994; Murata y Nagao, 2000]. Tambin conocida como: conexin referencial [Clark, 1977], anfora asociativa [Hawkins, 1978], anfora inferenciable [Prince, 1981], anfora implcita u oculta [Sidorov y Gelbukh, 1999], conexin de referencia cruzada [Huang, 2000], a sido un caso poco abordado en la lingstica computacional a pesar de su importancia para determinar la coherencia del texto [Mitkov, 2001]. La anfora indirecta establece un enlace asociativo entre una entidad lingstica (palabra, expresin) con alguna entidad implcita introducida previamente en texto o en el discurso. En las ltimas dcadas ha recibido una especial atencin dentro de diferentes disciplinas que la han tratado desde varias perspectivas. As, dentro de la tradicin lingstica, se encuentran Erk y Gundel[1987], Huang [1994] y Matsui[1993, 1995]; dentro de la sicolingstica, estn Clark[1977], Clark y Haviland[1977], y Sanford y Garrod[1981]; dentro de la Inteligencia Artificial, est Sidner[1983]; y finalmente dentro de la lingstica computacional estn Murata y Nagao[1996] y Gelbukh y Sidorov[1999a].

2.1

Evolucin histrica

Desde los primeros estudios del lenguaje, pero ms en los ltimos aos, la resolucin de la anfora ha sido foco de investigacin de filsofos, lingistas, cientficos del conocimiento e IA (Inteligencia Artificial), de sicolingistas y de lingistas computacionales [Mitkov, 98a]. Su importancia radica, entre otras razones, en que la anfora:

es uno de los fenmenos ms complejos dentro del lenguaje natural [Huang, 2000; Mitkov, 2001] es considerada uno de los problemas fundamentales de la lingstica y Chomsky se apoya en ella, para mantener la teora de que la facultad del habla es innata [Chomsky, 1986, 1995] se ha demostrado que en ella interactan factores sintcticos, semnticos y pragmticos[Hirst, 1981; Huang, 2000] es necesaria en un amplio rango de tareas del PNL (Procesamiento del Lenguaje Natural) como interfaces en lenguaje natural, la comprensin del lenguaje, traduccin automtica, extraccin de informacin y generacin automtica de resmenes [Hirst 1981; Carter 1987; Fox 1987; Aone y McKee 1993; Cornish 1996; Fretheim y Gundel 1996; Hahn et al 1996; Kameyama 1997; Mitkov, 2001] La anfora es un mecanismo, de economa lingstica, para hacer una referencia de una entidad (referente o anfora) a una entidad que ya ha sido mencionada (referido o antecedente) en el discurso comunicativo. Aparece una entidad lingstica que debe ser vinculada con otra ya mencionada. Por ejemplo: (1) Juan baa al beb y mara lo seca con la toalla referido referente

(2) Juan estuvo comiendo. La mesa est sucia referido referente (3) Juan caminaba en la sala de conciertos. El piano fue fabricado en el siglo XIX referido referente En el ejemplo (1) puede observarse que el referente y el referido se encuentran explcitamente en la oracin, razn por lo cual se le conoce como anfora directa. Se dice que la anfora es indirecta cuando el referente, el referido o ambos se encuentran implcitos. En el ejemplo (2) el acto de comer tiene relacin con la mesa (en general se utiliza una mesa para comer = la mesa donde Juan estuvo comiendo). En el ejemplo (3) el piano tiene relacin con la

sala de conciertos (el piano es un instrumento musical que se utiliza para dar conciertos = el piano que Juan vio mientras caminaba en la sala de conciertos).

2.2

Modelos de anlisis

De los modelos de anlisis de la anfora indirecta, tres son los que ms influencia han tenido en el rea: El modelo focal o del tpico El modelo de escenario El modelo de relevancia En el modelo focal o del tpico, la idea bsica es que la interpretacin de la anfora indirecta est determinada principalmente por el foco o tpico (aquello sobre lo que se est hablando) de las oraciones previas del discurso. Este enfoque est representado por los trabajos de Sidner [1983] y Erk y Gundel[1987]. Por ejemplo, en Sidner hay dos tipos de focos: el foco del agente o actor y el foco del tema o discurso. Con el foco del discurso la interpretacin de la anfora indirecta se efecta por un algoritmo que selecciona aproximadamente el foco del discurso con base en el siguiente conjunto de preferencias: paciente > otros roles temticos > agente > VP. Adems, las interpretaciones resultantes del algoritmo estn sujetas a los requerimientos de consistencia con el conocimiento del mundo. En el modelo de escenario, la idea bsica es que la interpretacin de la anfora indirecta se encuentra siempre referida a un dominio mental apropiado de referencia. Este enfoque est representado por el trabajo entusiasta de Sanford y Garrod [Sanford y Garrod, 1981; Garrod y Sanford, 1994]. Apoyndose en nociones como: marcos [Minsky, 1975; Fillmore, 1982], esquemas [Rumelhart, 1980; Chafe, 1987] y de guiones [Schank y Abelson, 1977], denominaron a este dominio de referencia un escenario. Un escenario, de acuerdo a Sanford y Garrod, puede ser activado o enfocado desde tres dimensiones: actual, porque se encuentra en foco, o no actual, si no es parte del foco o tpico

explcito, se refiere a las entidades que han sido mencionadas directamente en el discurso, o implcito, son entidades que no han sido explcitamente mencionadas pero que estn relacionadas en forma relevante con algo mencionado en el discurso de entidad, representada por los individuos que son los principales protagonistas de una escena, o de rol, referida por los roles tomados en cuenta por los escenarios descritos en el discurso En el enfoque de escenario, de acuerdo a Sidorov y Gelbukh [1999], hay tres tipos posibles de anfora indirecta dependiendo de las relaciones entre la anfora y su antecedente. Caso I La anfora es una palabra en el texto mientras que el antecedente es un elemento de un escenario implcito por otra palabra; este es el caso ms comn. Retomando el ejemplo (2) se puede ilustrar con la siguiente figura, donde se observa que el acto de comer requiere una mesa como parte del escenario: comer la mesa

una mesa escenario Caso II La anfora es un concepto (o palabra) implcito que hace referencia a una palabra en el texto. En el siguiente ejemplo, se observa que el concepto viuda implica el que haya muerto el marido; as el escenario de viuda hace referencia a la muerte de Juan. (4) Juan muri. La viuda estaba abatida por la pena

morir

la viuda

morir escenario Caso III La anfora es un concepto (o palabra) implcito que hace referencia a un concepto (o palabra) implcito en el texto. En el siguiente ejemplo, se observa que el concepto viuda implica el que haya muerto el marido; se requiere que Juan haya muerto para que sea enterrado; as el escenario de viuda hace referencia al escenario de enterrado debido a que Juan muri. (5) Juan fue enterrado. La viuda estaba abatida por la pena enterrar la viuda

morir escenario

morir escenario

En el modelo de relevancia, la idea bsica es que la interpretacin de la anfora indirecta se encuentra suponiendo conexiones que se apoyan en efectos contextuales apropiados pero sin sujetar el lenguaje a esfuerzos injustificados para obtener estos efectos. En pocas palabras, aplicando el principio de relevancia, que intenta siempre maximizar los efectos contextuales y minimizar los esfuerzos de procesamiento [Matsui, 1993, 1995]. Dentro de este modelo, Kempson [1988a, 1988b] observa que la interpretacin de la anfora indirecta requiere un anlisis semntico / pragmtico, ms que gramatical, y de la informacin asociada con premisas adicionales (implcitas).

Para observar las ventajas y desventajas de los tres modelos se puede intentar una comparacin manual tomando como base el ejemplo de Erk y Gundel [1987] y analizndolo desde cada enfoque. (6) Juan entr a un restaurante. El mesero era italiano En el enfoque focal el restaurante es el foco del discurso y por lo tanto el antecedente del mesero. En el enfoque de escenario, el uso de restaurante invoca un escenario que contiene en forma implcita al menos un mesero. Finalmente, dentro del marco de relevancia, la suposicin de conexin de que el restaurante donde Juan entr tiene al menos un mesero proviene de la extensin del contexto por el conocimiento enciclopdico (del sentido comn); como consecuencia toda la interpretacin es consistente con el principio de relevancia. Tomando un ejemplo, un poco ms complicado [Huang, 2000]. (7) Juan se detuvo por un caf en un bar capuchino antes de comer en un restaurante. El mesero era italiano Este ejemplo contiene ms de un antecedente posible para la anfora indirecta El mesero, donde el antecedente preferido sera un bar capuchino (capuchino = bar italiano). Esta interpretacin sera correcta desde el modelo focal porque el algoritmo de Sidner tomara un bar capuchino como el tpico o foco del discurso (por el orden de aparicin en la primera oracin). En contraste, en el anlisis de escenario habra dos escenarios actuales activos, uno para un bar capuchino y otro para un restaurante, cada uno de ellos con posibilidad de tener mesero. Ya que no hay mecanismo para escoger entre ambos escenarios queda confuso como se puede derivar una interpretacin correcta bajo este enfoque. Finalmente, dentro del marco de relevancia, asumiendo que un bar capuchino es ms accesible (por ser de tipo italiano) que un restaurante, sera la conexin preferida para la interpretacin correcta. Para finalizar las comparaciones, se analizan un par de ejemplos similares tomados de Huang [ 2000]. (8) Juan se detuvo por un caf en un bar capuchino antes de visitar un museo de instrumentos musicales. El mesero era italiano (9) Juan se detuvo por un caf en un bar capuchino antes de visitar un museo de instrumentos musicales. El encargado era italiano

10

Intuitivamente, el ejemplo (8) parece menos complejo que el (9) y el porqu se encuentra en el conjunto de factores que afectan la interpretacin. Clark y Haviland [1977] han identificado: la distancia de la conexin (el nmero de suposiciones necesarias para la conexin), la plausabilidad de la conexin (el grado de veracidad de las suposiciones) y la computabilidad de la conexin ( el grado de facilidad en el calculo de las suposiciones); otros factores pueden incluir la accesibilidad (facilidad de acceso) a los antecedentes y a las suposiciones contextuales, y la coherencia general del discurso [Huang, 2000; Matsui, 1995]. Bajo el enfoque focal o del tpico, el factor de accesibilidad a los antecedentes parece jugar un rol crucial para explicar porqu el ejemplo (8) es menos complejo que el (9): mientras el antecedente para el mesero en (8) es el foco del discurso, el antecedente para el encargado en (9) no lo es (puede existir un encargado o supervisor tanto en el museo como en el bar). Por otro lado, en el modelo de escenario se tendra que utilizar la nocin de accesibilidad a las suposiciones contextuales para detectar las diferencias entre (8) y (9): el antecedente para el mesero en (8) se encuentra en el contexto (escenario) ms accesible para el lector que el antecedente para el encargado en (9), considerando, por supuesto, que exista un mecanismo para decidir en cual de los escenarios actualmente activados es ms accesible. Finalmente, en el anlisis de relevancia la complejidad mayor de (9) se puede atribuir al injustificado esfuerzo de proceso que debe realizar el lector para interpretar la anfora indirecta el encargado en el discurso (como resultado de la mayor accesibilidad focal para un bar capuchino y el antecedente que se quiere, un museo de instrumentos musicales). Se puede apreciar, que la validez del anlisis de la anfora indirecta, y de la anfora en general, con el modelo de relevancia depende crucialmente en la aplicacin del principio, o ms concretamente de cmo pueden obtenerse y balancear tanto los efectos contextuales como los esfuerzos de procesamiento. Desgraciadamente, en todos los trabajos consultados [Matsui, 1993, 1995; Kempson, 1988a, 1988b; Sperber y Wilson, 1995; Levinson, 1989] no existe un mecanismo satisfactorio para medir el balance costo-beneficio. No parece, que el principio de relevancia pueda ser implantado confiablemente y se ha reportado la dificultad emprica al probarlo [Huang, 2000].

11

2.3

Mtodos utilizados

De la comparacin anterior, pueden apreciarse las razones por las cuales los trabajos encontrados para la resolucin de la anfora indirecta hayan optado por utilizar los dos primeros modelos. Como se mencion, anteriormente, hay poco trabajo realizado en anfora indirecta y se pudieron localizar cuatro trabajos dos dedicados al Japons [Murata, 1996, 2000] y dos al Ingls [Sidorov y Gelbukh, 1999; Muoz et al, 2000], ninguno al Espaol. De ellos, dos son representativos: una tesis [Murata, 1996] sobre la resolucin de la anfora en general con el captulo 4 dedicado a la anfora indirecta en particular y un artculo [Sidorov y Gelbukh, 1999] donde se propone un mtodo de resolucin de la anfora indirecta. En la tesis de Murata (Resolucin de la anfora en oraciones del japons usando expresiones superficiales y ejemplos), se propone un mtodo, basado en el modelo del tpico o focal, para resolver la anfora indirecta en el Japons utilizando las relaciones existentes entre dos verbos, almacenadas en un diccionario de marcos basado en casos tpicos. Primero toma todos los posibles antecedentes del tpico o foco de las oraciones precedentes; en segundo lugar, pondera dichos antecedentes de acuerdo a su plausibilidad; y por ultimo, determina el antecedente requerido combinando la ponderacin de los antecedentes, el peso de la similaridad semntica de cada relacin almacenada en el diccionario y el peso relativo de la distancia entre la anfora y su posible antecedente. Obtuvo una precisin de 68% y una recuperacin de 63% en las oraciones de prueba comprobando que el uso de las relaciones es til. Este logro anim a Kurohashi et al. [1998] a construir un diccionario semntico de nombres del Japons para aplicarlo con el mismo enfoque [Murata, 2000]. En el artculo, de Gelbukh y Sidorov, (Un mtodo basado en tesauro para la resolucin de la anfora indirecta) el mtodo detecta la anfora indirecta expresada con los marcadores ms frecuentes (en el Ingls e identificados por ellos) un artculo definido o un pronombre demostrativo y aplican el modelo de escenario basado en diccionario. Se utiliza para descubrir relaciones anafricas entre palabras en diferentes oraciones entre una palabra y una entidad implcitamente introducida en el texto previo [Gelbukh y Sidorov, 1999b]; dicha entidad no tiene una representacin superficial en el texto sino en el escenario prototpico de la palabra

12

antecedente. Utilizan un diccionario donde cada entrada de palabra est relacionada con las palabras que pueden participar potencialmente con la situacin expresada por la entrada. Establecen, en el mbito sintctico, dos condiciones que hacen posible la presencia de la anfora indirecta como condiciones necesarias (pero no suficientes); una vez detectada la anfora potencial se buscan los posibles candidatos para antecedentes con base en la distancia lineal y estructural; se determina el grado de satisfaccin por conteo hasta lograr un nivel de satisfaccin preestablecido. Si se logra, significa que existe la relacin anafrica indirecta de otra forma se supone inexistente.

13

3 Situacin actual

Se podra sintetizar rpidamente con el comentario de que todos los problemas lingsticos y computacionales se presentan en la resolucin de la anfora indirecta, debido a la necesidad de hacer explcita para el lector (o computadora) toda la informacin y relaciones requeridas para entender el texto; para apoyar la explicacin de lo anterior, se har un rpido recorrido de dos problemas encontrados y resueltos parcialmente en el PLN que de una u otra forma afectan la resolucin de la anfora y se explicar la resolucin de la anfora en particular.

3.1.1

El preprocesamiento automtico de texto

El preprocesamiento es un problema significativo ya que la exactitud es demasiada baja (desde el punto de vista de resolucin de la anfora) y como consecuencia el rendimiento de estos sistemas est lejos del ideal; la dependencia vital del sistema de resolucin de la anfora es tal que tendr poco rendimiento, aunque el mtodo sea muy bueno. En esta etapa, los problemas principales se encuentran en el anlisis morfolgico, etiquetado de partes de la oracin, reconocimiento de entidades nominales, reconocimiento de pronombres sin funcin anafrica (pleonastic pronouns) reconocimiento de palabras desconocidas, extraccin de frases nominales, descomposicin analtica (parsing), etc. Por ejemplo: la mejor exactitud reportada en la descomposicin analtica de textos sin restriccin es alrededor del 87% [Collins, 1997]; la exactitud de identificacin de pronombres sin funcin anafrica no excede el 80% [Evans, 2000], el ltimo reportado, basado en un algoritmo de aprendizaje, es del 78.68% [Daelemans et al, 1999]; el mejor rendimiento obtenido con etiquetadores de entidades nominales da una exactitud del 96% cuando se prueba y utiliza en corpus con noticias sobre un tpico especfico, y alrededor del 93% cuando se prueba con noticias de un tpico diferente [Mitkov, 2001].

14

Como resultado de las limitantes mencionadas, la mayora de los sistemas de resolucin de la anfora no operan de modo totalmente automtico, y algunos mtodos han sido simulados slo manualmente. Como ejemplos ilustrativos: la resolucin propuesta por Hobbs no fue implantada en su versin original [Hobbs, 1976, 1978]; en otros trabajos los pronombres sin funcin anafrica se removieron manualmente [Dagan e Itai, 1990, 1991; Aone y Bennett, 1995; Kennedy y Bougarev, 1996]; tambin hay trabajos donde se corrigieron manualmente los resultados de las etapas de preprocesamiento (para poder utilizarlas en el algoritmo de resolucin anafrica) [Lappin, 1994; Ferrandez et al, 1997; Mitkov, 1998b]; finalmente hay trabajos donde se utilizaron corpus etiquetados sin etapa de preprocesamiento [Ge et al, 1998; Tetreault, 1999]. Reaccionando a la situacin mostrada (en el Grupo de Investigacin en Lingstica Computacional de la Universidad de Wolverhampton [Mitkov, 2001]) se han iniciado esfuerzos, a largo plazo, para lograr sistemas totalmente automatizados con resultados alentadores [Fukumoto et al, 2000; Tanev y Mitkov, 2000].

3.1.2

Desambiguacin del sentido de la palabra (DSP)

La DSP es considerada como uno de los ms importantes problemas de investigacin en el procesamiento del lenguaje natural; aunque se aprecia como una tarea intermedia [Wilks y Stevenson, 1996]. Es esencial para las aplicaciones que requieren la comprensin del lenguaje como resolucin de la anfora, comprensin de mensajes, comunicacin hombremquina. En los ltimos 10 aos se han multiplicado los intentos de desambiguar palabras automticamente debido a disponibilidad de gran cantidad de texto en corpus legible por la computadora y al desarrollo de mtodos estadsticos para identificar y aplicar la informacin de las regularidades encontradas. En general, la desambiguacin de sentido de palabra involucra la asociacin de una palabra dada en un texto o discurso con una definicin o significado (sentido) qu es distinguible de otros significados potencialmente atribuibles a esa palabra. La tarea, por consiguiente, necesariamente involucra dos pasos: 1) la determinacin de todos los sentidos diferentes para cada palabra pertinente (por lo menos) al texto o discurso bajo consideracin

15

2) un medio para asignar cada ocurrencia de una palabra al sentido apropiado. Para la determinacin de todos los sentidos diferentes para cada palabra (paso 1), el trabajo ms reciente se basa en sentidos predefinidos para la palabra incluyendo: Una lista de sentidos como aquellos encontrados en diccionarios cotidianos. Un grupo de rasgos, categoras, o las palabras asociadas vgr. sinnimos, como en un diccionario ideolgico (tesauro). La definicin precisa del sentido de una palabra es uno de los debates dentro de la comunidad cientfica donde no se ve solucin, en un futuro prximo. Sin embargo, ha habido acuerdo general en que para palabras homgrafas con diferentes partes del habla (vgr. verbo y nombre) la desambiguacin puede llevarse a cabo con mtodos morfosintcticos [Kelly y Stone, 1975]. Por ello, el trabajo se ha enfocado en distinguir sentidos entre homgrafos que pertenecen a la misma categora sintctica. Para la asignacin de cada ocurrencia de una palabra al sentido apropiado (paso 2), la asignacin de palabras a los sentidos, se logra confiando en dos grandes fuentes de informacin: El contexto de la palabra, en el sentido amplio; esto incluye informacin contenida dentro del texto o discurso en que aparece la palabra, junto con la informacin extralingstica sobre el texto como situacin, etc. Fuentes de conocimiento externas, incluyendo recursos enciclopdicos lxicos, etc., as como fuentes de conocimiento, construidas manualmente que proporcionan datos tiles para asociar palabras con sentidos. Todo el trabajo del desambiguacin involucra reconocer el contexto de la palabra con informacin de una fuente de conocimiento externa (basado en conocimiento), o informacin sobre los contextos de casos previamente desambiguados derivados del corpus (basado en corpus). Cualquier mtodo de asociacin, entre la variedad existente, se usa para determinar la mejor seleccin entre el contexto actual y una de estas fuentes de informacin para asignar un sentido a cada ocurrencia de palabra. El contexto es el nico medio para identificar el significado de una palabra polismica (con muchos sentidos). Por consiguiente, todo el trabajo en DSP descansa en el contexto de la

16

palabra elegida para proporcionar informacin que pueda ser usada para su desambiguacin. Para mtodos basados en datos, el contexto tambin proporciona el conocimiento previo con el que el contexto actual se compara para lograr la desambiguacin. En general, el contexto se utiliza de dos formas diferentes: El enfoque de paquete de palabras: aqu, el contexto es considerado como un conjunto de palabras en alguna ventana que rodea la palabra designada, considerado como un grupo sin tomar en cuenta sus relaciones con la palabra designada en trminos de distancia, relaciones gramaticales, etc., Informacin correlativa: el contexto es considerado en trminos de alguna relacin con la palabra designada, incluyendo la distancia a ella, las relaciones sintcticas, las preferencias de seleccin, las propiedades ortogrficas, colocacin de frases, categoras semnticas, etc., La informacin del dominio, el contexto topical, y el contexto local (tambin conocido como micro contexto) contribuyen a la seleccin del sentido, pero la importancia de la informacin y el rol relativo de los diferentes contextos y sus interrelaciones se mantienen a discusin. El uso del dominio para DSP se evidencia primero en los micro glosarios desarrollados en los trabajos iniciales de traduccin automtica. La nocin de DSP basada en el dominio est implcita en varios enfoques dentro de la IA, como el enfoque de escritura de Schank en el procesamiento de lenguaje natural [Schank y Abelson, 1977] que agrup por parejas las palabras a los sentidos basndose en el guin (script) activado por el tpico general del discurso. Este enfoque que activa slo el sentido de una palabra pertinente al dominio actual del discurso, demuestra sus limitaciones cuando se usa aisladamente; en el famoso ejemplo en Ingls The lawyer stopped at the bar for a drink(El abogado se detuvo en la barra / el bar por una bebida), el correcto sentido de barra se asumir slo si se apoya en la informacin de un guin con relacin a la ley. Dahlgren [1988] observ que el dominio no elimina la ambigedad para algunas palabras: comenta que el nombre hand (mano) tiene al menos 15 sentidos y retiene 10 de ellos en casi

17

cualquier texto. La influencia del dominio depende probablemente de factores como el tipo de texto y la relacin entre los sentidos de la palabra designada. El tpico contextual incluye palabras substantivas que co-occurren con un sentido dado de una palabra, normalmente dentro de una ventana de varias oraciones. Diferente al contexto local se ha utilizado en forma menos consistente. Los mtodos que confan en el tpico contextual explotan la redundancia en un texto esto es, el uso repetido de palabras con las que estn semnticamente relacionado a lo largo de un texto sobre un tpico dado. Por ejemplo, la palabra base es ambigua, pero su aparicin en un documento que contiene palabras como pitcher, bola, etc. es suficiente para aislar un sentido dado para esa palabra (en el bisbol). El uso de tpico contextual se ha discutido en el campo de recuperacin de informacin durante varios aos [Anthony, 1954; Salton, 1968]. El trabajo reciente en DSP ha aprovechado el tpico contextual: Yarowsky [1992] usa una ventana de 100 palabras, para obtener clases de palabras relacionadas y como contexto que rodea la palabra polismica considerada usando, el Tesauro de Roget (Roget's Thesaurus); Voorhees et al. [1995] experimentan con varios mtodos estadsticos que usan una ventana de dos oraciones; Gale et al. [1993], usando un contexto de 50 palabras, indican que mientras las palabras ms cercanas a la buscada contribuyen mejor a la desambiguacin, ellos han mejorado sus resultados de 86% a 90% extendiendo el contexto de 6 (tpico cuando slo se considera contexto local) a 50 palabras alrededor de la palabra designada; en un estudio relacionado [Gale et al., 1992], declaran que para un discurso dado, las palabras ambiguas se usan en un solo sentido con alta probabilidad, un sentido por discurso. El estudio de Yarowsky [1993] indica que mientras la informacin dentro de una ventana grande puede ser usada para desambiguar nombres, para los verbos y adjetivos el tamao de la ventana utilizable se reduce dramticamente con la distancia a la palabra buscada. Esto apoya la creencia de que para la desambiguacin se requiere tanto el contexto local como el topical, y apunta hacia la cada vez ms aceptada nocin de que para diferentes clases de palabras se necesitan diferentes mtodos de desambiguacin. Leacock et al. [1998] cambian el enfoque, en su trabajo, combinando el contexto topical y local, lo que muestra que ambos se requieren para lograr resultados consistentes en las palabras polismicas de un texto [ver tambin Towell y Voorhees, 1998]. Considera el papel de contexto

18

local vs. topical, e intenta evaluar la contribucin de cada uno. Sus resultados indican que para un clasificador estadstico, el contexto local es superior al contexto topical como un indicador del sentido. Sin embargo, no est claro si esta distincin es significativa en el trabajo de DSP. Puede ser ms til considerar los dos dentro de un continuum, y considerar el papel e importancia de la informacin contextual como una funcin de distancia de la palabra considerada. El contexto local ha sido el ms utilizado en la mayora de los trabajos en DSP. Se utiliza el contexto local de la ocurrencia de una palabra como un fuente primaria de informacin para DSP. El contexto local o micro contexto es generalmente considerado como una ventana pequea de palabras rodeando la ocurrencia de una palabra en un texto o discurso, desde unas pocas palabras de contexto hasta la frase completa en la que aparece la palabra designada. En General el enfoque de paquete de palabras ha mostrado trabajar mejor para los nombres que para verbos, y ser en general menos eficaz que los mtodos en el que se toman en cuenta otras relaciones. Sin embargo, como demostr el trabajo de Yarowsky [1992], el enfoque es ms barato que aquellos que requieren un proceso ms complejo y puede lograr suficiente desambiguacin para algunas aplicaciones. En cierto sentido el trabajo en DSP ha llegado a un crculo completo y ha vuelto recientemente a los mtodos empricos y anlisis basados en corpus que caracterizan algunos de los esfuerzos iniciales por resolver el problema. Con mayores recursos y mtodos estadsticos reforzados a su disposicin, los investigadores estn mejorando los resultados de los pioneros, pero parece que se ha llegado al lmite de lo que puede lograrse en el marco actual con tcnicas y estructuras de representacin que impiden distinguir entre lexicones, bases de conocimiento y modelos estadsticos de corpus de texto para PLN [Dolan et al, 2000]. Por supuesto, la DSP es en parte problemtica debido a la dificultad inherente de determinar o incluso definir el sentido de la palabra, y ste no es un problema pueda ser resuelto en el futuro cercano [Ravin y Leacock, 2000]. No obstante, parece claro que la investigacin actual en DSP podra beneficiarse considerando las teoras de significado y el trabajo en el rea lxico semntica. Una de las barreras ms claras es el esfuerzo por utilizar distinciones de sentido finas en los diccionarios, que no pueden y no estn diseados, para representar el significado en contexto [Goddard, 2000];

19

se requiere una visin diferente en la teora lingstica actual y la lingstica computacional depende radicalmente de ella.

3.1.3

Resolucin de la anfora

La mayora del trabajo previo en la resolucin de la anfora ha utilizado mucho conocimiento del dominio y lingstico [Sidner, 1979; Carter, 1987; Carbonell y Brown, 1988; Rich y Luperfoy, 1988] lo que ha dificultado la representacin y procesamiento, adems de requerir considerable captura manual. Sin embargo, la necesidad apremiante para desarrollar sistemas robustos y menos costosos ha llevado a los investigadores, a partir de 1990, a alejarse un poco del conocimiento lingstico e intentar estrategias de solucin que requieran menor conocimiento (Knowledge-poor) lingstico [Dagan e Itai, 1990; Kennedy y Bougarev, 1996; Baldwin, 1997; Mitkov, 1998a, 2000b y 2000c]. Se han utilizado adems estrategias combinadas para la resolucin de la anfora en el Espaol [Palomar et al, 2001]. La posibilidad de corpus, sin etiquetar y etiquetados con enlaces referenciales, dio un fuerte impulso a la resolucin de la anfora tomando en cuenta el entrenamiento y la evaluacin; los corpus (especialmente cuando estn etiquetados) son un recurso de gran valor para la investigacin emprica y los mtodos de aprendizaje automtico que animan el desarrollo de nuevas reglas y diferentes enfoques, posibilitando tambin medios para la evaluacin de algoritmos desarrollados. Desde simples reglas de co-ocurrencia [Dagan e Itai, 1991] pasando por el entrenamiento de rboles de decisin para identificar parejas anfora y antecedente [Aone y Bennett, 1995], hasta algoritmos genticos para optimizar los factores que afectan la resolucin de la anfora [Orasan et al, 2000], han sido logrados gracias a la posibilidad de contar con corpus adecuados.

20

4 La anfora indirecta

Se considera una referencia todo enlace entre la palabra y un objeto o accin del mundo real (fsico o conceptual); parafraseando a Saussurre entre el significante y el significado. Si esta referencia se establece dentro del discurso se considera endofrica (intra lingstica o interna) al discurso; de otra forma se considera exafrica (extralingstica o externa) al discurso. De acuerdo a lo anterior, la anfora y la catfora son referencias endofricas; esto hace que para resolverlas se requiera la informacin explcita o implcita en el discurso. Las referencias exafricas, por otra parte, son referencias que sealan lo que est presente en la comunicacin, externas al contexto del discurso, y se utilizan como informacin complementaria que enriquece al mismo. En el caso de la deixis se realiza mediante ciertos elementos lingsticos como esta, esa, aquella; que indican una persona, como yo, vosotros; o un lugar, como all, arriba; o un tiempo, como ayer, ahora. En el siguiente ejemplo se observa que el sealamiento puede referirse a otros elementos del discurso en 1) o presentes solo en la memoria en 2): 1) Invit a tus hermanos y a tus primos, pero STOS no aceptaron 2) AQUELLOS das fueron magnficos En el caso de la homfora es una referencia que depende del conocimiento cultural o del conocimiento general ms que de un contexto en particular. Por ejemplo: El presidente ... su interpretacin depende si nos encontramos en Mxico, Estados Unidos de Norteamrica, Espaa, etc.

21

En el siguiente esquema se muestra la ubicacin de la anfora indirecta como parte de las referencias que se establecen en el discurso comunicativo. directa anfora indirecta endfora catfora referencia deixis exfora homfora

4.1

Problemas pendientes de resolver

Aunque en los ltimos diez aos ha habido un considerable avance en el campo de resolucin de la anfora, existen an considerables problemas sin resolver o requieren ser atendidos para apoyar su resolucin, y que representan los mayores retos para el desarrollo futuro. Para empezar, no se identifica claramente un solo conjunto de factores (lxico, sintctico, semntico y pragmtico) en la resolucin de la anfora y si este conjunto de factores una vez agrupados estara completo. En general los factores son divididos en restricciones y preferencias [Carbonell y Brown, 1988] pero otros autores arguyen que deberan considerarse como escala de preferencias mas o menos restrictiva llamndolas simplemente factores [Preu et al, 1994], sntomas [Mitkov, 1995] o indicadores[Mitkov, 1998a]. Una vez definidos conviene ver el impacto individual de cada factor y su secuencia y/o coordinacin al actuar [Carter, 1990]. Adems del impacto de cada factor en el proceso de resolucin falta esclarecer la existencia o no de dependencia (o dependencia mutua) de los factores. Hasta hoy la dependencia de factores es definida como: dados los factores x y y, y se toma como dependiente del factor x en cuanto que la presencia de x implique y [Mitkov, 1997].

22

Una vez determinados los factores conviene verificar si son aplicables por igual a todas las lenguas (multilinges) o son especficos de cada lengua. Algunos autores apoyan la idea de que los factores tienen aplicabilidad general a todas las lenguas, pero que las lenguas difieren en la importancia relativa de los factores, y por lo tanto de distintas ponderaciones en el algoritmo que se les aplique [Mitkov, 1997]; adems se observa, que la diferencia se da por la evolucin de las lenguas por lo que podemos hablar de lenguas donde predomina ms la sintxis que la pragmtica y viceversa. Desde el punto de vista diacrnico, las lenguas parecen cambiar de ser ms pragmticas a ms sintcticas; desde una perspectiva sincrnica, las diferentes lenguas estan simplemente en diferentes etapas de este crculo evolutivo [Huang, 2000]. Lo anterior, permite visualizar la necesidad de prestar atencin al contexto multilinge emergente en los trabajos de resolucin de la anfora y PLN en general. Esto significa aprovechar los descubrimientos (teoras y herramientas ) en otras lenguas para aplicarlos en trabajos en el Espaol y viceversa [Aone y Mckee, 1993; Azzam et al, 1998; Mitkov y Stys, 1997; Mitkov et al, 1998; Harabagiu y Zamorano, 2000].

23

5 Conclusiones

La resolucin de la anfora indirecta se requiere como apoyo fundamental en el PLN donde las reas como Internet se estn desarrollando aceleradamente y el multilingsmo se requiere para poder involucrar ms gente a la utilizacin y beneficios de la computacin. Para lograrlo se requiere conocimiento semntico o de sentido comn aunado a un anlisis pragmtico. Aunque en los ltimos aos ha habido un considerable avance en el campo de resolucin de la anfora, existen an discusiones de carcter terico y prctico que frenan, por as decirlo el avance en la comprensin del lenguaje [Krahmer y Piwek, 2000]. Es necesario pues apoyar la investigacin en la definicin precisa de la anfora en general y de la anfora indirecta en particular, descubriendo y estableciendo sus caractersticas distintivas que permitan elaborar un mejor modelo (ms preciso) que pueda implantarse por computadora. Se requiere, continuar con la investigacin iniciada por Gelbukh y Sidorov [1999a y 1999b] para determinar: las condiciones de validez en la formacin y los rasgos distintivos (marcadores)

que permitan detectar la existencia o no de la anfora indirecta en un texto cmo debe interpretarse la anfora indirecta cmo debe seleccionarse el antecedente apropiado ante la existencia posible de

mltiples anforas y antecedentes

24

6 Obras referenciadas

Aone, C. y Bennett, S. (1995) Evaluating automated and manual acquisition of anaphora resolution rules. In: Proceedings of ACL'95, 122129 Aone, C. y McKee, D. (1993) A languageindependent anaphora resolution system for understanding multilingual texts. In: Proceedings of the 31st Annual Meeting of the ACL (ACL'93). The Ohio State University, Columbus, Ohio., 156163 Anthony, Edward (1954). An exploratory inquiry into lexical clusters. American Speech, 29(3). 175180. Baldwin, B. (1997) CogNIAC: high precision coreference with limited knowledge and linguistic resources. In: Proceedings of the ACL'97/EACL'97 workshop on Operational factors in practical, robust anaphora resolution Madrid, Spain 3845 Carbonell, J. y Brown R. (1988) Anaphora Resolution: a MultiStrategy Approach. In: Proceedings of the 12. International Conference on Computational Linguistics (COLING'88), Vol.I, Budapest, Hungary 96101 Carter, D. (1987) Interpreting Anaphora in Natural Language Texts. Ellis Horwood, Chichester Carter, D. (1990) Control issues in anaphor resolution. In: Journal of Semantics, 7, 435 454 Chafe, W. (1976). Giveness, Contrastiveness, Definiteness, Subject, Topics, and Point of View. In Ch. N. Li (Ed.), Subject and Topic (pp. 27-55). New York: Academic Press. Chafe, W. (1987) Cognitive Constraints in Information Flow. In R. Tomlin (Ed.), Coherence and Grounding in Discourse (pp 21-51). Benjamins, Amsterdam Chomsky, Noam (1986) Knowledge of language: Its Nature, Origin and Use. Praeger, New York Chomsky, Noam (1995) The Minimalist Program. MIT Press, Cambridge, Mass., USA Clark, Herbert H. (1977) Bridging. In P. JohnsonLaird and P. Wason, editors, Thinking: readings in cognitive science, 411-420. Cambridge University Press, Cambridge, USA

25

Clark, Herbert H. y Haviland, Susan E.(1977) Comprehension and the given-new contrast. In R. Freedle (Ed.), Discourse Production and Comprehension. Collins, M. (1997) Three generative, lexicalised models for statistical parsing. In: Proceedings of the 35th Annual Meeting of the ACL (ACL'97) Madrid, Spain 1623 Cornish, F. (1996) Antecedentless anaphors: deixis, anaphora, or what? Some evidence from English and French. Journal of Linguistics, 32, 19-41. Daelemans, W.; Zavarel, J.; van der Slot, K.; y van den Bosch, A. (1999) TIMBL: Tilburg Memory Based Learner, version 2.0. Reference guide, ilk technical report ILK, Tilburg University 9901 Dagan, Ido e Itai, Alon (1990) Automatic processing of large corpora for the resolution of anaphora references. In: Proceedings of the 13th International Conference on Computational Linguistics (COLING'90), Vol. III, 13, Helsinki, Finland 13 Dagan, Ido e Itai, Alon (1991) A statistical filter for resolving pronoun references. In: Y.A. Feldman, Y.A, Bruckstein, A (eds): Artificial Intelligence and Computer Vision, Elsevier Science Publishers B.V. (NorthHolland) 125135 Dahlgren, Kathleen G. (1988). Naive Semantics for Natural Language Understanding. Kluwer Academic Publishers, Boston. 258pp. Dolan, William; Vanderwende, Lucy; y Richardson, Stephen ( 2000 ) Polysemy in a BroadCoverage Natural Language Processing System. In Polysemy: Theoretical and Computational Approaches. Ravin Yael and Leacock Claudia (ed.). Oxford University Press. New York. 178-204 Evans, R. (2000) A Comparison of RuleBased and Machine Learning Methods for Identifying Nonnominal It. In: Natural Language ProcessingNLP2000, Second International Conference Proceedings, Lecture Notes in Artificial Intelligence, SpringerVerlag, 233242 Ferrandez, A.; Palomar. M.; y Moreno L. (1997) Slot unification grammar and anaphora resolution. In: Proceedings of the International Conference on Recent Advances in Natural Language Proceeding (RANLP'97) Tzigov Chark, Bulgaria 294299 Fillmore, Charles (1982) Toward a descriptive framework for spatial deixis. In R. Jarvella and W. Klein (ed.) Speech, Place and Action. John Wiley and Sons, Chichester. 31-59 Fox, B. A. (1987). Discourse structure and anaphora: written and conversational English. Cambridge University Press, Cambridge. USA

26

Fretheim, T. y Gundel, J. K. (Eds.) (1996). Reference and referent accessibility. Amsterdam: John Benjamins. Fukumoto, F.; Yamada, H.; y Mitkov, R. (2000) Resolving overt pronouns in Japanese using hierarchical VP structures. In: Proceedings of Corpora and NLP Monastir, Tunisia. 152157 Gale, William A.; Church, Kenneth W.; y Yarowsky, David (1992). One sense per discourse. Proceedings of the Speech and Natural Language Workshop, San Francisco, Morgan Kaufmann, 23337. Gale, William A.; Church, Kenneth W.; y Yarowsky, David (1993). A method for disambiguating word senses in a large corpus. Computers and the Humanities, 26, 415439. Garrod, Simon C. y Sanford, Anthony J. (1994). Resolving Sentences in a discourse Context. In M.A. Gernsbacher (Ed.). Handbook of Psicholinguistics. Academic Press, London. 675-98 Ge, N.; Hale, J.; y Charniak, E. (1998) A statistical approach to anaphora resolution. In: Proceedings of the Workshop on Very Large Corpora. Montreal. Canada. 161170 Gelbukh, Alexander y Sidorov Grigori (1999a) On Indirect Anaphora Resolution. In: Proceedings of PACLING99, Waterloo, Ontario, Canada, 181190 Gelbukh, Alexander y Sidorov Grigori (1999b) A Thesaurus-based Method for Indirect Anaphora Resolution. Revised version of On Indirect Anaphora Resolution In: Proceedings of PACLING99 Hahn, U.; Strube, M.; y Markert, K. (1996). Bridging textual ellipses. Proceedings of the 16th International Conference on Computational Linguistics (pp 496-501). Hawkins J.A. (1978. Definiteness and indefiniteness. Humanities Press, Atlantic Highlands, New Jersey, USA. Hirst, Graeme (1981). Anaphora in Natural Language Understanding. Springer Verlag, Berlin. Hobbs, J. R. (1976) Pronoun resolution. Research Report 761. New York: Department of Computer Science, City University of New York Hobbs, J. R. (1978) Resolving pronoun references. Lingua, 44 339352. Huang Yang (1994). The Sintax and Pragmatics of Anaphora: a study with special reference to Chinese. Cambridge University Press, Cambridge, USA

27

Huang Yang (2000). Anaphor: A Croos-linguistic Approach. Oxford University Press, New York, USA Kameyama, M. (1997) Recognizing referential links: an information extraction perspective. In: Proceedings of the ACL'97/EACL'97 workshop on Operational factors in practical, robust anaphora resolution Madrid, Spain 4653 Kelly Edward F. y Stone Philip J. (1975). Computer Recognition of English Word Senses, NorthHolland, Amsterdam. Kempson Ruth ( 1988a ) Grammar and conversational principle. In Newmeyer (1988:ii, 139-63). Kempson Ruth ( 1988b ) Logical Form: the grammar cognition interface. In Journal of linguistics, 24:393-431. Kennedy, C. y Boguraev, B. (1996) Anaphora for everyone: pronominal anaphora resolution without a parser. In: Proceedings of the 16th International Conference on Computational Linguistics (COLING'96) Copenhagen, Denmark 113118 Krahmer, Emiel y Piwek, Paul (2000) Varietes of Anaphora Kurohashi, Sadao; Murata, Masaki; Yata Yasunori; Shimada Mitsunobu; y Nagao Makoto (1998 ) Construction of Japanese Nominal Semantic Dictionary using A NO B Phrases in Corpora. Kyoto University Lappin, S., Leass, H. (1994) An algorithm for pronominal anaphora resolution, Computational Linguistics, 20(4), 535561 Leacock, Claudia; Miller, George A.; y Chodorow, Martin (1998). Using corpus statistics and WordNet relations for sense identification Levinson, Stephen C. (1989 ) A Review of relevance. In Journal of Linguistics. 25:455-72 Matsui, Tomoko (1993) Bridging reference yand the notions of topic and focus. Lingua, 90:49-68. Matsui, Tomoko (1995) Bridging and relevance. Ph.D. dissertation, University College London. Minsky Marvin L. ( 1975 ) A Framework for representing Knowledge. In P. Watson (Ed.) The Psichology of Computer Vision. McGraw Hill, New York Mitkov, R. (1995) An uncertainty reasoning approach for anaphora resolution. In:

28

Proceedings of the Natural Language Processing Pacific Rim Symposium (NLPRS'95), Seoul, Korea 149154 Mitkov, R. (1997) Factors in anaphora resolution: they are not the only things that matter. A case study based on two different approaches. In: Proceedings of the ACL'97/EACL'97 workshop on Operational factors in practical, robust anaphora resolution, Madrid, Spain 1421 Mitkov, R. (1998a) Evaluating anaphora resolution approaches. In: Proceedings of the Discourse Anaphora and Anaphora Resolution Colloquium (DAARC'2). Lancaster, UK Mitkov, R. (1998b) Robust pronoun resolution with limited knowledge. In: Proceedings of the 18.th International Conference on Computational Linguistics (COLING'98)/ACL'98 Conference Montreal, Canada 869875 Mitkov, R. (2000b) Towards more consistent and comprehensive evaluation in anaphora resolution. In: Proceedings of LREC'2000, Athens, Greece, 13091314 Mitkov, R. (2000c) Towards more consistent and comprehensive evaluation of robust anaphora resolution algorithms and systems. Invited talk. In: Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC2000), Lancaster, UK Mitkov, R. (2001) Oustanding Issues in Anaphora Resolution. In: Proceedings of Second International Conference, CICLing 2001, Mexico City, Mxico, 18-24 February. Alexander Gelbukh (Ed.). Lecturer Notes in Computer Science LNCS 2004 Springer 110-125 Mitkov, R. y Stys, M. (1997) Robust reference resolution with limited knowledge: high precision genrespecific approach for English and Polish. In: Proceedings of the International Conference "Recent Advances in Natural Language Proceeding" (RANLP'97) Tzigov Chark, Bulgaria 7481 Mitkov, R.; Belguith, L.; y Stys, M. (1998) Multilingual robust anaphora resolution. In: Proceedings of the Third International Conference on Empirical Methods in Natural Language Processing (EMNLP3) . Granada, Spain 716 Muoz, R.; SaizNoeda; M., Surez; y A., Palomar, M. (2000) Semantic approach to bridging reference resolution. In: Proceedings of the International Conference Machine Translation and Multilingual Applications (MT2000) Exeter, UK. Murata, M., Nagao, M. (2000) Indirect reference in Japanese sentences. In: Botley, S., McEnery, T. (Ed): Corpusbased and computational approaches to discourse anaphora. John

29

Benjamins, Amsterdam/Philadelphia 211226 Murata, Masaki (1996) Anaphora Resolution in Japanese Sentences. Ph. D. Thesis. Kyoto University. Director Nagao, Makoto. Dec, 1996 Murata, Masaki y Nagao, Makoto (1996) Indirect Reference in Japanese Sentences. In DAARC96 - Discourse Anaphora and Resolution Colloquium. Edited by Simon Philip Botley and Julia Glass Nida, E. (1966) A review of Martinet, Andr (1950). Morphology : The descriptive analysis of words. Word, 6(1), 8487. Palomar M.; Saiz-Noeda, M.; Muoz, R.; Surez, A; Martnez-Barco, P.; y Montoyo, A. (2001) In: Proceedings of Second International Conference, CICLing 2001, Mexico City, Mxico, 18-24 February. Alexander Gelbukh (Ed.). Lecturer Notes in Computer Science LNCS 2004 Springer 125-139 Preu S.; Schmitz, B.; Hauenschild, C.; y Umbach, U. (1994) Anaphora Resolution in Machine Translation. Studies in Machine Translation and Natural Language Processing. In: Ramm, W.(ed) : (Vol. 6 "Text and content in Machine Translation: Aspects of discourse representation and discourse processing"): Luxembourg: Office for Official Publications of the European Community 2952 Prince, Ellen F. (1981) Toward a taxonomy of given-new information. In Cole (1981:22355) Ravin Yael y Leacock Claudia ( 2000 ) Polysemy: an overview. In Polysemy: Theoretical and Computational Approaches. Ravin Yael and Leacock Claudia (ed.). Oxford University Press. New York. 1-29 Rich, E. y LuperFoy S. (1988) An Architecture for Anaphora Resolution. In: Proceedings of the Second Conference on Applied Natural Language Processing (ANLP2), Austin, Texas, U.S.A. 1824 Rumelhart, David E. (1980) Schemata: the basic building blocks of cognition. In R. Spiro; B. Bruce and W. Brewer (Ed.) Theoretical issues in Reading Comprehension. Erlbaum. Hillsdale, New Jersey, USA Salton, Gerard (1968). Automatic Information organization and Retrieval. McGrawHill, New York.

30

Sanford, Anthony J. y Garrod, Simon C. (1981). Understanding Written Language (Chichester: John Wiley and Sons). Schank, Roger C. y Abelson, Robert P. (1977). Scripts, Plans, Goals and Understanding. Lawrence Erlbaum, Hillsdale, New Jersey. Sidner, Candece (1979) Toward a computational theory of definite anaphora comprehension in English. Technical report No. AITR537. MIT Press, Cambridge, Massachussetts Sidner, Candece (1983) Focusing and Discourse. Discourse Processes. 6: 107-30 Sidorov Grigori y Gelbukh, Alexander (1999) Demostrative Pronouns as Markers of Indirect Anaphora. Sperber, Dan y Wilson, Deirdre (1995) Relevance: Comunication and Cognition. 2nd edition. Basil Blackwell. Oxford Stock, Penelope F. (1983). Polysemy. Proceedings of the Exeter Lexicography Conference, 131140. Tanev, H. y Mitkov, R. (2000) LINGUA a robust architecture for text processing and anaphora resolution in Bulgarian. In: Proceedings of the International Conference on Machine Translation and Multilingual Applications (MT2000), Exeter, UK. 20.120.8. Tetreault, J. R. (1999) Analysis of SyntaxBased Pronoun Resolution Methods. In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, Maryland, USA. 602605 Towell, Geoffrey y Voorhees, Ellen (1998). Disambiguating highly ambiguous words. Voorhees, Ellen M.; Claudia Leacock, y Geoffrey Towell (1995). Learning context to disambiguate word senses. In Thomas Petsche; Stephen Jos Hanson; and Jude Shavlik, eds., Computational Learning Theory and Natural Learning Systems. MIT Press, Cambridge, Massachusetts. Wilks, Yorick A. y Stevenson, Mark (1996). The grammar of sense: Is word sense tagging much more than part ofspeech tagging?. Technical Report CS9605, University of Sheffield, Sheffield, United Kingdom. Wu Victor, Manmatha R. Y Riseman Edward .( 1997 ) Finding Text in Images in ACM Digital Library, Philadelphia, PA, USA, 1997 Yarowsky, David (1992). Word sense disambiguation using statistical models of Roget's

31

categories trained on large corpora. Proceedings of the 14th International Conference on Computational Linguistics, COLING'92, 2328 August, Nantes, France, 454460. Yarowsky, David (1993). One sense per collocation. Proceeding of ARPA Human Language Technology Workshop, Princeton, New Jersey, 266271.

32

También podría gustarte