Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lenguaje Natural:
Descripcin de las Etapas
para su Tratamiento
Lenguaje Natural:
Descripcin de las Etapas
para su Tratamiento
- Mxico -
El autor reconoce que esta obra ha sido inspirada de manera especial por su Padre, Hermano
Jess y Consolador como parte de los proyectos de investigacin de World Outreach Light to the
Nations Ministries (WOLNM). As mismo, el trabajo es el resultado de su experiencia
profesional, como investigador y docente en la Unidad Profesional Interdisciplinaria de
Ingeniera y Ciencias Sociales y Administrativas (UPIICSA) del Instituto Politcnico Nacional
(IPN) y fruto del desarrollo de su tesis doctoral en el Centro de Investigacin en Computacin del
Instituto Politcnico Nacional.
PRLOGO
El lenguaje natural es una de las manifestaciones de la capacidad cognitiva del ser humano en la
que da curso a la exteriorizacin de sus pensamientos a sus semejantes. Para ello las personas se
valen de una serie de convenciones fonticas y visuales que hacen posible el entendimiento. Dada
la naturaleza del lenguaje natural, su tratamiento por medio de sistemas de cmputo, constituye
un reto de investigacin y desarrollo.
En este ejemplar, se aborda el tratamiento de lenguaje natural que es alimentado al computador a
travs de un perifrico como el teclado. Al estar reasentado el texto en forma magntica, se evitan
los problemas de ruido y reconocimiento de patrones caractersticos del ambiente normal de
comunicacin entre seres vivos.
Por tal motivo, el material que se presenta en esta edicin se compone de seis captulos en los que
se abordan los temas de: Naturaleza del lenguaje natural. Los anlisis lexicogrficos, sintcticos y
semnticos. Adems de tratar la interpretacin y la generacin del lenguaje. A lo largo del
material se exponen las actividades, tcnicos y estructuras de datos que se recomiendan emplear
para el desarrollo de aplicaciones destinadas al tratamiento del lenguaje natural por un sistema de
cmputo.
TABLA DE CONTENIDO
INTRODUCCIN
3
1. MBITO DEL LENGUAJE NATURAL ..................................................................................................................7
1.1 PERFIL.................................................................................................................................. 7
1.2 REAS DE ESTUDIO.......................................................................................................... 7
1.2.1 Lingstica ...................................................................................................................... 7
1.2.2 Psicologa ....................................................................................................................... 9
1.2.3 Filosofa .......................................................................................................................... 9
1.2.4 Neurociencias ............................................................................................................... 11
1.2.5 Comunicacin Social.................................................................................................... 13
1.3 RAMAS DE INVESTIGACIN......................................................................................... 13
1.3.1 Comprensin del Lenguaje Natural Escrito ................................................................. 13
1.3.2 Dilogo Sonoro............................................................................................................. 14
1.4 DESARROLLOS ................................................................................................................ 14
1.5 APLICACIONES Y PROGRAMAS .................................................................................. 16
1.6 REPRESENTACIN .......................................................................................................... 16
1.6.1 Representacin.............................................................................................................. 16
1.6.2 Mapeo ........................................................................................................................... 17
1.6.3 Nivel de Interaccin entre los Componentes................................................................ 18
1.7 ETAPAS EN EL PROCESAMIENTO ............................................................................... 18
2. ANLISIS LXICO
25
79
5.1 PERFIL................................................................................................................................ 79
5.2 PROCESO ........................................................................................................................... 79
5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO ........................................................... 80
5.4 TCNICAS.......................................................................................................................... 83
5.5.1 Empleo de la Atencin ................................................................................................. 83
5.5.2 Modelo de Creencias .................................................................................................... 83
5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS............................................ 85
5.6 GUIONES............................................................................................................................ 86
5.6.1 Representacin de conocimiento .................................................................................. 86
5.6.2 Razonamiento ............................................................................................................... 88
5.6.3 Ventajas y Desventajas................................................................................................. 89
5.7 COMPRENSIN DE HISTORIAS .................................................................................... 89
5.7.1 Inters ........................................................................................................................... 89
5.7.2 Comprensin de Historias ............................................................................................ 90
6.8 CREACIN DE UN INTERPRETADOR.......................................................................... 90
6. GENERACIN DE LENGUAJE ............................................................................................................................95
6.1 CONSIDERACIONES........................................................................................................ 95
6.2 PROCEDIMIENTO ............................................................................................................ 95
6.3 USO DE PLANTILLAS...................................................................................................... 96
6.4 MODELOS DE GENERACIN ........................................................................................ 98
6.5 PROCEDIMIENTO INVERSO .......................................................................................... 99
6.6 EXPRESIONES ................................................................................................................ 100
6.7 CREACIN DE UN MODELO ....................................................................................... 101
CONCLUSIONES
REFERENCIAS
109
113
TABLA DE FIGURAS
Figura 1. Composicin del Ser Humano. ........................................................................................ 7
Figura 2. Regiones Cerebrales Responsables del Lenguaje. ......................................................... 12
Figura 3. Expresin Arborescente. ............................................................................................... 17
Figura 4. Tipos de Mapeo.............................................................................................................. 18
Figura 5. Interaccin entre los Componentes de una Oracin....................................................... 19
Figura 6. Esquema de un Sistema de Lenguaje Natural. ............................................................... 20
Figura 7. Evolucin de un Sistema de Lenguaje Natural. ............................................................. 20
Figura 8. Ciclo del Analizador Lxico. ......................................................................................... 25
Figura 9. Aplicacin de Unidades Lxicas.................................................................................... 29
Figura 10. Procedimiento de Entrada del Analizador Lxico. ...................................................... 31
Figura 11. Procedimiento de Salida del Analizador Lxico.......................................................... 32
Figura 12. Gramtica Libre de Contexto....................................................................................... 37
Figura 13. RTEF para una Simple Gramtica. .............................................................................. 39
Figura 14. RTEF para una Gramtica............................................................................................ 39
Figura 15. RTEF no Determnistica. ............................................................................................. 40
Figura 16. RTEF de una Gramtica del Ingls. ............................................................................. 41
Figura 17. rbol de Traduccin. ................................................................................................... 42
Figura 18. Estructura de Frase....................................................................................................... 44
Figura 19. Desarrollo de una Gramtica Transformacional. ......................................................... 44
Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional................................. 45
Figura 21. Atributos de los Smbolos de un Frase Marcada.......................................................... 46
Figura 22. Funcionamiento de la Teora de Sintaxis. .................................................................... 47
Figura 23. Gramtica. .................................................................................................................... 50
Figura 24. Estructura Ligada para una Frase................................................................................. 52
Figura 25. Programa para Gramtica tipo RTA. ........................................................................... 53
Figura 26. Contexto de un Lenguaje. ............................................................................................ 58
Figura 27. Marcadores Usados en la Teora Semntica. ............................................................... 59
Figura 28. Marcadores Semnticos. .............................................................................................. 59
Figura 29. Ejemplo de Distinguidores........................................................................................... 59
Figura 30. Rutas Amalgamadas para Interpretar una Oracin. ..................................................... 60
Figura 31. Frases Emitidas por una Semntica Generativa. .......................................................... 61
Figura 32. Frases Marcadas por una Semntica Generativa.......................................................... 62
Figura 33. Oracin por Medio de una Gramtica Case. ................................................................ 63
Figura 34. Oracin Negativa Expresada por Medio de Case Frame. ............................................ 64
Figura 35. Oracin Positiva Expresada Medio de Case Frame. .................................................... 64
Figura 36. Oracin en Voz Activa................................................................................................. 64
Figura 37. Oracin en Voz Pasiva................................................................................................. 65
Figura 38. Red Semntica Binaria................................................................................................. 66
Figura 39. Red Semntica n-aria. .................................................................................................. 67
Figura 40. Red Semntica Relacional. .......................................................................................... 67
Figura 41. Relacin de Entidades. ................................................................................................. 68
Figura 42. Representacin de Objetos........................................................................................... 68
Figura 43. Representacin de Comparaciones. ............................................................................. 68
Figura 44. Herencia Simple........................................................................................................... 69
LISTA DE TABLAS
Tabla 1. Limitaciones y Ventajas de los Lenguajes. ..................................................................... 17
Tabla 2. Alfabeto de la Lengua Castellana.................................................................................... 25
Tabla 3. Ejemplos de Palabras Compuestas. ................................................................................. 26
Tabla 4. Uso de Tiempos............................................................................................................... 26
Tabla 5. Derivados Irregulares. ..................................................................................................... 27
Tabla 6. Opciones de Gnero y Nmero. ...................................................................................... 27
Tabla 7. Comparativos................................................................................................................... 27
Tabla 8. Generacin de Races Incorrectas. .................................................................................. 27
Tabla 9. Formato de Diccionario................................................................................................... 28
Tabla 10. Tipo de Organizacin y Acceso .................................................................................... 28
Tabla 11. Formato de la Estructura Temporal Fuente. .................................................................. 29
Tabla 12. Formato de la Unidad Lxica. ....................................................................................... 30
Tabla 13. Formato de la Estructura Temporal Fuente. .................................................................. 51
INTRODUCCIN
INTRODUCCIN
Los sistemas de cmputo se han convertido en una herramienta para el desempeo de labores
profesionales, comerciales, sociales, deportivas, cultures y domsticas del ser humano; gracias a
los beneficios que brindan en el tratamiento de informacin de una manera confiable, rpida y
precisa. Su popularidad ha crecido aceleradamente gracias a la evolucin de la electrnica y las
comunicaciones, que han aportado avances y mejoras significativas en la fabricacin de equipo
cada da ms poderoso y a la vez econmico, que acompaado por la robustez y facilidad en el
empleo de los programas de cmputo, han hecho en conjunto una herramienta muy valiosa para
el bienestar de la sociedad.
Las tendencias mundiales de automatizacin, globalizacin y modernizacin, obligan a los
sectores productivos de los pases a invertir en el desarrollo, generacin, produccin e
implementacin de bienes con un alto nivel de contenido tecnolgico. En donde el factor comn
es facilitar el uso de los productos e incrementar la utilidad. Un ejemplo contundente es la
generalizacin de aplicaciones de cmputo como el uso de un sistema operativo estndar en los
computadores personales y el intercambio de informacin a travs de internet por medio de un
protocolo universal.
Proveer un vehculo de comunicacin sencillo y natural entre el operador y el sistema ha sido un
factor determinante de xito de estas aplicaciones, lo cual ha motivado a profundizar en el uso de
instrumentos y tecnologas que tiendan a emular el dilogo natural entre los usuarios sin
menoscabo que uno de los participantes sea una mquina.
Para crear este tipo de proyectos se requiere la intervencin de varios campos especializados,
entre los que destaca el Informtico que aparto un conocimiento valioso, organizado en algunas
materias especficas. Una de ellos se conoce como Lenguaje Natural. Disciplina que basa sus
fundamentos en las matemticas, la lingstica y la inteligencia artificial. Con ella se aborda el
reto de construir sistemas de cmputo orientados al manejo, comprensin y generacin del
lenguaje natural que expresa un usuario y la aplicacin que opera.
Es por ello, que como parte de la formacin de un especialista en sistemas de informacin se le
brindan los elementos logsticos y experiencias apropiadas para el diseo de aplicaciones basadas
en el uso del lenguaje natural. Por tal motivo, uno de los temas integrantes de su formacin se
concentra a proponer todos los conceptos, tcnicas y procedimientos necesarios en la concepcin,
diseo e implementacin de sistemas para el proceso de lenguaje natural escrito.
Para enriquecer y facilitar la investigacin y desarrollo de este clase de aplicaciones, se ha
compilado el Reporte Tcnico como resultado de los estudios, investigacin y desarrollo de
sistemas que emplean interfases basadas en el lenguaje natural. Por tanto, la estructura del
material se compone por un conjunto de captulos dedicados a describir las etapas del
procesamiento del lenguaje natural comenzando por describir la naturaleza del propio lenguaje,
las etapas para el proceso del lenguaje natural y se concluye con una serie de observaciones para
la creacin de esta clase de aplicaciones.
El cuerpo del Reporte Tcnico se desglosa de la siguiente forma: El captulo uno se ofrece un
panorama del lenguaje natural, las reas de estudio, las ramas de investigacin, aplicaciones y
programas del lenguaje natural. En el captulo dos se presenta la descripcin del Anlisis Lxico
a partir de los elementos del lenguaje, la morfologa, el diccionario, el manejo de unidades
lxicas, el manejo de errores e implementacin.
El captulo tres describe la naturaleza del Anlisis Sintctico, identifica sus elementos, tales como
las gramticas, adems de ofrecer un resumen de las teoras de Chomsky y de las redes de
transicin aumentadas, concluyendo con una serie de lineamientos para crear un mdulo
sintctico. En el captulo cuatro se dedica a presentar el Anlisis Semntico a partir de un perfil y
de sus elementos. Tambin ofrece un apartado para el anlisis de las gramticas semnticas y
CASE, las Redes Semnticas y la Dependencia Conceptual, amn de ofrecer recomendaciones
para crear un mdulo Semntico.
El captulo cinco introduce un perfil de la Interpretacin del lenguaje natural acompaado por la
descripcin del proceso para su tratamiento, el anlisis pragmtico, tcnicas para la interpretacin
como la atencin y el modelo de creencias, adems de presentar el mtodo de direccin por metas
y los guiones, la comprensin de historias y una serie de lineamientos para crear un intrprete. El
captulo seis aborda el tema de la generacin del lenguaje a partir de las consideraciones,
procedimiento, el uso de plantillas, y modelos de generacin. As mismo, describe el
procedimiento inverso en la generacin de lenguaje, la composicin de expresiones y el proceso
para construir un mdulo.
En los ltimos apartados del Reporte Tcnico se presentan las conclusiones y referencias
bibliogrficas. Con este material se pretende motivar al estudio, desarrollo y aplicacin de
sistemas de informacin que incluyan como interfase hombre-mquina mecanismos para el
procesamiento de lenguaje natural, como un medio simple de dilogo.
Espritu
El ser humano
es
Tripartito
[1]
Intuicin
Conciencia
Comunin
Mente
Alma
Sentimientos
Voluntad
Cuerpo
El fonema /b/ corresponde a dos letras (b y v), lo mismo que el fonema /y/ (letras ll e y
inicial de slaba), y el fonema /rr/ (letras r, rr intervoclica).
Corresponden a tres letras: el fonema /k/ (que se describe con la k, la qu); la c que
precede a las vocales a, o, u (ca, co, cu) y el fonema /s/ (que se escribe con las letras s,
z, c seguida de e o de i: ce, ci).
El fonema /g/ corresponde a la letra g cuando va antes de a, o, u (ga, go ,gu), o bien,
corresponde a la letra doble gu, antes de e o de i (gue, gui).
El fonema /j/ corresponde a la letra j y tambin a la letra g, pero solamente cuando va
seguida de las vocales e e i (ge, gi).
Hay letras dobles: ch (fonema /ch/), ll (fonema /y/), qu (fonema /k/), rr (fonema /rr/) y
gu seguida de e o de i (fonema /g/).
La letra x corresponde a dos sonidos representados por sus respectivos fonemas: /k/ y /s/.
La letra r a veces representa al fonema /r/ (arete) y a veces al fonema /rr/ (rata). Mientras que
la letra h no corresponde a ningn sonido ni representa ningn fonema; slo tiene valor
ortogrfico.
La letra w no se usa en el espaol ms que en palabras procedentes del ingls (en ese caso
suena como u: Washington) o procedentes del alemn (entonces suena como el fonema /b/
Wagner).
Fonologa. La fonologa estudia cul es el valor de los fonemas desde el punto de vista de su
funcin en la lengua. El fonema es el elemento ms simple de la lengua. Representa, en
abstracto, todas las cualidades fnicas que lo hacen identificable en el habla.
El fonema es pues la unidad fonolgica unidad que se caracteriza por ser diferenciadora de
significado, pero carente de significado en s misma. Por ejemplo el fonema /l/, por si solo,
carece de significado; pero si en la palabra ley se sustituye por el fonema /rr/ (rey), resulta una
diferencia de significado.
As pues, la fonologa investiga que diferencias fnicas estn relacionadas con diferencias de
significado, qu relaciones establece un fonema con los dems dentro de un paradigma y como
se da este, por ejemplo, en:
pala (/p/), mala (/m/), sala (/s/), tala (/t/), bala (/b/), gala (/g/), jala (/j/).
-ala el fonema omitido determina la diferencia de la palabra; tambin indica cmo se combina
con otros para formar palabras y frases.
Semntica. Es la disciplina cientfica que estudia los cambios de significacin que han operado
en las palabras.
Para poder entender el proceso de generacin del lenguaje se debe de abordar el problema
tomando en consideracin temas donde este se ve involucrado y tiene que ver, como lo son el
pensamiento, la cognicin, aprendizaje y la personalidad, entre otros.
1.2.3 Filosofa
Se interesa fundamentalmente en dos reas de estudio del lenguaje. La primera como forma de
pensamiento del ser humano - individuo y ente social, la segunda por medio del formalismo en
las estructuras y significados, aplicando mtodos de inferencia.
La filosofa define al lenguaje de la siguiente manera: Parte de la filosofa que investiga las
aportaciones de este medio de expresin, adems de su origen, esencia, y condiciones
espirituales de su desarrollo.
Para los griegos, como iniciadores de la filosofa, el estudio del lenguaje tom gran importancia,
ellos utilizaban con frecuencia la palabra os que en griego significa palabra y en latn se
tradujo como verbo. Scrates utiliz ampliamente un mtodo que utilizaba al lenguaje, en forma
de preguntas llamado en filosofa como Mayutica, utilizndolo primordialmente para hallar
una definicin, el concepto de lo que es el amor, la justicia, la templanza y la compasin.
10
El mtodo socrtico recibe el nombre de Dialctico, como el arte de debatir mediante preguntas y
respuestas, para as llegar a la verdad. El lenguaje humano es artificial, es un producto que se
hereda y que el nio aprende lentamente a travs de los aos, es una creacin de la colectividad
que ningn individuo aislado puede llegar a dominar enteramente. Segn los italianos Vico y
Croce, el lenguaje es una actividad potica que, primitivamente, no pretendi satisfacer ninguna
necesidad sino obedeci al simple placer de nombrar cosas.
Otros afirman que el lenguaje se desarrolla de acuerdo con las necesidades humanas. A medida
que la historia vara, y nuevas concepciones sociales, polticas, religiosas y econmicas surgen y
desaparecen, el lenguaje cambia y tambin se adapta a otras funciones y trata de expresar otros
sentimientos. As una palabra puede tener muchos sentidos. La voz Libertad, por ejemplo, no
significa lo mismo en nuestro tiempo que en la Antigedad Clsica o en la Edad Media,
acontecimientos histricos de gran importancia han cambiado su valor. An en las pocas
recientes, no tiene igual significado en una democracia liberal que en una dictadura. Diferentes
concepciones polticas bastan para alterar el mecanismo expresivo del lenguaje.
Para la filosofa, el lenguaje natural, el que todos hablamos, no est al servicio ni de la razn pura
ni del arte, no apunta ni a un ideal lgico ni a un ideal literario, su funcin primordial constante,
no es la de construir silogismos, ni la de redondear perodos, ni la de plegarse a las leyes. El
lenguaje est simplemente al servicio de la vida y no de la vida de unos pocos, sino de la de todos
y en todas sus manifestaciones, su funcin es biolgica y social.
Si el lenguaje no es una creacin lgica, es porque la vida de la cual es expresin, nada tiene que
ver con las ideas puras. Si se dice que la vida es corta, este axioma no interesa en s mismo
mientras no se sienta, mientras se viva, esta idea general no penetra realmente en alguien, ms
que gracias a una modificacin subjetiva acompaada de una vibracin efectiva, por ligera que
sea, y esto no es posible sino cuando, mediante asociaciones simples o complejas, poco importa,
pienso yo en mi vida o en la vida de otras personas implicadas en mi existencia.
La ecuacin dos y dos son cuatro deja indiferente a quien la conciba con su pura abstraccin,
pero un obrero que ha ganado dos pesos por la maana y dos pesos por la tarde, se representar
muy vivamente que los cuatro pesos que lleva a casa son una suma ms importante que cada una
de los sumandos. Pero esto no es ya una idea, es un valor.
El juicio intelectual de La tierra gira se cambia en juicio de valor en la boca de Galileo al gritar
entre los jueces eppur si muove. En ese momento ya no es una verdad cientfica, es la
afirmacin de un valor adherido a esa verdad, la verdad le parece tan preciosa a quien la emite,
que arriesga su vida por ella. La forma de pensamiento anterior se refleja, segn la filosofa, en
el lenguaje natural, si esto es as, tiene que ser muy distinta de lo que hace creer la lgica y la
esttica.
El lenguaje supone un medio de comunicacin previo, originario, natural. Algunos le llaman
lenguaje natural al que experimenta el nio cuando quiere comunicarse, antes de conocer el
lenguaje artificial. Aristteles llam symbola (signos) a las palabras y pragmata (imgenes) a los
conceptos. En su tratado Interpretatione afirma que las voces son los primeramente signos de las
pasiones del alma y stas son imgenes de las cosas.
11
1.2.4 Neurociencias
Las neurociencias son aquellas disciplinas que se encargan de estudiar el sistema nervioso, su
composicin y funcionamiento, por lo que respecta al lenguaje se interesa en precisar las partes
responsables de su manejo e interpretacin. Nuestro cerebro est dividido en hemisferios
cerebrales, el izquierdo es el que tiene las funciones del movimiento de la mano derecha, el
habla, el lenguaje, la escritura, la lgica, las matemticas y las ciencias.
La corteza cerebral que forma a los hemisferios se divide en cuatro regiones principales
denominadas lbulo frontal, parietal, temporal y occipital. Enfocndonos solamente al
habla y al lenguaje, podemos decir que el lbulo encargado de estas funciones es el lbulo
parietal, el cual se ocupa del reconocimiento de estmulos sensoriales especficos, la capacidad
de usar smbolos como un medio de comunicacin - es decir el lenguaje - y de la capacidad de
desarrollar las ideas y las respuestas motoras necesarias para llevarlas a cabo.
rganos que Participan en el Aprendizaje del Lenguaje
Como se mencion anteriormente, el rgano principal para el aprendizaje del lenguaje es el
cerebro, ya que este recibe todos los impulsos que mandan otros rganos que participan en el
lenguaje, como son: msculos de la laringe, la lengua, las cuerdas vocales. Estos rganos que
coordinan la produccin del habla, derivan sus impulsos nerviosos de distintos centros, los
cuales, a su vez estn gobernados por un centro comn en el cerebro. Cabe mencionar que los
impulsos son llevados al cerebro mediante nervios. Podemos mencionar el nervio hipogloso, que
es el motor de los msculos extrnsecos de la lengua, y el vago, que entre otras funciones, es el
motor de dos msculos de la faringe y laringe.
Localizacin de la Funcin
Mientras estudiaba el cerebro, Gall haba llegado a la conclusin de que los lbulos frontales (la
parte del cerebro ms cercana a la parte superior de la frente) estaban especializada en el habla.
Un admirador de la obra de Gall se sinti tan impresionado por esta afirmacin, que ofreci una
recompensa de quinientos francos a cualquiera que pudiera encontrar un paciente con lesin en el
lbulo frontal y sin un trastorno en el habla. Este reto impuls a un joven neurocirujano llamado
Paul Broca a comenzar el examen de pacientes que sufran de prdida del habla.
El primer caso de Broca ocurri en 1861, cuando un hombre ingres al hospital con una seria
infeccin en una pierna, tambin haba sufrido durante muchos aos la prdida del habla, lo
llamaban Tan, porque era la nica palabra que poda decir. Dos das despus que Broca lo
examin, Tan muri a consecuencia de la infeccin, y Broca pudo realizar un examen
postmrtem del cerebro. La autopsia revel lesiones en la parte izquierda del lbulo frontal.
Durante los tres aos siguientes, Broca investig otros casos ms. Cada uno de los trastornos en
el habla iba acompaado de una lesin en el lbulo frontal izquierdo, por lo que esa zona lleg a
llamarse de Broca. Poco despus de que Broca informara de sus descubrimientos, Carl
Wernicke identific una segunda zona del cerebro, llamada actualmente zona de Wernicke,
relacionada tambin con el lenguaje. La zona de Wernicke est situada en el lbulo temporal, una
parte del cerebro situada sobre la oreja. Lo asombroso fue que las zonas de Wernicke y de Broca
resultaron estar relacionadas con diferentes aspectos del lenguaje.
12
Una lesin (dao en los tejidos) en la zona de Broca produca un trastorno del habla caracterizado
por lentitud y dificultad al hablar y una articulacin deficiente lo cual hace difcil la comprensin
de las palabras. En este tipo de trastorno del habla, o afasia, el lenguaje podr tener sentido
pero generalmente no se puede expresar como una oracin completa. Por ejemplo, al preguntarle
acerca de una cita con el dentista, un paciente dijo: S... lunes... pap y Dick... mircoles nueve
en punto... diez en punto... doctores... y... dientes. Toda la informacin parece estar presente,
pero es difcil comprender las palabras y las oraciones estn incompletas.
Aunque los pacientes con la afasia de Broca tienen dificultad para expresarse, no la tienen para
comprender el lenguaje. Las lesiones en la zona de Wernicke producen un tipo diferente de
afasia. Las oraciones pueden estar gramaticalmente correctas y el habla misma puede ser normal,
pero las oraciones carecen de sentido. Cuando se pidi a un paciente con lesin en la zona de
Wernicke que describiera un grabado donde haba dos nios robando galletas a espaldas de una
mujer, el paciente respondi: Mama est aqu lejos trabajando su trabajo para hacer a ella
mejor, pero cuando ella est mirando los dos nios mirando en la otra parte. Ella est
trabajando otro tiempo. El habla en s es normal, y las palabras estn unidas en algo que
parecen oraciones, pero esas oraciones carecen de sentido. Adems de perturbar el lenguaje
hablado, las lesiones en la zona de Wernicke tambin alteran la comprensin del lenguaje. Los
pacientes con afasia de Wernicke fuerte no pueden comprender ni siquiera palabras solas.
Las diferencias entre las afasias de Wernicke y de Broca llevaron a Wernicke a formular un
modelo de cmo el cerebro produce el lenguaje. Hoy en da, casi cien aos despus, este modelo
es ampliamente aceptado an. Segn este modelo, cuando se oye una palabra, la seal pasa a la
zona de Wernicke, donde es comprendida como un mensaje verbal. El lenguaje hablado se
origina en la zona de Wernicke. All es donde se forman las oraciones con sentido. Entonces,
la oracin es transferida a la zona de Broca. La zona de Broca es responsable de la
programacin de los msculos de la cara, la lengua y la laringe para que la persona emita la
oracin formada en la zona de Wernicke. De esta forma, una lesin en la zona de Broca
afecta el habla, mientras que una lesin en la zona de Wernicke deja el habla intacta, pero
perturba la comprensin del lenguaje y la formacin de oraciones con sentido, como se aprecia en
la Figura 2.
13
Tanto Wernicke como Broca descubrieron que los centros del lenguaje en el cerebro humano se
localizaban casi siempre en el hemisferio izquierdo. Por eso los pacientes que sufren lesiones
debido a una trombosis en el lado izquierdo del cerebro, y no en el derecho, tienen dificultades
con el habla.
1.2.5 Comunicacin Social
En la comunicacin social concurren diversas disciplinas como la sociologa, ciencias jurdicas
y polticas y la publicidad, las cuales en forma individual ponen una especial atencin a la
comunicacin de masas procurando que cada miembro de ellas quede cautivo del mensaje
deseado, esperando cierto tipo de reaccin.
Cuando la comunicacin social emplea medios masivos de comunicacin ejerce dos tipos
principales de influencias: las mas directas, inmediatas y visibles (denominadas primarias) y
los efectos secundarios, producidos a mediano o largo plazo, son menos aparentes y sin duda mas
generales, pero resultan capaces de modificar progresivamente el modo de pensar o actuar de una
poca o sociedad.
Efectos Primarios
La sociologa de observacin los efectos primarios se ha desarrollado a partir de dos prototipos
de estudios muy caractersticos. El primero compara las distintas convicciones y respuestas
individuales antes y despus de la explosin de la comunicacin, con lo que se pondera la
eficacia de una difusin. El segundo mtodo estudia los cambios que se producen en la opinin
durante diferentes emisiones como por ejemplo las campaas electorales o publicitarias, etc.
Las encuestas de opinin pblica son un digno ejemplo de la aplicacin de este enfoque, donde
una muestra de personas con diversas caractersticas pueden mostrar patrones de preferencias
especficas, por ejemplo, al cuestionar las inclinaciones polticas de los electores en los Estados
Unidos de Amrica se detect que la combinacin de un nivel socioeconmico elevado, la
pertenencia a una religin y la residencia en zona rural predisponan al voto republicano,
mientras que la combinacin inversa se inclinaba hacia el partido demcrata.
Efectos Secundarios
Al observarse los efectos secundarios de modo socilogo se llega a desempear el papel de
ensayista que suple la falta de informacin con intuicin, juicios apriorsticos o su propia
ideologa. Los comuniclogos estn de acuerdo en creer que el horizonte de la cultura moderna se
modifica por la continua accin de los medios de comunicacin; y se insiste cada vez mas en las
posibilidades de diversificacin que ofrecen el desarrollo de la prensa especializada y la
multiplicacin de emisores de radio, televisin e internet. Se define como la existencia de una
cultura en forma de mosaico, constituida yuxtaposicin de elementos muy dispares.
14
1.4 DESARROLLOS
Los primeros proyectos en el campo del lenguaje natural iniciaron en los 60s con los siguientes
trabajos [4]:
ELIZA & STUDENT: Fueron dos proyectos a cargo de Weizenbaum & Bobrow orientados al
dilogo, estos sistemas almacena informacin acerca de sus dominios ("dilogo entre el terapeuta
y su paciente") con estructuras ad-hoc traduciendo declaraciones e interrogaciones sencillas en
"palabras clave" o "simples patrones" que se asocian con objetos definidos y relaciones, para
generar respuestas apropiadas aplicando reglas heursticas dependientes del dominio.
Traductores Automticos: las primeras aplicaciones iniciaron en ese tiempo, sin embargo,
rpidamente se reconoci que para entender el texto a traducir se requera de enormes cantidades
de conocimiento "ordinario" y en particular, se necesitaba la capacidad para hacer inferencias
acerca de objetos, intenciones, relaciones, etc. que no estn explcitas en el texto. El trabajo ms
significativo a comienzos de los 70s fue el sistema hecho por Yonck Wilks; que traduca del
ingls al francs basado en representaciones semnticas y en esquemas de inferencia. Su xito fue
muy limitado porque el sistema no conoca nada del tema a traducir en un sentido razonable.
Durante los 70s y 80s han destacado las siguientes aplicaciones: SHRDLV: desarrollado por
Winograd, dialoga con el usuario para realizar tareas de planeacin en la configuracin del
"mundo de los bloques", por medio de declaraciones y comandos contesta preguntas acerca del
estado de los bloques y las razones para efectuar movimientos.
15
16
Sistemas conversacionales.
Generadores de historias.
Traductores.
Sistemas expertos.
Tutores inteligentes.
Sistemas de planeacin.
Reconocimiento de voz.
Y en general los sistemas de informacin orientados a interactuar con el usuario final
mediante el lenguaje.
1.6 REPRESENTACIN
1.6.1 Representacin
El ser humano usa el lenguaje natural para satisfacer la necesidad de transmitir sus "conceptos
internos" a su prjimo a travs de representarlos por un medio (llamado lenguaje) compuesto de
elementos y reglas (para interrelacionarlos), del cual selecciona aquellas unidades que mejor los
ilustran, con el propsito de lograr que el receptor "entienda" lo que realmente desea expresar.
Para cumplir con el objetivo de hacerse entender, es necesario considerar 4 dominios:
La estructura lingstica, que est enfocada a regular los elementos estructurales del lenguaje.
La correspondencia entre las estructuras lingsticas y el mundo
Proceso cognoscitivo, involucra las estructuras de conocimiento y su manipulacin por el
procesador del lenguaje.
La accin humana y su interaccin con el mundo, la cual asocia al lenguaje dentro del
contexto del tiempo relativo a hechos y expectativas.
17
LIMITACIONES
VENTAJAS
1.6.2 Mapeo
Para llevar a cabo tanto la representacin del lenguaje, como su entendimiento es necesario
reconocer el proceso de mapeo que existe tanto de parte del que expresa el mensaje como de
aquel que lo recibe; en donde la idea bsica es convertir la forma original de un concepto a otra;
existiendo entonces varias relaciones de mapeo, tal como aparece en la Figura 3 y 4:
1 a 1:
A= B*2+8
traducida a un rbol
18
Proporciona una lista de los clientes que compraron mas de $10,000 el mes pasado.
SELECT * FOR VENTA > 10,000 AND MES = "ENERO"
1 * n: Son situaciones que obligan a emplear mucho conocimiento del dominio para entender
correctamente su significado: "Juan le grita a Pedro psamela!"
El baln durante el partido de basketball.
El ovoide durante el partido de football americano.
La goma durante la clase.
n * m: Representa al hecho de haber muchas formas de expresar distintas cosas:
Se cay la bolsa
19
S
Quin tena la cmara? Si fue Pedro:
NP
VP
Pedro
Vio
NP
DET
PP
NOM
PP
a su novia
en el parque
S
Pero si fue la novia de Pedro
NP
Pedro
VP
NP
Vio
DET
su
NOM
novia
PP
20
Representacin
interna
Texto
de
Entrada
Traductor
Interpretador
Generador
Base de
conocimiento
Texto de Salida
Figura 6. Esquema de un Sistema de Lenguaje Natural.
Representacin Interna (RI). Es el mapeo del texto de entrada en un formato adecuado para la
manipulacin de los mdulos del SLN y consiste en las estructuras almacenadas en la base de
conocimientos.
Base de Conocimientos (BC). Se constituye por 3 tipos de elementos interrelacionados:
Entidades. Son personas, animales, objetos o lugares que deben ser descritos y que
protagonizan los eventos.
Eventos. Son acciones que pueden ocurrir involucrando entidades con roles de actor, objeto,
instrumento, origen y destino; adems de poder involucrar a otras acciones.
Situaciones. Combinan entidades y eventos con condiciones y resultados.
Implementacin de un sistema de lenguaje natural. Se puede considerar como un sistema a
desarrollar con alcances incrementales, como crculos concntricos que ilustran cada fase en la
forma mostrada en la Figura 7.
Traduccin
Inferencia
Respues
Aprendizaj
Figura 7. Evolucin de un Sistema de Lenguaje Natural.
21
Traduccin. Los textos recibidos son procesados hasta generar su representacin interna RI
para despus, a partir de ella, emitir el texto de salida.
Inferencia. Una vez obtenida la RI del texto recibido, se hacen todas las inferencias posibles al
asociar el RI con la base de conocimientos BC. Las conclusiones son representadas como RI
para que el Generador emita el texto de salida.
Respuesta. Despus de haber emitido la RI equivalente a la pregunta alimentada, se activan los
mecanismos de inferencia que explotan la BC para satisfacer el requerimiento. Una vez obtenida
la respuesta en su forma de RI se le encomienda al Generador su exposicin.
Aprendizaje. Las declaraciones introducidas al SLN son representadas internamente y
confrontadas con la BC actual, para determinar casos de:
22
2. ANLISIS LXICO
2.1 DESCRIPCIN
El subsistema del anlisis lxico dentro de un SLN involucra el "mapeo" entre una cadena de
entrada o salida de texto y los elementos lxicos a ser manipulados por el sistema. En la fase
inicial transforma la cadena en unidades lxicas. Mientras que al final, selecciona las palabras
apropiadas para expresar el significado deseado [6].
2.2 LENGUAJE
2.2.1 Alfabeto
Constituye el repertorio de smbolos vlidos que a travs de su interrelacin forman el universo
de palabras, frases, oraciones y textos con significado propio dentro del lenguaje al que
pertenecen como se muestra en la Tabla 2:
Tabla 2. Alfabeto de la Lengua Castellana.
A
B
.
.
.
z
a
b
.
0
1
.
.
.
9
.
,
?
/
..
b
26
2.2.2 Morfologa
Se orienta a identificar la raz de los verbos, sustantivos, pronombres, etc., de tal forma que se
pueda distinguir la esencia del significado de la palabra analizada, entre las situaciones ms
comunes estn:
Prefijos y Sufijos. Consiste en identificar y eliminar los prefijos y sufijos que acompaan a la
raz de la palabra, por ejemplo como se aprecia en la siguiente Tabla 3:
Tabla 3. Ejemplos de Palabras Compuestas.
TRMINO
PREFIJO
desunin
juegos
infidelidades
des
RAZ
unin
juego
fidelidad
in
SUFIJO
s
es
Conjugaciones. Al asociar los verbos a los pronombres en un solo tiempo se derivan varias
presentaciones:
Yo
corro
t
corres
l / ella corre
Nosotros corremos
Vosotros corris
Ellos/ellas corren
Tiempos. Al usar un mismo verbo para una persona especfica, pero con distintos tiempos se
obtienen los casos sealados en la Tabla 4:
Tabla 4. Uso de Tiempos.
SIMPLE
PROGRESIVO
Pronombre Presente
Pasado
Futuro
Yo
T
Ellas
le
amaste
oyeron
leer
amarn
oirn
leo
amas
oyen
Presente
leyendo
amando
oyendo
Pasado
leyendo
amando
oyendo
PARTICIPIO
Presente
ledo
amado
odo
Pasado
ledo
amado
odo
Anlisis Lxico
27
Derivada
comensal, comedor
sabio, sabidura
suena, sonaja, sonido
hablador, habla
Gnero y nmero. En consecuencia a la adaptacin del trmino al gnero y nmero del vocablo
original se altera, tal como aparece en la Tabla 6:
Tabla 6. Opciones de Gnero y Nmero.
Raz
Portera
Elevador
misin
Opciones
portero, portera, porteros
elevadorista
misionero, misionera, misiones
Diminutivos y Aumentativos. Son todas aquellas palabras que se usan para expresar una
comparacin a partir de una referencia, tal como se seala en la Tabla 7.
Tabla 7. Comparativos.
Diminutivo
pelotita
camioncito
corralito
Raz
pelota
camin
corral
Superlativo
pelotota
camionsote
corraln
Incongruencias. Estos son slo algunos de los casos ms comunes al tratar de identificar la raz de
la palabra, proceso en el cual se puede incurrir en errores al generar races que no correspondan y
que representan otra cosa, como por ejemplo en la Tabla 8 se presentan casos de races:
Tabla 8. Generacin de Races Incorrectas.
Palabra
Raz
pelotn
pin
corrido
Ramos
universo
Pelota
Pia
Correr
Ramo
Verso
28
2.2.3 Diccionario
El diccionario representa el acervo de morfemas y derivados oficialmente aceptados para una
lengua, por lo que un SLN incluye para cada "trmino" su significado, informacin para
identificar su informacin estructural, referencia a la raz o sus derivados. El diccionario
determina la capacidad del SLN y debe describirse adecuadamente su formato, tipo de
organizacin y representacin, as como los mtodos de acceso, para lograr la eficiencia en su
manejo. Tambin debe considerar la separacin de homnimos para asignar un registro distinto
para cada significado de la manera mostrada en la Tabla 9:
Tabla 9. Formato de Diccionario.
Regist Identifica Cabez
Significado
ro
dor
a
300
700
1032
5720
5721
C0450
A712
C0877
F0140
F0141
cuanto
agosto
caer
falda
falda
apuntador x2
ap. A671
ap. C71
ap. F720
ap F721
Funcin Estructural
Asociacin
Tipo
Tiempo
..
Raz
Derivados
ap.540
ap. N47
ap. V71
ap. 570
ap. 571
ap. TP
...
...
...
0
0
0
0
ap.1...
ap.3...
ap.47
ap. 82
Sin
n.
ACCESO
Secuencial
Por # de registro, binario, hash
Acceso aleatorio y dinmico, llave nica,
llave compuesta, llave duplicada
Combinacin de los mtodos de acceso
Anlisis Lxico
UN
TOTAL
29
DE
$748,007
Finalmente, el contenido del Token o Unidad Lxica debe ser lo suficiente conciso pero a la
vez completo para eficientar su manejo, los datos que deben aparecer en su descripcin son los
que se muestran en la Tabla 12:
30
......
FUNCIN
Identificador
42B
Diccionario
C0450
ETF
15
87I
A712
19
Tipo
INTERR
OG.
NOMBR
E
Categora Clase
CERRAD NOMINAL
A
ABIERTA PREGUNTA
...
......
Conjunciones:
Asociacin:
Preposicin:
Pronombre:
Nmero:
Ordinal:
Determinante:
Negacin:
Comparativo:
Operador:
Pregunta:
Cuantificador:
Exclamativo:
y, o, pero,...
antes, si, porque,...
a, para, por,...
yo, t, l,...
0, 1, 2, ..., 1000, ...
1er. , 2do. , 3er.,...
un, una, la, los, aquellos
no,...
mas, menos, mayor,...
ms, veces,...
Quin, Cmo, Qu,...
algunos, muchos, ninguno,...
oh, claro,...
2.3 PROCEDIMIENTO
Esencialmente son dos direcciones de procesamiento de texto a cargo del Analizador Lxico y
cuya descripcin se detalla a continuacin:
Conversin del texto de entrada a Unidades Lxicas.
Generacin del texto de salida a partir de Unidades Lxicas.
Anlisis Lxico
31
Procedimiento de Entrada. A partir del texto alimentado al SLN en modo carcter el analizador
lxico activa sus mdulos secuencial o simultneamente para generar las UL correspondientes
conforme a la Figura 10 siguiente:
32
Actualizacin del diccionario al aceptar una nueva palabra, ya sea morfema o derivado,
adems de registrar sus asociaciones con otras nuevas y ya existentes. Esta opcin puede ser
interactiva con el usuario o automatizada con las limitaciones del caso y la supervisin del
administrador del SLN.
Generacin del morfema correspondiente a la cadena.
Generador Lxico. Conforme a la naturaleza del morfema (nmero, smbolo, palabra,...) crea la
Unidad Lxica correspondiente registrando los datos y ligas necesarios acorde con la
informacin pertinente y las estructuras de datos empleados (E. T. F, Diccionario,...).
Procedimiento de Salida. El mdulo Generador del SLN es el encargado de proporcionar los
elementos y pautas del texto a producir, valindose de la Base de Conocimientos y de la
emisin y actualizacin de las estructuras de datos denominadas Representacin Interna (R.
I., ver la seccin 2.7). Dicho mdulo deber incluir un procedimiento que emita cadenas con
unidades lxicas, sintacticamente y semnticamente correctas para alimentar al Analizador
Lxico conforme al esquema de la Figura 11.
Texto
Texto
Expositor
Morfolgico
Estructura
Temporal
de Salida
Texto
Generador
Palabras
Base
de
Conocimie
ntos
de
Texto
Generador
Morfemas
Representa
ciones
Internas
de
Diccionario
Anlisis Lxico
33
canto
canto
Canto
canto
La emisin del texto de salida ser evaluada por el usuario hasta el final, al momento de su
exposicin, en donde lo primero a observar es la naturaleza de la declaracin expuesta por el
sistema (pregunta, respuesta, comentario, afirmacin, rechazo, ...), su contexto, estructura
sintctica y consistencia en el vocabulario empleado.
Sin embargo, la identificacin de los ajustes a realizar es ms difcil ya que deber revisar el ciclo
completo del funcionamiento del SLN, comenzando por confirmar que el texto de entrada haya
sido representado lxica y sintcticamente bien, su anlisis semntico e interpretacin haya sido
correcta y que el funcionamiento del generador reaccione con eficacia al mandato que se espera
realice. Despus se podr verificar el buen desempeo de los mdulos de salida del analizador
lxico. Correspondiendo al personal tcnico la modificacin al sistema.
34
2.5 DESARROLLO
Es recomendable aplicar una estrategia de desarrollo incremental y de ensayo y error para el
subsistema del analizador lxico; a partir de las definiciones conceptuales de la estructura y
funcionamiento de todo el SLN, as como del mbito de aplicacin y dominio de conocimiento
que explotar [7].
Por lo tanto, una vez creadas las estructuras de datos iniciales para los elementos bsicos del
lenguaje, se inicia la construccin y prueba del primer mdulo de entrada; a partir de las unidades
de palabra que genere, evala el desempeo del analizador morfolgico y realiza una prueba
exhaustiva de casos. Finalmente el generador lxico haga su parte. A su vez, con base en estos
resultados, se agregan las estructuras de datos que otros subsistemas crean como las RI, se
prueban en orden inverso los mdulos de salida, comenzando por el generador de morfemas y
concluyendo con el expositor fonolgico.
Naturalmente, esta estrategia se puede alterar desarrollando en paralelo los mdulos, creando
estructuras de datos y casos ad-hoc para cada uno de ellos con el propsito de evaluarlos
independientemente para integrarlos al final.
El desarrollo incremental es con el fin de abordar problemas sencillos con estructuras de texto
simples y cortas en una primera etapa, para gradualmente aumentar el grado de riqueza y
profundidad del lenguaje.
3. ANLISIS SINTCTICO
3.1 DESCRIPCIN DEL ANLISIS SINTCTICO
El anlisis sintctico es la etapa en el proceso de lenguaje natural en donde una oracin lineal
de texto alimentado por el usuario es convertida a una estructura jerrquica que corresponde a las
unidades de significado de la oracin de acuerdo a la naturaleza, componentes y reglas de
interrelacin propias del lenguaje. Generalmente el subsistema tiene dos mdulos principales:
Gramtica. Es la representacin declarativa de los elementos sintcticos del lenguaje
Traductor. Es el proceso que compara el texto de entrada contra la gramtica para generar las
estructuras jerrquicas correspondientes [8].
3.2 ELEMENTOS
3.2.1 Gramticas
La gramtica de un lenguaje natural representa el ncleo que define la naturaleza de los
componentes (verbos, sustantivos, artculos, etc.), sus variantes (conjugacin, tiempos, genero,
nmero, etc.) y reglas para su interrelacin (frases, enunciados, interrogaciones, negaciones, etc.).
Constituye el fundamento para regular el uso del lenguaje dentro de la sociedad [9].
Los sistemas de lenguaje natural (SLN) dedican una atencin especial a la representacin y uso
de aquella parte gramatical del lenguaje natural que pretenden procesar, por lo que es necesario
determinar el subconjunto de componentes, variantes y reglas que se van a utilizar dentro del
universo del propio lenguaje. Para implementar la gramtica de un lenguaje se usa una parte de
las matemticas conocida como lenguajes formales, cuya representacin clsica es a travs de
reglas que evalan o generan un espacio de estados para el anlisis o produccin de oraciones.
Dentro de este marco, existe una variedad de representaciones gramaticales acordes con el
nivel de alcance (finitas), considerando el entorno (libre de contexto) y formas de procesamiento
(generativa), entre otros enfoques, por lo que es necesario interpretar correctamente la naturaleza
de ellas para elegir la ms apropiada a la aplicacin en turno. En la Figura 12 se presenta un
ejemplo de gramtica libre de contexto para el idioma espaol {10].
O
-->
FN
-->
FN1 -->
Adj -->
Adjs -->
Art
-->
Pro
-->
NomPer->
Nom -->
FV
-->
Verbo->
FN
FV
Art
FN1
Nom Adj
e
|
pequeo
el
|
yo
|
juan |
archivo |
Verbo |
Imprime
Pro
Adjs Adj
|
largo
la
|
t
|
mara |
impresora
FN
|
copia
NomPer
FN1
|
los
l
pedro
|
rpido |
|
los
|
...
|
...
monitor
.....
|
en
despliega
|....
38
De estados finitos
Recursivas
Aumentadas
Es esencial reconocer que la gramtica indica las siguientes asociaciones con el lenguaje:
Una dbil capacidad generativa, para identificar el significado del conjunto de oraciones
contenidas en un lenguaje (sentencias gramaticales) y que pueden ser completamente
empatadas por las reglas gramaticales.
Una fuerte capacidad para identificar el tipo de estructura que corresponde a cada oracin
gramatical del lenguaje.
Cada una de estas clases de redes tienen en comn los siguientes fundamentos:
Una red gramatical se compone por los siguientes elementos:
Mquina. Es un mdulo de proceso que arranca a partir de un estado inicial hacia otros cuando
una condicin en particular ocurre conforme a las transformaciones que se van procesando.
Estados Finitos. Se dice de aquellas mquinas donde a partir de cualquier punto de transicin el
siguiente estado puede determinarse a partir del estado actual y las condiciones que provocan la
transicin. Puesto que es conocido el nmero de estados posibles a generar, se considera finito.
Estado. Es una descripcin del componente gramatical que est representado como un lugar
dentro de la red de alternativas caracterizada por la transicin que provoca el cumplimiento de las
condiciones asociadas al estado, para generar uno nuevo.
Arcos. Ilustran la condicin que produce la transicin desde un estado a otro, siendo etiquetadas
por el identificador de la condicin.
Red. Es la representacin grfica y de estructura de datos, integrada por estados (nodos) y
condiciones (arcos) que se recorren o generan a lo largo de la evaluacin o emisin de un texto.
Ruta. Es el camino formado por un conjunto de nodos y arcos, a partir de un estado dado hasta
otro determinado.
A continuacin se describen los primeros dos tipos de redes, mientras que la tercera se har en el
inciso 3.4.
Anlisis Sintctico
39
Nom
q0
Verbo
q1
q2
q3
Nom
q1
Adjetivo
Verbo
q3
q2
q4
Verbo
40
Art
q0
Nom
q1
Auxiliar
Verbo
q4
q3
q2
Verbo
Verbo
Complemento
q5
q6
Anlisis Sintctico
FN
41
VER
Fn
q1
AUX
FP
q4
AUX
q5
VER
Fn
q2
q3
Det
Nom
Fn
q6
q7
Adj
FP
Nom
q8
Prep
Fp
Fn
q9
S: Oracin
Ver: Verbo
Adj: Adjetivo
q10
42
FN
FV
NOM
VERBO
juan
tom
FN
ARTICULO
la
NOM
pelota
ADJETIVO
roja
Anlisis Sintctico
43
El fundamento de su teora descansa en el hecho de que el lenguaje natural es infinito, pero que
sin embargo la capacidad de entendimiento y expresin por el hombre, no depende nicamente de
las palabras y oraciones que haya escuchado y hablado, sino que siempre hay trminos y frases
que aunque no integren su repertorio y experiencia en comunicacin ser capaz de comprenderlas
y emitirlas llegado el momento.
El ncleo de tal teora es la observacin de que el aprendizaje del lenguaje no slo depende de
memorizar todas las oraciones que el ser humano escucha y dice, sino que ante todo est dotado
por un mecanismo capaz de interpretar y producir estructuras del lenguaje. Chomsky desarroll
el concepto de gramticas generativas para representar a las estructuras naturales que el
hombre emplea en el manejo del lenguaje, definindolas como:
Una estructura formalizada con precisin matemtica que genera sin un parmetro especfico
cualquier informacin que no est representada explcitamente en el sistema, dando vida a
oraciones gramaticales que en conjunto integran un lenguaje, describiendo y asociando a cada
una de ellas su descripcin estructural o anlisis gramatical.
A lo largo del trabajo desarrolla las siguientes clases de gramticas generativas:
Gramtica Generativa de Estado Finitos. Se concibe como una mquina capaz de representar y
transitar por un conjunto de estados finitos, emitiendo un smbolo especfico al pasar de un
estado a otro. El proceso arranca a partir de un estado especfico inicial, transita por diversas
rutas generando palabras, para llegar a un estado dado, denominado final. A la secuencia de
palabras emitidas se le llama oracin y al conjunto de ellas se identifica como lenguaje,
mientras que a la mquina se le conoce como gramtica de estados finitos.
Gramtica Generativa de Estructuras de Frase. En lugar de manejar palabras especficas
durante la transicin de un estado a otro, se emplean constituyentes (verbos, sustantivos,....), las
cuales pueden estar definidos por otros, y stos a su vez por algunos ms especficos hasta llegar
a especificarse por palabras. Como por ejemplo:
O
->
FN
->
FV
->
ART ->
NOM ->
VERBO->
FN + FV
ART + NOM
VERBO + FN
el, la, los, .....
casa, juan, perro,....
pinta, come, juega, cuida
La oracin que se evala o genera tiene una representacin estructural denominada frase
marcada. Por ejemplo al aplicar la gramtica anterior se produce la oracin y frase marcada
mostrada en la Figura 18.
O-> FN + FV
ART + NOM + FV
el + NOM + FV
el + perro + FV
44
el
el
el
el
el
+ perro + VERBO + FN
+ perro + cuida + FN
+ perro + cuida + ART + NOM
+ perro + cuida + la + NOM
+ perro + cuida + la + casa
O
FN
ART
el
FV
NOM
perro
cuida
FN
ART
la
NOM
casa
Componente
morfmico
The window will
be broken by John
Estructura de la frase
Jhon will break the
window
FN1 AUX
VERBO
Aplicacin de las
reglas de
transformacin
Aplicacin de
reglas morfmicas
Componente
transformacional
The windowwill be
EN break by Jhon
Anlisis Sintctico
45
[ the girl [ the girl has a lovely voice]is singing] [the girl [the girl is singing] has a lovely voice]
al transformarse produce
al transformarse produce
the girl who is singing has a lovely voice
46
Sintctico
Base: Compuesto por reglas que producen la estructura de la frase y reglas de interseccin
lxica.
Transformacin.
Semntico
Fonolgico
El componente sintctico es generativo pues produce las estructuras fundamento que
alimentan a otros dos componentes de carcter interpretativo ya que el sintctico asocia a la
estructura de la frase su significado, mientras que el fonolgico la maquilla para su
exposicin.
Durante la fase desarrollada por el componente sintctico su analizador lxico proporciona para
cada palabra informacin de inters para los mdulos sintctico, semntico y fonolgico. Por
ejemplo, en la Figura 21 se muestra una frase marcada con atributos asociados a sus elementos,
en donde los nodos que terminan con esa lista se denominan smbolos complejos.
O
FN
ART
gnero
.
nmero
.
.
FV
NOM
nombre
.
animado
persona
nmero
tipo
.
tiempo
sujeto
.
tipo
tiempo .
objeto
gnero
nmero
.
.
nombre
animado
animal
nmero
Cuando la descripcin y rol del verbo ignora la naturaleza de las frases nominales que lo rodean
(sujeto y objeto) se dice que es una gramtica de contexto libre, pero si las toma en cuenta e
inclusive produce listas de atributos para cada una de ellas, se dice entonces que es una gramtica
sensitiva al contexto.
Por lo que concierne a la transformacin de la estructura fundamento a otras como las
interrogaciones y preguntas que provocan una diferente interpretacin, se procura que no tengan
la misma estructura de la frase mediante la adicin de identificadores; como por ejemplo:
Anlisis Sintctico
Estructura Frontal
The tree is growing
The tree is not growing
Is the tree growing
<<<-
47
Estructura Fundamento
The tree grow - (+ progresivo)
NEG The tree grow -(+ progresivo)
Q the tree grow -(+ progresivo)
Estructura Fundamento
SEMNTICO
Reglas
de Marcadores
proyeccin
Semnticos
TRANSFORMACIN
Transformaciones
Estructuras
de
semnticos rbol
Rutas Amalgamadas
Estructura Fundamento
Estructura Fundamento
Figura 22. Funcionamiento de la Teora de Sintaxis.
48
Por ejemplo, cuando se encuentra un verbo, ste se almacena en un registro tipo V (Verbo);
similarmente, todas las palabras de una FN (Frase Nominal) se guardan en un registro clase
FN, las RTA usan la nomenclatura siguiente:
< Red Transicin > --> (< arcos > < arcos > * )
< arcos >
--> (< estado > < arco > * )
< arco >
--> (CAT < categora > < prueba > < accin > * < acci_term > |
(PUSH < estado > < prueba > < accin > * < acci_term > |
(TST < etiqueta > < prueba > < accin > * < acci_term > |
(POP < forma > < prueba > )
o
< accin >
--> (SETR < registro > < forma > )
|
(SENDR < registro > < forma > )
|
(LIFTR < registro > < forma > )
< acci_term>
--> (TO < estado >)
|
(JUMP < estado >)
< forma >
--> (GETR < registro >)
|
*
|
(GETF < caracterstica >)
|
(APPEND <registro> <forma>)
|
(BUILD <fragmento> <registro> *)
*
Indica un elemento repetible en la especificacin del lenguaje.
&
Actual valor de entrada, palabra o frase, el elemento con el que se est trabajando.
PUSH Inserta elementos en la pila
POP Saca elementos de la pila
<arcos> Una RTA se define por uno o ms conjunto de arcos ( *) donde un arco es un estado con
sus arcos asociados, como en las RTR.
Sin embargo en las RTA hay cuatro clases de arcos:
CAT
Es el arco original en el smbolo terminal que identifica la clase de palabra o categora
que caus que el arco haya sido considerado.
PUSH Es el arco con un nombre de estado. Al usar la funcin PUSH implica moverse a un
nivel ms bajo de la red de transicin comenzando en el estado cuyo nombre es especificado.
TST Permite usar un arco de acuerdo a una condicin arbitraria y no solamente porque una
palabra especfica es encontrada. Se pueden hacer pruebas sobre parte de la oracin que ha sido
construida, como por ejemplo si es pasiva o interrogativa.
POP Es un arco Dummy usado para determinar si un estado terminal ha sido alcanzado
y
cmo ser la construccin final.
Los arcos CAT, TST y PUSH tienen una prueba y accin terminada al menos que debe ocurrir.
Hay tres posibles acciones usadas para construir las partes de la oracin:
SETR Asignan un valor al registro especificado.
SENDR Transfiere el valor al siguiente nivel inferior de la red para asignarlo a un registro.
LIFT
Transfiere el valor el siguiente valor superior de la red para su asignamiento.
Anlisis Sintctico
49
Las acciones terminales TO y JUMP especifican si el proceso debe ser terminado con la palabra
actual o frase, si el apuntador a la entrada deber se movido o deber permanecer donde est y
cual estado ser procesado a continuacin.
TO
Indica que el apuntador de entrada ser movido a la siguiente palabra del texto de entrada
y que nodo ser procesado a continuacin.
JUMP Seala el nodo a procesar sin mover el apuntador del texto de entrada, ya que las
palabras an no han sido empatadas.
Las funciones usadas para describir los datos manipulados son:
GETR
Regresa el valor de un registro especfico.
GETF
Determina el valor de un atributo especfico de la palabra de entrada actual
APPEND Adhiere valores al contenido del registro especificado. Por ejemplo, se puede agregar
una frase preposicional al final de una nominal que ya ha sido formada y colocada en el registro
FN.
BUILD Construye partes o toda la frase final a partir del contenido de los registros especificados.
Seala primero el fragmento a construir, seguido de uno o mas signos + para indicar los nodos
a ser incluidos y finalmente los atributos y registros cuyos valores sean derivados, por ejemplo:
(SET FV (BUILD (FV ( V + ) & ) V ) )
Primero construye el fragmento FV colocando el valor actual en la posicin de &, y el
contenido del registro V en la posicin de +, y a continuacin asigna el fragmento al registro
FV.
La frase: El nio come un helado genera la FN El nio que asigna al registro Sujeto
y el verbo Come al registro V. Despus identifica que la entrada actual un helado es una
FN luego encuentra la regla de arriba, construyendo la FV come un helado, para que al
final genere la siguiente estructura:
(S DCL (FN (Dete el) (Adje) (Nomb nio)) (FV (Vcome) (FN (Dete un) (Adj) (Nomb helado) ))
Conforme a la gramtica de la Figura 16 se describe a continuacin el lenguaje tipo RTA que
corresponde al nivel superior utilizando el / para sealar el comienzo de una RTA cuyo
nombre aparece antes, tal como se muestra en al gramtica que aparece en la Figura 23.
( (S / (PUSH FN /T
(SETR SUJETO &)
(SETR TIPO DCL)
(TO Q1) )
(CAT AUX T
(SETR AUX &)
(SETR TIPO Q)
(TO Q2) ) )
50
(Q1 (CAT V T
(SETR AUX NIL )
(SETR V & )
(TO Q4) )
(CAT AUX T
(SETR AUX & )
(TO Q3) ) )
(Q2 (PUSH FN/T
(SETR SUJETO &)
(TO Q3) ) )
(Q3 (CAT V T
(SETR V &)
(TO Q4) ) )
(Q4 (PUSH FN/T
(SETR FV (BUILD (FV (V +) &) V) )
(SETR CFP NIL)
(TO Q5) )
(POP (BUILD (S+++(FV +) ) TIPO SUJETO AUX V) T ) )
(Q5 (PUSH FP/T
(SETR CFP (APPEND (GETR CFP) FPR ) )
(TO Q5) )
(POP (BUILD (S++++) TIPO SUJETO AUX FV) T) )
(FN/ (CAT Name T
(SETR NAME &)
(TO Q8) )
(CAT Det T
(SETR DETER &)
(SETR ADJE NIL) (TO Q6) ) )
(Q6 (CAT Adj T
(SETR ADJE (APPEND (GETR ADJE) (LIST &) ) )
(TO Q6) )
(CAT Name T
(SETR NAME &)
(SETR CFP NIL)
(TO Q7) ) )
(Q7 (PUSH FP/T
(SETR CFP (APPEND (GETR CFP) FPR ) )
(TO Q7)
(POP (BUILD (FN (Dete +) (Adje +) (Nomb+)+) DETER ADJE NAME CPF ) T ) )
(Q8 (POP (BUILD (FN (Nomb + ) ) Name ) T ) )
(FP / (CAT Prep T
(SETR PREP &) (TO Q9) ) )
(Q9 (PUSH FN/T
( POP (SETR FPR(BUILD (FP (Prep +) &) PREP) ) T ) ) )
Figura 23. Gramtica.
Anlisis Sintctico
51
Preorder
1
2
3
Inorder
2
1
3
Postorder
3
1
2
52
FN
ART
FV
perro
come
Tablas. Los estados y arcos de la red se relacionan con una tripleta en cada localidad, de acuerdo
con el formato: ( Ni, a, Ns). Donde Ni es el nodo del cual sale el arco y Ns es el nodo a
donde llega el arco a. Por ejemplo:
(Qo, Art, Q1)
(Q1, Nom,Q2) (Q2, Adjetivo, Q3) (Q2, Verbo, Q4) (Q3, Verbo, Q4)
Reglas: Mientras que la relacin entre los elementos de una regla (estado actual-->arco) y los
nodos de una red se representan por medio de un arreglo de cuatro campos con el formato: (Ni, a,
Ns, T), en donde T indica el Tipo de arco que se usa:
E de estado (se compone por su propia red)
T terminal (se divide en smbolos terminales)
F estado final de la red.
(Qo, Art, Q1, T) (Q1, Nom, Q2, E) (Q2, Adjetivo, Q3, T) (Q2, Verbo, Q4, F) (Q3, Verbo, Q4, F)
Implementacin de RTA. Se puede concebir el anlisis de una oracin como un proceso que
atraviesa por dos etapas. En la primera se compila la gramtica generando varias tablas y
estructuras de datos y en la otra se interpreta, usando dicha informacin al contrastar el texto a
evaluar, como se ilustra en la Figura 25.
Anlisis Sintctico
Gramtica
53
Texto de entrada
Fase 1
Compilador Gramatical
Fase 1
Interprete Gramatical
Oracin analizada
en sus componentes
estructurales
Gramaticalmente
almacenada como
Tabla de comandos
Tabla de nombre de
estado
Tabla de registros
Tabla ATN
54
Los nombres de registro ocurren en las declaraciones de accin y vara el lugar que ocupan
acorde con el formato de la instruccin: (SETR AUX &).
El formato de las tablas es idntico: Nombre del estado, ATN o registro y su apuntador.
Mientras que en la fase de interpretacin la clave est en usar un proceso case para ejecutar
los comandos indexados por la tabla. Tambin se emplea un contador de localidad para sealar
el nodo a procesar, inicializndose al comienzo de la gramtica para actualizarse apuntando al
siguiente nodo asignando el valor del apuntador next del nodo que actualmente est
procesando. Cuando un arco terminal es alcanzado (ya sea TO o JUMP) el nombre de estado al
cual se apunta ser encontrado en la tabla de estado y el apuntador del nodo al que
corresponder ser el nuevo valor del contador de localidad.
Cada rutina de comando explota los parmetros requeridos de la gramtica y llama a la rutina
apropiada. Por ejemplo CAT al determinar que categora asociada es verdad, entonces las
acciones del arco son ejecutadas, la accin terminal causar el retorno de la rutina con el
contador de localidad apuntando al siguiente nodo a ser ejecutado.
4. ANLISIS SEMNTICO
4.1 NATURALEZA
Los componentes del lenguaje (palabras, smbolos) y sus asociaciones (frases, oraciones,) son
como entes inanimados al carecer de significado, es por ello que desde los tomos del lenguaje,
hasta las estructuras ms complejas integradas por sus elementos llevan consigo un concepto,
idea , significado o propsito, que es asignado, aceptado y empleado por los miembros de la
sociedad que aplica dicho lenguaje como medio de expresin y entendimiento [9].
El subsistema de anlisis semntico como parte de un SLN representa el ncleo del
conocimiento que domina la aplicacin y en funcin a su variedad y detalle ser la riqueza de
vocabulario, expresin, entendimiento, respuesta y utilidad que el propio sistema ofrezca. Su
diseo conserva una plena integracin con el resto de subsistemas en el aprovechamiento de
unidades lxicas (UL), validacin de oraciones, diccionarios y representaciones internas
tanto del texto interpretado como del generado. Poniendo particular atencin a la definicin,
acceso, explotacin y actualizacin de las representaciones de conocimiento sobre el leguaje, el
conocimiento mundano y el del dominio de la aplicacin que se emplee dentro del sistema.
4.2 ELEMENTOS
4.2.1 Contexto
Es el mbito social en donde se circunscribe el lenguaje que se emplea (raza, pas, religin,...) y
por lo tanto el significado particular que se asocia a sus elementos. Reconociendo que dentro de
este marco existen otros dominios ms pequeos y especficos en funcin de ciertas
particularidades (regin, nivel cultural, rea profesional, mbito familiar, actividad, edad,...). Por
lo que el significado o valor real de un elemento o asociacin del lenguaje va ntimamente ligado
al contexto en que es expresado y a quin va dirigido (ver Figura 26) [10].
Significado
Es el concepto, idea, fin, razn o conocimiento que est detrs del smbolo o expresin oral, que
le proporciona una personalidad especfica dentro del contexto que usa, otorgndole vida y
razn de existir. El significado tiene atributos de:
Alcance:
universal, regional, ...
Tiempo:
permanente, largo, corto, de moda, ...
Contexto: cultural, educacional, actividad, ...
Circunstancia:
necesidad, urgencia, rutinaria, guerra,
Tipo de ser:
humano, animal, ...
Emisor:
funcionario, padre, nio, ...
Receptor:
empleado, hijo, ...
58
Lengua Castellana
Popular
Cmputo
Eventos
En Mxico en
la costa norte
Eventos
Anlisis Semntico
DRIVER
nombre
COCINA
adjetivo
nombre
ROJO
verbo
Driver
nombre adjetivo
(nombre)
(verbo)
{humano}
{ocasional}
[capaz de manejar
un vehculo cuya
ocupacin no es la
de conducir autos]
59
{humano}
{profesional}
[ocupacin:
conductor de autos]
{ejecutable}
[instrucciones de
cmputo]
{configuracin}
[declaraciones de
las caractersticas
de los recursos
de cmputo]
cantar
un sujeto
marcador semntico
palabra con
sujeto animado
60
Al continuar el proceso de
rutas amalgamadas
1.1+A
11. 1 +B
111.2+A
IV.2+B
Al considerar que el verbo hit requiere un objeto con un marcador
semntico {objeto fsico}
II
IV
Al considerar mas la naturaleza de hit quedara la interpretacin
II
Figura 30. Rutas Amalgamadas para Interpretar una Oracin.
El formato de las reglas de proyeccin es equivalente al de las reglas de produccin,
compuesta de condiciones conjuntas que al cumplirse todas emiten una conclusin especfica
interpretacin equivalente a desarrollar un espacio de estados en donde se emiten cero o
varias interpretaciones finales, procurando alcanzar la mejor de la forma ms econmica
posible.
Anlisis Semntico
61
Semanticas Generativas
Propuestas por Fillmore, destacan la similitud entre la estructura base de una oracin y la
representacin de su significado, ya que al producirse la primera debe registrar todo el
significado que sea posible asociar, por lo tanto comienza con la representacin del significado,
lo interpreta para emitir la estructura frontal y aplica las reglas fonolgicas para arrivar a la
representacin fonolgica. La estructura base contiene los componentes esenciales pero no
necesariamente las palabras que aparecern en la estructura frontal. Por ejemplo, la palabra
nacer ser base tipo: causa, llegar a ser, vivir, crear, ... dicha situacin lxica ser
una de tantas transformaciones aplicadas durante la generacin de una oracin como se aprecia
en la Figura 31:
Frase Marcada (Estructura base)
We exterminated Whales.
Frase Frontal
We caused whales to become dead
We caused whales to die
S
S
NP
We
VP
NP
NP
cause
NP
We
VP
whales Mod
not
cause
NP
VP
VP
become
NP
V whales
V
dead
become
V
alive
62
S
FN
S
AUX
FV
PASADO
+V
+PRO
+INCHOATIVE
S
FN
ART
AUX
N
PAST
S
FN
ART
the
FV
V
for to be thick
+PRO
+INCHOATIVE
AUX
FV
PAST
sauce
thicked
+INCHOATIVE
Agente. Se emplea para el sujeto, predicado nominativo o un nombre ligado al sujeto por un
verbo copulativo. Aquel pollo tiene una lombriz.
Instrumental Fuerza inanimada u objeto envuelto en la accin. Juan le pego al nio con un
baln.
Posesivo genitivo. Muestra membresa o pertenencia. El auto rojo de Carlos.
Localidad. Indica el lugar u orientacin espacial de la accin. El polica dispar hacia
arriba.
Objetivo. Usado para nombres y pronombres que correspondan al objeto del verbo en forma
directa. La pelota rompi el vidrio.
Dativo. Aplicada para objetos indirectos que resultan afectados por la accin. Mara prest a
Lourdes su vestido.
Neutral. Es el objeto sobre el que se acta. "Juan puso el vaso sobre la mesa.
Anlisis Semntico
63
Modalidad + Preposicin
Modo, Tiempo, Aspecto, Forma, Esencia, Momento, Manera, Modales
V+C1+C2+...+ Cn
La preposicin es el verbo acompaado de uno ms estructuras case distintas
Correr beber, amar, ....
K + FN
(preposicin)
(preposicin) + ( Art) + (Adj | N)* + N + (oracin | FN)
V
Ci
K
FN
Negativa
Futuro
Declarativo
Verbo C1
steal Peter
C2
the dog
64
Golpear
Pasado
Declarativo
Simple
Negativa Indeterminada
Verbo
Agente
golpear
Pedro
Instrumento
el baln
Objeto
al nio
[Objeto
(Agente) (Dativo)]
Maria le dio su libro a Raquel
O
M
Pasado
Imperfectivo
Simple
Positivo Declarativa
Verbo
Agente
Dativo
dar
Mara
Raquel
Objeto
su libro
F
verbo
golpear
complemento 1 complemento 2
complemento 3
K agente
K instrumento
Objeto
nil alguien
con el baln
nil
la puerta
Anlisis Semntico
65
Mientras que en la Figura 37 se expresa la oracin de voz pasiva: La puerta fue golpeada con el
baln por alguien:
O
F
verbo
golpear
complemento 1 complemento 2
complemento 3
K agente
K instrumento
por alguien
con el baln
nil
Objeto
la puerta
Sujeto. Si el case mas a la izquierda del case frame es obligatorio, debe ser entonces el
sujeto.
Objeto. Los objetos no tienen preposiciones y debe situarse el case en el extremo derecho
del case frame
Frases Preposicionales. Los cases restantes son agregados en funcin al tipo de preposicin.
Mientras que el anlisis de oraciones procura identificar los cases correspondientes a las
preposiciones y comenzar a llenar los huecos del case frame correspondiente al verbo. Por
ejemplo, al interpretar la oracin:
Juan rompi el vidrio con el baln , se hara el siguiente tratamiento:
La preposicin con identifica el baln como un case tipo instrumental.
Para identificar el sujeto y objeto de la frase no hay preposiciones que auxilien, por lo que se usa
el conocimiento asociado a las palabras en sus unidades lxicas y evalan el tipo de sujeto
asociado al verbo de la oracin, que en este caso debe ser un ente animado.
Por lo tanto, si la FN que precede al verbo es de un ser animado, se puede asumir que se trata del
agente, entonces la FN que sigue al verbo ser el objeto.
Pero si dos frases nominales siguen al verbo, la primera es el objeto y la segunda el instrumento.
Si no existe el agente, el instrumental puede ser el sujeto en una oracin activa.
66
La razn por la que la herencia se ejecuta de un modo sencillo, es que en los sistemas de ranura y
relleno el conocimiento est estructurado como un conjunto de entidades acompaadas por sus
atributos. Esta estructura tiene una gran utilidad adems de soportar la herencia, por las
siguientes razones:
Indexa los predicados binarios en funcin de su primer argumento.
Describe las relaciones de las propiedades fcilmente.
Se implementa mediante la programacin es orientada a objetos.
A continuacin se describe el enfoque de redes semnticas, sus representaciones y las tcnicas
para razonar con ellas. A este tipo de estructura se le conoce como de relleno fuerte, ya que se
establecen compromisos en la relacin con el contenido de las representaciones.
4.5.1 Bsqueda
Una de las primeras formas de usar las redes semnticas fue para encontrar relaciones entre
objetos, dividiendo la activacin a partir de cada uno de los dos nodos, observando donde se
encontraba dicha activacin. Este proceso se llam bsqueda de interseccin. Con este proceso
es posible usar la red de la figura siguiente de manera que se puedan responder preguntas tales
como Cul es la conexin entre Brooklyn Dodgers y azul?.
Esta clase de razonamiento utiliza una de las grandes ventajas de las estructuras de ranura y
relleno sobre las representaciones puramente lgicas, ya que tienen la ventaja de organizar
conocimiento en funcin a las entidades que proporcionan las representaciones de ranura y
relleno, tal como aparece en la Figura 38.
Mamifero
es-un
tiene-parte Nariz
Persona
instancia
azul
Pee-Wee-Reese
equipo
Brooklin-Dodgers
Anlisis Semntico
67
es-un
G 23
marcador
5-2
equipo local
dodgers
Figura 39. Red Semntica n-aria.
Esta tcnica es til para representar los contenidos de una oracin declarativa tpica que describa
distintos aspectos de un evento en concreto. La frase Juan le dio el libro a Mary
Se podra representar por medio de una red como la que se muestra en la siguiente figura (El
nodo etiquetado como LB23 representa el libro concreto al que se refiere la frase el libro,
descubrir el libro concreto al que se refiere la frase es similar al problema de decidir el
antecedente correcto de un pronombre, y puede ser un problema muy complicado). De hecho,
algunas de las primeras aplicaciones de las redes semnticas fueron en programas de
comprensin del ingls, tal como se ilustra en la Figura 40:
dar
Juan
agente
libro
es-un
Ev 7
instancia
objeto
beneficiario
Mary
Figura 40. Red Semntica Relacional.
Lb 23
68
1.72
Bill
altura > altura
A1
A2
valor
72
Bill
A1
A2
Anlisis Semntico
69
Por ejemplo, una propiedad del nodo persona es el hecho de que es una subclase del nodo
mamfero. Pero el nodo persona tiene como una de sus partes una raz. Las instancias del
nodo persona si la tienen, y lo que se quiere es que la hereden. Es difcil capturar estas
distinciones sin asignar ms estructura a nuestras nociones de nodo, enlace y valor. Sin embargo,
si ejemplificamos una solucin orientada a redes semnticas para un problema ms sencillo; se
puede ilustrar lo que se hace en un modelo de red, teniendo en cuenta el costo y la complejidad,
pero esto ya es otro apartado.
4.5.4 Herencia Simple
Una ventaja de las redes semnticas es apropiarse de las caractersticas de un objeto por otro que
esta relacionado con l a travs de un arco tipo is-a, a kind of o a instance of , de acuerdo
con el ejemplo de la Figura 44:
nace,
crece,
reproduce y muere
ser vivo
is-a
procreado
en animal
l a-kind-of
nace
en
mamifero
plancenta
a-instance-of
perro
guardian
procreado
semilla
oviparo
gato
en vegetal
nace
huevo
en
trepad
trabajador
deportista
Juega Basket
ocupacin empleado
hijo de familia
soltero
Edad 16-
is-a
estudiante de profesional
70
4.5.6 Excepciones
Hay situaciones en que no deben ser apropiadas las caractersticas de otro objeto a pesar de la
herencia, por lo que dichas propiedades debern especificarse explcitamente en el objeto que
presenta la excepcin, como se ilustra en la Figura 46.
((Nace en placenta) . . .
Mamfero
is - a
((Nace en huevo) . . .
Ornitorrinco
Figura 46. Representacin de Excepciones
ATRAN
libro
hombre
de
Anlisis Semntico
ATRANS
PTRANS
PROPEL
MOVE
GRASP
INGEST
EXPEL
MTRANS
MBUILD
SPEAK
ATTEND
71
Acciones
Objetos (productores de imgenes)
Modificadores de acciones (asistentes de acciones)
Modificadores de PPs (asistentes de imgenes)
Pasado
Futuro
Transicin
Transicin de comienzo
Transicin finalizada
Continuacin
Interrogativa
Negativa
Presente
Atemporal
Condicional
En la figura 48 muestra un ejemplo del uso de estos tiempos cuya frase tomada es como fumar
puede matarte, lo deje:
72
uno
c
INGES
uno
hum
R
cigarrillo
1
INGES
muerto
hum
R
cigarrillo
uno
P
vivo
Anlisis Semntico
John
Bill
Bill
Bill
John
73
nariz
poseida-por
John
M
C
cree
hace
rota
John
hace
Bill
hace
nariz
rota
Poseida- por
John
Figura 49. Representacin de la Dependencia Conceptual.
Los elementos no especificados por la representacin de una parte de informacin pueden
utilizarse como un centro de atencin para la comprensin de eventos posteriores conforme se
van produciendo. Por ejemplo despus de escuchar que Bill amenaz a John con romperle la
nariz. Podramos esperar averiguar que accin est intentando evitar Bill que John lleve a
cabo. Esta accin se podra sustituir por la postiza hacer 2 representada en la Figura 49. La
presencia de estos objetos postizos da pista sobre por ejemplo que otros objetos o eventos son
importantes para comprender el caso de estudio.
74
Texto
Anlisis
Lxico
Unidades
Lexicas
Estructura
Temporal
Fuente
Diccionario
Subsistema
Anlisis
Sintctico
Anlisis
Semntic
Estructura de
la Frase
Estructura del
Contexto
Componente
Transformaciona
Estructuras
Case
Componente
Morfmico
Representacin
de significado
Atributos
frase
marcadas
Flujo de datos
de
Representacin
Semntica
Redes Semnticas.
Marcos
Dependencia
Conceptual
Anlisis Semntico
Contexto definicin
75
Texto
UL1
UL2 . . .
(Estructura de la frase)
IS1
Estructura Semntica
IS2
Estructura Semntica
ISm
Estructura Semntica
76
CAPTULO 5. COMPRENSON
5. COMPRENSIN
5.1 PERFIL
La interpretacin del lenguaje natural escrito tiene el propsito de asociar los conceptos
que corresponden a la expresin para determinar su significado y propsito. Reconociendo las
entidades y relaciones involucradas en la oracin, considerando a una especie de discurso
que ocurre dentro de un contexto especfico, como se ilustra en la Figura 52:
DISCURSO
ORACION 1
.
.
ORACION 1000
INTERPRETACIN
SLN
CONCEPTO1
CONCEPTO2
.
.
.
.
CONCEPTO
2000
ENTIDADES
OBJETOS:
-ATRIBUTOS
-VALOR
RELACIONES
-ACCIONES
-TIEMPO
-FRECUENCIA
SIGNIFICADO
Y PROPOSITO
DE LA ORACION
EVALUADA
5.2 PROCESO
Para entender una oracin sencilla es indispensable tomar en cuenta el contexto en que se
expresa. Cuanto ms importante resulta considerarlos al tratarse de textos y dilogos que deben
ser interpretados. Por lo que se requieren advertir distintos tipos de relaciones que ligan frases y
partes del discurso, como son las siguientes [10]:
Entidades idnticas: Observar el ejemplo, Juan habl con Mara, le dijo que la quera.
Considerar el uso de referencias anafricas:
le
==> Juan
dijo ==> Juan a Mara
la
==> Mara
quera ==> Juan y Mara
Parte de las entidades. Una oracin puede usar entidades que pertenecen a otras que fueron
expresadas en otras oraciones: Rubn estrena casa, en el jardn hay muchos rboles.
Parte de las acciones. Evento est ligado con otros: Pedro jug el domingo y anot dos
goles.
Elementos de conjuntos. Integrantes de un grupo expresado participan en otra oracin: Los
empleados de la fbrica se declararon en huelga, el lder del sindicato lo anunci ayer.
Nombres propios. Cada uno de ellos representa a una instancia de cierta clase de entidades:
Juan corre rpido y Montreal es una ciudad bilinge
Ligas casuales. Un evento se asocia con otro: Hubo un alto ndice de contaminacin ayer,
hoy los carros con calcomana color rojo no circulan.
Secuencia de eventos. Son acciones que ocurren cronolgicamente: Jos invit a cenar a su
novia y pag con su tarjeta de crdito.
80
Forzar eventos. Una accin anima a realizar otras: Jaime le dice a su mam que tiene
hambre
FV
verbo
S (RM3)
want
FN
FV (RM4)
PRO
ADJS
RM2
Bills
FN
ADJS
Doc
N
File
Comprensin
User:---isa:
persona
nombre:
debe ser <string>
User: 068
instance:
User
nombre:
Susan
User: 073
instance:
User
nombre:
Bill
File - Struct
isa:
Informatin - Object
F1:
instance:
File - Struc
nombre:
carta
extensin:
doc
owner:
User 073
en-directorio: / Bill /
Printing:
isa:
Evento Fsico
*agente:
debe-ser (animado y programa)
*objeto:
debe-ser (informacin - objeto)
Wanting:
isa:
Evento Mental
*agente: debe-ser (animado)
*objeto:
debe-ser (estado o evento)
Commanding:
isa:
Evento Mental
*agente:
debe-ser (animado o programa)
*ejecutante: debe-ser (animado o programa)
*objeto:
debe-ser (evento)
This - System:
intance:
Programa
Figura 54. Base de Conocimientos basada en Frames.
RM1
{ La oracin completa }
instance: Wanting
agente: RM2 { I } objeto: RM3 {un evento de impresin}
RM2
{I}
RM3
{ un evento de impresin }
instance: Printing agente: RM2 { I } objeto: RM4 { Bills .doc file }
RM4
instance: File-Struct extensin: doc owner: RM5 { Bill }
RM5
instance: Persona nombre: Bill
Figura 55. Significado Parcial de una Oracin.
81
82
Por medio del anlisis pragmtico se buscan las respuestas a dichas interrogantes, haciendo uso
de un modelo de discurso con base al contexto al que pertenece, desde el cual pueda relacionar
que el usuario identificado por el pronombre I es la instancia User 068 y que la nica
persona a la que se refiere el nombre propio Bill corresponde a el objeto User 073. Una vez
que la referencia correcta para Bill es conocida, se puede determinar que archivo est siendo
referenciado a F 1 al ser el nico con extensin doc y cuyo propietario es Bill .
Una vez completada la descripcin en trminos de congruencia con la base de conocimientos
empleada se prosigue al paso final del proceso de interpretacin que es: decidir que hacer
como resultado de la oracin evaluada, o sea debemos reconocer su interpretacin.
Una estrategia es registrar lo expresado como un hecho y que se har con l, por lo que se deben
reconocer oraciones declarativas, de las imperativas, interrogativas o negativas. Para descubrir su
naturaleza se pueden aplicar reglas que caracterizan dilogos cooperativos.
En el ejemplo que se est desarrollando, se usa el hecho que cuando el usuario expresa lo que
quiere hacer y que el sistema es capaz de realizar, entonces el sistema debera ir adelante y
hacerlo, produciendo el significado final de la manera mostrada en la Figura 56:
Significado:
instancia:
agente:
ejecutante:
objeto:
P27
instancia:
agente:
objeto:
Commanding
User 068
This-System
P27
Printing
This-System
F1
Comprensin
83
5.4 TCNICAS
5.5.1 Empleo de la Atencin
Para facilitar la interpretacin de texto es til identificar aquellas partes que llaman la atencin,
como frases, palabras o smbolos clave. Por ejemplo al observar el siguiente texto [11]:
Instalacin del Sistema Operativo SCO Fast Start. Primero booteas con el disco de arranque,
despus eliges una instalacin fresh y proporcionan los parmetros de: medios, tarjeta de red,
monitor, teclado, mouse y CD. ! No olvides respaldar el contenido original del disco, pues s
perder!
Destacan los siguientes elementos:
Tales elementos son representados en la base de conocimientos de una manera apropiada para
que a partir de ellos se generen bsquedas que infieran:
84
Modelos de creencias individuales. Se pueden implementar por medio del uso de la lgica
modal quien est interesada en los diversos modos en que una acin puede ser verdadera
y el momento (pasado, presente, futuro,...) en que se le asocia dicho valor o falsedad bajo
circunstancias especficas que pudieran presentarse, al llegar a ocurrir (lgica condicional).
Estas clases de lgicas representan el valor de verdad concerniente a creencias, conocimiento,
deseos, intenciones y obligaciones, que pudieran ser falsas injustificadas, insatisfechas, irracional
o contradictorias. Proporcionan medios para interpretar variantes del lenguaje que involucran
referencias a otros tiempos, circunstancias y estados mentales de la gente.
Se utiliza el operador modal BELIEVE que permite representar afirmaciones de la forma:
BELIEVE (A,P) la cual es verdadera siempre y cuando A crea que P es verdadera, a pesar
de que P pudiera ser creda como falsa por otra asercin. Tambin se usa el operador
KNOW-WHAT (A,P) el cual es verdadero si A conoce el valor de la funcin P.
Otra forma de representar creencias individuales es particionar la base de conocimientos para
organizar las creencias compartidas separndolas de las individuales. Las primeras creencias no
deben duplicarse en la representacin, pero las individuales se registrarn por separado por cada
personaje involucrado. A travs del uso de redes semnticas particionadas se puede representar
tales requerimientos, como se ilustra en la siguiente Figura 57, donde aparecen tres espacios de
creencias:
S 1 cree que Mara golpe a Bill
S2
cree que Silvia golpe a Bill
S3
cree que alguien golpe a Bill
MARIA
GOLPEAR
INSTANCIA
AGENTE
ACTO1
DATIVO
BILL
S1
S3
SILVIA
AGENTE
S2
Comprensin
85
86
Para adquirir la PC, Juan necesita cumplir submetas, una de ellas es conocer donde comprar
una P.C., por lo que se hace uso del operador LOOK-FOR (A,P) en donde A busca a P,
cumpliendo ciertas condiciones y generando resultados especficos, como:
Look-For (A,P): precondicin can-recognite (A,P) postcondicin: know-what (A, Location (P) )
El mdulo interpretador debe asociar el objetivo de adquirir la P.C. con la actividad de buscar un
almacn distribuidor, reconociendo que Juan est buscando un lugar donde comprarla, as que
el sistema puede usar esta meta como parte de la principal. Regularmente hay varios operadores
y planes alternativos para alcanzar el mismo objetivo, por lo que pudieran desarrollarse distintas
alternativas de interpretacin con sus variantes respectivas. Por lo que el problema de generar
coherentes interpretaciones de un texto o discurso puede involucrar considerar muchos planes
parciales y operadores.
5.6 GUIONES
5.6.1 Representacin de conocimiento
Los guiones son mecanismos de representacin del conocimiento que pueden ser utilizados para
comprender conjuntos de eventos o historias estereotipadas en un contexto en particular. En los
guiones se parte de la idea que en el mundo real existen patrones de secuencia de eventos como
cuando se sale de viaje, se va a comer a un restaurante, etc. Estos patrones surgen de relaciones
causales entre.
Los guiones tienen un conjunto de condiciones de entrada que hacen posible la ocurrencia de sus
eventos, al final arrojan un conjunto de resultados que provocan la ocurrencia de eventos
posteriores (posiblemente descritos por otros guiones), es decir, dentro de la cadena los eventos
estn conectados a otros anteriores que los hacen posibles, como a posteriores que ellos
provocan que ocurran. Podemos ver a un guin como una lista de descripciones de eventos que
contienen variables a las que se les da el nombre de huecos y asociado a ellos puede haber
informacin acerca de los tipos de valores que contiene; as como valores que son usados si no
hay otra informacin disponible. Los elementos que se especifican en un guin son:
Condiciones de entrada. Requisitos que deben ser satisfechos para que los eventos descritos
en el guin puedan ocurrir.
Apoyos. Huecos que representan objetos involucrados en los eventos descritos en el guin. La
presencia de estos objetos puede ser inferida an si ellos son mencionados explcitamente en
la historia o secuencia de eventos a analizar.
Papeles. Son los huecos que representa a la gente involucrada en los eventos descritos en el
guin. La presencia de este elemento tambin puede ser inferida, aunque no sean menciona.
Si se identifican individuos especficos estos pueden ser insertados en los huecos apropiados.
Pista. Corresponde a una variacin especfica en un patrn mas general. Las diferentes pistas
de un mismo guin compartirn patrones, aunque no a todos sus componentes.
Escenas: Son secuencias de eventos que ocurren en un momento dado. Los eventos pueden
ser representados con dependencia conceptual.
En la Figura 58 se presenta parte del guin del restaurante (Schank 1997) [4]:
Comprensin
87
Pista:
Cafetera
Apoyos: Mesas, Men, F= comida, Cuenta, dinero
Papeles: L = Cliente, M = Mesero, O = Cocinero, J = Cajero, P = Propietario
Condiciones de entrada: Si tiene hambre, Si tiene dinero
Escena 1: Entrada
L PTRANS L a EL RESTAURANTE
L ATTEND OJOS a LAS MESAS
L MBUILD donde sentarse
L PTRANS a LA MESA
L MOVE L a POSICIN SENTADO
Escena 2: Pedir
L PTRANS MEN L
L MTRANS SEA A M
M PTRANS M a LA MESA
M ATRANS MEN a L
*L MBUILD eleccin de C
L MTRANS sea a M
M PTRANS M a LA MESA
L MTRANS quiero C a M
M PTRANS a M o
M MTRANS (ATRANS C) a O
o MTRANS no hay C a M
o
(GUIN PREPARAR C)
M PTRANS a M L
IR A LA ESCENA 3
M MTRANS no hay C a L
(VOLVER * ) o (IR A LA ESCENA 4 POR EL CAMINO DE NO PAGAR)
Escena 3: Comer
O ATRANS C a M; M ATRANS C a L; L INGEST C
(OPCIN: VOLVER A LA ESCENA 2 PARA PEDIR MS; EN CASO CONTRARIO, IR A
LA ESCENA 4)
Escena 4: Salir
L MTRANS a M (LA CUENTA)
M MOVE (ESCRIBE LA CUENTA)
M PTRANS M a L
M ATRANS LA CUENTA a L
L ATRANS LA PROPINA a M
L PTRANS L a J
L ATRANS DINERO a J
PTRANS L FUERA DEL RESTAURANTE (CAMINO DE NO PAGAR)
Figura 58. Guin del Restaurante.
88
5.6.2 Razonamiento
Si un guin en particular es reconocido como apropiado en una situacin dada entonces puede ser
muy til en la prediccin de la ocurrencia de eventos que no fueron mencionados explcitamente.
Los guiones pueden tambin ser tiles indicando las relaciones entre los eventos que fueron
mencionados. Los dos primeros pasos en un proceso de utilizacin de guiones son:
Seleccin entre los guiones que se encuentran en memoria, del guin o guiones apropiados.
La utilizacin del guin para completar las partes no especificadas del texto a comprender.
Hay dos formas en las que puede ser til activar un guin:
Como guin auxiliar (aquel que se menciona brevemente y puede ser referido de nuevo pero no
en la situacin central), en cuyo caso puede ser suficiente guardar el apuntador al guin, para ser
accesado ms tarde si es necesario, esta podra ser una estrategia apropiada para sealar el guin
del restaurante cuando se trata de analizar una historia como la siguiente: Susana pas por su
restaurante favorito camino al museo. Ella realmente disfrut del nuevo Picasso exhibido.
Como guin principal, en cuyo caso es apropiado activar el guin completamente y tratar de
llenar sus huecos con los objetos particulares y la gente involucrada que aparezca explcitamente
en la historia que se est analizando. La coincidencia en precondiciones, apoyos, papeles y/o
eventos de un guin pueden servir como indicadores que este guin puede ser activado.
Cuando un guin ha sido activado para una situacin en particular, es til en:
Comprensin
89
Juan sali a cenar, se sent y llam a la mesera. La mesera trajo el men y l ordeno una
hamburguesa.
Juan fue a un restaurante, se le mostr una mesa, orden una hamburguesa, se sent y espero
largo tiempo, se enojo y se fue.
Su desventaja es que no son adecuados para representar cualquier clase de conocimiento, ya que
no son estructuras generales que funcionan adecuadamente para modelar los tipos especficos de
conocimiento para los cuales fueron diseados.
90
vio un gato
decidi amarrarse un zapato.
se comi una galleta.
escuch una explosin.
Es obvio que los primeros incisos son poco relevantes en comparacin al ltimo, lo cual nos
indica que:
Las cosas poco comunes son mas interesantes que las ordinarias
El inters es una propiedad dinmica fuertemente dependiente del contexto.
En general, para representar esta capacidad de evaluacin de inters se requiere de un mdulo
especial llamado Understander quien trata de analizar y calificar el texto de entrada con
relacin al contexto del dilogo que se est desarrollando. El punto crtico es decidir que tema es
ms interesante que otro conforme a diversos puntos de vista y en situaciones cambiantes, por lo
que se deben usar criterios heursticos dinmicos para caracterizar esta situacin.
5.7.2 Comprensin de Historias
Una de los proyectos que destaca en el uso del concepto de inters como solucin al problema
del manejo de inferencias es PAM, construido por Schann y Abelson en 1977, implementaron
scripts para facilitar la interpretacin de ciertas oraciones y palabras claves contenidas en un
texto, de tal manera que poda emitir juicios sobre supuestos que argumentan ciertas acciones e
intenciones, como se muestra en el siguiente dilogo:
John quera la bicicleta de Bill
El se acerc a Bill y le pregunto si estaba dispuesto a darle la bicicleta
Bill se opuso
John le dijo a Bill que dara treinta dlares por ella, pero Bill no estuvo de acuerdo
Entonces John le dijo a Bill que le rompera un brazo si no le permita tenerla
Bill le dio la bicicleta
Las inferencias que PAM es capaz de generar son:
Porqu John se dirigi a Bill ? Porque quera tener su bicicleta
Porqu Bill le dio su bicicleta ? Porque no quera ser lastimado
PAM uso planes como estructuras de conocimiento para tipificar metas de la gente y de los
medios que emplean para alcanzarlas, a su vez entiende historias basadas en objetivos (como
las respuestas que se ofrecieron en el texto analizado anteriormente) y asume que todos los planes
y objetivos de los actores en una historia pueden ser constantemente monitoreados.
Comprensin
Usuario
Anlisis
lxico
Anlisis
sintctico
Anlisis
Semntico
91
Intrprete
Texto de
Entrada
Conceptos
Significado
Oracin
Propsito
Respuesta
Enriquece las definiciones semnticas de los elementos del texto que es evaluado
Precisa la naturaleza y propsito de la oracin
Deduce los elementos, estados y acciones involucradas explcitamente en la frase, conforme
al discurso y dominio de la aplicacin.
Identifica el tipo de reaccin del sistema: saludo, pregunta, declaracin, instruccin, negacin,
despedida
Intrprete
Generador
de
Lenguaje
Anlisis
semntico
Anlisis
Sintctico
Anlisis
lxico
92
6. GENERACIN DE LENGUAJE
6.1 CONSIDERACIONES
El sistema de Lenguaje Natural incluye un subsistema especializado en la emisin de lenguaje
natural como respuesta a:
La iniciativa del propio SLN para iniciar, controlar o terminar una sesin con el usuario.
En respuesta a una peticin, orden, consulta u observacin expresada por el propio usuario.
Como reaccin a un estado de la sesin: pausa, actualizacin de conocimiento, contradiccin y
desconocimiento en la informacin expuesta [10].
La frase u oracin que el subsistema genera debe considerar los siguientes requerimientos:
6.2 PROCEDIMIENTO
El SLN interacta con el usuario durante la sesin no solamente como medio de comunicacin
para el control de la sesin e interpretacin de las expresiones del usuario, sino tambin al
ofrecer las respuestas apropiadas a sus requerimientos, por lo cual interacta con el resto de
subsistemas como se ilustra en la Figura 61.
En dicha ilustracin se observa como puerta de comunicacin al subsistema de conversacin
para recibir las expresiones del usuario y presentar las frases de exposicin (respuesta, preguntas,
etc.) del SLN. Las oraciones fuente son procesadas hasta llegar al subsistema intrprete, tambin
se reciben los requerimientos de expresin que el mdulo conversador emplea. La interpretacin
de estos insumos se traduce en directivas que se transmiten al generador del lenguaje.
Este ltimo interacta con la base de conocimientos y los subsistemas semntico, sintctico y
lxico para producir las frases en lenguaje natural acordes a la respuesta o expresin deseada.
Las oraciones de salida son interpretadas y de ser necesario corregidas antes de transferirse al
conversador para su exposicin al usuario.
96
exposicin
oracin fuente
Respuesta expresin
conversador
requerimiento de expresin
intrprete
Requerimiento de Respuesta
Expresin
generador
lenguaje
Generacin de Lenguaje Natural
Analizadores:
Semntico, Sintctico, Lxico
Base
de
conocimientos
Generacin de Lenguaje
Prespective: Medio de
comunicacin
Prespective: Fuente de
trabajo
Prespective: Fuente de
basura
papel
empresa
peridico
Is-a
97
Is-a
novedades
Is-a
novedades
novedades
Proceso 42:
Monto = (Costo CPU + Costo
Monitor + Costo Disco +
Windows ) * 1.15
perspective: venta de pc
(...(marca______) (modelo_______) ...(monto: proceso 42)...
(procesador: default a 321)...)
Figura 64. Inferencia.
98
evento
evento
desastre
muertos
heridos
damnificados
sin casa
temblor
falla
magnitud
desborde
nivel
ro
huracn
evento
deportivo
hombre
velocidad
direccin
evento
social
sede
propsito
evento
poltico
partido
asistentes
evento
cultural
fundacin
expositor
deporte
marcador
ganador
Generacin de Lenguaje
99
Como ejercicio al lector se solicita redactar una historia con los datos del terremoto ocurrido en la
ciudad de Mxico en 1985.
lugar
da
hora
muertes
Bejin,China
14 -Oct - 60
2:40 am
31,000
heridos
damnificados 1,050,000
sin casa
300,000
temblor
falla
magnitud
escala
seriedad
pacifico
6.9
richter
fuerte
Managua,Nicaragua...
15 - Dic - 77
14: 15 pm
50,000
65,000
232,400
500,000
200,000
San Andrs
7.2
mercali
muy grave
intrprete
Requiere
texto a emitir
oracin generada
Generador
lenguaje
Estructura de
texto
Estructuras
frontales
de
Anlisis
semntico
Anlisis
Lxico
Estructuras
semnticas
Estructuras
Sintcticas
Anlisis
Sintctico
100
6.6 EXPRESIONES
Mediante el uso de marcos y dependencia conceptual se pueden obtener inferencias que
enriquecen el significado de la oracin a generar como son:
Deducir que pasar cuando algo es hecho
Imaginar los detalles de como algo fue probablemente hecho.
Traducir al lenguaje natural las oraciones que se puedan derivar a partir de la estructura
marcos dependencia.
Las acciones implican cambios en los estados y relaciones causa - efecto.
Para ilustrar la aplicacin de estos conceptos, se muestran a continuacin tres Figuras 68, 69, y 70
de ejemplo que describen la representacin de una oracin especfica respectivamente:
El nio disfrut colocar el cilindro encima del bloque rojo.
Susana le dijo al nio que pusiera el cilindro en el bloque rojo.
El nio come helado.
Mover
objeto
PTRANS
Cambio
estado
de
agente
nio
cilindro
objeto
destino
objeto
destino
bloque rojo
gusto
nio
Generacin de Lenguaje
101
Hablar
MTRANS
Susan
orden
objeto
destino
nio
agente
Mover
objeto
PTRANS
objeto
destino
nio
cilindro
bloque rojo
Mover
objeto
PTRANS
agente
helado
El nio
objeto
cuchara
agente
el nio
objeto
mano
Fracaso
EM
EM
Tiempo
Habilita
Motivacin
+
i
EM
EM
102
Los estados mentales pueden iniciar eventos positivos o negativos, provocando entonces estados
mentales especficos como de alegra o frustracin. Hay abstracciones que involucran nicamente
estados mentales, en donde uno provoca el surgimiento de otro (esto se denomina recursin),
cuando un EM produce la terminacin de otro se entiende como un cambio de pensamiento y
si persiste durante un lapso, se denomina perseverancia como se muestra en la Figura 72.
recursin cambio de pensamiento perseverancia
EM
EM
Tiempo
EM
EM
EM
+
t
t
+
t
+
t
+
xito
fracaso
prdida
EM
+
xito
xito
Generacin de Lenguaje
103
Esta figura ilustra situaciones, como por ejemplo, el estado mental (actitud) de invertir en la bolsa
de valores por que ofrece ganancias atractivas, mas tarde ocurre un evento que hace caer a la
bolsa y se terminan las ganancias. Otros ejemplos de secuencias de estados y eventos que
producen diversas abstracciones tales como las mostradas en la Figura 75:
levantarse de la adversidad
xito fortuito
solucin de problema
EM
EM
EM
+
El fracaso obliga a reflexionar
y levantarse para conquistar
victorias
Un problema provoca
crisis, pero una solucin
lo concluye
Un problema motiva
a hallar una solucin
que lo resuelva
perspectiva 2
104
perspectiva 1
perspectiva 2
EM
EM
EM
EM
xito
Solucin
internacional
al problema
xito
relacin
prdida
solucin
Generacin de Lenguaje
105
Esta historia se ilustra mediante estados y eventos de la manera apreciada en la figura 79:
PERSPECTIVA
Juan
Mara
EM
quiere obsequiar
i
EM
i
necesita dinero
EM
i
EM
i
venta de una tv
consigue dinero
compra la cadena
d el regalo
+
+
+|
Figura 79. Historia del Regalo de Juan a Mara
recibe el regalo
i
agradece
C
i
aprecia
el detalle
+
106
CONCLUSIONES
CONCLUSIONES
El Reporte Tcnico representa la investigacin y desarrollo de aplicaciones en el campo del
procesamiento del lenguaje natural, cuyos resultados se traducen a una metodologa que describe
las etapas para la creacin de aplicaciones especializadas en la interpretacin de lenguaje natural
escrito y la generacin de texto. Por lo que, para alcanzar estas funcionalidades se requiere del
concurso de tres tipos de anlisis: el lxico, el sintctico y el semntico.
Durante la descripcin de las etapas de la metodologa se procura reunir los conceptos, las
estructuras de datos, los esquemas de proceso y las tcnicas de tratamiento de lenguajes
apropiadas como son las gramticas, los mecanismos de representacin de conocimiento y los
modelos de interpretacin. Con todos estos elementos, se recrea una plataforma logstica que
orienta la construccin de sistemas de tratamiento del lenguaje natural.
Entre los aspectos que revelan la complejidad del procesamiento del lenguaje natural est el
lograr una correcta representacin semntica del significado de cada uno de los elementos que
componen la oracin, la comprensin de la oracin como un todo, y entender el contexto en que
sta se inscribe a la luz de las oraciones que la preceden y aquellas que aparecen despus. As
mismo, al procurar un entendimiento del dilogo compuesto por varias oraciones expresadas por
los protagonistas, generalmente usuario-mquina, representa uno de los retos que an continan
siendo abordados en los escenarios de investigacin.
Como parte de las lneas de trabajo futuro se encuentran: La incorporacin de modelos difusos de
conocimiento que permitan la representacin de conocimiento aproximado, as como su
razonamiento. Tambin aparece la exploracin de mecanismos de aprendizaje de mquina para la
validacin sintctica y el anlisis semntico, basados en modelos de redes neuronales y de
computacin evolutiva. As mismo, se consideran escenarios para la traduccin de texto escrito
en diversos lenguajes.
En suma, se espera que este trabajo motive al investigador, docente y estudiante a profundizar en
el campo del tratamiento del lenguaje natural, a efecto de desarrollar modelos y mecanismos ms
efectivos para cada una de las etapas de procesamiento, buscando extender los alcances logrados,
a efecto de crear interfases ms amables e inteligentes que faciliten la interaccin hombremquina.
REFERENCIAS
REFERENCIAS
[1] Tarso, P, 1era. Carta a los a los Tesalonicenses, 5.13, Santa Biblia
[2] Feigenbaum, E. A., McCorduck, P., La Quinta Generacin, Planeta, Mxico.
[3] Tabor , R., Implementing Japanese Artificial Intelligence Techniques, McGraw Hill.
[4] Rich, E, Artificial Intelligence, 2da. Edition, McGraw Hill, USA
[5] Winston, P H., Horn, B.K.P., LISP, 3ra. Edition, Addison Wesley, USA.
[6] Bratko, I., Programming for Artificial Intelligence, Addisson Wesley, USA.
[7] Winston, Patrick Henry, Artificial Intelligence, 2da. Edition, Addisson Wesley, USA.
[8] Dutta, S., Knowledge Processing & Applied Artificial Intelligence, Butterworth Heinemann,
USA.
[9] Covington, M., Natural Language processing for Prolog programmers, Prentice Hall, USA.
[10] Harris, M.D, Introduction to Natural Language Processing, Prentice Hall, USA.
[11] Rowman, A., Littlefield, R., Natural Language Processing, Publishers, USA.
[12] Efraim, T., Expert Systems and Applied Artificial Intelligence, Mcmillan Publishing, USA.