Está en la página 1de 133

Lenguaje Natural:

Descripcin de las Etapas


para su Tratamiento
Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

Alejandro Pea Ayala

Curs la licenciatura en Informtica en la UPIICSA del IPN. Posteriormente obtuvo el Diplomado en


Java y Aplicaciones Web en el ITAM, la Especialidad y la Maestra en Inteligencia Artificial en la
Fundacin Arturo Rosenblueth. Actualmente es candidato al grado de Doctor en Ciencias de la
Computacin por el Centro de Investigacin en Computacin del IPN, contando para ello del respaldo
del CONACYT y del IPN a travs de una beca.
Entre sus distinciones acadmicas estn: El haberse titulado por la opcin de escolaridad en 1981,
conforme al reglamento del IPN. El reconocimiento hecho por el CONCACYT y el Diario de Mxico
en el evento: Los mejores estudiantes de Mxico generacin 1981, como el mejor estudiante en la
Licenciatura en Informtica del IPN. Adems de haber obtenido el grado de de Maestra en Inteligencia
Artificial con mencin honorfica.
A la par de su desarrollo acadmico, Alejandro Pea ha ejercido la carrera magisterial, profesional, de
investigacin y ministerial. En 1981 ingres a la planta docente de la UPIICSA, donde actualmente es
profesor titular C e investigador. Durante el lapso 1989-1994 ofreci ctedra en la Maestra en
Sistemas Computacionales del ITESM-CEM. Adems de haber hecho lo propio en las Maestras en
Sistemas de Informacin y Ciencias de la Computacin en la Fundacin Arturo Rosenblueth.
En el mbito profesional de la Informtica, desde 1978 se ha desenvuelto en los sectores privado,
pblico, bancario y empresarial, desempeando cargos como: Programador, analista y lder de proyecto
en la entonces Secretara de Comercio. Jefe de Soporte Tcnico en el (desaparecido) Instituto
Mexicano de Comercio Exterior. Subdirector de Sistemas en la Secretara de Salud. Subgerente de
Proyectos Especiales en el Banco Nacional de Comercio Exterior. Coordinador de Sistemas en
Banamex. Fue fundador y Director General de la empresa Neuralware, dedicada a las Tecnologas de la
Informacin.
Como resultado de sus estudios doctorales orientados al mbito de la Educacin basada en Web, ha
publicado: varios Reportes Tcnicos, y presentado diversos trabajos en congresos nacionales e
internacionales celebrados en ciudades de cuatro continentes, como por ejemplo: Washington-USA.,
Vancouver Canda, Melbourne Australia, Bensaon Francia, Grindelwald Suiza, y Bali
Indonesia. Las memorias de sus artculos han sido editadas por organizaciones como IEEE y Springer.
As mismo es autor de una coleccin de libros relacionados con la Informtica y la Inteligencia
Artificial.
Actualmente, Alejandro Pea es Apstol y Director General del World Outreach Light to the Nations
Ministries (WOLNM), cuya visin es la formacin de discpulos, mediante el uso de las Tecnologas
de la Informacin y del Conocimiento, a nivel mundial dedicados a predicar el Evangelio.
Por sus ocupaciones acadmicas, profesionales y ministeriales, Alejandro Pea ha tenido la
oportunidad de visitar diversos pases y regiones del mundo, amn de haber arribado a sitios extremos
del planeta como: La Antrtida, el ocano glaciar rtico, y el centro del desierto de Australia.
Tambin ha explorado islas exticas como Hawai, Tahit, y Rarotonga; y otras remotas como
Spitsbergen y Baffin. A raz de tales experiencias, Alejandro Pea ofrece el testimonio de las
maravillas naturales que Dios ha hecho en el mundo para deleite del ser humano, y en particular de sus
hijos que son salvos a travs de Jesucristo y llenos de su Espritu Santo, quien les anima a clamar:
Abba, Padre!

Lenguaje Natural:
Descripcin de las Etapas
para su Tratamiento

Lenguaje Natural:
Descripcin de las Etapas
para su Tratamiento

Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

- Mxico -

PRIMERA EDICIN 2006.

D.R. 2006, Alejandro Pea Ayala


INSTITUTO POLITCNICO NACIONAL
Direccin de Publicaciones
Revillagigedo 83, Centro Histrico, 06070, Mxico, D.F.
ISBN: 970-94797-3-3
Impreso en: Mxico / Printed in Mxico

El autor reconoce que esta obra ha sido inspirada de manera especial por su Padre, Hermano
Jess y Consolador como parte de los proyectos de investigacin de World Outreach Light to the
Nations Ministries (WOLNM). As mismo, el trabajo es el resultado de su experiencia
profesional, como investigador y docente en la Unidad Profesional Interdisciplinaria de
Ingeniera y Ciencias Sociales y Administrativas (UPIICSA) del Instituto Politcnico Nacional
(IPN) y fruto del desarrollo de su tesis doctoral en el Centro de Investigacin en Computacin del
Instituto Politcnico Nacional.

PRLOGO

El lenguaje natural es una de las manifestaciones de la capacidad cognitiva del ser humano en la
que da curso a la exteriorizacin de sus pensamientos a sus semejantes. Para ello las personas se
valen de una serie de convenciones fonticas y visuales que hacen posible el entendimiento. Dada
la naturaleza del lenguaje natural, su tratamiento por medio de sistemas de cmputo, constituye
un reto de investigacin y desarrollo.
En este ejemplar, se aborda el tratamiento de lenguaje natural que es alimentado al computador a
travs de un perifrico como el teclado. Al estar reasentado el texto en forma magntica, se evitan
los problemas de ruido y reconocimiento de patrones caractersticos del ambiente normal de
comunicacin entre seres vivos.
Por tal motivo, el material que se presenta en esta edicin se compone de seis captulos en los que
se abordan los temas de: Naturaleza del lenguaje natural. Los anlisis lexicogrficos, sintcticos y
semnticos. Adems de tratar la interpretacin y la generacin del lenguaje. A lo largo del
material se exponen las actividades, tcnicos y estructuras de datos que se recomiendan emplear
para el desarrollo de aplicaciones destinadas al tratamiento del lenguaje natural por un sistema de
cmputo.

TABLA DE CONTENIDO
INTRODUCCIN
3
1. MBITO DEL LENGUAJE NATURAL ..................................................................................................................7

1.1 PERFIL.................................................................................................................................. 7
1.2 REAS DE ESTUDIO.......................................................................................................... 7
1.2.1 Lingstica ...................................................................................................................... 7
1.2.2 Psicologa ....................................................................................................................... 9
1.2.3 Filosofa .......................................................................................................................... 9
1.2.4 Neurociencias ............................................................................................................... 11
1.2.5 Comunicacin Social.................................................................................................... 13
1.3 RAMAS DE INVESTIGACIN......................................................................................... 13
1.3.1 Comprensin del Lenguaje Natural Escrito ................................................................. 13
1.3.2 Dilogo Sonoro............................................................................................................. 14
1.4 DESARROLLOS ................................................................................................................ 14
1.5 APLICACIONES Y PROGRAMAS .................................................................................. 16
1.6 REPRESENTACIN .......................................................................................................... 16
1.6.1 Representacin.............................................................................................................. 16
1.6.2 Mapeo ........................................................................................................................... 17
1.6.3 Nivel de Interaccin entre los Componentes................................................................ 18
1.7 ETAPAS EN EL PROCESAMIENTO ............................................................................... 18
2. ANLISIS LXICO

25

2.1 DESCRIPCIN ................................................................................................................... 25


2.2 LENGUAJE......................................................................................................................... 25
2.2.1 Alfabeto ........................................................................................................................ 25
2.2.2 Morfologa .................................................................................................................... 26
2.2.3 Diccionario ................................................................................................................... 28
2.2.4 Unidades Lxicas.......................................................................................................... 28
2.3 PROCEDIMIENTO ............................................................................................................ 30
2.4 ADMINISTRACIN DE ERRORES ................................................................................. 33
2.5 DESARROLLO................................................................................................................... 34
3. ANLISIS SINTCTICO .......................................................................................................................................37

3.1 DESCRIPCIN DEL ANLISIS SINTCTICO .............................................................. 37


3.2 ELEMENTOS ..................................................................................................................... 37
3.2.1 Gramticas .................................................................................................................... 37
3.2.2 Redes de Transicin...................................................................................................... 38
3.2.3 Parsers........................................................................................................................... 41
3.3 TEORAS DE CHOMSKY ................................................................................................. 42
3.4 REDES DE TRANSICIN AUMENTADAS (RTA) ........................................................ 47
3.5 DESARROLLO DEL MDULO SINTCTICO............................................................... 51
4. ANLISIS SEMNTICO........................................................................................................................................57

4.1 NATURALEZA .................................................................................................................. 57


4.2 ELEMENTOS ..................................................................................................................... 57
4.2.1 Contexto ....................................................................................................................... 57
4.2.3 Relacin ........................................................................................................................ 58
4.3. ESTUDIO DE GRAMTICAS SEMNTICAS............................................................... 58
4.3.1 Teora Semntica .......................................................................................................... 58

4.4 GRAMATICAS CASE ....................................................................................................... 62


4.5 REDES SEMNTICAS ...................................................................................................... 65
4.5.1 Bsqueda ...................................................................................................................... 66
4.5.2 Representacin de Predicados no Binarios................................................................... 66
4.5.3 Distinciones Importantes .............................................................................................. 68
4.5.4 Herencia Simple ........................................................................................................... 69
4.5.5 Herencia Mltiple......................................................................................................... 69
4.5.6 Excepciones .................................................................................................................. 70
4.6 DEPENDENCIA CONCEPTUAL...................................................................................... 70
4.6.1 Argumentos para la Representacin en CD.................................................................. 72
4.7 CONSTRUCCIN DEL MDULO SEMANTICO ......................................................... 73
5. COMPRENSIN

79

5.1 PERFIL................................................................................................................................ 79
5.2 PROCESO ........................................................................................................................... 79
5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO ........................................................... 80
5.4 TCNICAS.......................................................................................................................... 83
5.5.1 Empleo de la Atencin ................................................................................................. 83
5.5.2 Modelo de Creencias .................................................................................................... 83
5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS............................................ 85
5.6 GUIONES............................................................................................................................ 86
5.6.1 Representacin de conocimiento .................................................................................. 86
5.6.2 Razonamiento ............................................................................................................... 88
5.6.3 Ventajas y Desventajas................................................................................................. 89
5.7 COMPRENSIN DE HISTORIAS .................................................................................... 89
5.7.1 Inters ........................................................................................................................... 89
5.7.2 Comprensin de Historias ............................................................................................ 90
6.8 CREACIN DE UN INTERPRETADOR.......................................................................... 90
6. GENERACIN DE LENGUAJE ............................................................................................................................95

6.1 CONSIDERACIONES........................................................................................................ 95
6.2 PROCEDIMIENTO ............................................................................................................ 95
6.3 USO DE PLANTILLAS...................................................................................................... 96
6.4 MODELOS DE GENERACIN ........................................................................................ 98
6.5 PROCEDIMIENTO INVERSO .......................................................................................... 99
6.6 EXPRESIONES ................................................................................................................ 100
6.7 CREACIN DE UN MODELO ....................................................................................... 101
CONCLUSIONES
REFERENCIAS

109
113

TABLA DE FIGURAS
Figura 1. Composicin del Ser Humano. ........................................................................................ 7
Figura 2. Regiones Cerebrales Responsables del Lenguaje. ......................................................... 12
Figura 3. Expresin Arborescente. ............................................................................................... 17
Figura 4. Tipos de Mapeo.............................................................................................................. 18
Figura 5. Interaccin entre los Componentes de una Oracin....................................................... 19
Figura 6. Esquema de un Sistema de Lenguaje Natural. ............................................................... 20
Figura 7. Evolucin de un Sistema de Lenguaje Natural. ............................................................. 20
Figura 8. Ciclo del Analizador Lxico. ......................................................................................... 25
Figura 9. Aplicacin de Unidades Lxicas.................................................................................... 29
Figura 10. Procedimiento de Entrada del Analizador Lxico. ...................................................... 31
Figura 11. Procedimiento de Salida del Analizador Lxico.......................................................... 32
Figura 12. Gramtica Libre de Contexto....................................................................................... 37
Figura 13. RTEF para una Simple Gramtica. .............................................................................. 39
Figura 14. RTEF para una Gramtica............................................................................................ 39
Figura 15. RTEF no Determnistica. ............................................................................................. 40
Figura 16. RTEF de una Gramtica del Ingls. ............................................................................. 41
Figura 17. rbol de Traduccin. ................................................................................................... 42
Figura 18. Estructura de Frase....................................................................................................... 44
Figura 19. Desarrollo de una Gramtica Transformacional. ......................................................... 44
Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional................................. 45
Figura 21. Atributos de los Smbolos de un Frase Marcada.......................................................... 46
Figura 22. Funcionamiento de la Teora de Sintaxis. .................................................................... 47
Figura 23. Gramtica. .................................................................................................................... 50
Figura 24. Estructura Ligada para una Frase................................................................................. 52
Figura 25. Programa para Gramtica tipo RTA. ........................................................................... 53
Figura 26. Contexto de un Lenguaje. ............................................................................................ 58
Figura 27. Marcadores Usados en la Teora Semntica. ............................................................... 59
Figura 28. Marcadores Semnticos. .............................................................................................. 59
Figura 29. Ejemplo de Distinguidores........................................................................................... 59
Figura 30. Rutas Amalgamadas para Interpretar una Oracin. ..................................................... 60
Figura 31. Frases Emitidas por una Semntica Generativa. .......................................................... 61
Figura 32. Frases Marcadas por una Semntica Generativa.......................................................... 62
Figura 33. Oracin por Medio de una Gramtica Case. ................................................................ 63
Figura 34. Oracin Negativa Expresada por Medio de Case Frame. ............................................ 64
Figura 35. Oracin Positiva Expresada Medio de Case Frame. .................................................... 64
Figura 36. Oracin en Voz Activa................................................................................................. 64
Figura 37. Oracin en Voz Pasiva................................................................................................. 65
Figura 38. Red Semntica Binaria................................................................................................. 66
Figura 39. Red Semntica n-aria. .................................................................................................. 67
Figura 40. Red Semntica Relacional. .......................................................................................... 67
Figura 41. Relacin de Entidades. ................................................................................................. 68
Figura 42. Representacin de Objetos........................................................................................... 68
Figura 43. Representacin de Comparaciones. ............................................................................. 68
Figura 44. Herencia Simple........................................................................................................... 69

Figura 45. Herencia Mltiple. ....................................................................................................... 69


Figura 46. Representacin de Excepciones .................................................................................. 70
Figura 47. Dependencia Conceptual............................................................................................. 70
Figura 48. Uso de los Tiempos Conceptuales. ............................................................................. 72
Figura 49. Representacin de la Dependencia Conceptual. ......................................................... 73
Figura 50. Esquema de un Sistema de Lenguaje Natural............................................................. 74
Figura 51. Generacin de Significado para una Frase................................................................... 75
Figura 52. Generacin de Significado para una Frase................................................................... 79
Figura 53. Resultados del Anlisis Sintctico. .............................................................................. 80
Figura 54. Base de Conocimientos basada en Frames. ................................................................. 81
Figura 55. Significado Parcial de una Oracin.............................................................................. 81
Figura 56. Representacin de la intencin de una oracin. ...................................................... 82
Figura 57. Red Semntica Particionada........................................................................................ 84
Figura 58. Guin del Restaurante................................................................................................. 87
Figura 59. Interpretacin de Textos Fuente.................................................................................. 91
Figura 60. Exposicin de Respuesta del Intrprete. ..................................................................... 91
Figura 61. Generacin de Lenguaje.............................................................................................. 96
Figura 62. Ejemplo de Perspectivas. ............................................................................................ 97
Figura 63 Template de la Oracin. ............................................................................................... 97
Figura 64. Inferencia. ................................................................................................................... 97
Figura 65. Estructura de Frames................................................................................................... 98
Figura 66. Modelo de Oracin por medio de Frames................................................................... 99
Figura 67. Flujo de Generacin de Lenguaje. ............................................................................... 99
Figura 68. Relacin de Cambios de Estado................................................................................ 100
Figura 69. Un Acto Provoca la Ejecucin de Otro. .................................................................... 101
Figura 70. Un Acto Implica la Ejecucin de Otros. ................................................................... 101
Figura 71. Representacin de Estados Mentales. ....................................................................... 101
Figura 72. Estados Mentales Ligados por Inicio, Terminacin y Correlacin........................... 102
Figura 73. Instancias de Eventos que Terminan en Relacin o Acto. ........................................ 102
Figura 74. Asociacin de Situaciones Diversas por Medio de Eventos. ..................................... 102
Figura 75. Causa-Efecto de Eventos y Estados. .......................................................................... 103
Figura 76. Perspectivas que Involucran Eventos Positivos. ........................................................ 103
Figura 77. Abstraccin de Perspectivas en Niveles..................................................................... 104
Figura 78. Abstraccin a un Mayor Nivel mediante Unidades. ................................................. 104
Figura 79. Historia del Regalo de Juan a Mara ......................................................................... 105

LISTA DE TABLAS
Tabla 1. Limitaciones y Ventajas de los Lenguajes. ..................................................................... 17
Tabla 2. Alfabeto de la Lengua Castellana.................................................................................... 25
Tabla 3. Ejemplos de Palabras Compuestas. ................................................................................. 26
Tabla 4. Uso de Tiempos............................................................................................................... 26
Tabla 5. Derivados Irregulares. ..................................................................................................... 27
Tabla 6. Opciones de Gnero y Nmero. ...................................................................................... 27
Tabla 7. Comparativos................................................................................................................... 27
Tabla 8. Generacin de Races Incorrectas. .................................................................................. 27
Tabla 9. Formato de Diccionario................................................................................................... 28
Tabla 10. Tipo de Organizacin y Acceso .................................................................................... 28
Tabla 11. Formato de la Estructura Temporal Fuente. .................................................................. 29
Tabla 12. Formato de la Unidad Lxica. ....................................................................................... 30
Tabla 13. Formato de la Estructura Temporal Fuente. .................................................................. 51

INTRODUCCIN

INTRODUCCIN
Los sistemas de cmputo se han convertido en una herramienta para el desempeo de labores
profesionales, comerciales, sociales, deportivas, cultures y domsticas del ser humano; gracias a
los beneficios que brindan en el tratamiento de informacin de una manera confiable, rpida y
precisa. Su popularidad ha crecido aceleradamente gracias a la evolucin de la electrnica y las
comunicaciones, que han aportado avances y mejoras significativas en la fabricacin de equipo
cada da ms poderoso y a la vez econmico, que acompaado por la robustez y facilidad en el
empleo de los programas de cmputo, han hecho en conjunto una herramienta muy valiosa para
el bienestar de la sociedad.
Las tendencias mundiales de automatizacin, globalizacin y modernizacin, obligan a los
sectores productivos de los pases a invertir en el desarrollo, generacin, produccin e
implementacin de bienes con un alto nivel de contenido tecnolgico. En donde el factor comn
es facilitar el uso de los productos e incrementar la utilidad. Un ejemplo contundente es la
generalizacin de aplicaciones de cmputo como el uso de un sistema operativo estndar en los
computadores personales y el intercambio de informacin a travs de internet por medio de un
protocolo universal.
Proveer un vehculo de comunicacin sencillo y natural entre el operador y el sistema ha sido un
factor determinante de xito de estas aplicaciones, lo cual ha motivado a profundizar en el uso de
instrumentos y tecnologas que tiendan a emular el dilogo natural entre los usuarios sin
menoscabo que uno de los participantes sea una mquina.
Para crear este tipo de proyectos se requiere la intervencin de varios campos especializados,
entre los que destaca el Informtico que aparto un conocimiento valioso, organizado en algunas
materias especficas. Una de ellos se conoce como Lenguaje Natural. Disciplina que basa sus
fundamentos en las matemticas, la lingstica y la inteligencia artificial. Con ella se aborda el
reto de construir sistemas de cmputo orientados al manejo, comprensin y generacin del
lenguaje natural que expresa un usuario y la aplicacin que opera.
Es por ello, que como parte de la formacin de un especialista en sistemas de informacin se le
brindan los elementos logsticos y experiencias apropiadas para el diseo de aplicaciones basadas
en el uso del lenguaje natural. Por tal motivo, uno de los temas integrantes de su formacin se
concentra a proponer todos los conceptos, tcnicas y procedimientos necesarios en la concepcin,
diseo e implementacin de sistemas para el proceso de lenguaje natural escrito.
Para enriquecer y facilitar la investigacin y desarrollo de este clase de aplicaciones, se ha
compilado el Reporte Tcnico como resultado de los estudios, investigacin y desarrollo de
sistemas que emplean interfases basadas en el lenguaje natural. Por tanto, la estructura del
material se compone por un conjunto de captulos dedicados a describir las etapas del
procesamiento del lenguaje natural comenzando por describir la naturaleza del propio lenguaje,
las etapas para el proceso del lenguaje natural y se concluye con una serie de observaciones para
la creacin de esta clase de aplicaciones.

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El cuerpo del Reporte Tcnico se desglosa de la siguiente forma: El captulo uno se ofrece un
panorama del lenguaje natural, las reas de estudio, las ramas de investigacin, aplicaciones y
programas del lenguaje natural. En el captulo dos se presenta la descripcin del Anlisis Lxico
a partir de los elementos del lenguaje, la morfologa, el diccionario, el manejo de unidades
lxicas, el manejo de errores e implementacin.
El captulo tres describe la naturaleza del Anlisis Sintctico, identifica sus elementos, tales como
las gramticas, adems de ofrecer un resumen de las teoras de Chomsky y de las redes de
transicin aumentadas, concluyendo con una serie de lineamientos para crear un mdulo
sintctico. En el captulo cuatro se dedica a presentar el Anlisis Semntico a partir de un perfil y
de sus elementos. Tambin ofrece un apartado para el anlisis de las gramticas semnticas y
CASE, las Redes Semnticas y la Dependencia Conceptual, amn de ofrecer recomendaciones
para crear un mdulo Semntico.
El captulo cinco introduce un perfil de la Interpretacin del lenguaje natural acompaado por la
descripcin del proceso para su tratamiento, el anlisis pragmtico, tcnicas para la interpretacin
como la atencin y el modelo de creencias, adems de presentar el mtodo de direccin por metas
y los guiones, la comprensin de historias y una serie de lineamientos para crear un intrprete. El
captulo seis aborda el tema de la generacin del lenguaje a partir de las consideraciones,
procedimiento, el uso de plantillas, y modelos de generacin. As mismo, describe el
procedimiento inverso en la generacin de lenguaje, la composicin de expresiones y el proceso
para construir un mdulo.
En los ltimos apartados del Reporte Tcnico se presentan las conclusiones y referencias
bibliogrficas. Con este material se pretende motivar al estudio, desarrollo y aplicacin de
sistemas de informacin que incluyan como interfase hombre-mquina mecanismos para el
procesamiento de lenguaje natural, como un medio simple de dilogo.

CAPTULO 1. MBITO DEL LENGUAJE NATURAL

1. MBITO DEL LENGUAJE NATURAL


1.1 PERFIL
El lenguaje natural LN es la forma de comunicacin que el humano aprende de su ambiente y
usa para comunicarse con los dems, para expresar sus ideas, emociones y necesidades,
esperando cierta clase de respuesta por parte de su interlocutor, como se muestra en la Figura 1:

Espritu

El ser humano
es
Tripartito
[1]

Intuicin
Conciencia
Comunin

Mente
Alma

Sentimientos
Voluntad

Cuerpo

Exterior: cabello, ojos, piel, ..


Interior: venas, tejidos, huesos, ..

Figura 1. Composicin del Ser Humano.

1.2 REAS DE ESTUDIO


1.2.1 Lingstica
Es el estudio del lenguaje encargado de explicar la composicin y empleo del lenguaje [2]. Entre
sus reas de estudio se encuentran la sintaxis, gramtica, semntica, morfologa y la fonologa.
Como parte de sus intereses est la regulacin misma del lenguaje, es por ello que existen las
Academias de la lengua.
La lingstica juega un papel muy importante en el anlisis del lenguaje natural debido a que
regula su correcto empleo, a travs de varias ramas, entre las que destacan:
Sintaxis. Es la parte de la gramtica que estudia la concordancia o armona que entre varias
clases de palabras ha establecido el uso, rgimen o dependencia mutua, adems de normar y el
orden en que se colocan los diversos elementos que componen a la oracin. La sintaxis
constituye la parte formal del lenguaje.
Fontica. Estudia la acstica (la formacin y propagacin de los sonidos) y la fisiologa (como
funcionan los rganos al producir sonido) de las expresiones pronunciadas, representadas como
fonemas. Cada fonema representa un sonido, pero no siempre est ilustrado por una sola letra o
grafa. Por eso el sistema fonolgico y el alfabeto ortogrfico con que se escribe el espaol, no
guardan entre s una exacta correspondencia.
El espaol posee fonemas que se identifican como vocales: /a/e/i/o/u/, y fonemas que se realizan
en consonantes: /d/f/l/m//p/t/. Los desajustes entre ambos alfabetos consisten en que:

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El fonema /b/ corresponde a dos letras (b y v), lo mismo que el fonema /y/ (letras ll e y
inicial de slaba), y el fonema /rr/ (letras r, rr intervoclica).
Corresponden a tres letras: el fonema /k/ (que se describe con la k, la qu); la c que
precede a las vocales a, o, u (ca, co, cu) y el fonema /s/ (que se escribe con las letras s,
z, c seguida de e o de i: ce, ci).
El fonema /g/ corresponde a la letra g cuando va antes de a, o, u (ga, go ,gu), o bien,
corresponde a la letra doble gu, antes de e o de i (gue, gui).
El fonema /j/ corresponde a la letra j y tambin a la letra g, pero solamente cuando va
seguida de las vocales e e i (ge, gi).
Hay letras dobles: ch (fonema /ch/), ll (fonema /y/), qu (fonema /k/), rr (fonema /rr/) y
gu seguida de e o de i (fonema /g/).
La letra x corresponde a dos sonidos representados por sus respectivos fonemas: /k/ y /s/.
La letra r a veces representa al fonema /r/ (arete) y a veces al fonema /rr/ (rata). Mientras que
la letra h no corresponde a ningn sonido ni representa ningn fonema; slo tiene valor
ortogrfico.
La letra w no se usa en el espaol ms que en palabras procedentes del ingls (en ese caso
suena como u: Washington) o procedentes del alemn (entonces suena como el fonema /b/
Wagner).
Fonologa. La fonologa estudia cul es el valor de los fonemas desde el punto de vista de su
funcin en la lengua. El fonema es el elemento ms simple de la lengua. Representa, en
abstracto, todas las cualidades fnicas que lo hacen identificable en el habla.
El fonema es pues la unidad fonolgica unidad que se caracteriza por ser diferenciadora de
significado, pero carente de significado en s misma. Por ejemplo el fonema /l/, por si solo,
carece de significado; pero si en la palabra ley se sustituye por el fonema /rr/ (rey), resulta una
diferencia de significado.
As pues, la fonologa investiga que diferencias fnicas estn relacionadas con diferencias de
significado, qu relaciones establece un fonema con los dems dentro de un paradigma y como
se da este, por ejemplo, en:
pala (/p/), mala (/m/), sala (/s/), tala (/t/), bala (/b/), gala (/g/), jala (/j/).
-ala el fonema omitido determina la diferencia de la palabra; tambin indica cmo se combina
con otros para formar palabras y frases.
Semntica. Es la disciplina cientfica que estudia los cambios de significacin que han operado
en las palabras.

mbito del Lenguaje Natural

Gramtica. Estudia la funcin (sintaxis) y la forma (morfologa) de los signos lingsticos. Se


encarga de estudiar los elementos del lenguaje y sus combinaciones. La gramtica es rgida por el
principio de que todos los elementos mantienen entre s relaciones semnticas. Adems, trata de
formular una serie de reglas, capaces de generar o producir todas las oraciones posibles y
aceptables del lenguaje.
1.2.2 Psicologa
Psicologa es el estudio cientfico del comportamiento. Como tal, la psicologa describe el
comportamiento (el qu) y trata de explicar las causas del mismo (el por qu).
La descripcin del comportamiento como resultado del estudio psicolgico no es casual o carente
de objetivo. El estudio del comportamiento tiene como propsito la explicacin, la prediccin y
el control del mismo. Bsicamente, la explicacin pretende identificar las causas que motivan a
un determinado comportamiento en el individuo. La prediccin ocurre cuando el psiclogo
anticipa correctamente eventos que ocurren en circunstancias naturales; mientras que el control
significa que el psiclogo de algn modo manipula la situacin para obtener un resultado
esperado.
La forma en que se relaciona la psicologa y el lenguaje natural estriba en el inters de
comprender como se produce el proceso de generacin y entendimiento del lenguaje, el cual se
puede generalizar en tres fases:

Se empieza con un pensamiento.


Escogemos palabras y frases que expresen la idea.
Producimos los sonidos del habla que forman dichas palabras y frases.

Para poder entender el proceso de generacin del lenguaje se debe de abordar el problema
tomando en consideracin temas donde este se ve involucrado y tiene que ver, como lo son el
pensamiento, la cognicin, aprendizaje y la personalidad, entre otros.
1.2.3 Filosofa
Se interesa fundamentalmente en dos reas de estudio del lenguaje. La primera como forma de
pensamiento del ser humano - individuo y ente social, la segunda por medio del formalismo en
las estructuras y significados, aplicando mtodos de inferencia.
La filosofa define al lenguaje de la siguiente manera: Parte de la filosofa que investiga las
aportaciones de este medio de expresin, adems de su origen, esencia, y condiciones
espirituales de su desarrollo.
Para los griegos, como iniciadores de la filosofa, el estudio del lenguaje tom gran importancia,
ellos utilizaban con frecuencia la palabra os que en griego significa palabra y en latn se
tradujo como verbo. Scrates utiliz ampliamente un mtodo que utilizaba al lenguaje, en forma
de preguntas llamado en filosofa como Mayutica, utilizndolo primordialmente para hallar
una definicin, el concepto de lo que es el amor, la justicia, la templanza y la compasin.

10

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El mtodo socrtico recibe el nombre de Dialctico, como el arte de debatir mediante preguntas y
respuestas, para as llegar a la verdad. El lenguaje humano es artificial, es un producto que se
hereda y que el nio aprende lentamente a travs de los aos, es una creacin de la colectividad
que ningn individuo aislado puede llegar a dominar enteramente. Segn los italianos Vico y
Croce, el lenguaje es una actividad potica que, primitivamente, no pretendi satisfacer ninguna
necesidad sino obedeci al simple placer de nombrar cosas.
Otros afirman que el lenguaje se desarrolla de acuerdo con las necesidades humanas. A medida
que la historia vara, y nuevas concepciones sociales, polticas, religiosas y econmicas surgen y
desaparecen, el lenguaje cambia y tambin se adapta a otras funciones y trata de expresar otros
sentimientos. As una palabra puede tener muchos sentidos. La voz Libertad, por ejemplo, no
significa lo mismo en nuestro tiempo que en la Antigedad Clsica o en la Edad Media,
acontecimientos histricos de gran importancia han cambiado su valor. An en las pocas
recientes, no tiene igual significado en una democracia liberal que en una dictadura. Diferentes
concepciones polticas bastan para alterar el mecanismo expresivo del lenguaje.
Para la filosofa, el lenguaje natural, el que todos hablamos, no est al servicio ni de la razn pura
ni del arte, no apunta ni a un ideal lgico ni a un ideal literario, su funcin primordial constante,
no es la de construir silogismos, ni la de redondear perodos, ni la de plegarse a las leyes. El
lenguaje est simplemente al servicio de la vida y no de la vida de unos pocos, sino de la de todos
y en todas sus manifestaciones, su funcin es biolgica y social.
Si el lenguaje no es una creacin lgica, es porque la vida de la cual es expresin, nada tiene que
ver con las ideas puras. Si se dice que la vida es corta, este axioma no interesa en s mismo
mientras no se sienta, mientras se viva, esta idea general no penetra realmente en alguien, ms
que gracias a una modificacin subjetiva acompaada de una vibracin efectiva, por ligera que
sea, y esto no es posible sino cuando, mediante asociaciones simples o complejas, poco importa,
pienso yo en mi vida o en la vida de otras personas implicadas en mi existencia.
La ecuacin dos y dos son cuatro deja indiferente a quien la conciba con su pura abstraccin,
pero un obrero que ha ganado dos pesos por la maana y dos pesos por la tarde, se representar
muy vivamente que los cuatro pesos que lleva a casa son una suma ms importante que cada una
de los sumandos. Pero esto no es ya una idea, es un valor.
El juicio intelectual de La tierra gira se cambia en juicio de valor en la boca de Galileo al gritar
entre los jueces eppur si muove. En ese momento ya no es una verdad cientfica, es la
afirmacin de un valor adherido a esa verdad, la verdad le parece tan preciosa a quien la emite,
que arriesga su vida por ella. La forma de pensamiento anterior se refleja, segn la filosofa, en
el lenguaje natural, si esto es as, tiene que ser muy distinta de lo que hace creer la lgica y la
esttica.
El lenguaje supone un medio de comunicacin previo, originario, natural. Algunos le llaman
lenguaje natural al que experimenta el nio cuando quiere comunicarse, antes de conocer el
lenguaje artificial. Aristteles llam symbola (signos) a las palabras y pragmata (imgenes) a los
conceptos. En su tratado Interpretatione afirma que las voces son los primeramente signos de las
pasiones del alma y stas son imgenes de las cosas.

mbito del Lenguaje Natural

11

1.2.4 Neurociencias
Las neurociencias son aquellas disciplinas que se encargan de estudiar el sistema nervioso, su
composicin y funcionamiento, por lo que respecta al lenguaje se interesa en precisar las partes
responsables de su manejo e interpretacin. Nuestro cerebro est dividido en hemisferios
cerebrales, el izquierdo es el que tiene las funciones del movimiento de la mano derecha, el
habla, el lenguaje, la escritura, la lgica, las matemticas y las ciencias.
La corteza cerebral que forma a los hemisferios se divide en cuatro regiones principales
denominadas lbulo frontal, parietal, temporal y occipital. Enfocndonos solamente al
habla y al lenguaje, podemos decir que el lbulo encargado de estas funciones es el lbulo
parietal, el cual se ocupa del reconocimiento de estmulos sensoriales especficos, la capacidad
de usar smbolos como un medio de comunicacin - es decir el lenguaje - y de la capacidad de
desarrollar las ideas y las respuestas motoras necesarias para llevarlas a cabo.
rganos que Participan en el Aprendizaje del Lenguaje
Como se mencion anteriormente, el rgano principal para el aprendizaje del lenguaje es el
cerebro, ya que este recibe todos los impulsos que mandan otros rganos que participan en el
lenguaje, como son: msculos de la laringe, la lengua, las cuerdas vocales. Estos rganos que
coordinan la produccin del habla, derivan sus impulsos nerviosos de distintos centros, los
cuales, a su vez estn gobernados por un centro comn en el cerebro. Cabe mencionar que los
impulsos son llevados al cerebro mediante nervios. Podemos mencionar el nervio hipogloso, que
es el motor de los msculos extrnsecos de la lengua, y el vago, que entre otras funciones, es el
motor de dos msculos de la faringe y laringe.
Localizacin de la Funcin
Mientras estudiaba el cerebro, Gall haba llegado a la conclusin de que los lbulos frontales (la
parte del cerebro ms cercana a la parte superior de la frente) estaban especializada en el habla.
Un admirador de la obra de Gall se sinti tan impresionado por esta afirmacin, que ofreci una
recompensa de quinientos francos a cualquiera que pudiera encontrar un paciente con lesin en el
lbulo frontal y sin un trastorno en el habla. Este reto impuls a un joven neurocirujano llamado
Paul Broca a comenzar el examen de pacientes que sufran de prdida del habla.
El primer caso de Broca ocurri en 1861, cuando un hombre ingres al hospital con una seria
infeccin en una pierna, tambin haba sufrido durante muchos aos la prdida del habla, lo
llamaban Tan, porque era la nica palabra que poda decir. Dos das despus que Broca lo
examin, Tan muri a consecuencia de la infeccin, y Broca pudo realizar un examen
postmrtem del cerebro. La autopsia revel lesiones en la parte izquierda del lbulo frontal.
Durante los tres aos siguientes, Broca investig otros casos ms. Cada uno de los trastornos en
el habla iba acompaado de una lesin en el lbulo frontal izquierdo, por lo que esa zona lleg a
llamarse de Broca. Poco despus de que Broca informara de sus descubrimientos, Carl
Wernicke identific una segunda zona del cerebro, llamada actualmente zona de Wernicke,
relacionada tambin con el lenguaje. La zona de Wernicke est situada en el lbulo temporal, una
parte del cerebro situada sobre la oreja. Lo asombroso fue que las zonas de Wernicke y de Broca
resultaron estar relacionadas con diferentes aspectos del lenguaje.

12

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Una lesin (dao en los tejidos) en la zona de Broca produca un trastorno del habla caracterizado
por lentitud y dificultad al hablar y una articulacin deficiente lo cual hace difcil la comprensin
de las palabras. En este tipo de trastorno del habla, o afasia, el lenguaje podr tener sentido
pero generalmente no se puede expresar como una oracin completa. Por ejemplo, al preguntarle
acerca de una cita con el dentista, un paciente dijo: S... lunes... pap y Dick... mircoles nueve
en punto... diez en punto... doctores... y... dientes. Toda la informacin parece estar presente,
pero es difcil comprender las palabras y las oraciones estn incompletas.
Aunque los pacientes con la afasia de Broca tienen dificultad para expresarse, no la tienen para
comprender el lenguaje. Las lesiones en la zona de Wernicke producen un tipo diferente de
afasia. Las oraciones pueden estar gramaticalmente correctas y el habla misma puede ser normal,
pero las oraciones carecen de sentido. Cuando se pidi a un paciente con lesin en la zona de
Wernicke que describiera un grabado donde haba dos nios robando galletas a espaldas de una
mujer, el paciente respondi: Mama est aqu lejos trabajando su trabajo para hacer a ella
mejor, pero cuando ella est mirando los dos nios mirando en la otra parte. Ella est
trabajando otro tiempo. El habla en s es normal, y las palabras estn unidas en algo que
parecen oraciones, pero esas oraciones carecen de sentido. Adems de perturbar el lenguaje
hablado, las lesiones en la zona de Wernicke tambin alteran la comprensin del lenguaje. Los
pacientes con afasia de Wernicke fuerte no pueden comprender ni siquiera palabras solas.
Las diferencias entre las afasias de Wernicke y de Broca llevaron a Wernicke a formular un
modelo de cmo el cerebro produce el lenguaje. Hoy en da, casi cien aos despus, este modelo
es ampliamente aceptado an. Segn este modelo, cuando se oye una palabra, la seal pasa a la
zona de Wernicke, donde es comprendida como un mensaje verbal. El lenguaje hablado se
origina en la zona de Wernicke. All es donde se forman las oraciones con sentido. Entonces,
la oracin es transferida a la zona de Broca. La zona de Broca es responsable de la
programacin de los msculos de la cara, la lengua y la laringe para que la persona emita la
oracin formada en la zona de Wernicke. De esta forma, una lesin en la zona de Broca
afecta el habla, mientras que una lesin en la zona de Wernicke deja el habla intacta, pero
perturba la comprensin del lenguaje y la formacin de oraciones con sentido, como se aprecia en
la Figura 2.

Figura 2. Regiones Cerebrales Responsables del Lenguaje.

mbito del Lenguaje Natural

13

Tanto Wernicke como Broca descubrieron que los centros del lenguaje en el cerebro humano se
localizaban casi siempre en el hemisferio izquierdo. Por eso los pacientes que sufren lesiones
debido a una trombosis en el lado izquierdo del cerebro, y no en el derecho, tienen dificultades
con el habla.
1.2.5 Comunicacin Social
En la comunicacin social concurren diversas disciplinas como la sociologa, ciencias jurdicas
y polticas y la publicidad, las cuales en forma individual ponen una especial atencin a la
comunicacin de masas procurando que cada miembro de ellas quede cautivo del mensaje
deseado, esperando cierto tipo de reaccin.
Cuando la comunicacin social emplea medios masivos de comunicacin ejerce dos tipos
principales de influencias: las mas directas, inmediatas y visibles (denominadas primarias) y
los efectos secundarios, producidos a mediano o largo plazo, son menos aparentes y sin duda mas
generales, pero resultan capaces de modificar progresivamente el modo de pensar o actuar de una
poca o sociedad.
Efectos Primarios
La sociologa de observacin los efectos primarios se ha desarrollado a partir de dos prototipos
de estudios muy caractersticos. El primero compara las distintas convicciones y respuestas
individuales antes y despus de la explosin de la comunicacin, con lo que se pondera la
eficacia de una difusin. El segundo mtodo estudia los cambios que se producen en la opinin
durante diferentes emisiones como por ejemplo las campaas electorales o publicitarias, etc.
Las encuestas de opinin pblica son un digno ejemplo de la aplicacin de este enfoque, donde
una muestra de personas con diversas caractersticas pueden mostrar patrones de preferencias
especficas, por ejemplo, al cuestionar las inclinaciones polticas de los electores en los Estados
Unidos de Amrica se detect que la combinacin de un nivel socioeconmico elevado, la
pertenencia a una religin y la residencia en zona rural predisponan al voto republicano,
mientras que la combinacin inversa se inclinaba hacia el partido demcrata.
Efectos Secundarios
Al observarse los efectos secundarios de modo socilogo se llega a desempear el papel de
ensayista que suple la falta de informacin con intuicin, juicios apriorsticos o su propia
ideologa. Los comuniclogos estn de acuerdo en creer que el horizonte de la cultura moderna se
modifica por la continua accin de los medios de comunicacin; y se insiste cada vez mas en las
posibilidades de diversificacin que ofrecen el desarrollo de la prensa especializada y la
multiplicacin de emisores de radio, televisin e internet. Se define como la existencia de una
cultura en forma de mosaico, constituida yuxtaposicin de elementos muy dispares.

1.3 RAMAS DE INVESTIGACIN


1.3.1 Comprensin del Lenguaje Natural Escrito
El entendimiento del lenguaje natural escrito se conoce en al mbito de la inteligencia artificial
como "Procesamiento de Lenguaje Natural" y se enfoca en la recepcin de texto cuyo contenido
es interpretado lxica, sintctica y semnticamente en funcin al conocimiento que se tiene del
lenguaje, del contexto y persona que lo expresa, adems del conocimiento "ordinario" [3].

14

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.3.2 Dilogo Sonoro


Conocido como "Procesamiento del lenguaje hablado" es caracterizado por los sonidos que el ser
humano es capaz de producir, los cuales son determinados por el lenguaje aprendido y el lugar
del mecanismo anatmico de produccin (el cual normalmente es el mismo para todos los
humanos). El dilogo es generado hilvanando "lapsos de sonido individuales" en patrones
reconocidos. Al estudio de dichos patrones de sonido se llama "fonologa".
El procesamiento del lenguaje natural sonoro emplea todos los elementos de la interpretacin del
lenguaje escrito, ms el conocimiento adicional sobre fonologa as como la correspondiente al
tratamiento, depuracin y digitalizacin del sonido, procurando evitar ambigedades y eliminar
ruido.
La interpretacin sonora del lenguaje comienza por identificar fonemas que constituyen la ms
pequea unidad del lenguaje hablado y que se distingue de los dems. Cada lenguaje incluye un
conjunto finito de fonemas a partir del cual puede expresarse completamente, ya que a pesar de
que generalmente un fonema no tiene un significado especfico, al ser combinado con otros
conforme a patrones establecidos produce unidades significativas llamadas morfemas.
Si un morfema tiene personalidad propia por s solo se denomina morfema libre, como por
ejemplo: preciso, provisto, desarrollo, etc. Pero si requiere asociarse con otro para adquirir un
significado real se llama morfema ligado, como sera: mi, des, sub; al ligarse con los morfemas
anteriores se obtienen: imprevisto, desprovisto y subdesarrollo.

1.4 DESARROLLOS
Los primeros proyectos en el campo del lenguaje natural iniciaron en los 60s con los siguientes
trabajos [4]:
ELIZA & STUDENT: Fueron dos proyectos a cargo de Weizenbaum & Bobrow orientados al
dilogo, estos sistemas almacena informacin acerca de sus dominios ("dilogo entre el terapeuta
y su paciente") con estructuras ad-hoc traduciendo declaraciones e interrogaciones sencillas en
"palabras clave" o "simples patrones" que se asocian con objetos definidos y relaciones, para
generar respuestas apropiadas aplicando reglas heursticas dependientes del dominio.
Traductores Automticos: las primeras aplicaciones iniciaron en ese tiempo, sin embargo,
rpidamente se reconoci que para entender el texto a traducir se requera de enormes cantidades
de conocimiento "ordinario" y en particular, se necesitaba la capacidad para hacer inferencias
acerca de objetos, intenciones, relaciones, etc. que no estn explcitas en el texto. El trabajo ms
significativo a comienzos de los 70s fue el sistema hecho por Yonck Wilks; que traduca del
ingls al francs basado en representaciones semnticas y en esquemas de inferencia. Su xito fue
muy limitado porque el sistema no conoca nada del tema a traducir en un sentido razonable.
Durante los 70s y 80s han destacado las siguientes aplicaciones: SHRDLV: desarrollado por
Winograd, dialoga con el usuario para realizar tareas de planeacin en la configuracin del
"mundo de los bloques", por medio de declaraciones y comandos contesta preguntas acerca del
estado de los bloques y las razones para efectuar movimientos.

mbito del Lenguaje Natural

15

El sistema integra la sintaxis, semntica y el proceso de razonamiento a travs de "Hiptesis de


Representacin Procedural" en donde el significado de las oraciones y sus componentes estn
representados en estructuras procedurales, mientras que el "entendimiento del lenguaje" se realiza
a travs de procedimientos que son activados en respuesta a la interpretacin de la oracin.
MARGIE. Realizado por Schank, implement la hiptesis de la descomposicin en primitivas del
lenguaje a travs de lo que denomin la dependencia conceptual, donde oraciones idnticas
expresadas en distintas lenguas pudieran tener la misma representacin conceptual. Tambin
aplic la hiptesis del entendimiento como resultado de una interferencia espontnea. Es decir, a
partir del texto se generan diversas interpretaciones sobre su significado, produciendo al final un
consenso de las conclusiones obtenidas.
SAM. Tambin desarrollado por Schank, introdujo el uso de Scripts para estructurar grandes
cantidades de informacin y situaciones estereotipadas que se alimentan al sistema para
generar un resumen, relatar la historia o contestar preguntas al respecto del tema.
MS Parlaprop. elaborado por Charniak, aplic conceptos de modularidad y comparticin de
estructuras de conocimiento a travs del uso de frames, para orientarlo al relato de historias.
PAM. Construido por Schank, habilita el uso de planes como estructuras de conocimiento para
tipificar metas comunes de la gente y los medios caractersticos que emplean para alcanzarlas.
Con estas herramientas el sistema obtuvo resultados muy interesantes.
POLITICS. Creado por Carbonell, implement la interpretacin aplicando varios puntos de
vista con su particular sistema de creencias como se modela al ser humano con su diversidad
de idiosincrasias. Tales estructuras de conocimiento permitan generar distintos comentarios a
partir de un mismo texto, cada uno de ellos expresando un particular modo de pensar.
IPP. Generado por Lebowitz, aplica varias clases de generalizacin acerca de protagonistas y
actividades tpicas en la historia y con el propsito de adquirir informacin que pueda usarse
para emitir especulaciones sobre las razones que motivan cierta conducta o el desenlace de los
eventos.
BORIS. Construido por Dyer integra una gran variedad de estructuras de conocimiento como los
Scripts, planes y manejo de creencias en unidades de tematizacin abstracta que contienen la
descripcin del plan, su propsito, razones por las que pueda fallar, como evitar dichas fallas o
recuperarse de ellas.
GVS. Desarrollado por Xerox, simula a un asistente de reservaciones reas que asesora al usuario
en la planeacin de un viaje. Utiliza frames conversacionales para guiar la entrevista y generar
informacin, aplicando el manejo de excepciones y uso de defaults.
ARGOT. Elaborado en Rochester University para implementar diversos tipos de dilogos, usa
varias categoras de planes, como los objetivo en donde se representa una meta y los de
comunicacin que contienen secciones de dialogo para introducir temas, hacer preguntas y
exponer conclusiones.

16

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.5 APLICACIONES Y PROGRAMAS


Entre los campos de aplicacin destacan:

Sistemas conversacionales.
Generadores de historias.
Traductores.
Sistemas expertos.
Tutores inteligentes.
Sistemas de planeacin.
Reconocimiento de voz.
Y en general los sistemas de informacin orientados a interactuar con el usuario final
mediante el lenguaje.

Herramientas de programacin sobresale:


SNOBOL. Creado por los laboratorios Bell es un lenguaje diseado para manipular strings como
datos primarios.
El formato de sus instrucciones es:
etiqueta
string-sujeto patrn = string-objeto: go-to etiqueta
El string-sujeto es el string cuyo contenido se actualiza. El patrn es una secuencia de
caracteres que es buscada en el contenido del string-sujeto para hacer referencia a dicha
instancia de string por ejemplo:
paso 1 texto = valor 1 * valor 2
paso 2 texto * = **
resulta en: texto = valor 1 ** valor 2
ICON: sucesor de SNOBOL incluye el proceso de listas tipo LISP [5] y el empleo de reglas.
COMIT: Es el primer lenguaje encontrado a proceso de strings.

1.6 REPRESENTACIN
1.6.1 Representacin
El ser humano usa el lenguaje natural para satisfacer la necesidad de transmitir sus "conceptos
internos" a su prjimo a travs de representarlos por un medio (llamado lenguaje) compuesto de
elementos y reglas (para interrelacionarlos), del cual selecciona aquellas unidades que mejor los
ilustran, con el propsito de lograr que el receptor "entienda" lo que realmente desea expresar.
Para cumplir con el objetivo de hacerse entender, es necesario considerar 4 dominios:

La estructura lingstica, que est enfocada a regular los elementos estructurales del lenguaje.
La correspondencia entre las estructuras lingsticas y el mundo
Proceso cognoscitivo, involucra las estructuras de conocimiento y su manipulacin por el
procesador del lenguaje.
La accin humana y su interaccin con el mundo, la cual asocia al lenguaje dentro del
contexto del tiempo relativo a hechos y expectativas.

mbito del Lenguaje Natural

17

Amn de considerar estos dominios es necesario reconocer algunas limitaciones al comprender el


lenguaje, pero tambin las ventajas al hacer uso de l, como las que se presentan en la Tabla 1:
Tabla 1. Limitaciones y Ventajas de los Lenguajes.
#
1

LIMITACIONES

VENTAJAS

Expresiones breves o vagas:


- "Subi el ndice de la bolsa
- "El candidato de P_ _ se pronunci por
desterrar la corrupcin del ..."
La misma expresin significa diferentes cosas
en distintos contextos:
-"Levanta el gato"
(al cambiar una llanta o cargar a la mascota).
Es imposible editar un programa o diccionario
completo del lenguaje:
- "Trame un bipaso"
- "Faxeamelo".
Hay distintas formas de expresar lo mismo:
- Juan brinca mucho
- Se eleva mucho Juan

Es flexible al permitir el uso de las expresiones


necesarias con el grado de detalle requerido
permitiendo que el interlocutor genere su
inferencia.
Permite expresiones de un mundo infinito,
usando un finito nmero de smbolos.

Es evolutivo y adaptativo con base a los deseos


de la gente.

El lenguaje es muy rico en su forma de


expresin.

1.6.2 Mapeo
Para llevar a cabo tanto la representacin del lenguaje, como su entendimiento es necesario
reconocer el proceso de mapeo que existe tanto de parte del que expresa el mensaje como de
aquel que lo recibe; en donde la idea bsica es convertir la forma original de un concepto a otra;
existiendo entonces varias relaciones de mapeo, tal como aparece en la Figura 3 y 4:
1 a 1:

Una expresin matemtica:

A= B*2+8

traducida a un rbol

Figura 3. Expresin Arborescente.


n * 1: Por ejemplo un "Query" puede expresarse de varias formas:
Dame los clientes con ventas superiores a $10,000 en Enero.

18

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Proporciona una lista de los clientes que compraron mas de $10,000 el mes pasado.
SELECT * FOR VENTA > 10,000 AND MES = "ENERO"
1 * n: Son situaciones que obligan a emplear mucho conocimiento del dominio para entender
correctamente su significado: "Juan le grita a Pedro psamela!"
El baln durante el partido de basketball.
El ovoide durante el partido de football americano.
La goma durante la clase.
n * m: Representa al hecho de haber muchas formas de expresar distintas cosas:
Se cay la bolsa

hubo prdidas en el mercado financiero

La bolsa cerro a la baja

la bolsa se cay al piso.

Figura 4. Tipos de Mapeo.


1.6.3 Nivel de Interaccin entre los Componentes
Debido a que la expresin a representar est compuesta por varios elementos, es necesario
reconocer el "rol" de ellas y la relacin que guardan entre s, considerando las diversas
alternativas de significado en funcin de su naturaleza y contexto. Por ejemplo: Pedro vio a su
novia en el parque con una cmara es descrito en la Figura 5.

1.7 ETAPAS EN EL PROCESAMIENTO


Un sistema de lenguaje natural SLN est diseado para entender y manipular lenguaje, aceptar
como entrada texto en lenguaje natural, almacenar conocimiento ligado al dominio de la
aplicacin, desarrollar inferencias a partir de tal conocimiento y texto alimentado, contestar
preguntas y generar respuestas. Conceptualmente est integrado por las siguientes funciones, las
cuales son ilustradas en la Figura 6:
Traductor: integra varios subsistemas:

Analizador lxico. Dividido en tres etapas.


Fonologa. Descompone el texto en unidades de palabra.
Analizador morfolgico. Identifica la raz de las palabras.
Generador lxico. Asocia informacin a los morfemas.
Analizador sintctico. Valida la estructura gramatical del texto y asocia un significado a la
declaracin.
Analizador semntico. Relaciona el texto con la base de conocimientos del contexto para
emitir una representacin del significado del texto alimentado.

mbito del Lenguaje Natural

19

S
Quin tena la cmara? Si fue Pedro:
NP

VP

Pedro

Vio

NP

DET

PP

NOM

PP

a su novia

con una cmara

en el parque

S
Pero si fue la novia de Pedro
NP

Pedro

VP

NP

Vio

DET

su

NOM

novia

PP

en el parque con una con una cmara

Figura 5. Interaccin entre los Componentes de una Oracin.


Interpretador. Lo constituye un responsable de interactuar con la base de conocimientos en
funcin al tipo de texto alimentado. Si es una pregunta, esta debe ser contestada, pero si es una
afirmacin (hecho o negacin) se agrega a la base y actualiza en un caso a otras entidades.
Tambin desarrolla inferencias a partir del conocimiento almacenado.
Generador. Es el subsistema encargado de producir el texto de salida dirigido al usuario en
funcin a la naturaleza del texto de entrada, puede emitir:
Declaraciones de asentimiento: Okay.
Preguntas: Como se llama el sujeto?
Dudas: No entend.
Rechazos: Contradice a la afirmacin de
Respuestas: La consecuencia del acto es

20

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Representacin
interna

Texto
de
Entrada

Traductor

Interpretador

Generador

Base de
conocimiento
Texto de Salida
Figura 6. Esquema de un Sistema de Lenguaje Natural.
Representacin Interna (RI). Es el mapeo del texto de entrada en un formato adecuado para la
manipulacin de los mdulos del SLN y consiste en las estructuras almacenadas en la base de
conocimientos.
Base de Conocimientos (BC). Se constituye por 3 tipos de elementos interrelacionados:
Entidades. Son personas, animales, objetos o lugares que deben ser descritos y que
protagonizan los eventos.
Eventos. Son acciones que pueden ocurrir involucrando entidades con roles de actor, objeto,
instrumento, origen y destino; adems de poder involucrar a otras acciones.
Situaciones. Combinan entidades y eventos con condiciones y resultados.
Implementacin de un sistema de lenguaje natural. Se puede considerar como un sistema a
desarrollar con alcances incrementales, como crculos concntricos que ilustran cada fase en la
forma mostrada en la Figura 7.

Traduccin
Inferencia
Respues
Aprendizaj
Figura 7. Evolucin de un Sistema de Lenguaje Natural.

mbito del Lenguaje Natural

21

Traduccin. Los textos recibidos son procesados hasta generar su representacin interna RI
para despus, a partir de ella, emitir el texto de salida.
Inferencia. Una vez obtenida la RI del texto recibido, se hacen todas las inferencias posibles al
asociar el RI con la base de conocimientos BC. Las conclusiones son representadas como RI
para que el Generador emita el texto de salida.
Respuesta. Despus de haber emitido la RI equivalente a la pregunta alimentada, se activan los
mecanismos de inferencia que explotan la BC para satisfacer el requerimiento. Una vez obtenida
la respuesta en su forma de RI se le encomienda al Generador su exposicin.
Aprendizaje. Las declaraciones introducidas al SLN son representadas internamente y
confrontadas con la BC actual, para determinar casos de:

Integracin. Agregando o actualizando el conocimiento.


Contradiccin. Requiriendo contradiccin, confirmacin, renovacin, convivencia o rechazo.
Confusin. Al no poder comprender el significado o contexto del texto.

22

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 2. ANLISIS LXICO

2. ANLISIS LXICO
2.1 DESCRIPCIN
El subsistema del anlisis lxico dentro de un SLN involucra el "mapeo" entre una cadena de
entrada o salida de texto y los elementos lxicos a ser manipulados por el sistema. En la fase
inicial transforma la cadena en unidades lxicas. Mientras que al final, selecciona las palabras
apropiadas para expresar el significado deseado [6].

Figura 8. Ciclo del Analizador Lxico.

2.2 LENGUAJE
2.2.1 Alfabeto
Constituye el repertorio de smbolos vlidos que a travs de su interrelacin forman el universo
de palabras, frases, oraciones y textos con significado propio dentro del lenguaje al que
pertenecen como se muestra en la Tabla 2:
Tabla 2. Alfabeto de la Lengua Castellana.

A
B
.
.
.
z
a
b
.

0
1
.
.
.
9
.
,
?

/
..
b

26

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.2 Morfologa
Se orienta a identificar la raz de los verbos, sustantivos, pronombres, etc., de tal forma que se
pueda distinguir la esencia del significado de la palabra analizada, entre las situaciones ms
comunes estn:
Prefijos y Sufijos. Consiste en identificar y eliminar los prefijos y sufijos que acompaan a la
raz de la palabra, por ejemplo como se aprecia en la siguiente Tabla 3:
Tabla 3. Ejemplos de Palabras Compuestas.
TRMINO

PREFIJO

desunin
juegos
infidelidades

des

RAZ
unin
juego
fidelidad

in

SUFIJO
s
es

Conjugaciones. Al asociar los verbos a los pronombres en un solo tiempo se derivan varias
presentaciones:

Yo
corro
t
corres
l / ella corre
Nosotros corremos
Vosotros corris
Ellos/ellas corren

Tiempos. Al usar un mismo verbo para una persona especfica, pero con distintos tiempos se
obtienen los casos sealados en la Tabla 4:
Tabla 4. Uso de Tiempos.
SIMPLE

PROGRESIVO

Pronombre Presente

Pasado

Futuro

Yo
T
Ellas

le
amaste
oyeron

leer
amarn
oirn

leo
amas
oyen

Presente
leyendo
amando
oyendo

Pasado
leyendo
amando
oyendo

PARTICIPIO
Presente
ledo
amado
odo

Pasado
ledo
amado
odo

Irregulares. Las palabras derivadas de la raz no observan un patrn ordinario, como en el


ejemplo descrito en la Tabal 5:

Anlisis Lxico

27

Tabla 5. Derivados Irregulares.


Raz
comida
saber
sonar
hablar

Derivada
comensal, comedor
sabio, sabidura
suena, sonaja, sonido
hablador, habla

Gnero y nmero. En consecuencia a la adaptacin del trmino al gnero y nmero del vocablo
original se altera, tal como aparece en la Tabla 6:
Tabla 6. Opciones de Gnero y Nmero.
Raz
Portera
Elevador
misin

Opciones
portero, portera, porteros
elevadorista
misionero, misionera, misiones

Diminutivos y Aumentativos. Son todas aquellas palabras que se usan para expresar una
comparacin a partir de una referencia, tal como se seala en la Tabla 7.
Tabla 7. Comparativos.
Diminutivo
pelotita
camioncito
corralito

Raz
pelota
camin
corral

Superlativo
pelotota
camionsote
corraln

Incongruencias. Estos son slo algunos de los casos ms comunes al tratar de identificar la raz de
la palabra, proceso en el cual se puede incurrir en errores al generar races que no correspondan y
que representan otra cosa, como por ejemplo en la Tabla 8 se presentan casos de races:
Tabla 8. Generacin de Races Incorrectas.
Palabra

Raz

pelotn
pin
corrido
Ramos
universo

Pelota
Pia
Correr
Ramo
Verso

28

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.3 Diccionario
El diccionario representa el acervo de morfemas y derivados oficialmente aceptados para una
lengua, por lo que un SLN incluye para cada "trmino" su significado, informacin para
identificar su informacin estructural, referencia a la raz o sus derivados. El diccionario
determina la capacidad del SLN y debe describirse adecuadamente su formato, tipo de
organizacin y representacin, as como los mtodos de acceso, para lograr la eficiencia en su
manejo. Tambin debe considerar la separacin de homnimos para asignar un registro distinto
para cada significado de la manera mostrada en la Tabla 9:
Tabla 9. Formato de Diccionario.
Regist Identifica Cabez
Significado
ro
dor
a
300
700
1032
5720
5721

C0450
A712
C0877
F0140
F0141

cuanto
agosto
caer
falda
falda

apuntador x2
ap. A671
ap. C71
ap. F720
ap F721

Funcin Estructural

Asociacin

Tipo

Tiempo

..

Raz

Derivados

ap.540
ap. N47
ap. V71
ap. 570
ap. 571

ap. TP

...
...
...

0
0
0
0

ap.1...

ap.3...
ap.47
ap. 82

Sin
n.

Por lo que respecta a la organizacin y acceso al diccionario se debe elegir la representacin


apropiada, clase de estructura y mtodos de bsqueda o combinacin de estos como los
mostrados en la Tabla 10.
Tabla 10. Tipo de Organizacin y Acceso
ORGANIZACIN

ACCESO

Secuencial, frecuencia de uso


Secuencial con acceso directo
Indexado

Secuencial
Por # de registro, binario, hash
Acceso aleatorio y dinmico, llave nica,
llave compuesta, llave duplicada
Combinacin de los mtodos de acceso

Jerrquica, relacional, distribuida

2.2.4 Unidades Lxicas


Las "Unidades Lxicas" o "UL" son las estructuras de informacin que representan a cada
palabra del texto a procesar por los mdulos del SLN, cuyo formato contiene la identificacin
precisa del trmino, su asociacin con la raz o vocablo al que corresponde en el diccionario y
tambin su referencia con la estructura temporal del texto fuente" en donde aparece la palabra
original y sus atributos propios resultantes del anlisis morfolgico. Estas piezas de informacin
conocidas como unidades lxicas o tokens deben ser manipuladas fcilmente por los
analizadores sintcticos y semnticos para producir la "Representacin Interna" apropiada al
texto, as como tambin tienen que ser lo suficiente expresivas para que el "generador" produzca
el texto de salida apropiado. Veamos la Figura 9 donde se ilustran los conceptos expuestos:

Anlisis Lxico

UN

TOTAL

29

DE

$748,007

Figura 9. Aplicacin de Unidades Lxicas


Ahora bien, una muestra del formato para la Estructura Temporal Fuente aparece en la Tabla
11.

Tabla 11. Formato de la Estructura Temporal Fuente.


# Registro Termino
15
Cuanto
19
Agosto
20
?

Ap. Diccionario Persona Genero Nmero Tiempo ...


c0450
indef.
mas.
sin.
pasado
a712
3era.
mas.
sin.
pasado
89714
89714

Finalmente, el contenido del Token o Unidad Lxica debe ser lo suficiente conciso pero a la
vez completo para eficientar su manejo, los datos que deben aparecer en su descripcin son los
que se muestran en la Tabla 12:

30

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Tabla 12. Formato de la Unidad Lxica.


APUNTADORES

......

FUNCIN

Identificador
42B

Diccionario
C0450

ETF
15

87I

A712

19

Tipo
INTERR
OG.
NOMBR
E

Categora Clase
CERRAD NOMINAL
A
ABIERTA PREGUNTA

...

......

Finalmente, es til reconocer las categoras de UL:


Abiertas. Identifican la funcin primaria de la palabra, abarcan la mayora de trminos del
diccionario, agrupndose en las siguientes clases:
Nominales: Nombres y nombres propios que identifican entidades u objetos animados o no.
Accin:
Tpicamente verbos que ilustran eventos
Modificador Nominal:
Abarcan a los adjetivos
Modificador de Accin:
Incluye a los adverbios
Cerradas. Son aquellas palabras con un nmero restringido de instancias y son de carcter
funcional por depender de otros para adquirir un significado preciso dentro del texto. Las clases
cerradas son:

Conjunciones:
Asociacin:
Preposicin:
Pronombre:
Nmero:
Ordinal:
Determinante:
Negacin:
Comparativo:
Operador:
Pregunta:
Cuantificador:
Exclamativo:

y, o, pero,...
antes, si, porque,...
a, para, por,...
yo, t, l,...
0, 1, 2, ..., 1000, ...
1er. , 2do. , 3er.,...
un, una, la, los, aquellos
no,...
mas, menos, mayor,...
ms, veces,...
Quin, Cmo, Qu,...
algunos, muchos, ninguno,...
oh, claro,...

2.3 PROCEDIMIENTO
Esencialmente son dos direcciones de procesamiento de texto a cargo del Analizador Lxico y
cuya descripcin se detalla a continuacin:
Conversin del texto de entrada a Unidades Lxicas.
Generacin del texto de salida a partir de Unidades Lxicas.

Anlisis Lxico

31

Procedimiento de Entrada. A partir del texto alimentado al SLN en modo carcter el analizador
lxico activa sus mdulos secuencial o simultneamente para generar las UL correspondientes
conforme a la Figura 10 siguiente:

Figura 10. Procedimiento de Entrada del Analizador Lxico.


La esencia de las tareas realizadas por los mdulos integrantes del analizador lxico son:
Analizador Fonolgico. Ejecuta cuatro tareas:

Acceso de cada uno de los caracteres integrantes del texto.


Identificacin del tipo de carcter conforme al alfabeto.
Manejo de errores para los caracteres no registrados en el alfabeto.
Generacin de la Unidad de palabra correspondiente.

Analizador Morfolgico. Realiza las siguientes tareas:


Emisin de cadenas de palabras o smbolos, compuestos por uno o varios caracteres,
considerando los delimitadores, separadores (. , : ; ! ? ...) y cualquier otra convencin que
ayude a delimitar los strings; los cuales se almacenan en la Estructura Temporal Fuente.
Seleccin del morfema para las cadenas que contienen un palabra, a travs de alguno de los
siguientes mtodos.
Bsqueda en el diccionario.
Procesos especiales para la deteccin y tratamiento de: prefijos, conjugaciones, tiempos,
gneros, aumentativos, etc.

32

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Actualizacin del diccionario al aceptar una nueva palabra, ya sea morfema o derivado,
adems de registrar sus asociaciones con otras nuevas y ya existentes. Esta opcin puede ser
interactiva con el usuario o automatizada con las limitaciones del caso y la supervisin del
administrador del SLN.
Generacin del morfema correspondiente a la cadena.

Generador Lxico. Conforme a la naturaleza del morfema (nmero, smbolo, palabra,...) crea la
Unidad Lxica correspondiente registrando los datos y ligas necesarios acorde con la
informacin pertinente y las estructuras de datos empleados (E. T. F, Diccionario,...).
Procedimiento de Salida. El mdulo Generador del SLN es el encargado de proporcionar los
elementos y pautas del texto a producir, valindose de la Base de Conocimientos y de la
emisin y actualizacin de las estructuras de datos denominadas Representacin Interna (R.
I., ver la seccin 2.7). Dicho mdulo deber incluir un procedimiento que emita cadenas con
unidades lxicas, sintacticamente y semnticamente correctas para alimentar al Analizador
Lxico conforme al esquema de la Figura 11.
Texto

Texto

Expositor
Morfolgico

Estructura
Temporal
de Salida

Texto

Generador
Palabras

Base
de
Conocimie
ntos

de

Texto

Generador
Morfemas

Representa
ciones
Internas

de

Diccionario

Figura 11. Procedimiento de Salida del Analizador Lxico.

En resumen, las funciones a ejercer por los mdulos son:


Generador de morfemas. Accede a las UL y RI producidas por el subsistema generador,
aprovecha la informacin del diccionario y base de conocimientos para emitir el morfema mas
adecuado a la representacin.

Anlisis Lxico

33

Generador de palabras. Manipula el morfema y estructuras de datos que emple el mdulo


antecesor, procura de ser necesario, agregar la palabra, hacer su transformacin o reemplazo por
aquel trmino que satisfaga las condiciones de tiempo, persona, nmero, gnero, etc. que se
espera est representada, registrando en la estructura temporal de salida la palabra propuesta.
Expositor fonolgico. Es el encargado de ensamblar el texto compuesto por las cadenas de
palabras, smbolos y nmeros, incorporando los separadores y smbolos especiales para editar el
mensaje.

2.4 ADMINISTRACIN DE ERRORES


Existen dos tipos de errores en la fase lxica del SLN, el primero, es el resultado de la interaccin
del usuario donde l proporciona texto con palabras o caracteres impropios del lenguaje
manejado por el sistema. Mientras que la segunda clase es tcnica, motivada por los clsicos
errores de programacin, la emisin de inferencias errneas (sobre todo el anlisis morfolgico) y
el empleo de conocimientos incompletos o errneos representados en el diccionario y base de
conocimientos.
Por lo tanto, es necesario el dilogo con el usuario para detectar inconsistencias durante el
anlisis fonolgico y morfolgico para que las evale, modifique por otras que el sistema maneje
o bien las confirme. De esta forma el SLN ser capaz de adoptarlas, realizando la incorporacin
a las estructuras de datos correspondientes (alfabeto, diccionario, ...), integre las ligas entre los
trminos involucrados (raz con sus derivadas) y sobre todo realice las pruebas de consistencia
para identificar y manejar adecuadamente las contradicciones o sinnimos.
Por ejemplo, al usar la palabra canto en varios ejemplos con distintos contextos, provocara
actualizar el diccionario agregando registros y asociaciones diversas para los siguientes
significados:

canto
canto
Canto
canto

accin de cantar, conjugada en presente, primera persona singular, raz cantar,...


nombre, asignado a la orilla de un objeto de forma ....
nombre propio, apellido de persona....
nombre, expresin artstica musical

La emisin del texto de salida ser evaluada por el usuario hasta el final, al momento de su
exposicin, en donde lo primero a observar es la naturaleza de la declaracin expuesta por el
sistema (pregunta, respuesta, comentario, afirmacin, rechazo, ...), su contexto, estructura
sintctica y consistencia en el vocabulario empleado.
Sin embargo, la identificacin de los ajustes a realizar es ms difcil ya que deber revisar el ciclo
completo del funcionamiento del SLN, comenzando por confirmar que el texto de entrada haya
sido representado lxica y sintcticamente bien, su anlisis semntico e interpretacin haya sido
correcta y que el funcionamiento del generador reaccione con eficacia al mandato que se espera
realice. Despus se podr verificar el buen desempeo de los mdulos de salida del analizador
lxico. Correspondiendo al personal tcnico la modificacin al sistema.

34

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.5 DESARROLLO
Es recomendable aplicar una estrategia de desarrollo incremental y de ensayo y error para el
subsistema del analizador lxico; a partir de las definiciones conceptuales de la estructura y
funcionamiento de todo el SLN, as como del mbito de aplicacin y dominio de conocimiento
que explotar [7].
Por lo tanto, una vez creadas las estructuras de datos iniciales para los elementos bsicos del
lenguaje, se inicia la construccin y prueba del primer mdulo de entrada; a partir de las unidades
de palabra que genere, evala el desempeo del analizador morfolgico y realiza una prueba
exhaustiva de casos. Finalmente el generador lxico haga su parte. A su vez, con base en estos
resultados, se agregan las estructuras de datos que otros subsistemas crean como las RI, se
prueban en orden inverso los mdulos de salida, comenzando por el generador de morfemas y
concluyendo con el expositor fonolgico.
Naturalmente, esta estrategia se puede alterar desarrollando en paralelo los mdulos, creando
estructuras de datos y casos ad-hoc para cada uno de ellos con el propsito de evaluarlos
independientemente para integrarlos al final.
El desarrollo incremental es con el fin de abordar problemas sencillos con estructuras de texto
simples y cortas en una primera etapa, para gradualmente aumentar el grado de riqueza y
profundidad del lenguaje.

CAPTULO 3. ANLISIS SINTNTICO

3. ANLISIS SINTCTICO
3.1 DESCRIPCIN DEL ANLISIS SINTCTICO
El anlisis sintctico es la etapa en el proceso de lenguaje natural en donde una oracin lineal
de texto alimentado por el usuario es convertida a una estructura jerrquica que corresponde a las
unidades de significado de la oracin de acuerdo a la naturaleza, componentes y reglas de
interrelacin propias del lenguaje. Generalmente el subsistema tiene dos mdulos principales:
Gramtica. Es la representacin declarativa de los elementos sintcticos del lenguaje
Traductor. Es el proceso que compara el texto de entrada contra la gramtica para generar las
estructuras jerrquicas correspondientes [8].

3.2 ELEMENTOS
3.2.1 Gramticas
La gramtica de un lenguaje natural representa el ncleo que define la naturaleza de los
componentes (verbos, sustantivos, artculos, etc.), sus variantes (conjugacin, tiempos, genero,
nmero, etc.) y reglas para su interrelacin (frases, enunciados, interrogaciones, negaciones, etc.).
Constituye el fundamento para regular el uso del lenguaje dentro de la sociedad [9].
Los sistemas de lenguaje natural (SLN) dedican una atencin especial a la representacin y uso
de aquella parte gramatical del lenguaje natural que pretenden procesar, por lo que es necesario
determinar el subconjunto de componentes, variantes y reglas que se van a utilizar dentro del
universo del propio lenguaje. Para implementar la gramtica de un lenguaje se usa una parte de
las matemticas conocida como lenguajes formales, cuya representacin clsica es a travs de
reglas que evalan o generan un espacio de estados para el anlisis o produccin de oraciones.
Dentro de este marco, existe una variedad de representaciones gramaticales acordes con el
nivel de alcance (finitas), considerando el entorno (libre de contexto) y formas de procesamiento
(generativa), entre otros enfoques, por lo que es necesario interpretar correctamente la naturaleza
de ellas para elegir la ms apropiada a la aplicacin en turno. En la Figura 12 se presenta un
ejemplo de gramtica libre de contexto para el idioma espaol {10].
O
-->
FN
-->
FN1 -->
Adj -->
Adjs -->
Art
-->
Pro
-->
NomPer->
Nom -->
FV
-->
Verbo->

FN
FV
Art
FN1
Nom Adj
e
|
pequeo
el
|
yo
|
juan |
archivo |
Verbo |
Imprime

Pro

Adjs Adj
|
largo
la
|
t
|
mara |
impresora
FN
|
copia

Figura 12. Gramtica Libre de Contexto.

NomPer

FN1

|
los
l
pedro
|

rpido |
|
los
|
...
|
...
monitor

.....
|

en

despliega

|....

38

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

3.2.2 Redes de Transicin


Un modelo ampliamente usado en los SLN para implementar gramticas se conoce por Redes de
transicin, cuyo fundamento descansa en la Teora de Grafos y en las Mquinas de Estados
Finitos. Existen varios tipos de redes que difieren en complejidad y eficacia:

De estados finitos
Recursivas
Aumentadas

Es esencial reconocer que la gramtica indica las siguientes asociaciones con el lenguaje:
Una dbil capacidad generativa, para identificar el significado del conjunto de oraciones
contenidas en un lenguaje (sentencias gramaticales) y que pueden ser completamente
empatadas por las reglas gramaticales.
Una fuerte capacidad para identificar el tipo de estructura que corresponde a cada oracin
gramatical del lenguaje.
Cada una de estas clases de redes tienen en comn los siguientes fundamentos:
Una red gramatical se compone por los siguientes elementos:
Mquina. Es un mdulo de proceso que arranca a partir de un estado inicial hacia otros cuando
una condicin en particular ocurre conforme a las transformaciones que se van procesando.
Estados Finitos. Se dice de aquellas mquinas donde a partir de cualquier punto de transicin el
siguiente estado puede determinarse a partir del estado actual y las condiciones que provocan la
transicin. Puesto que es conocido el nmero de estados posibles a generar, se considera finito.
Estado. Es una descripcin del componente gramatical que est representado como un lugar
dentro de la red de alternativas caracterizada por la transicin que provoca el cumplimiento de las
condiciones asociadas al estado, para generar uno nuevo.
Arcos. Ilustran la condicin que produce la transicin desde un estado a otro, siendo etiquetadas
por el identificador de la condicin.
Red. Es la representacin grfica y de estructura de datos, integrada por estados (nodos) y
condiciones (arcos) que se recorren o generan a lo largo de la evaluacin o emisin de un texto.
Ruta. Es el camino formado por un conjunto de nodos y arcos, a partir de un estado dado hasta
otro determinado.
A continuacin se describen los primeros dos tipos de redes, mientras que la tercera se har en el
inciso 3.4.

Anlisis Sintctico

39

Red de Transicin de Estados Finitos (RTEF)


Es la red ms elemental que conecta los nodos por medio de arcos dirigidos, para representar la
secuencia en la cual las palabras pueden aparecer en una oracin mediante el recorrido de una
ruta a travs de la red. Por ejemplo: La red de una gramtica que represente la secuencia:
Artculo Nombre Verbo [11].
Para evaluar oraciones tipo: El gato corre, El nio llora
Se representa grficamente como aparece en la Figura 13:
Art

Nom

q0

Verbo

q1

q2

q3

Figura 13. RTEF para una Simple Gramtica.


En ste diagrama los crculos identifican a los nodos o estados mientras que los arcos a las
condiciones, es decir, al smbolo terminal que produce la transicin entre un estado actual y
el subsiguiente. Gracias al uso de la cabeza de flecha se reconoce la direccin de la transicin.
Las redes empleadas en este modelo son dirigidas, tienen un slo estado inicial y uno o varios
finales (identificados por una diagonal). Al ampliar los elementos de la gramtica anterior de
acuerdo con la red descrita en la Figura 14:
Art
q0

Nom
q1

Adjetivo

Verbo
q3

q2

q4

Verbo

Figura 14. RTEF para una Gramtica.


Se pueden reconocer oraciones ms amplias como: El nio gordo corre, La nia juega
Los ejemplos presentados de gramticas son determinsticos porque slo se produce un estado
especfico a partir de un mismo tipo de palabra, sin embargo hay casos donde pudieran generarse
diversos estados a partir del mismo tipo, convirtiendo la red a la categora de las no
determinsticas como se ilustra en la Figura 15:

40

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Art
q0

Nom
q1

Auxiliar

Verbo
q4

q3

q2
Verbo

Verbo

Complemento
q5

q6

Figura 15. RTEF no Determnistica.


Las declaraciones que evala son: El joven ha corrido, Los nios corrieron, El jugador
corri mucho.
Red de Transicin Recursiva (RTR)
Amen de las caractersticas y elementos de las RTEF, incorpora a las condiciones el
tratamiento de estados (adems de los smbolos terminales), la evaluacin de pruebas, el
manejo de repeticiones consecutivas o discontinuas de smbolos terminales y tambin de estados.
Por lo que incorporan a la red otras condiciones para representar a cada estado que etiqueta a los
arcos de la red. En la Figura 16 se muestra un ejemplo de una RTR del idioma ingls:
En esta gramtica se evalan oraciones como: The dog eats, The little black dog run on the
street y The american young boy at the fifth street has played the electric guitar with his old
papa.
Recorrer una RTR involucra evaluar los arcos de cada nodo. Si corresponde a un Nombre de
Estado el control se traslada a la red que lo representa comenzando a recorrerla desde su estado
inicial hasta alcanzar un estado final o hallar un error, entonces el control retorna al arco
etiquetado, si regres con xito transita al estado que apunta, de lo contrario se rechaza el arco y
se evalan los otros que salen del estado actual, hasta que alguno tenga xito, de lo contrario, se
hace backtrack en los estados explorados para recorrer otras rutas an no evaluadas, si ninguna
de ellas tiene xito, entonces se rechaza el texto que est siendo evaluado, porque su estructura o
elementos no corresponden a la gramtica representada.
Sin embargo pueden aparecer casos en los que la oracin evaluada tiene palabras pendientes de
ser analizadas y ya se alcanz un estado final o bien, el caso contrario, ya se evaluaron todas las
palabras de la oracin original y an no se llega a un estado final, de la manera mostrada en la
Figura 16:

Anlisis Sintctico

FN

41

VER

Fn

q1
AUX

FP

q4
AUX

q5

VER

Fn
q2

q3

Det

Nom

Fn

q6

q7

Adj

FP

Nom
q8
Prep
Fp

Fn
q9

S: Oracin
Ver: Verbo
Adj: Adjetivo

q10

Fn: Frase Nominal


FP: Frase Preposicional
Nom: Nombre

Aux: Auxiliar Verbal


Det: Determinante
Prep: Preposicin

Figura 16. RTEF de una Gramtica del Ingls.


3.2.3 Parsers
Independientemente de la gramtica el proceso de traduccin compara las reglas contra las
palabras del texto de entrada, cada regla que empata agrega un elemento a la estructura o la
termina de generar. La estructura ms sencilla que produce es el rbol de traduccin en donde
aparecen las reglas y el resultado del empate.
Sus niveles corresponden a la aplicacin de una regla gramatical cuyos nodos representan una
palabra o un nodo no terminal (ver Figura 17). Al traducir una oracin hay dos direcciones en
que se puede llevar a cabo:
Ascendente. Comienza con el smbolo inicial aplicando las reglas que puedan empatarse hasta
alcanzar uno de los estados finales, generando un rbol cuyos nodos terminales representan las
palabras del texto evaluado.
Descendente. Parte de la oracin de entrada, aplicando a sus elementos las reglas en forma
inversa, es decir, de las condiciones al estado.

42

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

La eleccin del sentido depende del factor de ramificacin, la evaluacin heurstica, la


informacin disponible y el mecanismo de traduccin; siendo conveniente en ocasiones combinar
las dos direcciones dentro del mdulo traductor. Otro aspecto relevante a considerar es la
cantidad y variedad de traducciones que se pueden generar a partir del mismo texto y gramtica
siendo necesario decidir si:

Se van a explorar todas las alternativas


Se acepta como nica a la primera interpretacin generada
Al obtener varias, cmo se reconocer a la mejor
Cmo aprovechar la heurstica para lograr que la mejor solucin es la primer interpretacin
hallada.
O

FN

FV

NOM

VERBO

juan

tom

FN

ARTICULO

la

NOM

pelota

ADJETIVO

roja

Figura 17. rbol de Traduccin.


Es necesario reconocer que el proceso de traduccin de un texto es equivalente al problema de
hallar una representacin idntica a otra, por lo que obliga a desarrollar una bsqueda dentro de
un espacio de estados, invitando a emplear las herramientas de bsqueda ciega y heurstica
clsicas.

3.3 TEORAS DE CHOMSKY


En 1957, Chomsky public un libro intitulado Reglas para la generacin del lenguaje, basado
en las teoras formales del lenguaje expuestas por Bloomfield, expone una representacin de
estructuras que pretenden modelar el mecanismo natural-inherente del ser humano en el
aprendizaje y generacin del lenguaje.

Anlisis Sintctico

43

El fundamento de su teora descansa en el hecho de que el lenguaje natural es infinito, pero que
sin embargo la capacidad de entendimiento y expresin por el hombre, no depende nicamente de
las palabras y oraciones que haya escuchado y hablado, sino que siempre hay trminos y frases
que aunque no integren su repertorio y experiencia en comunicacin ser capaz de comprenderlas
y emitirlas llegado el momento.
El ncleo de tal teora es la observacin de que el aprendizaje del lenguaje no slo depende de
memorizar todas las oraciones que el ser humano escucha y dice, sino que ante todo est dotado
por un mecanismo capaz de interpretar y producir estructuras del lenguaje. Chomsky desarroll
el concepto de gramticas generativas para representar a las estructuras naturales que el
hombre emplea en el manejo del lenguaje, definindolas como:
Una estructura formalizada con precisin matemtica que genera sin un parmetro especfico
cualquier informacin que no est representada explcitamente en el sistema, dando vida a
oraciones gramaticales que en conjunto integran un lenguaje, describiendo y asociando a cada
una de ellas su descripcin estructural o anlisis gramatical.
A lo largo del trabajo desarrolla las siguientes clases de gramticas generativas:
Gramtica Generativa de Estado Finitos. Se concibe como una mquina capaz de representar y
transitar por un conjunto de estados finitos, emitiendo un smbolo especfico al pasar de un
estado a otro. El proceso arranca a partir de un estado especfico inicial, transita por diversas
rutas generando palabras, para llegar a un estado dado, denominado final. A la secuencia de
palabras emitidas se le llama oracin y al conjunto de ellas se identifica como lenguaje,
mientras que a la mquina se le conoce como gramtica de estados finitos.
Gramtica Generativa de Estructuras de Frase. En lugar de manejar palabras especficas
durante la transicin de un estado a otro, se emplean constituyentes (verbos, sustantivos,....), las
cuales pueden estar definidos por otros, y stos a su vez por algunos ms especficos hasta llegar
a especificarse por palabras. Como por ejemplo:
O
->
FN
->
FV
->
ART ->
NOM ->
VERBO->

FN + FV
ART + NOM
VERBO + FN
el, la, los, .....
casa, juan, perro,....
pinta, come, juega, cuida

La oracin que se evala o genera tiene una representacin estructural denominada frase
marcada. Por ejemplo al aplicar la gramtica anterior se produce la oracin y frase marcada
mostrada en la Figura 18.
O-> FN + FV
ART + NOM + FV
el + NOM + FV
el + perro + FV

44

el
el
el
el
el

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

+ perro + VERBO + FN
+ perro + cuida + FN
+ perro + cuida + ART + NOM
+ perro + cuida + la + NOM
+ perro + cuida + la + casa
O

FN

ART

el

FV

NOM

perro

cuida

FN

ART

la

NOM

casa

Figura 18. Estructura de Frase.


Gramtica Generativa Transformacional: Adems de producir la estructura de frase como
resultado de la primera etapa en el proceso, desarrolla a partir de dicha estructura una nueva
denominada componente transformacional y concluye emitiendo otra llamada componente
morfmica. Estas transformaciones sucesivas sobre la estructura frase permiten identificar
ciertos aspectos que solamente aparecen a ese nivel de representacin. Por ejemplo, una
declaracin en voz activa puede convertirse a voz pasiva para despus afinarse y
presentarse como una frase final tal como se muestra en la Figura 19:
Aplicacin de la
gramtica

Componente
morfmico
The window will
be broken by John

Estructura de la frase
Jhon will break the
window
FN1 AUX
VERBO

Aplicacin de las
reglas de
transformacin

Figura 19. Desarrollo de una Gramtica Transformacional.

Aplicacin de
reglas morfmicas

Componente
transformacional
The windowwill be
EN break by Jhon

Anlisis Sintctico

45

La estructura de frase dentro de este desarrollo viene a jugar el papel de estructura de


fundamento, mientras que el componente morfmico desempea el de estructura frontal.
Muchas veces, la aplicacin de reglas de transformacin tratan con la relacin existente entre el
verbo y el sustantivo. Tambin manejan los casos de negacin o interrogacin de la oracin.
Gramtica Generativa de Transformaciones Generalizadas. Maneja aspectos ms interesantes y
complejos que las antecesoras. Por ejemplo, si dos oraciones tienen el sustantivo en comn se
combinan por medio de una serie de transformaciones como se ilustra en la Figura 20:

the girl is singing

the girl has a lovely voice

integrando las oraciones


se producen

[ the girl [ the girl has a lovely voice]is singing] [the girl [the girl is singing] has a lovely voice]

al transformarse produce

al transformarse produce
the girl who is singing has a lovely voice

the girl with a lovely voice is singing


the singing girl has a lovely voice

Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional.


Como resultado de las experiencias al aplicar esta gramtica se observ la separacin del nivel
sintctico de las oraciones producidas con respecto al contexto semntico en el que se expresan,
provocando la emisin de oraciones sin sentido, contradictorias o tergiversadas, como por
ejemplo:
I am going to work
-> I am not going to work.
the chickens are ready to eat -> The chickens have been prepared for us to eat them.
-> The chickens are hungry and ready to eat their food.
Teora de Sintaxis
Como producto de las experiencias en la aplicacin de las estructuras sintcticas, Chomsky
expuso en 1965 la teora de sintaxis en donde la gramtica consta de los siguientes
componentes:

46

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Sintctico
Base: Compuesto por reglas que producen la estructura de la frase y reglas de interseccin
lxica.
Transformacin.
Semntico
Fonolgico
El componente sintctico es generativo pues produce las estructuras fundamento que
alimentan a otros dos componentes de carcter interpretativo ya que el sintctico asocia a la
estructura de la frase su significado, mientras que el fonolgico la maquilla para su
exposicin.
Durante la fase desarrollada por el componente sintctico su analizador lxico proporciona para
cada palabra informacin de inters para los mdulos sintctico, semntico y fonolgico. Por
ejemplo, en la Figura 21 se muestra una frase marcada con atributos asociados a sus elementos,
en donde los nodos que terminan con esa lista se denominan smbolos complejos.

O
FN

ART

gnero
.
nmero
.
.

FV

NOM

nombre
.
animado
persona
nmero

tipo
.
tiempo
sujeto
.

tipo
tiempo .
objeto

gnero
nmero
.
.

nombre
animado
animal
nmero

Figura 21. Atributos de los Smbolos de un Frase Marcada.

Cuando la descripcin y rol del verbo ignora la naturaleza de las frases nominales que lo rodean
(sujeto y objeto) se dice que es una gramtica de contexto libre, pero si las toma en cuenta e
inclusive produce listas de atributos para cada una de ellas, se dice entonces que es una gramtica
sensitiva al contexto.
Por lo que concierne a la transformacin de la estructura fundamento a otras como las
interrogaciones y preguntas que provocan una diferente interpretacin, se procura que no tengan
la misma estructura de la frase mediante la adicin de identificadores; como por ejemplo:

Anlisis Sintctico

Estructura Frontal
The tree is growing
The tree is not growing
Is the tree growing

<<<-

47

Estructura Fundamento
The tree grow - (+ progresivo)
NEG The tree grow -(+ progresivo)
Q the tree grow -(+ progresivo)

El componente semntico emplea reglas de produccin y marcadores semnticos para formar


rutas amalgamadas que identifican varios sentidos de la oracin. La interrelacin de los
componentes se ilustra en la Figura 22, en donde se separa la funcin de la semntica con
respecto a la transformacin, con el objeto de no cambiar el significado. A pesar de las
previsiones para evitar la degeneracin del significado de una oracin, an se puede presentar
el problema, cuando una oracin se genera de otra, que a su vez tienen la misma estructura de
frase, como por ejemplo:
John sprayed paint on the wall-------->The wall sprayed with paint by John
BASE
Reglas
Anlisis Lxico
Reglas de insercin lxica

Estructura Fundamento

SEMNTICO
Reglas
de Marcadores
proyeccin
Semnticos

TRANSFORMACIN
Transformaciones
Estructuras
de
semnticos rbol

Rutas Amalgamadas

Estructura Fundamento

Fonlogo: Componentes, Maquillaje


Estructura Fundamento

Estructura Fundamento
Figura 22. Funcionamiento de la Teora de Sintaxis.

3.4 REDES DE TRANSICIN AUMENTADAS (RTA)


Las RTR emplean ms condiciones y acciones para recorrer una red, usan un rbol de
traduccin como estructura de las palabras de la oracin que empata con los elementos de la
red. Tambin varias partes de la oracin son mantenidas como registros hasta que la estructura
completa pueda ser determinada.

48

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Por ejemplo, cuando se encuentra un verbo, ste se almacena en un registro tipo V (Verbo);
similarmente, todas las palabras de una FN (Frase Nominal) se guardan en un registro clase
FN, las RTA usan la nomenclatura siguiente:
< Red Transicin > --> (< arcos > < arcos > * )
< arcos >
--> (< estado > < arco > * )
< arco >
--> (CAT < categora > < prueba > < accin > * < acci_term > |
(PUSH < estado > < prueba > < accin > * < acci_term > |
(TST < etiqueta > < prueba > < accin > * < acci_term > |
(POP < forma > < prueba > )
o
< accin >
--> (SETR < registro > < forma > )
|
(SENDR < registro > < forma > )
|
(LIFTR < registro > < forma > )
< acci_term>
--> (TO < estado >)
|
(JUMP < estado >)
< forma >
--> (GETR < registro >)
|
*
|
(GETF < caracterstica >)
|
(APPEND <registro> <forma>)
|
(BUILD <fragmento> <registro> *)
*
Indica un elemento repetible en la especificacin del lenguaje.
&
Actual valor de entrada, palabra o frase, el elemento con el que se est trabajando.
PUSH Inserta elementos en la pila
POP Saca elementos de la pila
<arcos> Una RTA se define por uno o ms conjunto de arcos ( *) donde un arco es un estado con
sus arcos asociados, como en las RTR.
Sin embargo en las RTA hay cuatro clases de arcos:
CAT
Es el arco original en el smbolo terminal que identifica la clase de palabra o categora
que caus que el arco haya sido considerado.
PUSH Es el arco con un nombre de estado. Al usar la funcin PUSH implica moverse a un
nivel ms bajo de la red de transicin comenzando en el estado cuyo nombre es especificado.
TST Permite usar un arco de acuerdo a una condicin arbitraria y no solamente porque una
palabra especfica es encontrada. Se pueden hacer pruebas sobre parte de la oracin que ha sido
construida, como por ejemplo si es pasiva o interrogativa.
POP Es un arco Dummy usado para determinar si un estado terminal ha sido alcanzado
y
cmo ser la construccin final.
Los arcos CAT, TST y PUSH tienen una prueba y accin terminada al menos que debe ocurrir.
Hay tres posibles acciones usadas para construir las partes de la oracin:
SETR Asignan un valor al registro especificado.
SENDR Transfiere el valor al siguiente nivel inferior de la red para asignarlo a un registro.
LIFT
Transfiere el valor el siguiente valor superior de la red para su asignamiento.

Anlisis Sintctico

49

Las acciones terminales TO y JUMP especifican si el proceso debe ser terminado con la palabra
actual o frase, si el apuntador a la entrada deber se movido o deber permanecer donde est y
cual estado ser procesado a continuacin.
TO
Indica que el apuntador de entrada ser movido a la siguiente palabra del texto de entrada
y que nodo ser procesado a continuacin.
JUMP Seala el nodo a procesar sin mover el apuntador del texto de entrada, ya que las
palabras an no han sido empatadas.
Las funciones usadas para describir los datos manipulados son:
GETR
Regresa el valor de un registro especfico.
GETF
Determina el valor de un atributo especfico de la palabra de entrada actual
APPEND Adhiere valores al contenido del registro especificado. Por ejemplo, se puede agregar
una frase preposicional al final de una nominal que ya ha sido formada y colocada en el registro
FN.
BUILD Construye partes o toda la frase final a partir del contenido de los registros especificados.
Seala primero el fragmento a construir, seguido de uno o mas signos + para indicar los nodos
a ser incluidos y finalmente los atributos y registros cuyos valores sean derivados, por ejemplo:
(SET FV (BUILD (FV ( V + ) & ) V ) )
Primero construye el fragmento FV colocando el valor actual en la posicin de &, y el
contenido del registro V en la posicin de +, y a continuacin asigna el fragmento al registro
FV.
La frase: El nio come un helado genera la FN El nio que asigna al registro Sujeto
y el verbo Come al registro V. Despus identifica que la entrada actual un helado es una
FN luego encuentra la regla de arriba, construyendo la FV come un helado, para que al
final genere la siguiente estructura:
(S DCL (FN (Dete el) (Adje) (Nomb nio)) (FV (Vcome) (FN (Dete un) (Adj) (Nomb helado) ))
Conforme a la gramtica de la Figura 16 se describe a continuacin el lenguaje tipo RTA que
corresponde al nivel superior utilizando el / para sealar el comienzo de una RTA cuyo
nombre aparece antes, tal como se muestra en al gramtica que aparece en la Figura 23.
( (S / (PUSH FN /T
(SETR SUJETO &)
(SETR TIPO DCL)
(TO Q1) )
(CAT AUX T
(SETR AUX &)
(SETR TIPO Q)
(TO Q2) ) )

50

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

(Q1 (CAT V T
(SETR AUX NIL )
(SETR V & )
(TO Q4) )
(CAT AUX T
(SETR AUX & )
(TO Q3) ) )
(Q2 (PUSH FN/T
(SETR SUJETO &)
(TO Q3) ) )
(Q3 (CAT V T
(SETR V &)
(TO Q4) ) )
(Q4 (PUSH FN/T
(SETR FV (BUILD (FV (V +) &) V) )
(SETR CFP NIL)
(TO Q5) )
(POP (BUILD (S+++(FV +) ) TIPO SUJETO AUX V) T ) )
(Q5 (PUSH FP/T
(SETR CFP (APPEND (GETR CFP) FPR ) )
(TO Q5) )
(POP (BUILD (S++++) TIPO SUJETO AUX FV) T) )
(FN/ (CAT Name T
(SETR NAME &)
(TO Q8) )
(CAT Det T
(SETR DETER &)
(SETR ADJE NIL) (TO Q6) ) )
(Q6 (CAT Adj T
(SETR ADJE (APPEND (GETR ADJE) (LIST &) ) )
(TO Q6) )
(CAT Name T
(SETR NAME &)
(SETR CFP NIL)
(TO Q7) ) )
(Q7 (PUSH FP/T
(SETR CFP (APPEND (GETR CFP) FPR ) )
(TO Q7)
(POP (BUILD (FN (Dete +) (Adje +) (Nomb+)+) DETER ADJE NAME CPF ) T ) )
(Q8 (POP (BUILD (FN (Nomb + ) ) Name ) T ) )
(FP / (CAT Prep T
(SETR PREP &) (TO Q9) ) )
(Q9 (PUSH FN/T
( POP (SETR FPR(BUILD (FP (Prep +) &) PREP) ) T ) ) )
Figura 23. Gramtica.

Anlisis Sintctico

51

Otras frases que son validadas generan un resultado:


John run

---- ( S DCL (FN (Nomb John) ) ( FV (V run) ) )

Will Marie drink the milk and coffe -


(S Q (FB (Nomb Marie) ) Will (FV (V drink) (FN (Dete the) (Adje) (Nomb milk) (FP (Prep and)
(FN (Nomb coffee) ) ) ) ) )

3.5 DESARROLLO DEL MDULO SINTCTICO


El desarrollador debe elegir el tipo de gramtica que ms se ajuste a la naturaleza y componentes
del lenguaje a representar, para despus proceder al diseo de las reglas y redes correspondientes.
Tambin deber elegir el medio de programacin ms flexible que disponga para el manejo de
funciones, algoritmos y estructuras de datos necesarias en la construccin del subsistema de
anlisis sintctico. Entre los elementos ms tiles al momento de la implementacin del mdulo
estn: las estructuras ligadas, tablas, reglas, listas, pilas, recursividad, compiladores e intrpretes.
Por tal motivo a continuacin se ofrece una descripcin de su aprovechamiento [12]:
Estructuras ligadas. Los diversos tipos de estructuras (de frase, frontal,....) pueden representarse
por medio de nodos con el siguiente formato de registro:
Constituyente:
(Oracin, FN, FV, Artculo, Adverbio, ....)
Descendiente:
Apuntador
Hermano:
Apuntador
Antecesor:
Apuntador
Unidad Lxica:
Apuntador
El rbol ligado con esta clase de registros tiene la siguiente ilustracin, en donde la X
representa nulo y el llamado a la funcin que identifica la palabra reconocida (smbolo
terminal).El campo Unidad Lxica almacena el apuntador a la descripcin lxica del smbolo
terminal reconocido como se aprecia en la Figura 24.
Recorrido de las Estructuras. El anlisis y generacin de oraciones almacenadas en las estructuras
ligadas debe apoyarse en un eficiente mecanismo de creacin y acceso, en donde el orden en el
recorrido entre nodos puede o no facilitar la tarea. Para ello existen tres direcciones y rdenes
clsicas a considerar al momento de visitar un nodo padre, su hijo y hermano conforme a
la siguiente Tabla 13, donde se indica la secuencia a explorar de nodos y ramas:
Tabla 13. Formato de la Estructura Temporal Fuente.
Mtodo de Recorrido
Visita al Nodo
Padre
El rbol del hijo
El rbol del padre

Preorder
1
2
3

Inorder
2
1
3

Postorder
3
1
2

52

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

FN

ART

FV

perro

come

Figura 24. Estructura Ligada para una Frase.


Representacin de las reglas. El almacenamiento, acceso, interpretacin y manipulacin de las
reglas es un factor determinante en la eficiencia del subsistema de anlisis sintctico por lo que se
debe disear estructuras y mecanismos de acceso adecuados, explotando las capacidades del
lenguaje de programacin empleado. Dentro de las alternativas de representacin de reglas
tenemos las siguientes:
Listas. A travs de usar CAR como etiqueta del arco y condiciones en el CDR se almacena
cada regla:
( (FN FV) )

( FN ( Art Nombre ) ) ( Art ( el la los .... ) )

Tablas. Los estados y arcos de la red se relacionan con una tripleta en cada localidad, de acuerdo
con el formato: ( Ni, a, Ns). Donde Ni es el nodo del cual sale el arco y Ns es el nodo a
donde llega el arco a. Por ejemplo:
(Qo, Art, Q1)

(Q1, Nom,Q2) (Q2, Adjetivo, Q3) (Q2, Verbo, Q4) (Q3, Verbo, Q4)

Reglas: Mientras que la relacin entre los elementos de una regla (estado actual-->arco) y los
nodos de una red se representan por medio de un arreglo de cuatro campos con el formato: (Ni, a,
Ns, T), en donde T indica el Tipo de arco que se usa:
E de estado (se compone por su propia red)
T terminal (se divide en smbolos terminales)
F estado final de la red.
(Qo, Art, Q1, T) (Q1, Nom, Q2, E) (Q2, Adjetivo, Q3, T) (Q2, Verbo, Q4, F) (Q3, Verbo, Q4, F)
Implementacin de RTA. Se puede concebir el anlisis de una oracin como un proceso que
atraviesa por dos etapas. En la primera se compila la gramtica generando varias tablas y
estructuras de datos y en la otra se interpreta, usando dicha informacin al contrastar el texto a
evaluar, como se ilustra en la Figura 25.

Anlisis Sintctico

Gramtica

53

Texto de entrada

Fase 1
Compilador Gramatical
Fase 1
Interprete Gramatical

Oracin analizada
en sus componentes
estructurales

Gramaticalmente
almacenada como

Tabla de comandos

Tabla de nombre de
estado

Tabla de registros

Tabla ATN

Figura 25. Programa para Gramtica tipo RTA.


Durante la primera fase se producen las siguientes tablas:
Gramtica que se introduce al compilador de la fase 1. El formato mostrado en el ejemplo de la
seccin 4.4. La estructura es una lista de listas de. Al ms alto nivel es una lista de un conjunto
de arcos representados por listas. Estos son nodos acompaados por la descripcin de
condiciones y pruebas definidas para l. Dentro de cada arco (lista) hay un nombre de estado y
a continuacin un nuevo nivel de listas que define posibles arcos. Cada arco proporciona una
lista de acciones a ser ejecutadas si el arco es tomado. Las acciones son concluidas por una
accin terminal (o smbolo).
Almacenamiento de la gramtica. Es conveniente grabarla como una lista observando el mismo
formato de entrada, aplicando las funciones clsicas de acceso de listas del lenguaje LISP como
CAR, CDR, Member, etc.
Tabla de comandos. Cada localidad tiene un nombre de comando distinto a la gramtica
alimentada al momento de ser analizada, en funcin del ndice que se le asigne ser ejecutada
por la funcin case preconstruida durante la segunda fase.
Tabla de nombres de estado, ATN y de registros. Son inicializados conforme la gramtica es
leda, identificando fcilmente a cada tipo de elemento por su posicin en la lista de la gramtica
de entrada, ya que: Un nombre de estado es el car de cada conjunto de arcos (Q1,....
Los nombres ATN van seguidos por el /

54

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los nombres de registro ocurren en las declaraciones de accin y vara el lugar que ocupan
acorde con el formato de la instruccin: (SETR AUX &).
El formato de las tablas es idntico: Nombre del estado, ATN o registro y su apuntador.
Mientras que en la fase de interpretacin la clave est en usar un proceso case para ejecutar
los comandos indexados por la tabla. Tambin se emplea un contador de localidad para sealar
el nodo a procesar, inicializndose al comienzo de la gramtica para actualizarse apuntando al
siguiente nodo asignando el valor del apuntador next del nodo que actualmente est
procesando. Cuando un arco terminal es alcanzado (ya sea TO o JUMP) el nombre de estado al
cual se apunta ser encontrado en la tabla de estado y el apuntador del nodo al que
corresponder ser el nuevo valor del contador de localidad.
Cada rutina de comando explota los parmetros requeridos de la gramtica y llama a la rutina
apropiada. Por ejemplo CAT al determinar que categora asociada es verdad, entonces las
acciones del arco son ejecutadas, la accin terminal causar el retorno de la rutina con el
contador de localidad apuntando al siguiente nodo a ser ejecutado.

CAPTULO 4. ANLISIS SEMNTICO

4. ANLISIS SEMNTICO
4.1 NATURALEZA
Los componentes del lenguaje (palabras, smbolos) y sus asociaciones (frases, oraciones,) son
como entes inanimados al carecer de significado, es por ello que desde los tomos del lenguaje,
hasta las estructuras ms complejas integradas por sus elementos llevan consigo un concepto,
idea , significado o propsito, que es asignado, aceptado y empleado por los miembros de la
sociedad que aplica dicho lenguaje como medio de expresin y entendimiento [9].
El subsistema de anlisis semntico como parte de un SLN representa el ncleo del
conocimiento que domina la aplicacin y en funcin a su variedad y detalle ser la riqueza de
vocabulario, expresin, entendimiento, respuesta y utilidad que el propio sistema ofrezca. Su
diseo conserva una plena integracin con el resto de subsistemas en el aprovechamiento de
unidades lxicas (UL), validacin de oraciones, diccionarios y representaciones internas
tanto del texto interpretado como del generado. Poniendo particular atencin a la definicin,
acceso, explotacin y actualizacin de las representaciones de conocimiento sobre el leguaje, el
conocimiento mundano y el del dominio de la aplicacin que se emplee dentro del sistema.

4.2 ELEMENTOS
4.2.1 Contexto
Es el mbito social en donde se circunscribe el lenguaje que se emplea (raza, pas, religin,...) y
por lo tanto el significado particular que se asocia a sus elementos. Reconociendo que dentro de
este marco existen otros dominios ms pequeos y especficos en funcin de ciertas
particularidades (regin, nivel cultural, rea profesional, mbito familiar, actividad, edad,...). Por
lo que el significado o valor real de un elemento o asociacin del lenguaje va ntimamente ligado
al contexto en que es expresado y a quin va dirigido (ver Figura 26) [10].

Significado
Es el concepto, idea, fin, razn o conocimiento que est detrs del smbolo o expresin oral, que
le proporciona una personalidad especfica dentro del contexto que usa, otorgndole vida y
razn de existir. El significado tiene atributos de:

Alcance:
universal, regional, ...
Tiempo:
permanente, largo, corto, de moda, ...
Contexto: cultural, educacional, actividad, ...
Circunstancia:
necesidad, urgencia, rutinaria, guerra,
Tipo de ser:
humano, animal, ...
Emisor:
funcionario, padre, nio, ...
Receptor:
empleado, hijo, ...

Tambin debemos reconocer que al momento de compilar significados a expresiones verbales


o escritas, surgen las variantes de: sinnimos, homnimos, antnimos, acrnimos, modismos,
etc., los cuales vienen a alterar el manejo del lenguaje.

58

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Lengua Castellana
Popular

Cmputo

Eventos

En Mxico en
la costa norte

Eventos

Figura 26. Contexto de un Lenguaje.


4.2.3 Relacin
De igual forma que los elementos del alfabeto al permanecer separados entre s no tendran
utilidad alguna, tampoco lo sera para las palabras al estar aisladas unas de otras. Inclusive al
formar frases y estar desunidos no alcanzaran la riqueza expresiva de un texto. Por tal motivo, es
conveniente concebir al lenguaje como un sistema con elementos especficos e
interrelacionados con el propsito de compartir conceptos.
Si bien la relacin que guardan los caracteres del alfabeto para integrar palabras es observada
en el subsistema de anlisis lxico y la asociacin entre sujetos, verbos y objetos es evaluada por
el anlisis sintctico; en el semntico se cuida la correspondencia entre el contexto y el
significado de cada elemento de la oracin para atribuirle un valor especfico conforme a la
naturaleza de la expresin. Este es en resumen el objetivo del analizador semntico.

4.3. ESTUDIO DE GRAMTICAS SEMNTICAS


4.3.1 Teora Semntica
Jerrold Katz y Jerry Fodor en 1964 publicaron La Teora de la Estructura de una Semntica
enfatizando la distincin de los niveles de anlisis sintctico del semntico, su pretensin fue a
travs de la teora semntica describir la habilidad interpretativa de las personas en
consideracin a su capacidad para reconocer a los componentes de una oracin, detectar
anomalas en su significado e identificar asociaciones entre las oraciones. Dicha teora emplea
dos componentes [11].
Diccionario. A cada Unidad Lxica le acompaa una descripcin fonolgica, otra sintctica y
una semntica con sus diversos significados.
Reglas de proyeccin. Generan distintas interpretaciones de la oracin.
La descripcin sintctica usa marcadores gramaticales para identificar los posibles usos de una
palabra, mientras que la semntica incluye marcadores semnticos y distinguidores para
hacer diferenciaciones esenciales de rol del significado as como para describir a este, como
se ilustra en la Figura 27.

Anlisis Semntico

DRIVER
nombre

COCINA

adjetivo

nombre

ROJO

verbo
Driver

nombre adjetivo

(nombre)

(verbo)

{humano}

{ocasional}
[capaz de manejar
un vehculo cuya
ocupacin no es la
de conducir autos]

59

{humano}

{profesional}
[ocupacin:
conductor de autos]

{ejecutable}
[instrucciones de
cmputo]

{configuracin}
[declaraciones de
las caractersticas
de los recursos
de cmputo]

Figura 27. Marcadores Usados en la Teora Semntica.


NOTA: ( ) Marcador Gramatical, { } Marcador Semntico, [ ] Distinguidor
Los marcadores semnticos describen los elementos del lenguaje y se emplean al correlacionar
el significado entre las palabras sealadas en la Figura 28:
requiere
VERBO:

cantar
un sujeto

marcador semntico
palabra con
sujeto animado

Figura 28. Marcadores Semnticos.


Pero si el nico sujeto es la palabra rbol entonces ser desechada la interpretacin clsica del
verbo, al menos que el contexto de la oracin sea el de un cuento entonces los distinguidores
debern estar descritos acordes con cada contexto en los cuales la palabra puede ser protagonista,
ofreciendo el sentido apropiado para cada uno de ellos, clarificando las ambigedades.
Las reglas de proyeccin, ilustradas en la Figura 29, comparan el significado de las palabras de
una oracin con los posibles significados de esta, asociando los marcadores semnticos con los
distinguidores, como por ejemplo:
This suit is too light
Reglas de proyeccin
El saco es de color claro

El saco est hecho de un


material ligero
Interpretaciones

Figura 29. Ejemplo de Distinguidores.

60

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

A este proceso de aplicacin de reglas se le conoce como rutas amalgamadas, en el cual se


genera un universo de interpretaciones del significado para una oracin, como se ilustra en la
Figura 30.
the man hits the colorful ball
Se generan interpretaciones
1. Colorful: Adjetivo, (color), [Abundancia
de colores contrastantes]<(objeto fsico) V
(actividad social) >

A. Ball: Nombre, {actividad social},


[propsito de recreacin a travs del
baile] < (Evento) >
B. Ball. Nombre, {objeto fsico}, [forma
esfrica de material ligero] < (juguete) V
(instrumento deportivo) >

2. Colorful: Adjetivo, (evaluativo), [Distintos


caracteres y expresiones]<(objeto conceptual
V (actividad social) >

C. Ball. Nombre, {objeto fsico},


[forma esfrica de material pesado]
< (armamento) >

Al continuar el proceso de
rutas amalgamadas

1.1+A
11. 1 +B
111.2+A
IV.2+B
Al considerar que el verbo hit requiere un objeto con un marcador
semntico {objeto fsico}

II
IV
Al considerar mas la naturaleza de hit quedara la interpretacin

II
Figura 30. Rutas Amalgamadas para Interpretar una Oracin.
El formato de las reglas de proyeccin es equivalente al de las reglas de produccin,
compuesta de condiciones conjuntas que al cumplirse todas emiten una conclusin especfica
interpretacin equivalente a desarrollar un espacio de estados en donde se emiten cero o
varias interpretaciones finales, procurando alcanzar la mejor de la forma ms econmica
posible.

Anlisis Semntico

61

Semanticas Generativas
Propuestas por Fillmore, destacan la similitud entre la estructura base de una oracin y la
representacin de su significado, ya que al producirse la primera debe registrar todo el
significado que sea posible asociar, por lo tanto comienza con la representacin del significado,
lo interpreta para emitir la estructura frontal y aplica las reglas fonolgicas para arrivar a la
representacin fonolgica. La estructura base contiene los componentes esenciales pero no
necesariamente las palabras que aparecern en la estructura frontal. Por ejemplo, la palabra
nacer ser base tipo: causa, llegar a ser, vivir, crear, ... dicha situacin lxica ser
una de tantas transformaciones aplicadas durante la generacin de una oracin como se aprecia
en la Figura 31:
Frase Marcada (Estructura base)
We exterminated Whales.

Frase Frontal
We caused whales to become dead
We caused whales to die
S

S
NP
We

VP

NP

NP

cause

NP

We

VP

whales Mod
not

cause

NP

VP

VP

become

NP
V whales
V
dead

become
V

alive

Figura 31. Frases Emitidas por una Semntica Generativa.


Estas semnticas observan las similitudes entre ciertos adjetivos y verbos, como por ejemplo:
El metal esta duro | El metal endureci
The sauce is thick | The sauce thickened
Estas semejanzas pueden explicarse por las transformaciones lxicas que se aplican, como en el
ejemplo de la Figura 32 donde se muestra la progresin desde el ms bajo nivel de la estructura
base hasta su mas alto nivel. En esta interpretacin thicken significa llegar a hacerse thick, la
cual se indica por la combinacin del significado thick y las caractersticas del verbo [+ PRO]
e [+ INCHOATIVE], o progresivo e inicial o formativo. Dicho de otra manera, la oracin expresa
que la sauce thickens ( ) transformndose paulatinamente desde un estado inicial al estado del
ser "thick".

62

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

S
FN
S

AUX

FV

PASADO

For the sauce


to be thick

+V
+PRO
+INCHOATIVE
S

FN
ART

AUX
N

PAST
S

FN
ART
the

FV

V
for to be thick
+PRO
+INCHOATIVE

AUX

FV

PAST

sauce

thicked
+INCHOATIVE

Figura 32. Frases Marcadas por una Semntica Generativa.

4.4 GRAMATICAS CASE


En 1967 Charles Fillmore present el trabajo intitulado Un caso para un caso donde ofrece una
estructura case para nombres y pronombres mostrando la relacin de una palabra con otras,
conforme a la siguiente clasificacin [9]:

Agente. Se emplea para el sujeto, predicado nominativo o un nombre ligado al sujeto por un
verbo copulativo. Aquel pollo tiene una lombriz.
Instrumental Fuerza inanimada u objeto envuelto en la accin. Juan le pego al nio con un
baln.
Posesivo genitivo. Muestra membresa o pertenencia. El auto rojo de Carlos.
Localidad. Indica el lugar u orientacin espacial de la accin. El polica dispar hacia
arriba.
Objetivo. Usado para nombres y pronombres que correspondan al objeto del verbo en forma
directa. La pelota rompi el vidrio.
Dativo. Aplicada para objetos indirectos que resultan afectados por la accin. Mara prest a
Lourdes su vestido.
Neutral. Es el objeto sobre el que se acta. "Juan puso el vaso sobre la mesa.

Anlisis Semntico

63

Su nfasis se orienta a la estructura bsica de una oracin compuesta de un verbo y una o ms


frases nominales; cada una asociada a una particular relacin case:
Oracin
Modalidad
Preposicin

Modalidad + Preposicin
Modo, Tiempo, Aspecto, Forma, Esencia, Momento, Manera, Modales
V+C1+C2+...+ Cn
La preposicin es el verbo acompaado de uno ms estructuras case distintas
Correr beber, amar, ....
K + FN
(preposicin)
(preposicin) + ( Art) + (Adj | N)* + N + (oracin | FN)

V
Ci
K
FN

Donde * significa repeticin, ( opcional | alternativo), como en el ejemplo de la Figura 33:


Peter will not steal the dog
Modalidad

Peter steal the dog

Negativa
Futuro
Declarativo

Verbo C1
steal Peter

C2
the dog

Figura 33. Oracin por Medio de una Gramtica Case.


La modalidad de la oracin es definida por la combinacin de varios modos, que individualmente
identifican un aspecto de la frase verbal de acuerdo a los siguientes criterios:
Tiempo. Presente, pasado, ...
Aspecto. Agrega valor al tiempo indicando si la accin es continua: perfecto El nio esta
llorando o si ha sido completada imperfecto La nia estuvo cantando
Forma. Agrega informacin de la intensidad del verbo: simple El perro ladra, esttica Ella si
esta trabajando y progresiva Los muchachos estn jugando
Modo. Expresa la naturaleza de la oracin: declarativa, interrogativa,..
Esencia. Muestra el sentido de la oracin: positiva El nio juega, negativa Carezco de
dinero e indeterminada quizs llueva
Modales. Son los verbos auxiliares: he, has, hube,...
Manera. Indica partes adverbiales de la oracin: El seor cerr la puerta fuertemente
Momento. Seala el tiempo en que ocurre la accin: Juan tom el vuelo a la ltima hora
Los mecanismos que identifican los especficos cases adecuados para un verbo se conocen por
Case Frames e indican cuales estructuras son no permitidas, requeridas y opcionales; como
en el ejemplo descrito en la Figura 34 y 35:
Abrir

[Objetivo (Agente) (Instrumental)]


Juan abri la puerta
A: Juan
O: La puerta
La llave no abri la puerta
I: La llave O: La puerta
Juan abri la puerta con la llave
A: Juan
I: La llave O: La puertaZ

64

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Golpear

[Objeto (Instrumental) (Agente)]


Pedro golpe al nio con el baln
O
M

Pasado
Declarativo
Simple
Negativa Indeterminada

Verbo

Agente

golpear

Pedro

Instrumento
el baln

Objeto
al nio

Figura 34. Oracin Negativa Expresada por Medio de Case Frame.


Dar

[Objeto

(Agente) (Dativo)]
Maria le dio su libro a Raquel
O
M

Pasado
Imperfectivo
Simple
Positivo Declarativa

Verbo

Agente

Dativo

dar

Mara

Raquel

Objeto
su libro

Figura 35. Oracin Positiva Expresada Medio de Case Frame.


Los verbos se asocian a case frames por medio de un identificador en el diccionario, donde un
mismo case frame se puede aprovechar para varios verbos. Las preposiciones ayudan a
expresar la relacin entre el verbo y la frase nominal, en el idioma ingls se reconocen
preposiciones especficas para cada estructura case.
By: Agente By o With: Instrumental To: Agente At, on, in: Localidad Of, from: Posesivo
Aunque no es indispensable que exista una preposicin para ayudar a identificar al tipo de
estructura, como se muestra en la Figura 36: Alguien golpe la puerta con el baln.
O
M

F
verbo
golpear

Figura 36. Oracin en Voz Activa.

complemento 1 complemento 2

complemento 3

K agente

K instrumento

Objeto

nil alguien

con el baln

nil

la puerta

Anlisis Semntico

65

Mientras que en la Figura 37 se expresa la oracin de voz pasiva: La puerta fue golpeada con el
baln por alguien:
O

F
verbo
golpear

complemento 1 complemento 2

complemento 3

K agente

K instrumento

por alguien

con el baln

nil

Objeto
la puerta

Figura 37. Oracin en Voz Pasiva.


La generacin de oraciones que emplean estructuras case aplican 3 reglas:

Sujeto. Si el case mas a la izquierda del case frame es obligatorio, debe ser entonces el
sujeto.
Objeto. Los objetos no tienen preposiciones y debe situarse el case en el extremo derecho
del case frame
Frases Preposicionales. Los cases restantes son agregados en funcin al tipo de preposicin.

Mientras que el anlisis de oraciones procura identificar los cases correspondientes a las
preposiciones y comenzar a llenar los huecos del case frame correspondiente al verbo. Por
ejemplo, al interpretar la oracin:
Juan rompi el vidrio con el baln , se hara el siguiente tratamiento:
La preposicin con identifica el baln como un case tipo instrumental.
Para identificar el sujeto y objeto de la frase no hay preposiciones que auxilien, por lo que se usa
el conocimiento asociado a las palabras en sus unidades lxicas y evalan el tipo de sujeto
asociado al verbo de la oracin, que en este caso debe ser un ente animado.
Por lo tanto, si la FN que precede al verbo es de un ser animado, se puede asumir que se trata del
agente, entonces la FN que sigue al verbo ser el objeto.
Pero si dos frases nominales siguen al verbo, la primera es el objeto y la segunda el instrumento.
Si no existe el agente, el instrumental puede ser el sujeto en una oracin activa.

4.5 REDES SEMNTICAS


Una red semntica es un tipo de estructura de ranura y relleno, resulta adecuada para soportar la
herencia a lo largo de los enlaces es un e instancia. La herencia montona se puede
manejar mejor con este tipo de estructura que con la lgica pura, y la herencia no montona
puede soportarse muy fcilmente [12]:

66

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

La razn por la que la herencia se ejecuta de un modo sencillo, es que en los sistemas de ranura y
relleno el conocimiento est estructurado como un conjunto de entidades acompaadas por sus
atributos. Esta estructura tiene una gran utilidad adems de soportar la herencia, por las
siguientes razones:
Indexa los predicados binarios en funcin de su primer argumento.
Describe las relaciones de las propiedades fcilmente.
Se implementa mediante la programacin es orientada a objetos.
A continuacin se describe el enfoque de redes semnticas, sus representaciones y las tcnicas
para razonar con ellas. A este tipo de estructura se le conoce como de relleno fuerte, ya que se
establecen compromisos en la relacin con el contenido de las representaciones.
4.5.1 Bsqueda
Una de las primeras formas de usar las redes semnticas fue para encontrar relaciones entre
objetos, dividiendo la activacin a partir de cada uno de los dos nodos, observando donde se
encontraba dicha activacin. Este proceso se llam bsqueda de interseccin. Con este proceso
es posible usar la red de la figura siguiente de manera que se puedan responder preguntas tales
como Cul es la conexin entre Brooklyn Dodgers y azul?.
Esta clase de razonamiento utiliza una de las grandes ventajas de las estructuras de ranura y
relleno sobre las representaciones puramente lgicas, ya que tienen la ventaja de organizar
conocimiento en funcin a las entidades que proporcionan las representaciones de ranura y
relleno, tal como aparece en la Figura 38.
Mamifero
es-un
tiene-parte Nariz

Persona

instancia
azul

Pee-Wee-Reese

equipo

Brooklin-Dodgers

Figura 38. Red Semntica Binaria.


4.5.2 Representacin de Predicados no Binarios
Las redes semnticas se pueden considerar como un modo natural de representar las relaciones
que podran aparecer como instancias de los predicados binarios en la lgica de predicados. Por
ejemplo, algunos de los arcos de la figura anterior se podran representar en lgica como:
es-un (Persona, Mamfero)
equipo (Pee-Wee-Reese, Brooklyn-Dodgers)

instancia (Pee-Wee-Reese, Persona)


color-del-uniforme (Pee-Wee-Reese, Azul)

Anlisis Semntico

67

Tambin el conocimiento expresado en predicados de mayor aridad, se puede expresar en redes


semnticas. As por ejemplo: hombre(Marco) se podra reescribir como: instancia(Marco,
hombre) y de este modo es mucho ms fcil hacer la representacin en una red semntica.
Los predicados de tres o ms argumentos tambin pueden convertirse a forma binaria creando un
nuevo objeto que represente todo el predicado, y despus introduciendo predicados binarios para
describir la relacin con este nuevo objeto de cada uno de los argumentos originales. Supngase
que se sabe: marcador(Cubs, Dodgers, 5-3). Se representa en una red semntica creando un nodo
que muestre el juego especfico G23 y se relacionan las tres partes de la informacin con dicho
nodo. La figura siguiente muestra la red que surge al hacer esto, de la forma ejemplificada en la
Figura 39.
Partido
Equipo visitante
cubs

es-un
G 23

marcador

5-2

equipo local
dodgers
Figura 39. Red Semntica n-aria.
Esta tcnica es til para representar los contenidos de una oracin declarativa tpica que describa
distintos aspectos de un evento en concreto. La frase Juan le dio el libro a Mary
Se podra representar por medio de una red como la que se muestra en la siguiente figura (El
nodo etiquetado como LB23 representa el libro concreto al que se refiere la frase el libro,
descubrir el libro concreto al que se refiere la frase es similar al problema de decidir el
antecedente correcto de un pronombre, y puede ser un problema muy complicado). De hecho,
algunas de las primeras aplicaciones de las redes semnticas fueron en programas de
comprensin del ingls, tal como se ilustra en la Figura 40:
dar

Juan

agente

libro
es-un
Ev 7

instancia
objeto

beneficiario
Mary
Figura 40. Red Semntica Relacional.

Lb 23

68

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

4.5.3 Distinciones Importantes


En las redes que se han descrito hasta ahora se han hecho comentarios sobre distinciones que son
importantes en el razonamiento. Por ejemplo, debera haber una diferencia entre un enlace que
defina una nueva entidad y otro que relacione dos entidades ya existentes. Considrese la red de
la Figura 41:
altura
Jun

1.72

Figura 41. Relacin de Entidades.


Ambos nodos representan objetos que existen independientemente de la relacin que pueda
existir entre ellos. Pero ahora supngase que se desea modelar el hecho de que Juan es ms alto
que Bll de la manera mostrada en la Figura 42:
Juan

Bill
altura > altura

A1

A2

Figura 42. Representacin de Objetos.


Los nodos Al y A2 son dos nuevos conceptos para representar la estatura de Juan y la estatura
de Bill respectivamente; estn definidos por sus relaciones con los nodos Juan y Bill.
Utilizando estos conceptos definidos es posible representar algunos hechos como el aumento de
la estatura de Juan, que antes no se poda hacer. (aumentara el nmero 1.72?).
Algunas veces resulta til introducir el arco valor para hacer ms clara esta distincin, as se
podra utilizar la siguiente red para representar que Juan mide 1.72 m y que es ms alto que Bill
en la forma expresada en la Figura 43:
Juan
altura mayor que altura

valor
72

Bill

A1

A2

Figura 43. Representacin de Comparaciones.


Los procedimientos que operan en redes como estas pueden utilizar el hecho de que algunos
arcos (como por ejemplo estatura) definen nuevas entidades, mientras que otros (como ms
grande que y valor) nicamente describen relaciones entre entidades que ya existen. Otro ejemplo
de una importante distincin que se ha ignorado es la diferencia entre las propiedades de un nodo
en s mismo y las propiedades que un nodo nicamente sostiene y pasa a sus instancias.

Anlisis Semntico

69

Por ejemplo, una propiedad del nodo persona es el hecho de que es una subclase del nodo
mamfero. Pero el nodo persona tiene como una de sus partes una raz. Las instancias del
nodo persona si la tienen, y lo que se quiere es que la hereden. Es difcil capturar estas
distinciones sin asignar ms estructura a nuestras nociones de nodo, enlace y valor. Sin embargo,
si ejemplificamos una solucin orientada a redes semnticas para un problema ms sencillo; se
puede ilustrar lo que se hace en un modelo de red, teniendo en cuenta el costo y la complejidad,
pero esto ya es otro apartado.
4.5.4 Herencia Simple
Una ventaja de las redes semnticas es apropiarse de las caractersticas de un objeto por otro que
esta relacionado con l a travs de un arco tipo is-a, a kind of o a instance of , de acuerdo
con el ejemplo de la Figura 44:
nace,
crece,
reproduce y muere

ser vivo
is-a
procreado
en animal
l a-kind-of
nace
en
mamifero
plancenta
a-instance-of
perro

guardian

procreado
semilla
oviparo

gato

en vegetal

nace
huevo

en

trepad

Figura 44. Herencia Simple.


El gato aprovecha las caractersticas de los mamferos, es decir nace en placenta al igual que el
perro es procreado en vulo y por lo tanto, de la misma forma que las aves y las plantas crecen,
reproducen y mueren.
4.5.5 Herencia Mltiple
Se dan casos en los cuales un objeto puede aprovechar propiedades de otros, tal como aparece en
la Figura 45:
joven

trabajador
deportista
Juega Basket
ocupacin empleado

hijo de familia
soltero

Edad 16-

is-a
estudiante de profesional

Figura 45. Herencia Mltiple.


La red ilustra un patrn clsico de muchos estudiantes a nivel licenciatura: jvenes, practicantes
de algn deporte, solteros y que se las ingenian para trabajar.

70

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

4.5.6 Excepciones
Hay situaciones en que no deben ser apropiadas las caractersticas de otro objeto a pesar de la
herencia, por lo que dichas propiedades debern especificarse explcitamente en el objeto que
presenta la excepcin, como se ilustra en la Figura 46.
((Nace en placenta) . . .

Mamfero
is - a

((Nace en huevo) . . .

Ornitorrinco
Figura 46. Representacin de Excepciones

La propiedad nace en asignada al los mamferos no se asocia al objeto ornitorrnco ya que


este cuenta con la propia, y se da preferencia a ella.

4.6 DEPENDENCIA CONCEPTUAL


La dependencia conceptual (CD), es una teora enfocada a representar el tipo de conocimiento de
los eventos que normalmente aparecen en las frases de lenguaje natural, facilitando extraer
inferencias de ellas con independencia del lenguaje en el que estn expresadas.
La representacin en CD de una frase no se construye con las primitivas que corresponden a las
palabras que aparecen en la frase, sino con primitivas conceptuales que pueden combinarse
para formar el significado de las palabras de cualquier lenguaje concreto. La Figura 47 muestra
un ejemplo de la forma en que se representa el conocimiento en CD para la frase le di un libro
al hombre"

ATRAN

libro

hombre
de

Figura 47. Dependencia Conceptual


Donde los smbolos tienen los siguientes significados:
Las flechas.
Indican direcciones de la dependencia.
Las flechas dobles. Seala los tipos de enlaces entre el actor y la accin
P
Tiempo pasado.
ATRANS
Accin primitiva utilizada por la teora, indica una transferencia de posesin.
Muestra la relacin OBJECT CASE
R
Ilustra la relacin RECIPIENT CASE.
En CD las representaciones de las acciones se construyen a partir de un conjunto de acciones
primitivas. Un conjunto tpico de primitivas tomado de Schank y Abelson (1977) es el siguiente:

Anlisis Semntico

ATRANS
PTRANS
PROPEL
MOVE
GRASP
INGEST
EXPEL
MTRANS
MBUILD
SPEAK
ATTEND

71

Transferencias de una relacin abstracta (p. ej., dar)


Transferencia de una localizacin fsica de un objeto (p. ej., ir)
Aplicacin de fuerza fsica a un objeto (p. ej., empujar)
Movimiento de una parte del cuerpo por su dueo (p. ej., patear)
Asimiento de un objeto por un actor (p. ej., empuar)
Ingestin de un objeto por parte de un animal (p. ej., comer)
Expulsin de algo del cuerpo de un animal (p. ej., llorar)
Transferencia de informacin mental (p. ej., decir)
Construccin de informacin nueva a partir de la vieja (p. ej., decidir)
Produccin de sonidos (p. ej., hablar)
Concentracin de un rgano sensorial hacia un estmulo (p. ej., escuchar)

Un segundo conjunto de bloques construidos de CD es el conjunto de las dependencias


permitidas entre las conceptualizaciones descritas en una frase, existen cuatro categoras
conceptuales primitivas a partir de las cuales se pueden construir estructuras de dependencia.
Estas son:
ACTs
PPs
Aas
Pas

Acciones
Objetos (productores de imgenes)
Modificadores de acciones (asistentes de acciones)
Modificadores de PPs (asistentes de imgenes)

Las estructuras de dependencia son en s mismas conceptualizaciones y pueden servir como


componentes de estructuras de dependencia ms grandes. Las conceptualizaciones que
representan eventos pueden modificarse de varias formas para aportar informacin a un frase
conforme al tiempo verbal, cuyas variantes son:
p
f
t
ts
tf
k
?
/
nil
delta
c

Pasado
Futuro
Transicin
Transicin de comienzo
Transicin finalizada
Continuacin
Interrogativa
Negativa
Presente
Atemporal
Condicional

En la figura 48 muestra un ejemplo del uso de estos tiempos cuya frase tomada es como fumar
puede matarte, lo deje:

72

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

uno
c

INGES

uno

hum

R
cigarrillo

1
INGES
muerto

hum

R
cigarrillo

uno
P

vivo

Figura 48. Uso de los Tiempos Conceptuales.


En el enlace vertical de causalidad indica que fumar mata. Sin embargo, est marcada con c,
sabemos slo que fumar puede matar, no que necesariamente lo haga. El enlace horizontal de
causalidad indica que la primera me hace dejar de fumar la cuantificacin tfp asignada a la
dependencia entre I en INGEST indican que fumar (una instancia de INGEST) ha acabado
y que esto ocurri en el pasado.
Las representaciones slo necesitan usarse una vez por cada primitiva ACT, en lugar de una
ocasin por cada palabra que describe este ACT. Por ejemplo todos los verbos siguientes
implican una transferencia de posesin de un objeto: Dar, Tomar, Robar, Donar.
4.6.1 Argumentos para la Representacin en CD
Las inferencias sobre quin posee un objeto actualmente y sobre quin los posey antes, puede
ser importante. En una representacin de CD estas posibles inferencias pueden establecerse una
vez y asociarse con la primitiva ACT ATRANS.
Para construirla no slo debe utilizarse la informacin que explcitamente se establece en una
frase, sino que tambin debe emplearse las inferencias asociadas con la informacin especfica.
Una vez aplicadas, se almacenan los resultados como parte de la representacin y por lo tanto
pueden utilizarse repetidas veces. Por ejemplo en la Figura 49 se considera la frase: bill,
amenazo a john con romperle la nariz
La representacin dice Bill inform a John de que l har algo para romperle la nariz de
John. Bill hizo esto de forma que John creer que si l hace alguna otra cosa (diferente de
lo que Bill har para romper su nariz), entonces Bill romper la nariz de John. En esta
representacin, la palabra cre se utiliza para simplificar el ejemplo. Pero la idea que hay
debajo de cre puede representarse en CD como un MTRANS de un hecho en la memoria de
John. Las acciones hace 1 y hace 2 son poseedores postizos que se refieren a algo como
acciones an no especificadas.

Anlisis Semntico

John

Bill
Bill

Bill

John

73

nariz
poseida-por

John

M
C

cree

hace

rota

John

hace

Bill

hace

nariz

rota

Poseida- por
John
Figura 49. Representacin de la Dependencia Conceptual.
Los elementos no especificados por la representacin de una parte de informacin pueden
utilizarse como un centro de atencin para la comprensin de eventos posteriores conforme se
van produciendo. Por ejemplo despus de escuchar que Bill amenaz a John con romperle la
nariz. Podramos esperar averiguar que accin est intentando evitar Bill que John lleve a
cabo. Esta accin se podra sustituir por la postiza hacer 2 representada en la Figura 49. La
presencia de estos objetos postizos da pista sobre por ejemplo que otros objetos o eventos son
importantes para comprender el caso de estudio.

4.7 CONSTRUCCIN DEL MDULO SEMANTICO


El subsistema semntico debe aprovechar el trabajo, estructuras de datos y de significado que los
mdulos predecesores generan en su labor: unidades lxicas y estructuras de soporte de la frase,
as como las estructuras temporal fuente, el diccionario y estructuras transformacional y
frontal como se aprecia en la Figura 50 [12]
El desarrollador debe elegir cuidadosamente los procedimientos y estructuras de datos para
implementar el subsistema de anlisis semntico insistiendo en concebir la aplicacin como un
proceso de bsqueda en donde a partir de los resultados emitidos por los analizadores lxico y
sintctico se generan diversas trayectorias para derivar la interpretacin ms adecuada tanto a las
palabras como al texto, tal como se indica en la figura 51.

74

Texto

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Anlisis
Lxico

Unidades
Lexicas

Estructura
Temporal
Fuente

Diccionario

Subsistema

Anlisis
Sintctico

Anlisis
Semntic

Estructura de
la Frase

Estructura del
Contexto

Componente
Transformaciona

Estructuras
Case

Componente
Morfmico

Representacin
de significado

Atributos
frase
marcadas

Flujo de datos

de

Representacin
Semntica

Redes Semnticas.
Marcos
Dependencia
Conceptual

Estructuras de Datos Bases de Datos

Figura 50. Esquema de un Sistema de Lenguaje Natural.


Cada interpretacin del texto inferida crea su propia estructura semntica para la oracin y cada
una de sus palabras actualizando inclusive las definiciones y contenidos registrados en las
unidades lxicas, estructuras temporales fuente y la estructura frase, de ser necesario a
efecto de conservar congruencia con ellas.
Esto ltimo implica la replica de las definiciones originales para producir tantas versiones como
interpretaciones distintas se generen, y para ello, al considerar al contexto limitara la explosin
de significados derivados al permitir la produccin de aquellos que satisfagan los requerimientos.

Anlisis Semntico

Contexto definicin

75

Texto
UL1

UL2 . . .

(Estructura de la frase)

IS1
Estructura Semntica

IS2
Estructura Semntica

Figura 51. Generacin de Significado para una Frase.

ISm
Estructura Semntica

76

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 5. COMPRENSON

5. COMPRENSIN
5.1 PERFIL
La interpretacin del lenguaje natural escrito tiene el propsito de asociar los conceptos
que corresponden a la expresin para determinar su significado y propsito. Reconociendo las
entidades y relaciones involucradas en la oracin, considerando a una especie de discurso
que ocurre dentro de un contexto especfico, como se ilustra en la Figura 52:

DISCURSO

ORACION 1
.
.
ORACION 1000

INTERPRETACIN

SLN

CONCEPTO1
CONCEPTO2
.
.
.
.
CONCEPTO
2000

ENTIDADES
OBJETOS:
-ATRIBUTOS
-VALOR
RELACIONES
-ACCIONES
-TIEMPO
-FRECUENCIA

SIGNIFICADO
Y PROPOSITO
DE LA ORACION
EVALUADA

Figura 52. Generacin de Significado para una Frase.

5.2 PROCESO
Para entender una oracin sencilla es indispensable tomar en cuenta el contexto en que se
expresa. Cuanto ms importante resulta considerarlos al tratarse de textos y dilogos que deben
ser interpretados. Por lo que se requieren advertir distintos tipos de relaciones que ligan frases y
partes del discurso, como son las siguientes [10]:
Entidades idnticas: Observar el ejemplo, Juan habl con Mara, le dijo que la quera.
Considerar el uso de referencias anafricas:
le
==> Juan
dijo ==> Juan a Mara
la
==> Mara
quera ==> Juan y Mara

Parte de las entidades. Una oracin puede usar entidades que pertenecen a otras que fueron
expresadas en otras oraciones: Rubn estrena casa, en el jardn hay muchos rboles.
Parte de las acciones. Evento est ligado con otros: Pedro jug el domingo y anot dos
goles.
Elementos de conjuntos. Integrantes de un grupo expresado participan en otra oracin: Los
empleados de la fbrica se declararon en huelga, el lder del sindicato lo anunci ayer.
Nombres propios. Cada uno de ellos representa a una instancia de cierta clase de entidades:
Juan corre rpido y Montreal es una ciudad bilinge
Ligas casuales. Un evento se asocia con otro: Hubo un alto ndice de contaminacin ayer,
hoy los carros con calcomana color rojo no circulan.
Secuencia de eventos. Son acciones que ocurren cronolgicamente: Jos invit a cenar a su
novia y pag con su tarjeta de crdito.

80

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Forzar eventos. Una accin anima a realizar otras: Jaime le dice a su mam que tiene
hambre

Asumir condiciones y estados. De manera implcita se hace referencias a ciertas a condiciones y


atributos de los protagonistas: Dame un beso. El hombre pide a una mujer, son novios,...
Para que el SLN sea capaz de reconocer estas clases de relaciones entre las oraciones, debe usar
una gran cantidad de conocimiento ordinario, del lenguaje y del contexto en que se expresa el
discurso y sus oraciones. Las aplicaciones que interpretan mltiples oraciones deben usar gran
cantidad de conocimiento y limitar las condiciones del dominio al que pertenece el discurso.

5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO


Al reconocer que el mdulo de Interpretacin forma parte de un sistema de lenguaje natural es
importante identificar el rol de los mdulos que le acompaan y que cuyos resultados en el
procesamiento de texto deber aprovechar o proveer. Por ejemplo la oracin: I want to print
Bills doc file.
Al ser procesada por el subsistema de anlisis sintctico arroja el rbol mostrado en la Figura 53:
S (RM1)
FN
PRO
(RM2)

FV
verbo

S (RM3)

want

FN

FV (RM4)

PRO

ADJS

RM2

Bills

FN

ADJS
Doc

N
File

Figura 53. Resultados del Anlisis Sintctico.


El subsistema del anlisis semntico al hacer su funcin de:
Mapear palabras individuales en objetos apropiados de la base de conocimientos.
Crear las estructuras correctas que correspondan al significado de las palabras individuales
combinadas entre s.
Emplea una base de conocimientos que contiene frames para objetos, como los ilustrados en la
Figura 54. A partir del cual se genera el significado de los elementos de la oracin en forma
congruente a la base de conocimientos de acuerdo con las Figura 54 y 55.

Comprensin

User:---isa:
persona
nombre:
debe ser <string>
User: 068
instance:
User
nombre:
Susan
User: 073
instance:
User
nombre:
Bill
File - Struct
isa:
Informatin - Object
F1:
instance:
File - Struc
nombre:
carta
extensin:
doc
owner:
User 073
en-directorio: / Bill /
Printing:
isa:
Evento Fsico
*agente:
debe-ser (animado y programa)
*objeto:
debe-ser (informacin - objeto)
Wanting:
isa:
Evento Mental
*agente: debe-ser (animado)
*objeto:
debe-ser (estado o evento)
Commanding:
isa:
Evento Mental
*agente:
debe-ser (animado o programa)
*ejecutante: debe-ser (animado o programa)
*objeto:
debe-ser (evento)
This - System:
intance:
Programa
Figura 54. Base de Conocimientos basada en Frames.
RM1
{ La oracin completa }
instance: Wanting
agente: RM2 { I } objeto: RM3 {un evento de impresin}
RM2
{I}
RM3
{ un evento de impresin }
instance: Printing agente: RM2 { I } objeto: RM4 { Bills .doc file }
RM4
instance: File-Struct extensin: doc owner: RM5 { Bill }
RM5
instance: Persona nombre: Bill
Figura 55. Significado Parcial de una Oracin.

81

82

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los marcadores de referencia RM corresponden al evento de ms alto nivel de la oracin. Hay


un evento de querer en el quin habla (identificado como I ) desea que una accin de
impresin ocurra, donde el mismo se encarga de imprimir un archivo con extensin doc cuyo
propietario es Bill. Con estos elementos el subsistema de interpretacin procura discernir el
tipo de oracin a la cual se refiere el texto y tambin identifica a los individuos relacionados ( I
, Bill , doc ).

Por medio del anlisis pragmtico se buscan las respuestas a dichas interrogantes, haciendo uso
de un modelo de discurso con base al contexto al que pertenece, desde el cual pueda relacionar
que el usuario identificado por el pronombre I es la instancia User 068 y que la nica
persona a la que se refiere el nombre propio Bill corresponde a el objeto User 073. Una vez
que la referencia correcta para Bill es conocida, se puede determinar que archivo est siendo
referenciado a F 1 al ser el nico con extensin doc y cuyo propietario es Bill .
Una vez completada la descripcin en trminos de congruencia con la base de conocimientos
empleada se prosigue al paso final del proceso de interpretacin que es: decidir que hacer
como resultado de la oracin evaluada, o sea debemos reconocer su interpretacin.
Una estrategia es registrar lo expresado como un hecho y que se har con l, por lo que se deben
reconocer oraciones declarativas, de las imperativas, interrogativas o negativas. Para descubrir su
naturaleza se pueden aplicar reglas que caracterizan dilogos cooperativos.
En el ejemplo que se est desarrollando, se usa el hecho que cuando el usuario expresa lo que
quiere hacer y que el sistema es capaz de realizar, entonces el sistema debera ir adelante y
hacerlo, produciendo el significado final de la manera mostrada en la Figura 56:
Significado:
instancia:
agente:
ejecutante:
objeto:
P27
instancia:
agente:
objeto:

Commanding
User 068
This-System
P27
Printing
This-System
F1

Figura 56. Representacin de la intencin de una oracin.


El paso final en el anlisis pragmtico es traducir (cuando es necesario) desde la base de
conocimientos a la representacin adecuada que implemente la accin que corresponda a la
intencin de la oracin, como en este caso sera la emisin del comando: Lpr/bill/carta.doc

Comprensin

83

5.4 TCNICAS
5.5.1 Empleo de la Atencin
Para facilitar la interpretacin de texto es til identificar aquellas partes que llaman la atencin,
como frases, palabras o smbolos clave. Por ejemplo al observar el siguiente texto [11]:
Instalacin del Sistema Operativo SCO Fast Start. Primero booteas con el disco de arranque,
despus eliges una instalacin fresh y proporcionan los parmetros de: medios, tarjeta de red,
monitor, teclado, mouse y CD. ! No olvides respaldar el contenido original del disco, pues s
perder!
Destacan los siguientes elementos:

Frase. Instalacin del Sistema...


Palabras. Primero, despus, y (indican la secuencia de procedimiento) booteas
(palabra clave que indica una accin indica una accin tcnica a realizar) fresh (palabra
clave que indica a partir de cero la instalacin), perder (alarma).
Smbolos. ! Llamar la atencin.

Tales elementos son representados en la base de conocimientos de una manera apropiada para
que a partir de ellos se generen bsquedas que infieran:

La informacin faltante, no expresada en la oracin y que se maneja implcitamente o que se


expresa en otra parte del discurso.
Precisar a que objeto especfico se est haciendo referencia por medio de los nombres
propios, pronombres, adjetivos,...
Identificar el tipo de oracin y sobre todo su intencin.

5.5.2 Modelo de Creencias


El modelo de creencias es un concepto abstracto que pretende caracterizar la naturaleza y rol de
las entidades y de sus interrelaciones con otras, adems de representar estados y eventos que
particularizan una situacin dada. En un SLN durante la fase de interpretacin se puede
generar modelos de creencia del dominio, discurso y frase que est siendo evaluada.
Tambin existen variantes del modelo de creencia de lo que considera el propio S.L.N, sobre el
tema, lo que supone que se imagina el usuario al respecto, lo que se pudiera el usuario pensar que
el sistema considera,... y as sucesivamente.
Para generar modelos es til clasificarlos en dos partes: aquellas creencias comunes entre los
protagonistas y las que son individuales:
Modelos de creencias compartidas. Se representan como hechos (verdades generales) en la
base de conocimientos, as como por medio de frames y scripts. Estos ltimos se aplican
para ilustrar situaciones estereotipadas, dirigir la bsqueda o inferencia de informacin faltante e
ilustrar razonamiento monotnico.

84

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Modelos de creencias individuales. Se pueden implementar por medio del uso de la lgica
modal quien est interesada en los diversos modos en que una acin puede ser verdadera
y el momento (pasado, presente, futuro,...) en que se le asocia dicho valor o falsedad bajo
circunstancias especficas que pudieran presentarse, al llegar a ocurrir (lgica condicional).
Estas clases de lgicas representan el valor de verdad concerniente a creencias, conocimiento,
deseos, intenciones y obligaciones, que pudieran ser falsas injustificadas, insatisfechas, irracional
o contradictorias. Proporcionan medios para interpretar variantes del lenguaje que involucran
referencias a otros tiempos, circunstancias y estados mentales de la gente.
Se utiliza el operador modal BELIEVE que permite representar afirmaciones de la forma:
BELIEVE (A,P) la cual es verdadera siempre y cuando A crea que P es verdadera, a pesar
de que P pudiera ser creda como falsa por otra asercin. Tambin se usa el operador
KNOW-WHAT (A,P) el cual es verdadero si A conoce el valor de la funcin P.
Otra forma de representar creencias individuales es particionar la base de conocimientos para
organizar las creencias compartidas separndolas de las individuales. Las primeras creencias no
deben duplicarse en la representacin, pero las individuales se registrarn por separado por cada
personaje involucrado. A travs del uso de redes semnticas particionadas se puede representar
tales requerimientos, como se ilustra en la siguiente Figura 57, donde aparecen tres espacios de
creencias:
S 1 cree que Mara golpe a Bill
S2
cree que Silvia golpe a Bill
S3
cree que alguien golpe a Bill

MARIA

GOLPEAR

INSTANCIA

AGENTE

ACTO1

DATIVO

BILL

S1

S3
SILVIA

AGENTE
S2

Figura 57. Red Semntica Particionada.

Comprensin

85

5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS


Otra tcnica que ayuda a interpretar el sentido del texto evaluado es el reconocer la intencin que
el protagonista persigue alcanzar meta y el plan que considera aplicar para lograrla. Por
ejemplo, en el texto: Juan quiere comprar una P.C. para su hijo.
Se reconoce:

Meta: El hijo de Juan tiene su P.C.


Plan: Compuesto de los subplanes:
Juan ahorra dinero
Juan investiga opciones
Juan compra cotizaciones
Juan elige
Juan adquiere la P.C.

Entre las metas comunes redactadas en historias, reportajes y libros estn:

Satisfaccin de necesidades: comer, trabajar,...


Conquista de deseos:
amar, cantar,....
Logro de objetivos:
titularse, adquirir, conquistar, ...
Preservacin de estados: salud, posesiones,...
Metas de placer:
paz, gozo,...
Metas instrumentales:
cumplen condiciones para habilita metas superiores: Obtn tu
pasaporte, para que viajes al extranjero.

Para lograr esos objetivos se representan planes en la base de conocimientos, permitiendo al


sistema formar una coherente representacin del texto evaluado aunque haya informacin
omitida, puesto que especifican elementos que deben participar en el tema en cuestin. En la
interpretacin de la oracin anterior podemos hacer uso del operador USE (por A, de P, para
realizar G), que se describe como:
USE ( A, P, G ):
Precondicin: KNOW-WHAT (A, LOCATION (P) ) .
NEAR (A,P)
READY (P)
Postcondicin: DONE (G)
Esta descripcin representa para que A (Juan) use P (PC) debe realizar G (comprar),
debindose cumplir las condiciones:
A debe saber donde esta P (donde venden PCs)
A debe estar cerca de P
P debe estar disponible, cuyo resultado es el cumplimiento DONE de la meta G.

86

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Para adquirir la PC, Juan necesita cumplir submetas, una de ellas es conocer donde comprar
una P.C., por lo que se hace uso del operador LOOK-FOR (A,P) en donde A busca a P,
cumpliendo ciertas condiciones y generando resultados especficos, como:
Look-For (A,P): precondicin can-recognite (A,P) postcondicin: know-what (A, Location (P) )
El mdulo interpretador debe asociar el objetivo de adquirir la P.C. con la actividad de buscar un
almacn distribuidor, reconociendo que Juan est buscando un lugar donde comprarla, as que
el sistema puede usar esta meta como parte de la principal. Regularmente hay varios operadores
y planes alternativos para alcanzar el mismo objetivo, por lo que pudieran desarrollarse distintas
alternativas de interpretacin con sus variantes respectivas. Por lo que el problema de generar
coherentes interpretaciones de un texto o discurso puede involucrar considerar muchos planes
parciales y operadores.

5.6 GUIONES
5.6.1 Representacin de conocimiento
Los guiones son mecanismos de representacin del conocimiento que pueden ser utilizados para
comprender conjuntos de eventos o historias estereotipadas en un contexto en particular. En los
guiones se parte de la idea que en el mundo real existen patrones de secuencia de eventos como
cuando se sale de viaje, se va a comer a un restaurante, etc. Estos patrones surgen de relaciones
causales entre.
Los guiones tienen un conjunto de condiciones de entrada que hacen posible la ocurrencia de sus
eventos, al final arrojan un conjunto de resultados que provocan la ocurrencia de eventos
posteriores (posiblemente descritos por otros guiones), es decir, dentro de la cadena los eventos
estn conectados a otros anteriores que los hacen posibles, como a posteriores que ellos
provocan que ocurran. Podemos ver a un guin como una lista de descripciones de eventos que
contienen variables a las que se les da el nombre de huecos y asociado a ellos puede haber
informacin acerca de los tipos de valores que contiene; as como valores que son usados si no
hay otra informacin disponible. Los elementos que se especifican en un guin son:
Condiciones de entrada. Requisitos que deben ser satisfechos para que los eventos descritos
en el guin puedan ocurrir.
Apoyos. Huecos que representan objetos involucrados en los eventos descritos en el guin. La
presencia de estos objetos puede ser inferida an si ellos son mencionados explcitamente en
la historia o secuencia de eventos a analizar.
Papeles. Son los huecos que representa a la gente involucrada en los eventos descritos en el
guin. La presencia de este elemento tambin puede ser inferida, aunque no sean menciona.
Si se identifican individuos especficos estos pueden ser insertados en los huecos apropiados.
Pista. Corresponde a una variacin especfica en un patrn mas general. Las diferentes pistas
de un mismo guin compartirn patrones, aunque no a todos sus componentes.
Escenas: Son secuencias de eventos que ocurren en un momento dado. Los eventos pueden
ser representados con dependencia conceptual.
En la Figura 58 se presenta parte del guin del restaurante (Schank 1997) [4]:

Comprensin

87

Pista:
Cafetera
Apoyos: Mesas, Men, F= comida, Cuenta, dinero
Papeles: L = Cliente, M = Mesero, O = Cocinero, J = Cajero, P = Propietario
Condiciones de entrada: Si tiene hambre, Si tiene dinero
Escena 1: Entrada
L PTRANS L a EL RESTAURANTE
L ATTEND OJOS a LAS MESAS
L MBUILD donde sentarse
L PTRANS a LA MESA
L MOVE L a POSICIN SENTADO
Escena 2: Pedir
L PTRANS MEN L
L MTRANS SEA A M

M PTRANS M a LA MESA
M ATRANS MEN a L
*L MBUILD eleccin de C
L MTRANS sea a M
M PTRANS M a LA MESA
L MTRANS quiero C a M
M PTRANS a M o
M MTRANS (ATRANS C) a O

o MTRANS no hay C a M
o
(GUIN PREPARAR C)
M PTRANS a M L
IR A LA ESCENA 3
M MTRANS no hay C a L
(VOLVER * ) o (IR A LA ESCENA 4 POR EL CAMINO DE NO PAGAR)
Escena 3: Comer
O ATRANS C a M; M ATRANS C a L; L INGEST C
(OPCIN: VOLVER A LA ESCENA 2 PARA PEDIR MS; EN CASO CONTRARIO, IR A
LA ESCENA 4)
Escena 4: Salir
L MTRANS a M (LA CUENTA)
M MOVE (ESCRIBE LA CUENTA)
M PTRANS M a L
M ATRANS LA CUENTA a L
L ATRANS LA PROPINA a M
L PTRANS L a J
L ATRANS DINERO a J
PTRANS L FUERA DEL RESTAURANTE (CAMINO DE NO PAGAR)
Figura 58. Guin del Restaurante.

88

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

5.6.2 Razonamiento
Si un guin en particular es reconocido como apropiado en una situacin dada entonces puede ser
muy til en la prediccin de la ocurrencia de eventos que no fueron mencionados explcitamente.
Los guiones pueden tambin ser tiles indicando las relaciones entre los eventos que fueron
mencionados. Los dos primeros pasos en un proceso de utilizacin de guiones son:

Seleccin entre los guiones que se encuentran en memoria, del guin o guiones apropiados.
La utilizacin del guin para completar las partes no especificadas del texto a comprender.

Hay dos formas en las que puede ser til activar un guin:
Como guin auxiliar (aquel que se menciona brevemente y puede ser referido de nuevo pero no
en la situacin central), en cuyo caso puede ser suficiente guardar el apuntador al guin, para ser
accesado ms tarde si es necesario, esta podra ser una estrategia apropiada para sealar el guin
del restaurante cuando se trata de analizar una historia como la siguiente: Susana pas por su
restaurante favorito camino al museo. Ella realmente disfrut del nuevo Picasso exhibido.
Como guin principal, en cuyo caso es apropiado activar el guin completamente y tratar de
llenar sus huecos con los objetos particulares y la gente involucrada que aparezca explcitamente
en la historia que se est analizando. La coincidencia en precondiciones, apoyos, papeles y/o
eventos de un guin pueden servir como indicadores que este guin puede ser activado.
Cuando un guin ha sido activado para una situacin en particular, es til en:

La prediccin. De eventos que no han sido explcitamente mencionados, ejemplo: Juan


sali al restaurante anoche. El ordeno una hamburguesa. Pag y se fue a su casa.
La respuesta a: Cen Juan anoche ? sera afirmativa aunque no se haya mencionado
explcitamente. El guin del restaurante se activ por la coincidencia de los eventos de la
historia con los del guin, por lo que el programa de comprensin infiere que la secuencia
completa previa ocurri normalmente.

La interpretacin. Coherente de un conjunto de observaciones, si un guin es una gran cadena


causal puede proporcionar informacin sobre las relaciones entre los eventos por ejemplo:
Juan sali a cenar, se sent y llam a la mesera. La mesera trajo el men y l orden una
hamburguesa.
A la pregunta: Porqu le llevo la mesera el men a Juan? . El guin puede proporcionar dos
respuestas:
Porque Juan se lo pidi (analizando hacia atrs en la cadena causal, para ver lo que provoc la
accin)
Porque Juan se lo pidi (analizando hacia atrs en la cadena causal, para encontrar el evento o
accin que provocar).

Comprensin

89

Para enfocar. La atencin en eventos poco usuales:

Juan sali a cenar, se sent y llam a la mesera. La mesera trajo el men y l ordeno una
hamburguesa.
Juan fue a un restaurante, se le mostr una mesa, orden una hamburguesa, se sent y espero
largo tiempo, se enojo y se fue.

La parte importante de esta historia es la salida de la secuencia esperada de eventos en un


restaurante. Una vez que la secuencia tpica de eventos se irrumpe no puede seguir utilizndose el
guin para predecir eventos posteriores. Puede suponerse que vio la carta, pues esto ocurri antes
de la interrupcin pero no puede inferirse si pag la cuenta.
5.6.3 Ventajas y Desventajas
Entre las principales ventajas de los guiones estn:

Predecir eventos que no han sido explcitamente mencionados.


Una interpretacin coherente de la situacin presentada en el texto.
Enfocar la atencin en eventos poco usuales.

Su desventaja es que no son adecuados para representar cualquier clase de conocimiento, ya que
no son estructuras generales que funcionan adecuadamente para modelar los tipos especficos de
conocimiento para los cuales fueron diseados.

5.7 COMPRENSIN DE HISTORIAS


5.7.1 Inters
Uno de los problemas centrales en el entendimiento del lenguaje natural ha sido la creacin de
inferencias y el control de las mismas, considerando que cada una de ellas es creada y tratada a su
vez como entrada del mismo sistema generando un nmero infinito de combinaciones. Una
pregunta que surge al analizar este problema es:
Qu tan extensas deben ser nuestras bsquedas de inferencias?
Para generar su respuesta debemos crear inferencias que ayuden a unir entre s el texto analizado;
tal habilidad depende de nuestro conocimiento acumulado, el cual nos marca las rutas a seguir de
manera natural, esta meta no se logra a menos que conozcamos el lugar en donde podemos buscar
informacin que sea til para ligar el nuevo conocimiento con el texto antes analizado. Para un
nivel mas elevado de planes y objetivos el problema es identificar los objetivos y planes que
debemos seguir. Una respuesta es: debemos seguir el camino mas interesante. El inters
significa poner atencin en ciertas cosas o acciones, lo que en forma abstracta se traduce en
dejar libre nuestro sistema de inferencias.
A continuacin se presenta una oracin incompleta que puede ir ligada con los conceptos que
aparecen despus:
Juan iba caminando por la calle cuando .....

90

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

vio un gato
decidi amarrarse un zapato.
se comi una galleta.
escuch una explosin.

Es obvio que los primeros incisos son poco relevantes en comparacin al ltimo, lo cual nos
indica que:
Las cosas poco comunes son mas interesantes que las ordinarias
El inters es una propiedad dinmica fuertemente dependiente del contexto.
En general, para representar esta capacidad de evaluacin de inters se requiere de un mdulo
especial llamado Understander quien trata de analizar y calificar el texto de entrada con
relacin al contexto del dilogo que se est desarrollando. El punto crtico es decidir que tema es
ms interesante que otro conforme a diversos puntos de vista y en situaciones cambiantes, por lo
que se deben usar criterios heursticos dinmicos para caracterizar esta situacin.
5.7.2 Comprensin de Historias
Una de los proyectos que destaca en el uso del concepto de inters como solucin al problema
del manejo de inferencias es PAM, construido por Schann y Abelson en 1977, implementaron
scripts para facilitar la interpretacin de ciertas oraciones y palabras claves contenidas en un
texto, de tal manera que poda emitir juicios sobre supuestos que argumentan ciertas acciones e
intenciones, como se muestra en el siguiente dilogo:
John quera la bicicleta de Bill
El se acerc a Bill y le pregunto si estaba dispuesto a darle la bicicleta
Bill se opuso
John le dijo a Bill que dara treinta dlares por ella, pero Bill no estuvo de acuerdo
Entonces John le dijo a Bill que le rompera un brazo si no le permita tenerla
Bill le dio la bicicleta
Las inferencias que PAM es capaz de generar son:
Porqu John se dirigi a Bill ? Porque quera tener su bicicleta
Porqu Bill le dio su bicicleta ? Porque no quera ser lastimado
PAM uso planes como estructuras de conocimiento para tipificar metas de la gente y de los
medios que emplean para alcanzarlas, a su vez entiende historias basadas en objetivos (como
las respuestas que se ofrecieron en el texto analizado anteriormente) y asume que todos los planes
y objetivos de los actores en una historia pueden ser constantemente monitoreados.

6.8 CREACIN DE UN INTERPRETADOR


El subsistema interpretador al formar parte de un sistema de lenguaje natural aprovecha las
estructuras de datos y bases de conocimiento que el resto de mdulos crean, actualizan y explotan
para cumplir la funcin sustantiva de la aplicacin acorde con el flujo de conversacin
sostenida con el usuario conforme se ilustra en la siguiente Figura 59 [12]:

Comprensin

Usuario

Anlisis
lxico

Anlisis
sintctico

Anlisis
Semntico

91

Intrprete

Texto de
Entrada

Conceptos
Significado
Oracin
Propsito
Respuesta

Figura 59. Interpretacin de Textos Fuente.


En el flujo de entrada el intrprete:

Enriquece las definiciones semnticas de los elementos del texto que es evaluado
Precisa la naturaleza y propsito de la oracin
Deduce los elementos, estados y acciones involucradas explcitamente en la frase, conforme
al discurso y dominio de la aplicacin.
Identifica el tipo de reaccin del sistema: saludo, pregunta, declaracin, instruccin, negacin,
despedida

Mientras que la exposicin de la respuesta el intrprete:

Instruye al mdulo generador de lenguaje para realizar el tipo de respuesta adecuada al


texto fuente.
Evala las respuesta ofrecidas por el mdulo generador conforme a los requisitos
manifestados
Ordena la ejecucin correspondiente al tipo de respuesta seleccionada
Presenta la respuesta al usuario.

Al integrar el Interprete al SLN se obtiene el esquema de resultados y estructuras de datos


ilustrada en la Figura 60.
Usuario
Exposicin
de
Respuesta

Intrprete

Generador
de
Lenguaje

Anlisis
semntico

Figura 60. Exposicin de Respuesta del Intrprete.

Anlisis
Sintctico

Anlisis
lxico

92

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 6. GENERACION DE LENGUAJE

6. GENERACIN DE LENGUAJE
6.1 CONSIDERACIONES
El sistema de Lenguaje Natural incluye un subsistema especializado en la emisin de lenguaje
natural como respuesta a:
La iniciativa del propio SLN para iniciar, controlar o terminar una sesin con el usuario.
En respuesta a una peticin, orden, consulta u observacin expresada por el propio usuario.
Como reaccin a un estado de la sesin: pausa, actualizacin de conocimiento, contradiccin y
desconocimiento en la informacin expuesta [10].

La frase u oracin que el subsistema genera debe considerar los siguientes requerimientos:

La orden, propsito y condiciones que el subsistema interpretador emite para responder a


la expresin alimentada por el usuario.
El requerimiento, objetivo y restricciones que el subsistema de conversacin establece en la
coordinacin del proceso de dilogo entre el SLN y el usuario.
El discurso que durante ese momento de la sesin se expresa a travs de las oraciones que
el usuario y el SLN han expresado alternadamente.
El dominio de especialidad que el SLN maneja y que el usuario desea explotar.
El universo del idioma que se utiliza para expresar la comunicacin: alfabeto, diccionario,
sintaxis,...
El conocimiento mundano que caracteriza la expresin del lenguaje: afirmaciones,
negaciones, dudas, saludos,...

6.2 PROCEDIMIENTO
El SLN interacta con el usuario durante la sesin no solamente como medio de comunicacin
para el control de la sesin e interpretacin de las expresiones del usuario, sino tambin al
ofrecer las respuestas apropiadas a sus requerimientos, por lo cual interacta con el resto de
subsistemas como se ilustra en la Figura 61.
En dicha ilustracin se observa como puerta de comunicacin al subsistema de conversacin
para recibir las expresiones del usuario y presentar las frases de exposicin (respuesta, preguntas,
etc.) del SLN. Las oraciones fuente son procesadas hasta llegar al subsistema intrprete, tambin
se reciben los requerimientos de expresin que el mdulo conversador emplea. La interpretacin
de estos insumos se traduce en directivas que se transmiten al generador del lenguaje.

Este ltimo interacta con la base de conocimientos y los subsistemas semntico, sintctico y
lxico para producir las frases en lenguaje natural acordes a la respuesta o expresin deseada.
Las oraciones de salida son interpretadas y de ser necesario corregidas antes de transferirse al
conversador para su exposicin al usuario.

96

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

exposicin

oracin fuente

Respuesta expresin

conversador

requerimiento de expresin
intrprete

Requerimiento de Respuesta
Expresin
generador
lenguaje
Generacin de Lenguaje Natural
Analizadores:
Semntico, Sintctico, Lxico

Base
de
conocimientos

Figura 61. Generacin de Lenguaje.

6.3 USO DE PLANTILLAS


A travs del uso de redes semnticas y frames como estructuras para representar
conocimiento orientado a la formulacin de ciertos tipos de frases, se emplean las parejas
atributo - valor (slot - filler) para asociar valores fijos o variables a ciertos elementos de las
oraciones (nombres, adjetivos,...). Cuando no se dispone del valor correspondiente, se aplican
los siguientes procedimientos ilustrados en la Figura 62.
Inherencia: Atributos IS-A, IS-KIND-OF, IS-A-INSTANCE-OF entre subclases, clases y
superclases de objetos con sus instancias respectivas.
Procedimientos. Atributo IF-NEEDED son clculos especializados de la clase de objetos, que
se ejecutan al momento de requerirse, por ejemplo: la superficie y volumen de un cuerpo
geomtrico, la edad de una persona, etc.
Defaults. Atributo DEFAULT son valores que se afirman como vlidos para cierta clase de
objetos en ausencia de otros especficos para ellos, como: a los jvenes les gusta
pasatiempos (hacer - deporte, ir - a- fiestas, andar con - amigos,...).
Perspectivas. Atributo PERSPECTIVE son los tipos de apreciacin que se les da a los objetos
acorde con un particular punto de vista, por ejemplo: una bicicleta de carreras es muy veloz
para el ciclismo, pero lenta como medio de transporte, esto se ilustra en la siguiente figura:
Al describir frases a travs de propiedades (parejas atributo valor) y emplear estas clases de
asociaciones para inferir los valores correspondientes se pueden generar las instancias de oracin
especficas a la expresin que se desea generar. Por ejemplo, al definir una oracin para
responder el precio de una PC, se ilustra a continuacin a travs de las Figuras 62, 63 y 64.

Generacin de Lenguaje

Prespective: Medio de
comunicacin

Prespective: Fuente de
trabajo

Prespective: Fuente de
basura
papel

empresa

peridico
Is-a

97

Is-a

novedades

Is-a
novedades

novedades

Figura 62. Ejemplo de Perspectivas.

EL PRECIO TOTAL DE LA PC (MARCA_________) (MODELO_______)


ES DE: (MONTO_________) CON UN (PROCESADOR_________)

Figura 63 Template de la Oracin.


La inferencia de valores para los atributos faltantes se hace por medio de:
Inherencia.
Marca y modelo: Acer power 5200
Procedimiento. Monto: $12,395.00
Defaults.
Procesador: Pentium
Perspectiva.
Venta de PC: Precio Total.
A travs de las siguientes definiciones.
default 321
procesador: pentium

Desk Pro ( (Modelo Powe) ..)


Is a kind of
Compaq ( (Marca Compaq ) ..)
Is a instance of

Proceso 42:
Monto = (Costo CPU + Costo
Monitor + Costo Disco +
Windows ) * 1.15

perspective: venta de pc
(...(marca______) (modelo_______) ...(monto: proceso 42)...
(procesador: default a 321)...)
Figura 64. Inferencia.

98

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

6.4 MODELOS DE GENERACIN


Por medio de los marcos se pueden formular oraciones y conjuntos asociados de ellas, tambin
se pueden producir aplicando nodos de redes semnticas y propiedades que caracterizan objetos,
acciones y situaciones tpicas. Mediante la estructuracin adecuada de marcos se pueden
describir distintos tipos de modelos de oracin y texto donde se integren varias frases coherentes,
como se ilustra en la Figura 65:
lugar
da
hora

evento

evento
desastre

muertos
heridos
damnificados
sin casa
temblor

falla
magnitud

desborde

nivel
ro

huracn
evento
deportivo

hombre
velocidad
direccin

evento
social

sede
propsito

evento
poltico

partido
asistentes

evento
cultural

fundacin
expositor

deporte
marcador
ganador

Figura 65. Estructura de Frames.


Otro ejemplo de un texto orientado a reportar un temblor usa un modelo con las propiedades
descritas en la Figura 66. Al explotar la estructura del frame descrita y asociarse al conocimiento
sobre fenmenos especficos, se pueden generar textos, como los siguientes :
Entre los desastres mas fuertes ocurridos en Bejin, la capital de China destaca el temblor
ocurrido el 14 de Octubre de 1960 a las 2:40 de la maana; dej un saldo de 1,050,000
damnificados, 300,000 de ellos se quedaron sin casa, 165,000 resultaron heridos y se reportaron
31,000 muertes. El siniestro se debi a una falla ocurrida en la costa del pacfico que alcanz una
magnitud de 6.9 grado en la escala de richter.

Generacin de Lenguaje

99

Como ejercicio al lector se solicita redactar una historia con los datos del terremoto ocurrido en la
ciudad de Mxico en 1985.
lugar
da
hora
muertes

Bejin,China
14 -Oct - 60
2:40 am
31,000
heridos
damnificados 1,050,000
sin casa
300,000

temblor

falla
magnitud
escala
seriedad

pacifico
6.9
richter
fuerte

Managua,Nicaragua...
15 - Dic - 77
14: 15 pm
50,000
65,000
232,400
500,000
200,000
San Andrs
7.2
mercali
muy grave

Figura 66. Modelo de Oracin por medio de Frames.

6.5 PROCEDIMIENTO INVERSO


La generacin de lenguaje a cargo del subsistema responsable implica la participacin de otros
subsistemas en un flujo opuesto al de la interpretacin del texto, conforme a la secuencia
ilustrada en la Figura 67:

intrprete

Requiere
texto a emitir

oracin generada

Generador
lenguaje

Estructura de
texto

Estructuras
frontales

de

Anlisis
semntico

Figura 67. Flujo de Generacin de Lenguaje.


La secuencia mostrada lleva a cabo el siguiente proceso:

Anlisis
Lxico

Estructuras
semnticas

Estructuras
Sintcticas

Anlisis
Sintctico

100

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Una vez que el subsistema de interpretacin determina la respuesta a generar ordena un


requerimiento del tipo de texto a emitir representado en la estructura de datos apropiada. El
generador recibe el requerimiento, procediendo a formular la estructura de texto adecuada para su
exposicin.
El subsistema semntico incorpora los conceptos faltantes a la estructura del texto y que en forma
individual sean congruentes con el significado de la estructura completa produciendo otra mas
rica con significado semntico. La estructura semntica es procesada por el subsistema sintctico
para verificar su consistencia gramatical y hacer las adecuaciones respectivas para generar una
estructura sintctica.
El subsistema lxico refina la composicin de la estructura recin emitida modificando los
elementos de la oracin conforme al gnero, nmero, tiempo y tipo de expresin, emitiendo as la
oracin frontal que ser expuesta al usuario despus de las evaluaciones y correcciones aplicadas
por los subsistemas generador e interpretador.

6.6 EXPRESIONES
Mediante el uso de marcos y dependencia conceptual se pueden obtener inferencias que
enriquecen el significado de la oracin a generar como son:
Deducir que pasar cuando algo es hecho
Imaginar los detalles de como algo fue probablemente hecho.
Traducir al lenguaje natural las oraciones que se puedan derivar a partir de la estructura
marcos dependencia.
Las acciones implican cambios en los estados y relaciones causa - efecto.
Para ilustrar la aplicacin de estos conceptos, se muestran a continuacin tres Figuras 68, 69, y 70
de ejemplo que describen la representacin de una oracin especfica respectivamente:
El nio disfrut colocar el cilindro encima del bloque rojo.
Susana le dijo al nio que pusiera el cilindro en el bloque rojo.
El nio come helado.

Mover
objeto
PTRANS

Cambio
estado

de

agente

nio
cilindro

objeto
destino

objeto
destino

bloque rojo

gusto

Figura 68. Relacin de Cambios de Estado.

nio

Generacin de Lenguaje

101

6.7 CREACIN DE UN MODELO


La implementacin de un subsistema generador de lenguaje debe considerar perspectivas
para evaluar la realidad, distinguiendo eventos favorables de los negativos, por lo que se debe
usar una representacin adecuada para caracterizar esos puntos de vista, conocidos como estados
mentales como los mostrados en la Figura 71.
agente

Hablar
MTRANS

Susan
orden

objeto
destino

nio

agente
Mover
objeto
PTRANS

objeto
destino

nio
cilindro
bloque rojo

Figura 69. Un Acto Provoca la Ejecucin de Otro.


agente
el nio
Comer INGEST
objeto

Mover
objeto
PTRANS

Mover parte del


cuerpo

agente

helado

El nio

objeto

cuchara

agente
el nio
objeto

mano

Figura 70. Un Acto Implica la Ejecucin de Otros.


Exito

Fracaso
EM

EM
Tiempo

Habilita

Motivacin

+
i

EM

Figura 71. Representacin de Estados Mentales.

EM

102

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Los estados mentales pueden iniciar eventos positivos o negativos, provocando entonces estados
mentales especficos como de alegra o frustracin. Hay abstracciones que involucran nicamente
estados mentales, en donde uno provoca el surgimiento de otro (esto se denomina recursin),
cuando un EM produce la terminacin de otro se entiende como un cambio de pensamiento y
si persiste durante un lapso, se denomina perseverancia como se muestra en la Figura 72.
recursin cambio de pensamiento perseverancia
EM

EM
Tiempo

EM

EM

EM

Figura 72. Estados Mentales Ligados por Inicio, Terminacin y Correlacin.


Tambin existen abstracciones basadas en eventos ligados que terminan o relacionan ligas:, de la
manera ejemplificada en la Figura 73:
tiempo xito solucin prdida
+
t

+
t

prdida correlacin + correlacin -

t
+

t
+

t
+

xito

fracaso

Figura 73. Instancias de Eventos que Terminan en Relacin o Acto.


Abstracciones de eventos y estados mentales que se asocian produciendo elementos claves de
relacin como los indicados en la Figura 74:
xito

prdida

EM

+
xito

xito

Figura 74. Asociacin de Situaciones Diversas por Medio de Eventos.

Generacin de Lenguaje

103

Esta figura ilustra situaciones, como por ejemplo, el estado mental (actitud) de invertir en la bolsa
de valores por que ofrece ganancias atractivas, mas tarde ocurre un evento que hace caer a la
bolsa y se terminan las ganancias. Otros ejemplos de secuencias de estados y eventos que
producen diversas abstracciones tales como las mostradas en la Figura 75:
levantarse de la adversidad

xito fortuito

solucin de problema

EM

EM

EM

+
El fracaso obliga a reflexionar
y levantarse para conquistar
victorias

Un problema provoca
crisis, pero una solucin
lo concluye

Un problema motiva
a hallar una solucin
que lo resuelva

Figura 75. Causa-Efecto de Eventos y Estados.


Tambin los estados y eventos se pueden ligar a travs de perspectivas como las indicadas en la
Figura 76:
perspectiva 1

perspectiva 2

Figura 76. Perspectivas que Involucran Eventos Positivos.


Al usar las perspectivas de los personajes involucrados en una historia se pueden caracterizar el
tipo de eventos que ocurren de acuerdo con su particular inters. A continuacin se ilustra en la
Figura 77 los estados mentales que asumen dos actores y la evaluacin que cada quin otorga a
los eventos que ocurren, ambos tienen una actitud relacionada que da lugar a eventos positivos
ligados, despus ocurre una situacin negativa a uno de ellos que provoca un estado y este una
accin positiva que resuelve a la negativa, en ese momento, al otro protagonista le ocurre un
evento negativo que genera un estado mental y por lo tanto una accin positiva que termina el
evento positivo que primero ocurri y se asocia con un evento negativo hacia el primer actor
provocando la terminacin del evento positivo que primeramente le haba sucedido.

104

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

perspectiva 1

perspectiva 2
EM

EM

EM

EM

Figura 77. Abstraccin de Perspectivas en Niveles.


En el caso anterior se puedo concebir un mayor nivel de abstraccin integrando la representacin
de eventos y estados en unidades. Mientras que en el siguiente, se aplica el caso de que
Toms est molesto con Alberto porque al resolver un problema personal provoc un evento
que par una accin de xito que estaba realizando de la manera ejemplificada en la Figura 78:

xito

Solucin
internacional
al problema

xito

relacin
prdida

solucin

Figura 78. Abstraccin a un Mayor Nivel mediante Unidades.


A travs de la relacin de eventos y estados asociados en perspectivas con diversos niveles de
abstraccin, se pueden caracterizar texto representativo de historias como la siguiente:

Juan quiso dar un regalo a Mara


Juan quiso comprar una cadena por lo que necesit dinero
Entonces piensa vender algo
Vendi un televisor y con ese dinero compr la cadena
Despus se la dio a Mara, ella se la puso, le agradeci apreciando mucho a detalle.

Generacin de Lenguaje

105

Esta historia se ilustra mediante estados y eventos de la manera apreciada en la figura 79:
PERSPECTIVA
Juan
Mara
EM

quiere obsequiar

i
EM

quiere dar una


cadena

i
necesita dinero

EM
i

piensa vender algo

EM
i

venta de una tv

consigue dinero

compra la cadena

d el regalo

+
+

+|
Figura 79. Historia del Regalo de Juan a Mara

recibe el regalo
i
agradece

C
i
aprecia
el detalle
+

106

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CONCLUSIONES

CONCLUSIONES
El Reporte Tcnico representa la investigacin y desarrollo de aplicaciones en el campo del
procesamiento del lenguaje natural, cuyos resultados se traducen a una metodologa que describe
las etapas para la creacin de aplicaciones especializadas en la interpretacin de lenguaje natural
escrito y la generacin de texto. Por lo que, para alcanzar estas funcionalidades se requiere del
concurso de tres tipos de anlisis: el lxico, el sintctico y el semntico.
Durante la descripcin de las etapas de la metodologa se procura reunir los conceptos, las
estructuras de datos, los esquemas de proceso y las tcnicas de tratamiento de lenguajes
apropiadas como son las gramticas, los mecanismos de representacin de conocimiento y los
modelos de interpretacin. Con todos estos elementos, se recrea una plataforma logstica que
orienta la construccin de sistemas de tratamiento del lenguaje natural.
Entre los aspectos que revelan la complejidad del procesamiento del lenguaje natural est el
lograr una correcta representacin semntica del significado de cada uno de los elementos que
componen la oracin, la comprensin de la oracin como un todo, y entender el contexto en que
sta se inscribe a la luz de las oraciones que la preceden y aquellas que aparecen despus. As
mismo, al procurar un entendimiento del dilogo compuesto por varias oraciones expresadas por
los protagonistas, generalmente usuario-mquina, representa uno de los retos que an continan
siendo abordados en los escenarios de investigacin.
Como parte de las lneas de trabajo futuro se encuentran: La incorporacin de modelos difusos de
conocimiento que permitan la representacin de conocimiento aproximado, as como su
razonamiento. Tambin aparece la exploracin de mecanismos de aprendizaje de mquina para la
validacin sintctica y el anlisis semntico, basados en modelos de redes neuronales y de
computacin evolutiva. As mismo, se consideran escenarios para la traduccin de texto escrito
en diversos lenguajes.
En suma, se espera que este trabajo motive al investigador, docente y estudiante a profundizar en
el campo del tratamiento del lenguaje natural, a efecto de desarrollar modelos y mecanismos ms
efectivos para cada una de las etapas de procesamiento, buscando extender los alcances logrados,
a efecto de crear interfases ms amables e inteligentes que faciliten la interaccin hombremquina.

REFERENCIAS

REFERENCIAS
[1] Tarso, P, 1era. Carta a los a los Tesalonicenses, 5.13, Santa Biblia
[2] Feigenbaum, E. A., McCorduck, P., La Quinta Generacin, Planeta, Mxico.
[3] Tabor , R., Implementing Japanese Artificial Intelligence Techniques, McGraw Hill.
[4] Rich, E, Artificial Intelligence, 2da. Edition, McGraw Hill, USA
[5] Winston, P H., Horn, B.K.P., LISP, 3ra. Edition, Addison Wesley, USA.
[6] Bratko, I., Programming for Artificial Intelligence, Addisson Wesley, USA.
[7] Winston, Patrick Henry, Artificial Intelligence, 2da. Edition, Addisson Wesley, USA.
[8] Dutta, S., Knowledge Processing & Applied Artificial Intelligence, Butterworth Heinemann,
USA.
[9] Covington, M., Natural Language processing for Prolog programmers, Prentice Hall, USA.
[10] Harris, M.D, Introduction to Natural Language Processing, Prentice Hall, USA.
[11] Rowman, A., Littlefield, R., Natural Language Processing, Publishers, USA.
[12] Efraim, T., Expert Systems and Applied Artificial Intelligence, Mcmillan Publishing, USA.

Impreso en los Talleres Grficos


de la Direccin de Publicaciones
del Instituto Politcnico Nacional
Revillagigedo 83, Centro Histrico, 06070, Mxico, D.F.
Enero de 2006. Edicin: 1,000 ejemplares
Diseo Portada. Alejandro Pea Ayala
Fotografa de la Portada:
Isla de Baffin, Iqaluit, 63 Norte, Expedicin al rtico Canadiense, Octubre 2005

El lenguaje como forma de expresin de los seres vivos,


representa una actividad natural de comunicacin de toda
clase de pensamientos. Su tratamiento por computadora
representa un reto dada su complejidad fontica, grfica,
semntica y contextual.
Por tal motivo, como primera instancia para abordar el
tema, es conveniente concentrarse en el tratamiento del
Lenguaje Natural representado por caracteres alimentados
al computador. Es decir, que el texto a interpretar carece
de los problemas naturales de reconocimiento fontico y
visual, as como del ruido y la distorsin clsica del
ambiente natural.
El tratamiento de Lenguaje Natural no solo tiende a
facilitar la comunicacin entre las personas y los sistemas
de cmputo, sino tambin con los equipos de
comunicacin, electrodomsticos y de transporte. Al
facilitar la interaccin entre el individuo y los equipos se
amplia su aprovechamiento y se fomenta su consumo.
En esta obra, el lector encuentra una descripcin de la
naturaleza del tratamiento del Lenguaje Natural y obtiene
un perfil de las etapas involucradas. En los captulos se
explican los procedimientos e instrumentos que se
emplean para desarrollar el anlisis lxico, sintctico y
semntico. Adems de introducirlo en los procesos de
interpretacin y generacin de lenguaje.
La obra se dedica a los estudiantes, profesionistas y
especialistas del mbito de los sistemas, la Informtica y
la Computacin, que estn interesados en ampliar sus
conocimientos para desarrollar aplicaciones en el
tratamiento de Lenguaje Natural.

ISBN: 970-94797-3-3 # 001

También podría gustarte