Está en la página 1de 14

PROCESADORES DEL LENGUAJE I

Ingeniera en Informtica

PROCESAMIENTO DEL LENGUAJE NATURAL

Alumnos: Jos Manuel Carrascal Hinojo. NIA: 100047578. Andrs Duque Fernndez. NIA: 100047570.

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

NDICE 1.- INTRODUCCIN ................................................................................................. 3 2.- HISTORIA............................................................................................................. 4 3.- PRINCIPALES DIFICULTADES EN EL PROCESAMIENTO DEL LENGUAJE NATURAL ............................................................................................ 5 4.- ETAPAS EN EL PROCESAMIENTO DEL LENGUAJE NATURAL .............. 8 Anlisis morfolgico................................................................................................. 8 Anlisis sintctico ..................................................................................................... 8 Anlisis semntico .................................................................................................... 9 Anlisis pragmtico................................................................................................. 10 5.- APLICACIONES................................................................................................. 10 Recuperacin de informacin .................................................................................. 11 Interfaces en lenguaje natural .................................................................................. 11 Traduccin automtica ............................................................................................ 11 Reconocimiento del habla ....................................................................................... 11 Sntesis de voz ........................................................................................................ 12 Generacin de lenguajes naturales........................................................................... 12 Respuesta a preguntas ............................................................................................. 12 6.- ESTADO DEL ARTE.......................................................................................... 12 7.- CONCLUSIONES ............................................................................................... 14

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

1.- INTRODUCCIN
El procesamiento del lenguaje natural (Natural Language Processing) es uno de los campos relacionados con la inteligencia artificial y con los procesadores del

lenguaje en los que ms se ha trabajado e investigado a lo largo de los ltimos aos. El conocimiento humano, tal como lo entendemos nosotros, sera incomprensible para una computadora, teniendo en cuenta que una computadora puede almacenar un texto en archivos, con lo que poseera la misma informacin que una persona, pero no podra extraer inferencias lgicas de ese texto, generalizarlo, resumirlo, o responder a preguntas sobre dicho texto, porque no lo entiende, simplemente lo conoce. Por ello surgen un conjunto de ciencias, el procesamiento del texto, tecnologas del lenguaje, lingstica computacional, etc., entre las que se incluye igualmente el procesamiento del lenguaje natural, que pretenden proporcionar a las computadoras la habilidad de entender el texto y no slo almacenarlo. Lenguaje es el empleo de la palabra para expresar ideas, comunicarse, establecer relaciones entre los seres humanos. Un lenguaje es un conjunto de palabras, su pronunciacin y los mtodos para combinarlas en frases y oraciones, generalmente infinito y que se forma mediante combinaciones de palabras definidas en un diccionario terminolgico previamente establecido. Una definicin bastante aceptada de lo que se conoce como lenguaje natural plantea: Se denomina Lenguaje Natural a un lenguaje escrito o hablado usado por una comunidad que es precisamente lo contrario a un lenguaje para establecer comunicacin con una computadora, mediante la entrada de datos, o la programacin de su funcionamiento. (Guzmn 1997). Es decir, el lenguaje natural es completamente opuesto al lenguaje que podemos utilizar para la interaccin entre una persona y una computadora, por ello la comprensin y reconocimiento del lenguaje natural, es decir, la transformacin de un tipo de comunicacin (entre personas) a otro opuesto (de una persona a un ordenador), es uno de los problemas mas complejos a que se enfrenta la Inteligencia Artificial, debido a la complejidad, irregularidad y diversidad del lenguaje humano y a los problemas filosficos y psicolgicos asociados al significado de frases, oraciones y textos en su conjunto.

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

La experiencia prctica acumulada en este campo, seala la conveniencia de orientar el reconocimiento del lenguaje natural ms al anlisis de frases, oraciones y textos en su conjunto, que al reconocimiento de palabras aisladas. En otras palabras, dar ms prioridad al reconocimiento del sistema en su conjunto que al reconocimiento de cada una de las partes que lo conforman.

2.- HISTORIA
Las primeras aplicaciones del procesamiento del lenguaje natural surgieron entre 1940 y 1960, teniendo como inters fundamental la traduccin automtica de textos entre diferentes idiomas. Los experimentos en este mbito se basaban

fundamentalmente en la sustitucin automtica palabra por palabra, por lo que se obtenan traducciones muy rudimentarias, que no proporcionaban unos resultados claros. Surgi por tanto la necesidad de resolver ambigedades sintcticas y semnticas, as como la importancia de considerar la informacin contextual. Los problemas ms relevantes en este tiempo fueron la carencia de un orden de la estructura oracional en algunas lenguas, y la dificultad para obtener una representacin tanto sintctica como semntica, pero una vez que se empezaron a tener en cuenta se dio paso a una concepcin ms realista del lenguaje en la que era necesario contemplar las transformaciones que se producen en la estructura de la frase durante el proceso de traduccin. En los aos sesenta los intereses se desplazaron hacia la comprensin del lenguaje. La mayor parte del trabajo realizado en este perodo se centr en tcnicas de anlisis sintctico. Hacia los setenta la influencia de los trabajos en inteligencia artificial fue decisiva, centrando su inters en la representacin del significado. Como resultado se construy el primer sistema de preguntas-respuestas basado en lenguaje natural. En esta misma poca surge la mquina Eliza, que reproduca las habilidades conversacionales de un psiclogo, para lo cual recoga patrones de informacin de las respuestas del cliente y elaboraba preguntas que simulaban una entrevista. Entre los aos 70 y 80, ya superados los primeros experimentos, se hicieron intentos ms serios de construir programas ms fiables, por lo que aparecieron

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

numerosas gramticas orientadas a un tratamiento computacional, y la tendencia hacia la programacin lgica experiment un notable crecimiento. En Europa surgieron intereses en la elaboracin de programas para la traduccin automtica, y se cre el proyecto de investigacin Eurotra, que tena como finalidad la traduccin multilinge. En Japn aparecieron equipos dedicados a la creacin de productos de traduccin para su distribucin comercial. Los ltimos aos se caracterizan por la incorporacin de tcnicas estadsticas y el desarrollo de formalismos adecuados para el tratamiento de la informacin lxica. Se ha introducido nuevas tcnicas de representacin del conocimiento muy cercanas a la inteligencia artificial, y las tcnicas de procesamiento utilizadas por investigadores procedentes del rea de la lingstica e informtica son cada vez ms prximas.

3.- PRINCIPALES DIFICULTADES EN EL PROCESAMIENTO DEL LENGUAJE NATURAL


1 DIFICULTAD: COMPRENSIN DEL LENGUAJE NATURAL Debido a que el Procesamiento del Lenguaje Natural tiene por objetivo fundamental la comprensin del lenguaje natural el hecho de que se presenten en textos y expresiones habladas elementos ambiguos constituye uno de los problemas fundamentales que deben ser resueltos racionalmente. El problema de la ambigedad surge cuando una expresin hablada o escrita posee ms de un significado o interpretacin

Ejemplo 1: Existen frases que no son comprensibles por s mismas y que necesitan de un contexto o una aclaracin para su estudio. Pedro vio a Luisa con el ordenador Rompi el dibujo de un ataque de nervios

Ejemplo 2: Otro ejemplo de ambigedad podra estar relacionado con las diversas alternativas de escribir la oracin: "Determine y Analice los errores del texto con estructuras complejas", 5

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural Sera ms correcto escribir:

4 INGENIERA EN INFORMTICA GRUPO 81

Determine y analice los errores del texto que tiene estructuras complejas. Determine y analice en el texto los errores que poseen estructuras complejas. Determine y analice a travs de estructuras complejas los errores en el texto.

Los problemas de ambigedad tambin se presentan en la traduccin automtica, la deteccin y correccin de errores ortogrficos y gramaticales, etc.

Ejemplo 3: La irona es un claro ejemplo de ambigedad en el que una frase no tiene el mismo significado que est expresado en una frase. Un seor interrumpe abruptamente a dos diplomticos en una fiesta de la embajada y pregunta por el bao. Uno de ellos le responde: siga al fondo a la derecha y ver un cartel que dice caballeros, pero no importa, entre.

Ejemplo 4: Por ultimo los refranes deben de ser interpretados para poder entender su significado. Ahora l tiene unos buenos amigos, y ya sabis, quien a buen rbol se arrima buena sombra le cobija

Ejemplo 5: Al hablar no se suelen hacer pausas entre palabra y palabra, o no todas las necesarias, dependiendo en muchos casos de la persona transmisora de la informacin. En la lengua escrita, idiomas como el chino mandarn tampoco tienen separaciones entre las palabras, lo cual dificulta su comprensin.

2 DIFICULTAD: GENERACIN DE LENGUAJE NATURAL

Uno podra pensar que para la generacin de texto slo es suficiente saber las reglas de gramtica, es decir, saber palabras de cuales nmeros, tiempos y gneros hay que usar en la oracin y en que orden ponerlas. Sin embargo, hay algunos problemas en

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

la generacin de texto. Uno reside en la necesidad de elegir las palabras y expresiones que se usan en el contexto dado.

Ejemplo 1: Hay que saber que para expresar la idea muy, mucho, hay que usar palabras diferentes: T cargado Voz alta Borracho como una cuba Trabajar duro

Ejemplo 2: Por ejemplo, para traducir las oraciones como John took a cake from the table and ate it. John took a cake from the table and cleaned it.

Se necesita realmente entender qu hizo John: tom un pastel de la mesa y lo comi o la comi? Lo limpi o la limpi?

Ejemplo 3: Y ocurre lo mismo para transformar textos del espaol al ingls. Juan le dio a Mara un pastel. Lo comi. He ate it, She ate it, It ate him, She ate him, etc.

SOLUCIONES Las investigaciones en las que trabaja en el campo del procesamiento del lenguaje natural intentan solucionar estos problemas, para con ello poder ofrecer un gran nmero de soluciones prcticas para la sociedad de la informacin en la que vivimos actualmente.

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

4.- ETAPAS EN EL PROCESAMIENTO DEL LENGUAJE NATURAL


El procesamiento del lenguaje natural se estructura normalmente en 4 etapas fundamentales: anlisis morfolgico, anlisis sintctico, anlisis semntico y anlisis pragmtico. A continuacin pasamos a definir dichas etapas una por una.

Anlisis morfolgico
Su funcin consiste en detectar la relacin que se establece entre las unidades mnimas que forman una palabra, como puede ser el reconocimiento de sufijos o prefijos. Este nivel de anlisis mantiene una estrecha relacin con el lxico (conjunto de informacin sobre cada palabra que el sistema utiliza para el procesamiento). Las palabras que forman parte del diccionario estn representadas por una entrada lxica, y en caso de que sta tenga ms de un significado o diferentes categoras gramaticales, tendr asignada diferentes entradas. En el lxico se incluye la informacin morfolgica, la categora gramatical, irregularidades sintcticas y representacin del significado. Normalmente el lxico slo contiene la raz de las palabras con formas regulares, siendo el analizador morfolgico el que se encarga de determinar si el gnero, nmero o flexin que componen el resto de la palabra son adecuados.

Anlisis sintctico
Tiene como funcin etiquetar cada uno de los componentes sintcticos que aparecen en la oracin y analizar cmo las palabras se combinan para formar construcciones gramaticalmente correctas. El resultado de este proceso consiste en generar la estructura correspondiente a las categoras sintcticas formadas por cada una de las unidades lxicas que aparecen en la oracin. Las gramticas, tal como se muestra a continuacin figura, estn formadas por un conjunto de reglas, como por ejemplo: O --> SN, SV SN --> Det, N

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural SN --> Nombre Propio SV --> V, SN SV --> V SP --> Preposicin, SN SN = sintagma nominal SV = sintagma verbal Det = determinante

4 INGENIERA EN INFORMTICA GRUPO 81

Anlisis semntico
En muchas aplicaciones del PLN los objetivos del anlisis apuntan hacia el procesamiento del significado. En los ltimos aos las tcnicas de procesamiento sintctico han experimentado avances significativos, resolviendo los problemas fundamentales, sin embargo, las tcnicas de representacin del significado no han obtenido los resultados deseados, y numerosas cuestiones continan sin encontrar soluciones satisfactorias. Definir qu es el significado no es una tarea sencilla, y puede dar lugar a diversas interpretaciones. A efectos prcticos es necesaria una buena modularidad para facilitar el procesamiento, de tal manera que sea posible distinguir entre significado independiente o dependiente del contexto. El significado independiente del contexto, tratado por la semntica, hace referencia al significado que las palabras tienen por s mismas sin considerar el significado adquirido segn las circunstancias en las que se est usando dicha palabra, es decir, se hace referencia a las condiciones de verdad de la frase, ignorando la influencia del contexto o las intenciones del hablante. Por su parte, el significado dependiente del contexto, estudiado por la pragmtica, se refiere al componente significativo de una frase asociado a las circunstancias en que sta se utiliza. Atendiendo al desarrollo en el proceso de interpretacin semntica, es posible optar entre mltiples pautas para su organizacin, explicadas a continuacin. En referencia a la estructura semntica que se va a generar, puede interesarnos que exista una simetra respecto a la estructura sintctica, de tal manera que se generar una estructura arbrea para el anlisis semntico que tendr las mismas caractersticas que el rbol sintctico, o por el contrario que no se d tal correspondencia entre ellas,

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

caso en el que se realizarn varias transformaciones sobre la estructura utilizada en la sintaxis, generndose la representacin semntica sobre dichas transformaciones. Cada una de las dos opciones anteriores puede implementarse de forma secuencial (en primer lugar se realiza el anlisis sintctico y, una vez finalizado este, se pasa al anlisis semntico) o paralela (se puede iniciar el anlisis semntico de cada constituyente cuando ste ha sido tratado por el analizador sintctico). Finalmente en combinacin con cada una de las opciones anteriores, podemos escoger un modelo en el que exista una correspondencia entre reglas sintcticas y semnticas o, contrariamente, podemos optar por un modelo que no cumpla tal requisito. En caso afirmativo, para cada regla sintctica existir una regla semntica correspondiente. El significado es representado por formalismos conocidos por el nombre de knowledge representation. El lxico proporciona el componente semntico de cada palabra en un formalismo concreto, y el analizador semntico lo procesa para obtener una representacin del significado de la frase.

Anlisis pragmtico
El anlisis pragmtico aade informacin adicional al anlisis del significado de la frase en funcin del contexto donde aparece. Se trata de uno de los niveles de anlisis ms complejos, cuya finalidad es incorporar al anlisis semntico la aportacin significativa que pueden hacer los participantes, la evolucin del discurso o la informacin presupuesta. Incorpora as mismo informacin sobre las relaciones que se dan entre los hechos que forman el contexto y entre diferentes entidades.

5.- APLICACIONES
Las principales aplicaciones en las que se trabaja actualmente en el campo del Procesamiento del Lenguaje natural son las siguientes:

10

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

Recuperacin de informacin
Se denomina as a la bsqueda de informacin en documentos, bsqueda de los mismos documentos, la bsqueda de metadatos que describan documentos, o, tambin, la bsqueda en bases de datos , ya sea a travs de internet, intranet, para textos, imgenes, sonido o datos de otras caractersticas, de manera pertinente y relevante.

Interfaces en lenguaje natural


Se denomina as a la creacin de interfaces que el usuario pueda manejar sin necesidad de conocimientos informticos, es decir, que el usuario pueda manejar mediante el lenguaje natural.

Traduccin automtica
Se denomina as al rea de la lingstica computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro.

Reconocimiento del habla


El problema que se plantea en un sistema de RAH (Reconocimiento automtico de habla) es el de hacer cooperar un conjunto de informaciones que proceden de diversas fuentes de conocimiento (acstica, fontica, fonolgica, lxica, sintctica, semntica y pragmtica), en presencia de ambigedades, incertidumbres y errores inevitables para llegar a obtener una interpretacin aceptable del mensaje acstico recibido.

11

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

Sntesis de voz
As es denominada la produccin artificial de habla humana. Un sistema usado con este propsito recibe el nombre de sintetizador de habla y puede llevarse a cabo en software o en hardware. La sntesis de voz se llama a menudo en ingls text-to-speech (TTS), en referencia a su capacidad de convertir texto en habla. Sin embargo, hay sistemas que en lugar de producir voz a partir de texto lo hacen a partir de representacin lingstica simblica en habla.

Generacin de lenguajes naturales


El principal nfasis de la generacin de lenguajes naturales no es slo el facilitar el uso del ordenador sino tambin el desarrollar una teora computacional de la capacidad del lenguaje humano. En este sentido constituye una herramienta para extender, aclarar y verificar teoras que se han formulado en lingstica, psicologa y sociologa acerca de la comunicacin entre humanos.

Respuesta a preguntas
Una tarea compleja en Recuperacin de Informacin es aquella que busca, no informacin acerca de un determinado tema o los documentos relacionados, sino respuestas concretas a preguntas realizadas en lenguaje natural. Dicha tcnica se denomina bsqueda de respuestas o Question-Answering en ingls. Los sistemas de Question-Answering deben localizar de entre todos los documentos, una zona que pueda estar relacionada con la afirmacin. El objetivo es buscar un trozo de texto mnimo que responda a la pregunta.

6.- ESTADO DEL ARTE


En la actualidad, el procesamiento del lenguaje natural tiene como motivaciones principales la necesidad de interactuar ms fcilmente con los ordenadores y de extraer

12

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural

4 INGENIERA EN INFORMTICA GRUPO 81

informacin y conocimiento de los datos que se almacenan, para entender la forma en que los humanos procesamos y entendemos el mensaje. La clasificacin semntica es tambin uno de los objetivos principales. Para evaluar los mtodos que se utilizan actualmente, y que vamos a exponer a continuacin, se utilizan criterios basados en la velocidad de aprendizaje, la clasificacin de textos en tiempo real y la efectividad de dicha clasificacin. El Procesamiento del Lenguaje Natural es una tcnica deductiva, que necesita, como ya hemos dicho, informacin previa (lxica, gramtica, semntica, pragmtica) para su correcto funcionamiento, as como un Corpus de conocimiento (una coleccin de textos de los cules se asume que son representativos del lenguaje que queremos estudiar), muy usados en este campo. Las tcnicas que podramos llamar tradicionales utilizadas en el procesamiento del lenguaje natural son: Autmatas de estado finito. Procesamiento de gramticas: o Incremental Parsing: Generacin de rboles que puedan generar una gramtica. o Categoras gramaticales. o Gramtica de Montague: Es una gramtica circunscrita al componente sintctico y semntico del lenguaje, en el que postula reglas veritativas de composicin lxica derivadas de la teora de verdad de modelos, aplicada casi exclusivamente al contenido proposicional de las oraciones. o Lazy Functional Programming. Machine Readable Dictionary.

Aparte, podemos encontrar otras formas de procesar lenguajes naturales, como por ejemplo las tcnicas de aprendizaje de mquina, no exactamente formales, pero mucho ms funcionales y sencillas sin perder robustez: Active Learning. Redes Neuronales. rboles de decision.

Otras formas de realizar el procesamiento son: 13

PROCESADORES DEL LENGUAJE I Procesamiento del Lenguaje Natural Vector de caractersticas.

4 INGENIERA EN INFORMTICA GRUPO 81

Ontologas (Basado en Ontologas y Conducido por Ontologas).

Por tanto, se puede concluir en este apartado que el trabajo que queda por delante en el rea del procesamiento del lenguaje natural es amplio pero prometedor, ya que existe un esfuerzo muy importante y valioso que se ha venido desarrollando desde hace ms de 50 aos. Adems est comprobado que la continua mejora de los dispositivos de hardware permite conseguir xitos en la resolucin de problemas muy complejos hasta hace poco tiempo.

7.- CONCLUSIONES
Una vez analizado el progreso del procesamiento de lenguaje natural, los principales problemas a los que tiene que hacer frente, y las aplicaciones actuales y futuras a las que de esta rama dan lugar. Se puede considerar que queda an un largo camino por andar, para llegar a los objetivos finales, aunque en su avance se han conseguido logros que han servido para otras aplicaciones intermedias. Creemos que es una rama que tiene relacin con muchas otras, y entre ellas varias de la informtica entre la que se encuentran las gramticas que nos ayudan a representar el conocimiento, y las diferentes etapas del anlisis de lenguajes ya muy estudiadas para otro tipo de lenguajes ms bsicos como son los de programacin, y muchos de cuyos avancen se podrn aplicar en un futuro al procesamiento del lenguaje natural. Esta caracterstica es una de las que dificultar ms su evolucin pues necesitar equipos de desarrollo con conocimiento en muchos campos (Procesadores del lenguaje, Lingstica, Inteligencia Artificial, Estadstica), lo cual parece ms complicado de conseguir.

14

También podría gustarte