Part of Speech Tagger

SOFTWARE PARA LA ASIGNACIN DE CATEGORAS GRAMATICALES EN EL IDIOMA ESPAOL El propsito de los programas de estudios de espaol para todos los
niveles de educacin bsica y media es, que los alumnos se expresen en forma oral y escrita con claridad y precisin. Motivo por el cual los autores del siguiente proyecto reconociendo la importancia de que el alumno conozca e identifique las categoras gramaticales que le correspondan a cada una de las palabras de una frase y aprovechando el avance de la tecnologa en el mbito computacional crean una herramienta que facilite la comunicacin verbal entre el usuario y la computadora. Antecedentes El lenguaje se considera como un mecanismo que nos permite hablar y entender. Los lenguajes naturales, es decir, el ingls, el francs, el espaol, y otros, son una herramienta genuina para la comunicacin entre los seres humanos, ya sea en forma oral o escrita [1]. El ultimo objetivo que persigue el Procesamiento de Lenguaje Natural (PLN) es el perfecto anlisis y entendimiento de los lenguajes humanos. Actualmente estamos lejos de conseguir este objetivo. Por esta razn, la mayora de los esfuerzos de investigacin de la lingstica computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las mltiples caractersticas estructurales inherentes a los lenguajes, sin requerir un entendimiento completo. Una de esas tareas es la asignacin de categoras gramaticales a cada una de las palabras del texto. Este proceso se denomina tambin etiquetacin. Se trata de decir si cada palabra es un sustantivo, un adjetivo, un verbo, adverbio, nmero, etc [3]. Actualmente, el avance tecnolgico en los medios de comunicacin impresos y electrnicos nos permite obtener grandes volmenes de informacin en forma escrita. La mayora de esta informacin se presenta en forma de textos en lenguajes naturales. Sin embargo, se presentan dificultades por la imposibilidad humana de manejar esa enorme cantidad de textos. Entre las herramientas que ayudan en las tareas diarias, la computadora es, hoy en da, una herramienta indispensable para el procesamiento de grandes volmenes de datos. Para lograr esta enorme tarea de Procesamiento de Lenguaje Natural (PLN) por computadora, analizando oracin por oracin para obtener el sentido de los textos, es necesario conocer las reglas y los principios bajo los cuales funciona el lenguaje, a fin de reproducirlos y adecuarlos a la computadora, incluyendo 1
posteriormente el procesamiento de lenguaje natural en el proceso general del conocimiento y el razonamiento [1]. Tradicionalmente, el problema de la etiquetacin se aborda a partir de recursos lingsticos bajo la forma de diccionarios y textos escritos, previamente etiquetados. Esta lnea de desarrollo se denomina lingstica basada en cuerpos. Dichos textos se utilizan para ajustar los parmetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las tcnicas tradicionales engloban mtodos estocsticos, tales como los Modelos Ocultos de Markov. Planteamiento del Problema El principal problema es que los alumnos no logran identificar la estructura gramatical de una frase, es decir, no identifican con precisin: al articulo, sustantivo, adjetivo, verbo, conjuncin, preposicin, nmero, pronombre y adverbio. En principio el disear un software que etiquete automticamente una oracin, es solo una pequea parte del problema a resolver y por lo tanto lograr una herramienta para la comunicacin verbal, hablando ambiciosamente entre el usuario y la computadora. Objetivos Disear un software que le facilite al alumno reconocer cada una de las categoras gramaticales que le correspondan a las palabras de una frase dentro de un texto para el entendimiento de la lingstica, en la educacin de los niveles bsica y media. Por s solo este software puede funcionar como un herramienta didctica, para la enseanza del lenguaje espaol. Para la realizacin de este software los autores se basan en los Modelos Ocultos de Markov como herramienta matemtica.
Marco Terico El lenguaje se considera como un mecanismo que nos permite hablar y entender. El ltimo objetivo que persigue el Procesamiento de Lenguaje Natural (PLN) es el perfecto anlisis y entendimiento de los lenguajes humanos. Actualmente estamos lejos de conseguir este objetivo. Por esta razn, la mayora de los esfuerzos de investigacin de la lingstica computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las mltiples 2
caractersticas estructurales inherentes a los lenguajes, sin requerir un entendimiento completo. Una de esas tareas es la asignacin de categoras gramaticales a cada una de las palabras del texto. Este proceso se denomina tambin etiquetacin. Se trata de decir si cada palabra es un sustantivo, un adjetivo, un verbo, adverbio, nmero, etc [1]. Por ejemplo, consideremos la palabra sobre, vemos que puede ser: Un sustantivo, como por ejemplo en la frase: mtelo en el sobre. Una preposicin, como por ejemplo en la frase: djalo sobre la mesa. Un verbo en primera o tercera persona del presente de subjuntivo del verbo sobrar, como por ejemplo en la frase: dame lo que sobre. El proceso de etiquetacin debe eliminar por tanto este tipo de ambigedades y encontrar cul es el papel ms probable que juega cada palabra dentro de una frase. Dicho proceso debe ser capaz tambin de asignar una etiqueta a cada una de las palabras que aparecen en un texto[3]. Tradicionalmente, el problema de la etiquetacin se aborda a partir de recursos lingsticos bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta lnea de desarrollo se denomina lingstica basada en cuerpos. Dichos textos se utilizan para ajustar los parmetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina entrenamiento. Las tcnicas tradicionales engloban mtodos estocsticos, tales como los Modelos Ocultos de Markov (HMM). Algunas etiquetas que se utilizan en este sistemas son las siguientes:
NUMERO DE CADA ETIQUETA SIGNIFICADO
1 2 3 4 5 6 7 8 9
Artculo Sustantivo Adjetivo Verbo Conjuncin Preposicin Nmero Pronombre Adverbio 3
Modelos de Markov. Cadenas de Markov. Una cadena de Markov q = {qt}t N es un proceso estocstico de Markov discreto [1]. Un proceso estocstico se llama de Markov si conocido el presente, el futuro no depende del pasado, esto quiere decir, que dada una variable estocstica qt-1 que denota el estado del proceso en el tiempo t-1, entonces la probabilidad de transicin en el momento t se define como P[qt = t | qt-1 = t-1]. Formalmente, una cadena de Markov se define como (Q,A), donde Q = {1,2,,...,N} son los posibles estados de la cadena y A = (aij)nxn es una matriz de transicin de estados en el modelo. Elementos de un modelo de Markov oculto Definicin de un HMM se caracteriza por la 5-tupla (Q, V, ,A, B), donde [1] [3]: 1. Q es el conjunto de estados del modelo. Aunque los estados permanecen ocultos, para la mayora de las aplicaciones prcticas se conocen a priori. Por ejemplo, para el caso de la etiquetacin de palabras, cada etiqueta del juego de etiquetas utilizado ser un estado. Generalmente los estados estn conectados de tal manera que cualquiera de ellos se puede alcanzar desde cualquier otro en un solo paso, aunque existen muchas otras posibilidades de interconexin. Los estados se etiquetan como {1, 2, ... ,N}, y el estado actual en el instante de tiempo t se denota como qt . El uso de instantes de tiempo es apropiado, por ejemplo, en la aplicacin de los HMM,s al procesamiento de voz. No obstante, para el caso de la etiquetacin de palabras, no hablaremos de los instantes de tiempo, sino de las posiciones de cada palabra dentro de la frase. 2. V es el conjunto de los distintos sucesos que se pueden observar en cada uno de los estados. Por tanto, cada uno de los smbolos individuales que un estado puede emitir se denota como {v1, v2, ..., vM}. En el caso de la etiquetacin de palabras, M es el tamao del diccionario y cada v k ; 1 k M , es una palabra distinta. 3. = {i }, es la distribucin de probabilidad del estado inicial. Por tanto, i = P (q1 = i), i 0, 1 i N,
N i =1. i=1 4. A = {aij} es la distribucin de probabilidad de las transiciones entre estados, es decir, aij = P (qt = jqt-1=i ) 1 i,j N, 1 t T, N aij =1, j=1 i.
Para el caso de un modelo con estados totalmente conexos en un solo paso, tenemos que aij>0 para todo i, j. Para otro tipo de HMM,s podra existir algn a ij = 0. 5.B = {bj(vk)} es la distribucin de la probabilidad de los sucesos observables, es decir, bj(vk)=P(ot = vk | qt = j) = P(vk | j ), bj(vk) 0, 1 j N, 1 k M, 1 t T. Tal y como hemos visto, una descripcin estricta de HMM necesita la especificacin de Q y V, el conjunto de estados y el conjunto de smbolos que forman la secuencia de observaciones, respectivamente, y la especificacin de los tres conjuntos de probabilidades , A, B. Pero dado que los primeros conjuntos se conocen a priori , y que en todo caso los tres ltimos elementos de un HMM ya incluyen de manera explcita al resto de los parmetros, utilizaremos la notacin compacta. =(, A, B)
Modelo de Markov para la evolucin del clima. 5
Elementos de un Modelo Oculto de Markov
Q Conjunto de Estados (Etiquetas) V Conjunto de distintos sucesos (Palabras) Modelo de Markov Oculto(HMM)
Pi Distribucin de la probabilidad del estado inicial
A(aij) (Matriz de probabilidad de transiciones entre estados)
B {bj (vk)} Matriz de probabilidades de observacin
Las tres preguntas fundamentales al usar un HMM [3]: Existen tres preguntas fundamentales que debemos saber responder para poder utilizar los HMM,s en aplicaciones reales. Estas tres preguntas son las siguientes: 1. Dada una secuencia de observaciones O = (o1, o2, ... ,oT ) y dado un modelo =(,A,B),cmo calculamos de una manera eficiente P (O\), es decir, la probabilidad de dicha secuencia dado el modelo?
2. Dada una secuencia de observaciones O = (o1, o2, ... ,oT ) y dado un modelo =(,A,B) cmo elegimos la secuencia de estados S = (q1, q2, ... ,qT ) ptima, es decir, la que mejor explica la secuencia de observaciones? 3. Dada una secuencia de observaciones O = (o1, o2, ... ,oT ), cmo estimamos los parmetros del modelo =(,A,B) para maximizar P (O\ )?, es decir, cmo podemos encontrar el modelo que mejor explica los datos observados?
Un modelo de Markov oculto de N urnas de bolas y M
Entrenamiento del etiquetador Todo el texto o cuerpo fue codificado manualmente, es decir se asignaron las etiquetas para cada una de las palabras del texto. Es por ello que el etiquetador es supervisado. Tambin es probabilistico, utilizando bigramas y utilizando los Modelos Ocultos de Markov. Matriz de probabilidad de transiciones [1] [2] A partir de la informacin obtenida, se realizaron los respectivos clculos estadsticos de los bigramas y de esta forma se confeccion la matriz de probabilidades de transiciones (matriz A), segn la frmula: P(tj| ti) = f(tj,ti) = C(ti,tj) C(ti)
donde C(tj,ti) es la frecuencia de ocurrencia de la pareja de etiquetas ti, tj y C(ti) es la frecuencia de ocurrencia de la etiqueta ti. Esta matriz juega un papel importante durante la desambigedad de las palabras que posean ms de una etiqueta. Matriz de probabilidades de observacin En los modelos Ocultos de Markov surge la matriz de probabilidades de observacin la cual es aquella que calcula la probabilidad de ocurrencia de una palabra dada una etiqueta. Esta matriz se representa segn la frmula: P (Wk|tj) = f(Wk,tj)= C(Wk|tj) C(ti) donde C(Wk|tj) es la frecuencia de la palabra Wk con la etiqueta tj y C(ti) es la cantidad de las palabras con la etiqueta ti.
Entrenamiento del etiquetador
Matriz de probabilidad de transiciones (A) P(tj| ti) = f(tj,ti) = C(ti,tj) C(ti)
Matriz de probabilidades de observacin (B) P (Wk|tj) = f(Wk,tj)= C(Wk|tj) C(ti)
Metodologa Para generar los elementos de nuestro modelo, hacemos uso del los Modelos Ocultos de Markov (HMM). Hicimos uso de un entrenamiento preetiquetado, es decir se codific manualmente todo el texto. Utilizamos los Bigramas para generar los valores de probabilidad de nuestro modelo, es decir las probabilidades que puede adoptar cada palabra y sus etiquetas dentro de una frase. Generando una matriz de 8
probabilidad de transiciones. Una matriz de probabilidad de observacin y una matriz con la distribucin de la probabilidad del estado inicial. Comentarios de posibles usuarios Este proyecto ha sido comentado con una academia local de espaol a nivel primaria, secundaria y bachillerato en sistema escolarizado y sistema abierto (bachillerato), teniendo como respuesta que dicho software optimizar el tiempo en la prctica, ya que el alumno en lugar de recurrir a libros impresos que le definan las categoras gramaticales que le correspondan a cada una de las palabras de una frase, con este software el alumno dar de entrada la frase y esta ser etiquetada sin necesidad de recurrir a las definiciones de dichos libros. Avances Actualmente el Software lee como entrada el volumen de texto y las etiquetas de este texto (cuerpo de entrenamiento preetiquetado), ya se generan las matrices (A, B y pi) las cuales se generaron con las frmulas trabajando con los bigramas, ya se da como entrada la frase la cual puede ser de longitud de cuatro, cinco o seis palabras. Hasta el momento estos son los avances de nuestro software. Programa de actividades para dar continuidad al proyecto: Actividad Estudiar las permutaciones. Para generarlas de acuerdo al nmero de etiquetas utilizadas en nuestro programa. Analizar la siguiente ecuacin para determinar la secuencia final de etiquetas ptimas para esa frase dada. t1,n= arg max P(t1,n|w1,n)= arq max [P(wi|ti) x P(ti|ti-1)]
t1,n t1,n i=1 n
Fecha 01 /11/03 al 15/11/03 16/11/03 al 13/12/03 14/12/03 al 20/12/03
Realizar las pruebas necesarias con diferentes textos.
Impacto en el Sistema Educativo Nacional Se espera que este proyecto surja como una herramienta primordial para optimizar el proceso enseanza aprendizaje del espaol para todos los niveles de educacin bsica y media, logrando que los alumnos por medio de un proceso interactivo y personalizado aprendan y reafirmen la estructura lingstica de una frase, lo que fundamenta una mejor expresin oral y escrita de nuestro idioma. Consideramos que un entendimiento del idioma es parte primordial para la comprensin de las dems reas y asignaturas del mapa curricular que integran la base de conocimientos de los alumnos que en un da no lejano sern los prximos profesionistas, con la seguridad total de entender la comunicacin en espaol y sentar las bases lingsticas para facilitar la comprensin y estructura de cualquier otra lengua natural. Basados en los modelos didcticos utilizados para la enseanza del espaol es conveniente introducir la utilizacin y uso de la computadora como una herramienta bsica para optimizar el entendimiento de la materia. Referencias Bibliogrficas [1] Tcnicas de Anlisis Sintctico Robusto para la Etiquetacin del Lenguaje Natural www. graa\jorge-abstract-books-thesis. [2] Etiquetacin automtica en cuerpos textuales cubanos. Leonel Ruiz Miyares. Centro de Lingstica Aplicada. Ministerio de Ciencia, Tecnologa y Medio Ambiente. [3] A tutorial on Hidden Markov Models and Selected Application in Speech Recognition. Lawrence R. Rabinner. Proceding of the IEEE. [4]Gramtica espaola moderna. Santiago Revilla de Cos. McGraw - Hill. 1984.
10

Part of Speech Tagger

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Part of Speech Tagger

Cargado por

Copyright:

Formatos disponibles

SOFTWARE PARA LA ASIGNACIN DE CATEGORAS GRAMATICALES EN EL IDIOMA ESPAOL El propsito de los programas de estudios de espaol para todos los

Artculo Sustantivo Adjetivo Verbo Conjuncin Preposicin Nmero Pronombre Adverbio 3

Modelo de Markov para la evolucin del clima. 5

Elementos de un Modelo Oculto de Markov

Pi Distribucin de la probabilidad del estado inicial

A(aij) (Matriz de probabilidad de transiciones entre estados)

B {bj (vk)} Matriz de probabilidades de observacin

Un modelo de Markov oculto de N urnas de bolas y M

Entrenamiento del etiquetador

Matriz de probabilidad de transiciones (A) P(tj| ti) = f(tj,ti) = C(ti,tj) C(ti)

Matriz de probabilidades de observacin (B) P (Wk|tj) = f(Wk,tj)= C(Wk|tj) C(ti)

Fecha 01 /11/03 al 15/11/03 16/11/03 al 13/12/03 14/12/03 al 20/12/03

Realizar las pruebas necesarias con diferentes textos.

También podría gustarte