Está en la página 1de 8

CORRECTOR ORTOGRFICO PARA LENGUA GUARAN

Walter Emilio Gmez {walteremiliogomez@gmail.com}

Resumen
Se presenta una implementacin para el corrector ortogrfico de lengua guaran, utilizando el programa informtico Hunspell para ello. Hablamos brevemente sobre la estructura de la lengua y las limitaciones que se presentan para su tratamiento. Palabras claves: guaran; aglutinacin; corrector ortogrfico; Hunspell

Introduccin
La correccin ortogrfica es una tarea importante en la verificacin de una publicacin, revista, libro de textos, etc. Tambin lo es para el anlisis de corpus por medio de sistemas computacionales[1]. S bien, ya contamos con recursos informticos para el anlisis morfolgico de textos, estos solo cubren caractersticas generales, y algunas peculiaridades de ciertos idiomas. Aunque hay manera de salvar estas dificultades, en la prctica, esto no es tan sencillo. Para el guaran, una lengua con morfologa rica, aun no hay herramientas de anlisis computacional. Esta lengua presenta un alto grado de aglutinacin: permite hasta tres niveles de prefijacin; su estructura polisinttica admite tres races en orden: SUSTANTIVO VERBO ADVERBIO. Hay indicios de que admita construcciones de la forma VERBO VERBO, por citar: os-epyr, aunque es necesario un mayor estudio. Ciertos lemas presentan rasgos flexivos. Posee tambin partculas circunfijas; reglas de transformaciones morfofnemicas que afectan tanto a las partculas como a ciertas races; algunos lemas admiten la reduplicacin, siempre, de las dos ltimas slabas. Respecto a la sufijacin, no existe mucha informacin en cuanto a los niveles

de aglutinacin. El autor de este artculo est llevando a cabo una investigacin al respecto. Se presenta a continuacin una breve resea de la misma. Una propuesta de la estructura morfolgica del paradigma verbal guaran es como sigue: N P V R M G N G M T M

Donde: N: partcula de negacin circunfija P: partcula de nmero y persona V: partculas de voces R: races M: partculas de modo G: partcula de grado T: partculas de tiempo-aspecto. Esta propuesta es incompleta y fruto del anlisis de trminos, con marcas de aglutinacin y polisntesis, extrados de gramticas; tambin se han utilizados trminos de textos varios. Este anlisis no ha sido exhaustivo y aqu slo se expone para ilustrar la complejidad que presentan las construcciones en el guaran. En este artculo no se discute esta temtica. Para clarificar el cuadro propuesto ejemplificamos brevemente: N P o oinupkaseterekuri V R nup M uka - se G eterei N G M Kuri T M

N n

nachembosapatumoi P V mbo R sapatu M mo G i N G M T M

a - che

Antecedentes
En el 2009, ingenieros y analistas informticos en el marco del Proyecto AVAKOTEPA[2] de la Universidad Catlica de Asuncin, iniciaron el desarrollo de un corrector ortogrfico para el guaran utilizando Hunspell. La iniciativa se ha extendido hasta la fecha y su desarrollo sigue en progreso[3]. Uno de los inconvenientes con los que se han encontrado es con la reescritura de las reglas morfosintcticas.

Qu es Hunspell
Hunspell[4] es un corrector ortogrfico y analizador morfolgico para idiomas con una morfologa rica y compleja formacin de palabras compuestas. Es utilizado en programas de ofimtica como el OpenOffice y LibreOffice. Existen extensiones que le permiten trabajar con el Microsoft Office y el AbiWord. Tambin funciona con navegadores web como Mozilla Firefox, Opera y Chrome. El Hunspell fue una mejora al MySpell, otro corrector ortogrfico. Algunas de las caractersticas de Hunspell son: Permite tratar prefijos y sufijos; tambin la circunfijacin Posee mecanismo para restringir la combinacin entre prefijos y sufijos Permite definir fcilmente reglas de composicin Permite extraer caracteres de la raz antes de permitir la aplicacin de alguna regla de afijacin Reconoce caracteres especiales, como los caracteres acentuados Es posible definir tablas de sustitucin para los errores ortogrficos ms comunes Para su funcionamiento requiere de dos archivos: uno de reglas y el otro es un diccionario morfolgico. Se muestra aqu una implementacin. La definicin de partculas prefijas se establece de la siguiente manera: PFX A 0 a . PFX A 0 re . PFX A 0 o .

La estructura es como sigue: PFX indica que la regla que se define es prefija. A nombre de la regla. 0 cantidad de caracteres que se han de extraer de la raz antes de aplicar la regla. a,re,o representan la regla misma. En este caso corresponden a ciertas partculas de nmero y persona. . indica el fin de la sentencia y que no existe otro restriccin para aplicar la regla. Que esta regla sea aplicable a un lema este debe ser registrado en el diccionario morfolgico: guata/A guapy/A Aqu guata y guapy son los lemas. La barra indica el final del lema y permite introducir los nombres de las reglas que le son aplicables. Con estas lneas hemos definido como formas correctas las siguientes: aguata reguata oguata aguapy reguapy oguapy

Para definir las partculas sufijas, se procede de igual manera cambiando en la estructura de definicin PFX por SFX. El tratamiento de las sufijas introduce la necesidad de verificar la marcacin del acento tnico. Esto genera que cada regla sufija sea reescrita en el archivo de reglas como 4 lneas para la combinacin con partculas tnicas, y 5 lneas para con partculas atonas. Para ms detalles tcnicos sobre el Hunspell y sus prestaciones, puede consultar [5] y [6].

Criterios ortogrficos
No existe consenso respecto a cmo escribir correctamente en guaran. Si bien hemos ya casi unificado criterios en cuanto al alfabeto, aun no lo hemos hecho con la manera en que vamos a escribir la aglutinacin. Algunos autores, bajo criterios pedaggicos prefieren separar de la raz toda partcula poli-silbica. Mientras otras la unen. En este trabajo adoptamos la postura de unir a la raz todas las partculas. Y mantenemos el criterio de unir las posposiciones monosilbicas y separar las que posean mayor cantidad de slabas. No obstante, las volvemos a unir cuando seguida a esta se presenta una partcula de modo o tiempo-aspecto. Si bien, tratamos de basar nuestra propuesta en criterios morfosintcticos, las reglas ortogrficas que utilizaremos deben surgir del debate ameno de la cuestin.

El tratamiento del guaran en Hunspell


El guaran presenta una riqueza en partculas muy alta. Existen aproximadamente 70 combinaciones posibles entre las partculas prefijas. Tras el anlisis de un pequeo corpus lingstico, hemos encontrado ms de 800 combinaciones posibles entre las partculas que se sufijan a la raz. Si unimos en una misma raz partculas prefijas y sufijas, lo que es muy comn, la cantidad de posibles combinaciones se hace bastante grande. Si bien, en el guaran existen restricciones en la combinacin prefijasufija, por citar: +JO y las partculas de nmero y persona singular no se combinan, siguen existiendo una gran cantidad de partculas de las que no conocemos si existe, o no, alguna restriccin para adjuntar con otras partculas. Estas 800 combinaciones entre partculas sufijas, es resultado de un anlisis de pequeo corpus y es necesario verificarlos. An as, es posible que este nmero aumente. Actualmente, hemos implementado todas las formas de las prefijas; tambin 61 formas de las sufijas sin negacin; y 31 formas con la negacin circunfija. Se ha tenido en cuenta los cambios fonticos en la implementacin, como as tambin los cambios que sufre la partcula +NA segn la persona y nmero en la que se conjuga. Los cambios fonticos sufridos por algunas races la hemos representado como lemas independientes en el diccionario con sus respectivas reglas aplicables:

karu/A ngaru/B Para el tratamiento de la reduplicacin del lema utilizamos el mismo principio. Queda pendiente la implementacin de las reglas de composicin y el tratamiento de las caractersticas flexivas de algunos lemas.

Limitaciones y desempeo
Toda la implementacin de esto ha representado aproximadamente 22000 lneas en el archivo de reglas. Bajo estas condiciones si tratramos de implementar la cantidad de combinaciones halladas, el nmero de lneas aumentar hasta cifras inmanejables. Y es que, cada lnea debe ser escrita y verificada para su correccin ortogrfica(fin) y estructural(medio). Adems del costo de mantenimiento que representara, el desempeo del sistema se ve afectado a medida que la cantidad de reglas, y los lemas tratados aumenta. La introduccin de reglas de composicin tambin afecta el desempeo del sistema. Las limitaciones del sistema Hunspell para lenguas con un alto nivel de aglutinacin ya han sido mencionados. Los intentos de lograr una implementacin para el quechua[7] muestra algunos detalles sobre esto. No hay forma de reducir el nmero de reglas que se tienen que generar para poder cubrir los cambios fonticos que sufre el guaran; la implementacin de la negacin circunfija introduce gran cantidad de reglas repetidas; representar la restriccin combinatoria de +NA y las partculas de nmero y persona obliga tambin a duplicar ciertas estructuras dentro de la implementacin. Se han detectado 3 cambios o funcionalidades que deben ser introducidas en la herramienta para poder simplificar la implementacin de las reglas. Aun no se ha analizado su factibilidad, ni la complejidad que ello implicara. Una de las modificaciones necesarias, propuesto ya por otras investigaciones en otras lenguas, nicamente es utilizada en pruebas de laboratorio debido a su alto crecimiento asinttico.

Conclusin
Hemos presentado aqu una implementacin para el corrector ortogrfico del guaran. Est lengua tan rica presenta bastantes desafos para su uso dentro de las tecnologas. Su complejidad, no es sencilla de reducir y la informacin con la que contamos hoy da no es suficiente para encontrar una solucin rpida y eficiente a los problemas que ella nos plantea. La investigacin lingstica es necesaria, e introducir el uso tecnolgico en la bsqueda de soluciones es cada vez ms necesario. Contar con un analizador morfolgico permitira procesar de manera automtica grandes corpus lingsticos, y ayudarnos para establecer teoras respecto a otros niveles del lenguaje.

Muestra

Referencias
[1] Oflazer, Kemal (?). Spelling Correction in Agglutinative Languages. Consultado en
http://www.aclweb.org/anthology-new/A/A94/A94-1037.pdf?CFID=56165041&CFTOKEN=99679533

[2] http://avakotepa.blogspot.com/ [3] http://groups.google.com/group/tembiapo?hl=es [4] http://es.wikipedia.org/wiki/Hunspell [5] ftp://www.daba.lv/pub/Uzzinjai/vaardniicas/Hunspell/HunSpell.html

[6] http://www.runasimipi.org/hunspell-man.html [7] http://www.runasimipi.org/quh_BO-pack.zip

Bibliografa
Ayala, Jos Valentn (1996). Gramtica guaran. Asuncin, Paraguay: Centro Cultural "Leopoldo Marechal". Embajada de la Repblica Argentina en el Paraguay. Chomsky, Noam (1974). Estructuras sintcticas (Traducido por C. Peregrn Otero). Mxico: Siglo XXI. (Original publicado en 1957.) Flix de Guarania (2008). Tabla sinptica para una nueva gramtica guaran. e'rekokatu ha e'morangatu. Asuncin, Paraguay: Servilibro. Guasch, Antonio (1997). El idioma guaran. Gramtica y antologa de prosa y verso (7ma edicin). Asuncin, Paraguay: CEPAG. Krivoshein de Canese, Natalia. Acosta Alcaraz, Feliciano (2007). Gramtica Guaran. Asuncin, Paraguay: Servilibro. Meli, Bartomeu (2006). Guarani e' paragui. Gramtica pedaggica para hablantes de guaran. Asuncin, Paraguay: Fe y Alegra. Sanabria, Lino Trinidad (1998). Polisntesis guaran. Contribucin para el conocimiento tipolgico de esta lengua amerindia . Asuncin, Paraguay: Intercontinental. Zarratea, Tadeo (2002). Gramtica elemental de la lengua guaran. Asuncin, Paraguay: Marben.