Está en la página 1de 8

CORRECTOR ORTOGRÁFICO PARA LENGUA GUARANÍ

Walter Emilio Gómez {walteremiliogomez@gmail.com}

Resumen
Se presenta una implementación para el corrector ortográfico de lengua guaraní, utilizando el programa informático Hunspell para ello. Hablamos brevemente sobre la estructura de la lengua y las limitaciones que se presentan para su tratamiento. Palabras claves: guaraní; aglutinación; corrector ortográfico; Hunspell

Introducción
La corrección ortográfica es una tarea importante en la verificación de una publicación, revista, libro de textos, etc. También lo es para el análisis de corpus por medio de sistemas computacionales[1]. Sí bien, ya contamos con recursos informáticos para el análisis morfológico de textos, estos solo cubren características generales, y algunas peculiaridades de ciertos idiomas. Aunque hay manera de salvar estas dificultades, en la práctica, esto no es tan sencillo. Para el guaraní, una lengua con morfología rica, aun no hay herramientas de análisis computacional. Esta lengua presenta un alto grado de aglutinación: permite hasta tres niveles de prefijación; su estructura polisintética admite tres raíces en orden: SUSTANTIVO – VERBO – ADVERBIO. Hay indicios de que admita construcciones de la forma VERBO – VERBO, por citar: “osê-ñepyrû”, aunque es necesario un mayor estudio. Ciertos lemas presentan rasgos flexivos. Posee también partículas circunfijas; reglas de transformaciones morfofónemicas que afectan tanto a las partículas como a ciertas raíces; algunos lemas admiten la reduplicación, siempre, de las dos últimas sílabas. Respecto a la sufijación, no existe mucha información en cuanto a los niveles

de aglutinación. El autor de este artículo está llevando a cabo una investigación al respecto. Se presenta a continuación una breve reseña de la misma. Una propuesta de la estructura morfológica del paradigma verbal guaraní es como sigue: N P V R M G N G M T M

Donde: N: partícula de negación circunfija P: partícula de número y persona V: partículas de voces R: raíces M: partículas de modo G: partícula de grado T: partículas de tiempo-aspecto. Esta propuesta es incompleta y fruto del análisis de términos, con marcas de aglutinación y polisíntesis, extraídos de gramáticas; también se han utilizados términos de textos varios. Este análisis no ha sido exhaustivo y aquí sólo se expone para ilustrar la complejidad que presentan las construcciones en el guaraní. En este artículo no se discute esta temática. Para clarificar el cuadro propuesto ejemplificamos brevemente: N P o oinupãkasetereíkuri V R nupã M uka - se G eterei N G M Kuri T M

N n

nachembosapatumo’ãi P V mbo R sapatu M mo’ã G i N G M T M

a - che

Antecedentes
En el 2009, ingenieros y analistas informáticos en el marco del Proyecto AVAKOTEPA[2] de la Universidad Católica de Asunción, iniciaron el desarrollo de un corrector ortográfico para el guaraní utilizando Hunspell. La iniciativa se ha extendido hasta la fecha y su desarrollo sigue en progreso[3]. Uno de los inconvenientes con los que se han encontrado es con la reescritura de las reglas morfosintácticas.

Qué es Hunspell
Hunspell[4] es un corrector ortográfico y analizador morfológico para idiomas con una morfología rica y compleja formación de palabras compuestas. Es utilizado en programas de ofimática como el OpenOffice y LibreOffice. Existen extensiones que le permiten trabajar con el Microsoft Office y el AbiWord. También funciona con navegadores web como Mozilla Firefox, Opera y Chrome. El Hunspell fue una mejora al MySpell, otro corrector ortográfico. Algunas de las características de Hunspell son: Permite tratar prefijos y sufijos; también la circunfijación Posee mecanismo para restringir la combinación entre prefijos y sufijos Permite definir fácilmente reglas de composición Permite extraer caracteres de la raíz antes de permitir la aplicación de alguna regla de afijación Reconoce caracteres especiales, como los caracteres acentuados Es posible definir tablas de sustitución para los errores ortográficos más comunes Para su funcionamiento requiere de dos archivos: uno de reglas y el otro es un diccionario morfológico. Se muestra aquí una implementación. La definición de partículas prefijas se establece de la siguiente manera: PFX A 0 a . PFX A 0 re . PFX A 0 o .

… La estructura es como sigue: PFX indica que la regla que se define es prefija. A nombre de la regla. 0 cantidad de caracteres que se han de extraer de la raíz antes de aplicar la regla. a,re,o representan la regla misma. En este caso corresponden a ciertas partículas de número y persona. . indica el fin de la sentencia y que no existe otro restricción para aplicar la regla. Que esta regla sea aplicable a un lema este debe ser registrado en el diccionario morfológico: guata/A guapy/A Aquí “guata” y “guapy” son los lemas. La barra indica el final del lema y permite introducir los nombres de las reglas que le son aplicables. Con estas líneas hemos definido como formas correctas las siguientes: aguata reguata oguata aguapy reguapy oguapy

Para definir las partículas sufijas, se procede de igual manera cambiando en la estructura de definición PFX por SFX. El tratamiento de las sufijas introduce la necesidad de verificar la marcación del acento tónico. Esto genera que cada regla sufija sea reescrita en el archivo de reglas como 4 líneas para la combinación con partículas tónicas, y 5 líneas para con partículas atonas. Para más detalles técnicos sobre el Hunspell y sus prestaciones, puede consultar [5] y [6].

Criterios ortográficos
No existe consenso respecto a cómo escribir correctamente en guaraní. Si bien hemos ya casi unificado criterios en cuanto al alfabeto, aun no lo hemos hecho con la manera en que vamos a escribir la aglutinación. Algunos autores, bajo criterios pedagógicos prefieren separar de la raíz toda partícula poli-silábica. Mientras otras la unen. En este trabajo adoptamos la postura de unir a la raíz todas las partículas. Y mantenemos el criterio de unir las posposiciones monosilábicas y separar las que posean mayor cantidad de sílabas. No obstante, las volvemos a unir cuando seguida a esta se presenta una partícula de modo o tiempo-aspecto. Si bien, tratamos de basar nuestra propuesta en criterios morfosintácticos, las reglas ortográficas que utilizaremos deben surgir del debate ameno de la cuestión.

El tratamiento del guaraní en Hunspell
El guaraní presenta una riqueza en partículas muy alta. Existen aproximadamente 70 combinaciones posibles entre las partículas prefijas. Tras el análisis de un pequeño corpus lingüístico, hemos encontrado más de 800 combinaciones posibles entre las partículas que se sufijan a la raíz. Si unimos en una misma raíz partículas prefijas y sufijas, lo que es muy común, la cantidad de posibles combinaciones se hace bastante grande. Si bien, en el guaraní existen restricciones en la combinación prefija—sufija, por citar: +JOÁ y las partículas de número y persona singular no se combinan, siguen existiendo una gran cantidad de partículas de las que no conocemos si existe, o no, alguna restricción para adjuntar con otras partículas. Estas 800 combinaciones entre partículas sufijas, es resultado de un análisis de pequeño corpus y es necesario verificarlos. Aún así, es posible que este número aumente. Actualmente, hemos implementado todas las formas de las prefijas; también 61 formas de las sufijas sin negación; y 31 formas con la negación circunfija. Se ha tenido en cuenta los cambios fonéticos en la implementación, como así también los cambios que sufre la partícula +ÍNA según la persona y número en la que se conjuga. Los cambios fonéticos sufridos por algunas raíces la hemos representado como lemas independientes en el diccionario con sus respectivas reglas aplicables:

karu/A ngaru/B Para el tratamiento de la reduplicación del lema utilizamos el mismo principio. Queda pendiente la implementación de las reglas de composición y el tratamiento de las características flexivas de algunos lemas.

Limitaciones y desempeño
Toda la implementación de esto ha representado aproximadamente 22000 líneas en el archivo de reglas. Bajo estas condiciones si tratáramos de implementar la cantidad de combinaciones halladas, el número de líneas aumentará hasta cifras inmanejables. Y es que, cada línea debe ser escrita y verificada para su corrección ortográfica(fin) y estructural(medio). Además del costo de mantenimiento que representaría, el desempeño del sistema se ve afectado a medida que la cantidad de reglas, y los lemas tratados aumenta. La introducción de reglas de composición también afecta el desempeño del sistema. Las limitaciones del sistema Hunspell para lenguas con un alto nivel de aglutinación ya han sido mencionados. Los intentos de lograr una implementación para el quechua[7] muestra algunos detalles sobre esto. No hay forma de reducir el número de reglas que se tienen que generar para poder cubrir los cambios fonéticos que sufre el guaraní; la implementación de la negación circunfija introduce gran cantidad de reglas repetidas; representar la restricción combinatoria de +ÍNA y las partículas de número y persona obliga también a duplicar ciertas estructuras dentro de la implementación. Se han detectado 3 cambios o funcionalidades que deben ser introducidas en la herramienta para poder simplificar la implementación de las reglas. Aun no se ha analizado su factibilidad, ni la complejidad que ello implicaría. Una de las modificaciones necesarias, propuesto ya por otras investigaciones en otras lenguas, únicamente es utilizada en pruebas de laboratorio debido a su alto crecimiento asintótico.

Conclusión
Hemos presentado aquí una implementación para el corrector ortográfico del guaraní. Está lengua tan rica presenta bastantes desafíos para su uso dentro de las tecnologías. Su complejidad, no es sencilla de reducir y la información con la que contamos hoy día no es suficiente para encontrar una solución rápida y eficiente a los problemas que ella nos plantea. La investigación lingüística es necesaria, e introducir el uso tecnológico en la búsqueda de soluciones es cada vez más necesario. Contar con un analizador morfológico permitiría procesar de manera automática grandes corpus lingüísticos, y ayudarnos para establecer teorías respecto a otros niveles del lenguaje.

Muestra

Referencias
[1] Oflazer, Kemal (?). Spelling Correction in Agglutinative Languages. Consultado en
http://www.aclweb.org/anthology-new/A/A94/A94-1037.pdf?CFID=56165041&CFTOKEN=99679533

[2] http://avakotepa.blogspot.com/ [3] http://groups.google.com/group/tembiapo?hl=es [4] http://es.wikipedia.org/wiki/Hunspell [5] ftp://www.daba.lv/pub/Uzzinjai/vaardniicas/Hunspell/HunSpell.html

[6] http://www.runasimipi.org/hunspell-man.html [7] http://www.runasimipi.org/quh_BO-pack.zip

Bibliografía
 Ayala, José Valentín (1996). Gramática guaraní. Asunción, Paraguay: Centro Cultural "Leopoldo Marechal". Embajada de la República Argentina en el Paraguay.   Chomsky, Noam (1974). Estructuras sintácticas (Traducido por C. Peregrín Otero). México: Siglo XXI. (Original publicado en 1957.) Félix de Guarania (2008). Tabla sinóptica para una nueva gramática guaraní. Ñe'êrekokatu ha Ñe'êmorangatu. Asunción, Paraguay: Servilibro.   Guasch, Antonio (1997). El idioma guaraní. Gramática y antología de prosa y verso (7ma edición). Asunción, Paraguay: CEPAG. Krivoshein de Canese, Natalia. Acosta Alcaraz, Feliciano (2007). Gramática Guaraní. Asunción, Paraguay: Servilibro.   Melià, Bartomeu (2006). Guarani ñe'ê paraguái. Gramática pedagógica para hablantes de guaraní. Asunción, Paraguay: Fe y Alegría. Sanabria, Lino Trinidad (1998). Polisíntesis guaraní. Contribución para el conocimiento tipológico de esta lengua amerindia . Asunción, Paraguay: Intercontinental.  Zarratea, Tadeo (2002). Gramática elemental de la lengua guaraní. Asunción, Paraguay: Marben.