Está en la página 1de 9

EL CEPROSIMAD. 2013; 2(1): 57-65

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Presentado: 16/07/2013. Aceptado: 17/09/2013

INCUBACIÓN DE SISTEMA DE TRADUCCIÓN AUTOMÁTICA ESPAÑOL A QUECHUA, BASADO EN LA PLATAFORMA LIBRE Y CÓDIGO ABIERTO APERTIUM

INCUBATION SYSTEM MACHINE TRANSLATION SPANISH TO QUECHUA, BASED ON FREE AND OPEN SOURCE PLATFORM APERTIUM

Guido-Raúl Larico-Uchamaco 1 , Hugo-David Calderón-Vilca 2 y Flor-Cagniy Cárdenas-Mariño 3 ,

(1) Universidad Nacional Amazónica de Madre de Dios, Carrera Profesional de Ingeniería de Sistemas e Informática, Puerto Maldonado, Madre de Dios, Perú. Email: guidinho2005@hotmail.com (2) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas, Abancay-Perú. Email: hdcalderon@unamba.edu.pe (3) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas, Abancay-Perú. Email: clavelyfcm@gmail.com

RESUMEN

En éste artículo se presenta una alternativa de implementación de traducción automática para lengua español-quechua basada en “Apertium” una plataforma libre y de código abierto. La lengua quechua pertenece a las lenguas aglutinantes que expresan conceptos y relaciones gramaticales mediante la adición de sufijos, en cambio el idioma español es diferente al ser considerado como una lengua flexiva de tipo fusional. Apertium ha sido creado inicialmente para traducciones entre lenguas emparentadas, sin embargo ha evolucionado para tratar con lenguas más divergentes como inglés-catalán. Por lo que en esta investigación se experimenta la creación de un sistema de traducción automática con una lengua nativa aglutinante y un idioma flexivo, teniendo como resultado el sistema de traducción automática apertium-es-qve basado en la plataforma libre y código abierto Apertium, se reutiliza el diccionario monolingüe del idioma español, se implementan el diccionario monolingüe de la lengua quechua y las reglas de transferencia, seguidamente se compilan los diccionarios para su funcionamiento, finalmente se prueba el traductor con un bloque de palabras, dando como entrada una frase en español y teniendo como salida la frase en la lengua quechua, el resultado es la traducción mediante transferencia sintáctica superficial.

PALABRAS CLAVE: Español, quechua, apertium, traducción automática, traductor automático, código abierto, software libre.

ABSTRACT

In this paper we present an alternative implementation of automatic translation to Spanish- Quechua language based on free and open source platform "Apertium". The Quechua language belongs to the agglutinative languages expressing concepts and relationships by adding grammatical suffixes, whereas the Spanish language is different to be considered a fusional type inflected language. Apertium has been initially created for translations between

57

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

related languages, however, has evolved to deal with more divergent languages as English- Catalan. So in this research experience creating a machine translation system with a native language and a language inflected, resulting in automatic translation system apertium-es-qve based on free and open source platform Apertium is reuses the Spanish language monolingual dictionary, monolingual dictionary implemented in Quechua and transfer rules, then dictionaries are compiled for operation, finally test the translator with a block of words, giving as input a phrase in Spanish and having as output the Quechua phrase, the result is the translation by syntactic transfer superficial.

KEY WORDS: Español, quechua, apertium, automatic translation, machine translator, open source, free software.

INTRODUCCIÓN

MATERIAL Y MÉTODOS

En este mundo globalizado, de múltiples

Sin embargo, dichos avances como los

LENGUAS

INVOLUCRADAS

Y

culturas e idiomas, el traductor automático

ANTECEDENTES

DE

LA

como aplicación del procesamiento de

INVESTIGACIÓN:

lenguaje natural han aportado significativamente en la interacción de culturas permitiendo al ser humano comprender e interrelacionarse con sus semejantes, mediante la traducción de textos o habla de un lenguaje natural a otro.

traductores automáticos poco trascienden todavía en la cultura minoritaria como el quechua.

Idioma español (ES) Es una lengua flexiva de tipo fusionante, hablado en diferentes países con 405 638 110 hablantes de acuerdo al SIL International, pertenece a las familias indoeuropeo, itálico y ibero-occidental, con código ES de acuerdo ISO 639-1 y SPA de acuerdo ISO 639-3 segunda lengua del mundo por el número de personas que tienen como lengua materna.

Por lo que en este artículo se describe cómo crear sistema de traducción automática entre español-quechua, mostrando las etapas de la incubación del sistema, así mismo la creación del diccionario como su manipulación de los datos lingüísticos, compilación de los mismos y la prueba de análisis morfológico y traducción de palabras y frases cortas.

El paper está organizado de la siguiente manera: la primera sección Introducción, la segunda sección Materiales y Métodos, en la tercera sección La Ingeniería de Traducción de Apertium, en la cuarta sección Caso de Estudio Incubación de Sistema de Traducción de Español-Quechua, en la quinta sección Resultados y Discusión, finalmente se presenta las Conclusiones y bibliografía.

58

Lengua quechua Quechua también denominada Quichua es una familia de lenguas originaria de los Andes centrales que se extiende por la parte occidental de Sudamérica. Es una macro lengua con una población hablante de más de 9 000 000 distribuidos en los países Perú, Argentina, Ecuador, Chile y Bolivia, es lengua co-oficial en Perú.

Quechua como macro lengua se clasifica en 44 lenguas diferentes con código propio de acuerdo al ISO 639-3 dada por SIL International, de los cuales 32 variantes se encuentran relacionadas con Perú.

Quechua pertenece al tipo aglutinante, donde las relaciones gramaticales se expresan mediante elementos formativos denominados “sufijos” que se aglutinan a

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

una raíz, formando palabras largas, cada sufijo tiene su valor formativo y semántico.

Antecedentes de la investigación artículo científico [2] Artículo Científico [2] escrito por Rios Annete 2011 “Spell Checkingan Agglutinative Language Quechua” donde implementa el corrector ortográfico para quechua utilizando métodos de estado finito bajo herramientas XFST para su analizador morfológico. Artículo Científico [3] escrito por Rios Annete y Martin Wolk, “A Quechua- Spanish parallel tree bank” describe las características de la lengua quechua buscando alineamiento con el idioma español. Traductor Automático en sola dirección Quechua Cusco (QUZ)-Español implementada por Vlastimil Rataj.

Cusco (QUZ)-Español implementada por Vlastimil Rataj. TRADUCCIÓN AUTOMÁTICA (TA): Es una aplicación de
Cusco (QUZ)-Español implementada por Vlastimil Rataj. TRADUCCIÓN AUTOMÁTICA (TA): Es una aplicación de
Cusco (QUZ)-Español implementada por Vlastimil Rataj. TRADUCCIÓN AUTOMÁTICA (TA): Es una aplicación de

TRADUCCIÓN AUTOMÁTICA (TA):

Es una aplicación de Procesamiento de Lenguaje Natural, también considerada como área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. El traductor automático debe analizar el texto original, interrelacionar con la situación referida y como resultado debe encontrar el texto correspondiente en el lenguaje destino [8].

el texto correspondiente en el lenguaje destino [8]. Figura 1 Modelos de traducción automática Fuente: Martin

Figura 1 Modelos de traducción automática

Fuente: Martin Volk

Basada en reglas, realiza transformaciones a partir del texto del idioma original reemplazando palabras por su equivalente en el idioma objetivo de traducción. En cambio la traducción basada en datos o corpus, realiza análisis de muestras reales en sus respectivas traducciones entre el par idiomas, mientras mayor cantidad de textos traducidos se tenga mejores resultados se obtiene.

Traductor automático basada en reglas Establece tres enfoques principales: los enfoques directos, los de interlingua y los de transferencia (sintáctica y semántica).

y los de transferencia (sintáctica y semántica). Figura 2 Paradigmas de traducción automática por

Figura 2 Paradigmas de traducción automática por transferencia

Fuente: Moreno, 2000

Traducción automática por transferencia Modelo en la cual el texto original se analiza morfológica y sintácticamente, obteniendo como resultado una representación sintáctica superficial. Esta representación se transforma a continuación en otra más abstracta que hace especial énfasis en aspectos relevantes para el proceso de traducción e ignora otro tipo de información. El proceso de transferencia convierte esta última representación (ligada aún al idioma original) a una representación al mismo nivel de abstracción pero ligada al lenguaje objetivo. Estas dos representaciones son las llamadas normalizadas o intermedias. A partir de aquí

59

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

el proceso se invierte: los componentes sintácticos generan una representación del texto y finalmente se genera la traducción, modelo usado por la plataforma de código abierto Apertium.

INGENIERÍA

DE

TRADUCCIÓN

DE

APERTIUM:

Apertium es una plataforma de traducción automática de código abierto desarrollado por el grupo Transducens de la Universitat d’Alacant España, basado en reglas, cuya arquitectura usa transductores de estados finitos para el procesamiento léxico, modelos ocultos de Markov para la desambiguación léxica y procesamiento de patrones basado en estados finitos para la transferencia estructural, actualmente esta plataforma de traducción automática ha permitido implementar y en poner en marcha a más de 35 pares de lenguas como sistemas de traducción automática [1].

La plataforma proporciona: un ingenio de traducción independiente de la lengua, herramienta para gestionar los datos lingüísticos necesarios para construir un sistema de traducción automática para unalengua dado. Plataforma con siguientes componentes: lttoolbox, apertium, apertium- lex-tools, OpenFST, Foma, HFST3 [6] y vislcg3 (www.apertium.org)

OpenFST, Foma, HFST3 [6] y vislcg3 (www.apertium.org) Figura 3 Arquitectura modular construida por

Figura 3

Arquitectura

modular

construida

por

la

plataforma apertium

Fuente: Documentación de Apertium

60

El desformateador Encapsula las cadenas de texto en bloques de formato o superblancos poniendo delimitadores “[ ]” cada una de estas cadenas encapsuladas son tratadas como un blanco <b></b>. Los tipos de bloques o superblancos:

bloques de formato o superblancos no vacíos, bloques de formato con referencia a archivo externo o superblancos extensos y bloques de formato vacíos.

El analizador morfológico Segmenta el texto en formas superficiales (FS) (las unidades léxicas tal como se presentan en los textos) y entrega para cada FS una o más formas léxicas (FL) consistentes en un lema (forma base usada en los diccionarios clásicos), la categoría léxica (nombre, verbo, preposición, etc.) y la información de flexión morfológica (número, género, persona, tiempo, etc.). Las unidades léxicas de más de una palabra (multipalabras) son tratadas como formas léxicas individuales y, según su naturaleza, reciben un tratamiento específico, al recibir como entrada el texto del módulo anterior, el analizador morfológico proporciona como salida el texto resultante.

El desambiguador léxico categorial El desambiguador léxico categorial está basado en modelos ocultos de Markov de primer orden. Los estados del modelo de Markov representan categorías gramaticales y los observables son clases de ambigüedad, esto es, conjuntos de categorías gramaticales, analiza una palabra ambigua de acuerdo con su contexto; por ejemplo la palabra ambigua forma superficial en quechua “urqu” en español tiene dos significados “cerro” como nombre y “macho” como indicador de género. El desambiguador proporciona a su salida etiquetas finas como las del analizador morfológico, de hecho, en ocasiones, puede suceder que el analizador morfológico entregue, para una palabra dada, dos o más etiquetas finas que pueden agruparse bajo una misma categoría: por ejemplo en

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

español la palabra “cante” puede ser la 1a o la 3a persona del presente de subjuntivo del verbo cantar las dos etiquetas finas:

verbo<vblex> primera persona<prs><p1> singular<sg> y verbo<vblex> tercera persona<prs><p3> singular<sg>.

El módulo transferencia léxica El módulo de transferencia léxica, que gestiona un diccionario bilingüe y es invocado por el módulo de transferencia estructural, lee cada FL en LO y entrega la FL correspondiente en lengua meta (LM). El diccionario contiene un únicoequivalente para cada forma léxica de la LO; esto significa que no se realiza ningún tipo de tratamiento de la polisemia, las multipalabras son traducidas como una unidad. <l>t’anta</l><r>pan</r><l>wasi</l><r>cas a</r><l>hatun</l><r>grande</r><l>musuq </l><r>nuevo</r>

El módulo de transferencia estructural Detecta y trata patrones de palabras (sintagmas) que exigen un tratamiento especial por causa de las divergencias gramaticales entre la lengua tales como:

cambios de género, número, reordenamientos, cambios preposicionales etc.

a) Chunker.- Identifica los segmentos,

realiza la traducción palabra por palabra, así como ciertas operaciones de reordenamiento

y propagación de información morfosintáctica dentro del segmento (por ejemplo, para establecer la concordancia).

Además, crea los segmentos para que sean tratados por el módulo siguiente. El chunker tiene la opción de funcionar como único módulo en un sistema de transferencia sintáctica superficial. Ello se controla mediante un atributo del elemento <transfer>.

b) Interchunk.- Este módulo recibe los

segmentos construidos por el chunker y permite reordenarlos, modificar la

“información sintáctica” asociada a cada segmento y, finalmente, imprimir los segmentos en el orden nuevo y con las características nuevas en la salida, creando segmentos nuevos si es necesario.

c) Postchunk.- Este módulo recibe los segmentos modificados por el interchunk y realiza tareas finales de modificación de las palabras contenidas en cada segmento y de impresión del texto contenido en los segmentos en el formato que acepta el generador.

El objetivo de este móduloes permitir la manipulación y la relación de patrones de patrones de palabras, se pretende que haya un tratamiento más adecuado de todas las transformaciones que se requieren para traducir de una lengua a otra.

El generador morfológico Genera a partir de la forma léxica en lengua meta una forma superficial flexionada adecuadamente. El resultado para la frase de ejemplo sería:

wasiyki:wasi<n><px2sg><nom>wasiykima

n: wasi<n><px2sg><dat>

El portgenerador Realiza algunas operaciones ortográficas en LM tales como contracciones y apostrofaciones, y que es generado a partir de un archivo de reglas de transformación con un formato similar al de los diccionarios anteriores.

El reformateador Reintegra la información de formato original al texto traducido similar al módulo desformateador.

CASO DE ESTUDIO INCUBACIÓN DE SISTEMA DE TRADUCCIÓN:

Datos lingüísticos (ficheros) del par de lenguas español-quechua Cada fichero es necesario crear, sin embargo es posible reutilizar datos linguísticos de otros pares de

61

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

lenguasimplementadas, es una característica del sistema de código abierto Apertium.

apertium-es-qve.qve.lexc.- Diccionario monolingüe de quechua compatible con HFSTuna característica del sistema de código abierto Apertium. apertium-es-qve.es.dix.- Diccionario monolingüe del idioma

apertium-es-qve.es.dix.- Diccionario monolingüe del idioma español.Diccionario monolingüe de quechua compatible con HFST apertium-es-qve.es-qve.dix.- Diccionario bilingüe

apertium-es-qve.es-qve.dix.- Diccionario bilingüe español-quechua. Diccionario monolingüe del idioma español. apertium-es-qve.qve.twol.- Reglas de morfología compatible
apertium-es-qve.es-qve.dix.- Diccionario bilingüe español-quechua.

apertium-es-qve.qve.twol.- Reglas de morfología compatible con HFST.

apertium-es-qve.qve-es.rlx.- Reglas de desambiguación al diccionario monolingüe del quechua basado enReglas de morfología compatible con HFST. VISLG3. apertium-es-qve-es.tsx.- Reglas de desambiguación

VISLG3.

apertium-es-qve-es.tsx.- Reglas de desambiguación al diccionario monolingüe español basado apertium- lextoolsal diccionario monolingüe del quechua basado en VISLG3. apertium-es-qve-qve-es.t1x.- Reglas de transferencia

apertium-es-qve-qve-es.t1x.- Reglas de transferencia estructural “chunker” del quechua hacia español. transferencia estructural “chunker” del quechua hacia español.

apertium-es-qve-qve-es.t2x.- Reglas de transferencia estructural “interchunk” del quechua hacia español. transferencia estructural “interchunk” del quechua hacia español.

apertium-es-qve-qve-es.t3x.- Reglas de transferencia estructural “postchunk” del quechua hacia español. transferencia estructural “postchunk” del quechua hacia español.

apertium-es-qve-es-qve.t1x.- Reglas de transferencia estructural “chunker” del español hacia quechua. transferencia estructural “chunker” del español hacia quechua.

apertium-es-qve-qve-es.t2x.- Reglas de transferencia estructural “interchunk” del español hacia quechua. transferencia estructural “interchunk” del español hacia quechua.

apertium-es-qve-qve-es.t3x.- Reglas de transferencia estructural “postchunk” del español hacia quechua. transferencia estructural “postchunk” del español hacia quechua.

Creación de los diccionarios monolingües Cada diccionario monolingüe se especifica en un fichero compatible con HFST, especificando LEXICONES para cada categoría gramatical, LEXICONES para cada sufijo, LEXICONES para los grupos de nombres, adjetivos, verbos, etc.

62

Tabla 1

Estructura

monolingüe.

y

contenido

del

diccionario

Diccionario

monolingüe

Significado

quechua

apertium-es-

qve.lexc

<n>

! nombre

<adj>

! adjetivo

<prnp>

! pronombre

<adv>

! advervio

<vblex>

! verbo

<m>

! masculino

<sg>

! singular

<pl>

! plural

otros

.

.

.

Nombres ;

!Nombres

Adjetivos ;

!Adjetivos

PrnPersonales ;

!PronombresP

Adverbios ;

!Adverbios

Verbos ;

!Verbos

otros

.

.

.

LEXICON Plural

! plural s

<pl>:>kuna;

! acusativo

LEXICON Caso

a!

 

<acc>:>ta;

ablativo de

<abl>:>manta;

!

posesivo

LEXICON Posv

1ra persn

<px1sg>:y;

singular

Otros Lexicon Nombres wasi:wasi N ; t’anta:t’anta N ; Lexicon Adjetivos hatun:hatun ADJ; musuq:musuq ADJ; LexiconPrnPerson nuqa:nuqa PRNP; Lexicon Advervio may:may ADV; Lexicon verbos mikhuy:mikhu V; munay:muna V; otros

!casa

!pan

 

!grande

!nuevo

!yo

 

!dónde

!comer

!querer

Fuente: Elaboración propia.

Creación de los diccionarios bilingües Se asigna cada forma (palabra raíz) léxica de la Lengua Origen que corresponde a cada forma léxica de la Lengua Meta, de cada diccionario bilingüe se obtienen dos productos según el sentido en el que el sistema los lea: leídos de izquierda a derecha se obtiene el módulo de transferencia léxica del idioma Lengua Origen a la Lengua Meta y leídos de derecha a izquierda la transferencia de la Lengua Meta a la Lengua Origen.

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

Tabla 2

Estructura

bilingüe

y

contenido

del

diccionario

Diccionario bilingüe español quechua apertium- es-qve.es-qve. dix

<sdefs> <sdef n="n" c="Nombre"/> <sdef n="adj" c="Adjetivo"/> <sdef n="prn"c="Prnombre"> <sdef n="adv" c="Adverbio/> <sdef n="vblex" c="Verbo"/> <sdef n="sg" c="Singular"/> <sdef n="pl" c="Plural"/> <section id="NOMBRES"> <l>t’anta</l><r>pan</r> <l>wasi</l><r>casa</r> <section id="ADJETIVOS"> <l>hatun</l><r>grande</r> <l>musuq</l><r>nuevo</r> <section id="PRNPERSON"> <l>nuqa</l><r>yo</r> <section id="ADVERBIO"> <l>may</l><r>dónde</r> <section id="VERBOS"> <l>mikhuy</l><r>comer</r> <l>munay</l><r>querer</r>

Fuente: Elaboración propia.

Reglas de Transferencia estructural <rule comment="Regla nombres"> <pattern> <pattern-item n="nom"/> </pattern> <action> <call-macro n="firstWord"><with-param

pos="1"/></call-macro>

<out> <chunk name="nombre" > <tags> <tag> <lit-tag v="SN"/></tag> <tag><lit-tag v="nom"/></tag> </tags> <lu> <clip pos="1" side="tl" part="lem"/> <clip pos="1" side="tl" part="a_nom"/> <lit-tag v="2"/> </lu> </chunk> </out> </action> </rule>

Compilación del sistema Traducción Automática español-quechua “apertium- es-qve”

Compilando el diccionario morfológico español #lt-complrapertium-es- qve.es.dix es-qve.automorf.binAutomática español- quechua “apertium - es- qve” Dando formato con foma a apertium-es- qve.qve.lexc

Dando formato con foma a apertium-es-#lt-complrapertium-es- qve.es.dix es-qve.automorf.bin qve.qve.lexc #hfst-lexc.- formatfomaapertium-es-

qve.qve.lexc

#hfst-lexc.-

formatfomaapertium-es-

qve.qve.lexcqve.lexc.hfst

Formatofoma para apertium-es-

foma

para

apertium-es-

qve.qve.twol

#hfst-twolc

formatfomaapertium-es-qve.qve.twol -o qve.twol.hfst

Composición lexc y twol #hfst- compose-intersect -1 qve.lexc.hfst -2 qve.twol.hfst -o qve.hfst– formatfomaapertium-es-qve.qve.twol -o qve.twol.hfst Compilando diccionario morfológico quechua

Compilando diccionario morfológico quechua #hfst-invertqve.hfst | hfst- fst2fst -O -o qve-es.automorf.hfst-1 qve.lexc.hfst -2 qve.twol.hfst -o qve.hfst Compilando diccionario bilingüe español-quechua #lt-comprl

Compilando diccionario bilingüe español-quechua #lt-comprl apertium- es-qve.es-qve.dix es-qve.autobil.bin| hfst- fst2fst -O -o qve-es.automorf.hfst Compilando diccionario bilingüe quechua-español #lt-comprl

Compilando diccionario bilingüe quechua-español #lt-comprl apertium- es-qve.es-qve.dixqve-es.autobil.bin#lt-comprl apertium- es-qve.es-qve.dix es-qve.autobil.bin Compilando diccionario de auto- generación es-qve

Compilando diccionario de auto- generación es-qve #hfst-fst2fst -O qve.hfst -o es-qve.autogen.hfst #lt-comprl apertium- es-qve.es-qve.dixqve-es.autobil.bin Compilando diccionario de auto- generación qve-es
Compilando diccionario de auto- generación es-qve #hfst-fst2fst -O qve.hfst -o es-qve.autogen.hfst

Compilando diccionario de auto- generación qve-es #lt-comprlapertium- es-qve.es.dixqve-es.autogen.bin

Compilando reglas de desambiguación al diccionario monolingüe quechua #cg- compapertium-es-qve.esqve. rlx es- qve.rlx.binqve-es #lt-comprlapertium- es-qve.es.dixqve-es.autogen.bin Compilando reglas de transferencia estructural es-qve

Compilando reglas de transferencia estructural es-qve #apertium-preprocess- transfer apertium-es-qve.es-qve.t1x es- qve.t1x.bin #apertium-preprocess- transfer apertium-es- qve.es-qve.t2x es- qve.t2x.bin #apertium- preprocesstransfer apertium-es-qve.es- qve.t3x es-qve.t3x.binquechua #cg- compapertium-es-qve.esqve. rlx es- qve.rlx.bin Compilando reglas de transferencia estructural qve-es

Compilando reglas de transferencia estructural qve-es #apertium-preprocess- transfer apertium-es-qve.qve-es.t1x qve- es.t1x.bin #apertium-preprocess-transfer apertiumes- qve.qve-es.t2x qve- es.t2x.bin #apertium-preprocesstransferapertium-es- qve.es-qve.t2x es- qve.t2x.bin #apertium- preprocesstransfer apertium-es-qve.es- qve.t3x es-qve.t3x.bin 63

63

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

apertium-es-qve.qve-es.t3x

es.t3x.bin

qve-

RESULTADOS Y DISCUSIÓN

Análisis morfológico de quechua Proporcionando entrada la palabra "wasi" al sistema #echo "wasi" | hfst- lookupqve-es.automorf.hfst se obtiene la salida wasi: wasi<n><nom>, donde wasi es la palabra raíz y <n><nom> son etiquetas que indican que pertenece a la categoría gramatica nombre. Proporcionando entrada la palabra aglutinada "wasiy" al sistema #echo "wasiy" | hfst-lookupqve- es.automorf.hfst se obtiene la salida wasiy: wasi<n><px1sg><nom>, wasi es la palabra raíz que pertenece <n><nomb> "nombre" como el anterior, seguidamente el sufijo "y" cuya etiqueta <px2sg> indica que pertence a la categoría posesivo primera persona singular. Sin embargo si proporcionamos la palabra aglutinada "wasiyki" #echo "wasiyki" | hfstlookupqve-es.automorf.hfst el sufijo "yki" está consiserado uno sólo de acuerdo al concepto linguístico por tanto esto indica <px2sg> posesivo segunda personal singular. Seguimos aglutinando a la palabra anterior ahora como entrada tenemos "wasiykiman" #echo "wasiykiman" | hfst-lookupqve-es.automorf.hfst se tiene en la salida wasiykiman:

wasi<n><px2sg><dat>, wasi ya sabemos que es la raíz que pertence a la categoría nombre, <px2sg> indica que el sufijo "yki" pertenece a la categoría posesivo segunda persona singular, finalmente <dat> refiere al sufijo "man" que pertence a la categoría dativoilativo. Más sufijos sobre sufijos como entrada "wasiykimanta" #echo "wasiykimanta" | hfst-lookupqvees. automorf.hfst se tiene como salida wasiykimanta:

wasi<n><px2sg><abl>, a diferencia de lo anterior la etiqueta <abl> indica que

de lo anterior la etiqueta <abl> indica que 64 el sufijo "manta" pertenece a los sufijos
de lo anterior la etiqueta <abl> indica que 64 el sufijo "manta" pertenece a los sufijos
de lo anterior la etiqueta <abl> indica que 64 el sufijo "manta" pertenece a los sufijos
de lo anterior la etiqueta <abl> indica que 64 el sufijo "manta" pertenece a los sufijos

64

de lo anterior la etiqueta <abl> indica que 64 el sufijo "manta" pertenece a los sufijos

el sufijo "manta" pertenece a los sufijos ablativo. Cada vez la palabra puede ser más grande en quechua esta palabra "wasiykikunamanta" tiene sentido #echo "wasiykikunamanta" | hfst-lookupqvees. automorf.hfst como salida se tiene wasiykikunamanta:

wasi<n><px2sg><pl><abl>, visto lo anterior siendo wasi raíz de la palabra, <px2sg> es posesivo segunda persona singular, <pl> plural es decir con respecto a wasi, y finalmente <abl> es ablativo.

Lengua quechua el fundamento lingüístico es similar, las salidas proporcionadas son listas para proporcionar como entrada al siguiente módulo del traductor.

Traducción de palabras y frases cortas de quechua a español Ingresando la palabra "wasi" al sistema para su traducción en la dirección de qve-es quechua a español #echo "wasi" | apertium -d .qve-es se tiene como salida en españo casa. Teniendo la palabra raíz "wasi" se agrega el sufijo "yki" #echo "wasiyki" | apertium -d .qve-es, se tiene como resultado en español tu casa. Aglutinando más sufijos en quechua "wasi+yki+man" #echo "wasiykiman" | apertium -d .qve-es, se tiene la traducción a tu casa. Ingresando sufijos sobre sufijo

#echo

"wasiykimanta" | apertium -d .qve-es, la traducción que da el sistema es de tu casa.

Sucesivamente quechua puede tener más grande las palabras aglutinadas "wasi+yki+kuna+manta" #echo "wasiykikunamanta" | apertium -d .qve- es, como salida en español se tiene la frase de tus casas."wasiykimanta" | apertium -d .qve-es, la traducción que da el sistema es de tu casa. "wasi+yki+manta"

| apertium -d .qve- es, como salida en español se tiene la frase de tus casas.
| apertium -d .qve- es, como salida en español se tiene la frase de tus casas.
| apertium -d .qve- es, como salida en español se tiene la frase de tus casas.
| apertium -d .qve- es, como salida en español se tiene la frase de tus casas.

"wasi+yki+manta"

EL CEPROSIMAD. 2013; 2(1): 57-65

Incubación de sistema de traducción automática español a quechua, basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

Larico Uchamaco G, y cols.

Traducción de palabras y frases cortas de español a quechua De forma analógica en la dirección de es-qveespañolquechua, se ingresa la palabra "casa" #echo "casa" | apertium - d . es-qve, como salida se tiene wasi. En este caso se ingresa la frase corta "esta casa" #echo "esta casa" | apertium - d . es-qve, se obtiene la traducciónen quechua kaywasi. Otra frase desde español a quechua #echo "esta casa nueva" | apertium -d . es-qve, teniendo como salida la traducción kaywasimusuq.

. es-qve, teniendo como salida la traducción kaywasimusuq. CONCLUSIONES Mediante la investigación se ha explorado la
. es-qve, teniendo como salida la traducción kaywasimusuq. CONCLUSIONES Mediante la investigación se ha explorado la
. es-qve, teniendo como salida la traducción kaywasimusuq. CONCLUSIONES Mediante la investigación se ha explorado la

CONCLUSIONES

Mediante la investigación se ha explorado la ingeniería de traducción automática de Apertium, permitiendo incubar un sistema apertium-es-qve, la creación y manipulación de los datos lingüísticos requiere de la intervención de linguistas, la compilación son secuencias del shell de linux automatizable para el makefile.

El sistema traductor automático apertium- es-qve es funcional y se ajustan a la plataforma de código abierto Apertium, aun cuando son divergentes los pares entre los tipos flexiva fusionante (español) y aglutinante (quechua), esto es factible utilizando las herramientas de Helsinki Finite-StateTransducer (HFST) para el analizador morfológico.

Finalmente algunas reglas de transferencia puestas en los datos lingüísticos permiten la traducción de algunas palabras y frases cortas las mismas que prueban la funcionalidad de los dos sistemas incubados que tiene el camino a transformarse como sistema de traducción automática.

AGRADECIMIENTOS

De manera especial a Vlastimil Rataj por su apoyo en la comprensión del LEXC.

A CONCYTEC por su aprobación como proyecto de investigación,

A personas muy especiales que han ayudado con su sabiduría y experiencia plasmar muchas de sus ideas en esta obra.

REFERENCIAS BIBLIOGRÁFICAS

Annete Rios, S., Göhring A. & Martin Wokl A. (2009). “Quechua-Spanish Parallel Treebank". Linguistic Issues in Language Technology. University of Zurich. Recuperado de: http://dx.doi.

org/10.5167/uzh-20593

Annete Rios, S. (2011). Checking an agglutinative language: Quechua". Linguistic Issues in Language Technology. University of Zurich. Recuperado de: http://dx.doi.

org/10.5167/uzh-52921

Armentano-Oller, C., Corbí-Bellot, A. M., Forcada, M. L., Ginestí-Rosell, M. Montava Belda, M. A., Ortiz-Rojas, S. et al. (2007). "Apertium, una plataforma de código abierto para el desarrollo de sistemas de traducción automática". Proceedings of the floss international conference, 2007, pages 5-20, Universitatd’ Alacant. Recuperado de: http://transducens. dlsi.ua.es Cerrón, Palomino, (2000). Rodolfo. Lingüística Aimara. Lima. Kenneth, R. Beesly y LauriKarttunen.Finite- (2002). State Morphology Xerox Tools and Techniques. Recuperado de:

https://victorio.uit.no/langtech/tags/Ro

ot-of-gt-UTF-8-conversion/gt/doc/

book.pdf_1.pdf

Rusell, Stuart y Norvig, Meter. (2004) "Inteligencia Artificial un Enfoque Moderno", Segunda Edición, Madrid. Universidad Andina Néstor Cáceres Velásquez. (2003). Morfología contrastiva Quechua / Aymara / Castellano. Escuela de Postgrado. Segunda Especialización en Educación Bilingüe Intercultural. Juliaca, Perú.

65