Está en la página 1de 66

Universidad Politécnica

de Madrid

Escuela Técnica Superior de

Ingenieros Informáticos

Grado en Ingeniería Informática

Trabajo Fin de Grado

Desarrollo de un Generador de Lenguaje


Natural para Simular la Evolución del
Lenguaje

Autor: Kévin Alberto López Porcheron

Tutor(a): Elena Montiel Ponsoda

Madrid, Junio 2022


Este Trabajo Fin de Grado se ha depositado en la ETSI Informáticos de la
Universidad Politécnica de Madrid para su defensa.

Trabajo Fin de Grado


Grado en Ingeniería Informática
Título: Desarrollo de un Generador de Lenguaje Natural para Simular la
Evolución del Lenguaje
Junio 2022

Autor: Kévin Alberto López Porcheron

Tutor: Elena Montiel Ponsoda


Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología
ETSI Informáticos
Universidad Politécnica de Madrid
Resumen
Las lenguas construidas o planificadas, también conocidos como
conlangs, son idiomas diseñados artificialmente por personas con variedad de
propósitos, como es el caso del esperanto. El impacto de los conlangs se extiende
particularmente a las áreas literarias y artísticas, donde autores como J. R. R.
Tolkien han dotado de vida a sus obras de literatura fantástica mediante el uso
cuidadoso de idiomas planificados como el Quenya, y que junto a sagas
televisivas como Star Trek han creado un culto de aficionados alrededor del
élfico y el klingon. Esta popularidad ha llevado a invertir en la creación de
conlangs a directores de cine como James Cameron o empresas como HBO para
hacer más interesantes sus producciones audiovisuales, y su éxito también se
ha extendido a otras áreas del ocio, como los videojuegos o los juegos de mesa.
Además, agencias estatales como la Comisión para el Enriquecimiento de la
Lengua Francesa construyen artificialmente nuevas palabras para evitar la
invasión lingüística y para asegurarse de que los idiomas se adapten a las
necesidades actuales. En base al incremento de popularidad de este sector, este
proyecto establece una metodología computacional para automatizar y agilizar
ciertas partes del proceso de creación de lenguas artificiales con un enfoque
realista, pretendiendo simular el proceso evolutivo del lenguaje natural para
generar nuevas lenguas artificiales realistas de acuerdo a una serie de
parámetros especificados y explorar las potenciales trayectorias que pueda
seguir una lengua cualquiera, con particular énfasis en el apartado fonético.

i
Abstract
Constructed languages, also known as Conlangs, are languages carefully
designed by people for a variety of purposes, like Esperanto. They have
particularly impacted literatura and art, where authors like J. R. R. Tolkien have
used them to bring life to their fantasy works with carefully devised languages
such as Quenya which, alongside television sagas like Star Trek, have created
an enormous fanbase around elvish and Klingon. This popularity has paved the
way for directors like James Cameron and companies such as HBO to invest in
the creation of new conlangs to make their productions more interesting. This
success has also extended to other áreas, such as videogames and tabletop
games. Furthermore, state agencies such as the French Language Enrichment
Commission are specifically tasked with the duty to create new words to prevent
excessive external linguistic influence. In response to this popularity increase
in conlanging, this Project proposes a computational approach to automatize
and speed up the process of realistic language creation. To do so, it emulates
the evolutionary process of a natural language, allowing the creation of new
realistic conlangs according to a series of parameters. Lastly, the method
exposed allows investigating the potential evolution of a language, with an
emphasis on phonology and phonetics.

ii
Tabla de contenidos
1 Introducción ......................................................................................1
2 Investigación Previa ..........................................................................3
2.1 Estado del Arte ................................................................................... 3
2.1.1 GPTn............................................................................................ 3
2.1.2 This Word Does Not Exist............................................................. 3
2.1.3 Onset! .......................................................................................... 5
2.1.4 Language Evolution Simulation de whzup .................................... 5
2.1.5 Librería Fasttext de Meta y ketchum de mewo2............................ 6
2.2 Trasfondo Lingüístico Necesario ......................................................... 7
2.2.1 Relatividad Lingüística o Hipótesis Sapir-Whorf ........................... 7
2.2.2 Origen y Evolución del Lenguaje .................................................. 8
2.2.2.1 Estructuralismo ........................................................................ 8
2.2.2.2 Lingüística Evolutiva o Darwinista ............................................ 8
2.2.2.3 Lingüística Cognitiva y las Teorías de Chomsky. Programa
Minimalista ........................................................................................... 9
2.2.2.4 Lengua Proto-Humana ............................................................ 11
2.2.2.5 Modelos de Diversificación del Lenguaje. Árboles Filogenéticos.
13
2.2.2.6 Modelo o Teoría de Ondas o Wellentheorie y Difusión Lingüística.
Sprachbund ........................................................................................ 15
2.2.2.7 Tendencias en la Evolución del Lenguaje ................................ 16
2.2.3 Fonética y Fonología .................................................................. 16
2.2.3.1 Alfabeto Fonético Internacional ............................................... 17
2.2.3.2 Index Diachronica ................................................................... 21
2.2.3.3 Index Phonemica .................................................................... 21
3 Diseño .............................................................................................23
3.1 Requisitos ........................................................................................ 23
3.2 Limitaciones ..................................................................................... 23
3.3 Decisiones Tecnológicas ................................................................... 23
4 Desarrollo ........................................................................................25
4.1 Dificultades Encontradas ................................................................. 25
4.2 Implementación ................................................................................ 26
4.2.1 Fichero de Entrada de Palabras: Formato CSV ........................... 26
4.2.2 Formato JSON ........................................................................... 26
4.2.3 Algoritmo Evolutivo .................................................................... 29
5 Resultados y Conclusiones ...............................................................31
5.1 Líneas Futuras de Desarrollo ........................................................... 31
5.2 Conclusión ....................................................................................... 31

iii
6 Análisis de Impacto .........................................................................33
7 Bibliografía ......................................................................................34
8 Anexo ..............................................................................................40
8.1 Entrada y Salida de Onset! ............................................................... 40
8.2 Fichero de Entrada de Inglés (ingles.csv) .......................................... 45
8.3 Fichero de Entrada de Configuración (setup.json) ............................ 48
8.4 Resultados (tras una inyección de 5 palabras en español después de 50
épocas) ...................................................................................................... 55

iv
1 Introducción
El lenguaje es una de las principales herramientas a disposición del ser
humano para sobrevivir. A pesar de no ser una herramienta física o un arma
para cazar o defenderse, le permite coordinarse con los demás miembros de la
especie de una forma consistente para lograr unos objetivos concretos. Como es
de esperar, de la misma forma que las herramientas y armas han sido
mejoradas y optimizadas según avanzaban los siglos, el lenguaje, que la Real
Academia Española establece como “facultad del ser humano de expresarse y
comunicarse con los demás a través del sonido articulado o de otros sistemas
de signos”, también ha evolucionado. Más allá de los idiomas hablados existen
lenguajes de signos, sistemas logográficos, e ideogramas que se han adaptado
a los tiempos como los emoticonos.

La combinación de todos estos sistemas habilita una comunicación más


rápida, efectiva y flexible que se aplica a una miríada de cuestiones del día a día
como la señalización de tráfico, que intentamos mejorar para que sea más
efectiva y nos permita evitar accidentes innecesarios. Sin embargo, por muy
útiles que estos sistemas puedan llegar a ser, el impacto del conflicto humano
y, más recientemente, la globalización, no pueden ser descartados. Existen más
de siete mil idiomas hablados en el mundo, pero mientras que el cuarenta por
ciento se encuentra en peligro de extinción, más de la mitad de la población
mundial se comunica activamente en solo veintitrés de ellos.

La pérdida del lenguaje es un problema de gran importancia según la teoría


de relatividad lingüística, en la que se sugiere que el uso del lenguaje afecta a
nuestras capacidades de pensamiento y decisión, y por lo tanto se debe intentar
evitar todo lo posible. Por ello, gobiernos y organismos han creado agencias,
como la Comisión para el Enriquecimiento de la Lengua Francesa, para
preservar sus idiomas, cuya misión es “crear nuevos términos y expresiones
para rellenar los huecos en nuestro [de los francófonos] vocabulario y para
designar en francés los conceptos y realidades que aparecen en otros idiomas.”

A pesar de esto, las lenguas construidas como el esperanto tienden a no


recibir gran aceptación, y la extensión artificial del vocabulario de un idioma
tampoco suele ser demasiado popular, solo siendo parcialmente capaces de
cumplir sus objetivos y proteger un idioma de lenguas invasoras. Por estos
motivos, además de tratarse de un proceso largo y complejo, se debe tener en
cuenta la evolución del lenguaje natural para poder crear palabras que encajen.
A este fin, se plantea una recopilación del estado actual en lo referente a la
evolución del lenguaje natural para obtener ideas que permitan implementar un
sistema informático que use los nuevos avances en inteligencia artificial,
lingüística y matemáticas para acelerar este proceso, con un énfasis en la
exploración de la evolución de los idiomas.

1
Para realizar con éxito este proyecto, es crucial saber qué herramientas se
han desarrollado y cómo se han implementado; pero también es necesario
profundizar en el ámbito teórico y académico de la lingüística, y en particular
de la evolución del lenguaje. Por ello, se separará esta sección de “Estado del
Arte” en dos partes: la primera tratará las tecnologías computacionales
desarrolladas y su implementación técnica, mientras que la segunda se centrará
en el estado actual de la investigación de la evolución del lenguaje natural en el
ámbito académico. Posteriormente, se establecerá una serie de definiciones,
conceptos básicos y explicaciones para los mismos que serán fundamentales
para el adecuado seguimiento del texto, y se expondrán una serie de ejemplos
del funcionamiento esperado del sistema a diseñar.

Finalmente, se propondrá una metodología computacional para la


generación del lenguaje, que permita explorar la evolución del lenguaje de forma
realista de acuerdo con una serie de parámetros, que agilice la labor de un
creador de lenguas artificiales o conlanger y que permita explorar las potenciales
trayectorias que pueda seguir una lengua cualquiera, al menos desde un punto
de vista fonético.

2
2 Investigación Previa
Antes de comenzar a desarrollar y determinar el proyecto, se deben explorar
tanto el apartado académico de la lingüística y de la evolución del lenguaje como
el estado del arte tecnológico para determinar las necesidades del sector y como
mejor satisfacerlas.

2.1 Estado del Arte


2.1.1 GPTn

Los Generative Pre-Trained Transformer, entre los que cabe destacar


GPT-2 y GPT-3[1], son modelos de inteligencia artificial creados por la compañía
OpenAI y cuya API está abierta al uso de todos bajo una licencia MIT modificada.
Se trata de un modelo de propósito general que implementa un transformador
de parámetros – un tipo de red neuronal profunda – y principalmente se aplica
a labores de lingüística computacional, como la creación de conversaciones. Su
principal característica innovadora es la implementación del concepto de
atención, que como transformador utiliza para determinar qué parte del texto
de entrada es importante y aumentarla, descartando el resto. Se tratan de
algunos de los modelos más populares.

Aplicación de GPT-2 para que genere texto acerca de GPT-2.


Imagen Publicada en Wikipedia bajo la Licencia Apache 2.0

2.1.2 This Word Does Not Exist

Esta herramienta ofrece la generación de nuevas palabras, pronunciaciones y


definiciones al estilo de cualquier diccionario. Si bien ninguna de estas palabras
existe, la mayoría son realistas y creíbles.

3
Imagotipo de thisworddoesnotexist.com

Demostración del Funcionamiento de thisworddoesnotexist.com

ThisWordDoesNotExist es un proyecto de código abierto hospedado en


Github que implementa el modelo GPT-2, entrenando una variante de este para
especializarlo en la generación de entradas de diccionario. Su entrenamiento se
ha llevado a cabo comprobando entradas del diccionario disponible en Apple y
UrbanDictionary [2], un diccionario colaborativo para palabras y frases vulgares.
Esta plataforma pone a disposición de los usuarios dos alternativas de
uso. La alternativa más conocida es su página web, que no requiere ningún
conocimiento de programación previo. Para los usuarios más expertos, se
encuentra disponible bajo la licencia MIT en la plataforma GitHub tanto el
código fuente como los modelos previamente entrenados, por lo que cualquier
persona podría utilizar esta tecnología y usarla en sus propios proyectos.

4
2.1.3 Onset!

Esta herramienta ofrece la evolución de palabras siguiendo un proceso


fonológico realista, implementando distintas reglas fonológicas. Cualquier
persona puede introducir una lista de palabras siempre y cuando esté escrita
en el formato especificado por el Alfabeto Fonético Internacional. Este proyecto
además tiene varias opciones que el usuario puede cambiar tanto para alterar
las reglas a usar como para las generaciones y las transcripciones a utilizar.

Ejemplo del Funcionamiento de la Plataforma

Se han realizado pruebas usando un conjunto de palabras populares en alemán


y su correspondiente traducción en inglés. Se puede encontrar tanto el conjunto
utilizado como la salida de Onset! en el anexo. La plataforma en particular
dispone de ciertas carencias, como la imposibilidad de exportar o descargar el
conjunto de salida a un fichero de texto. En cuanto a carencias técnicas, cada
palabra evoluciona individualmente y no parece tener en cuenta el resto del
conjunto, por lo que se concluye que opera de forma lineal y que no soporta
árboles evolutivos y es incapaz de aumentar el conjunto con más palabras
adicionales.

2.1.4 Language Evolution Simulation de whzup

Se trata de una herramienta desarrollada en Java y Processing que simula


mediante un modelo basado en agentes la interacción entre diversas sociedades
cuyo lenguaje está constantemente en evolución. [3]

5
A pesar de estar constantemente en evolución, el proyecto carece de
realismo: se basa en la combinación de monosílabos para formar palabras,
pero estas no tienen un significado asociado. Cada punto es un agente distinto
que evoluciona de forma separada teniendo en cuenta las formas de la “isla” a
la que pertenece, que estaría representada por los distintos colores del mapa.
Cada punto interactúa entre si basado en proximidad.

2.1.5 Librería Fasttext de Meta y ketchum de mewo2

Fasttext se trata de una librería de código abierto creada por el grupo


FacebookResearch de Meta que, mediante vectores de palabras es capaz de
agrupar palabras de acuerdo con su similitud de significado y uso.[4]
Por otro lado, ketchum es una herramienta desarrollada en Python que genera
un grupo de palabras similares a una entrada. Para hacer esto, implementa una
serie de llamadas a fasttext. [5]

6
Uso de Ketchum según su propio creador en su página de Github [5]

Con relación a este proyecto, ambas pueden ser utilizadas para dotar de
significado a las palabras, o al menos agruparlas en cuanto a similitud, ya que
esto podría tener bastante impacto en la evolución del lenguaje.

2.2 Trasfondo Lingüístico Necesario

Debido a la naturaleza lingüística del proyecto, siendo esta un área científica no


explorada en la titulación, se debe proporcionar un trasfondo teórico de las
partes de la Lingüística más aplicables al desarrollo del proyecto.

2.2.1 Relatividad Lingüística o Hipótesis Sapir-Whorf

El concepto del determinismo lingüístico emana de la hipótesis de Sapir-Whorf,


donde se establece el concepto de que el lenguaje natural y sus estructuras
tienen un efecto en la capacidad cognitiva de los humanos, sugiriendo una
alteración de la percepción del mundo y del pensamiento de un individuo.
Dentro de esta teoría, existen dos ramas [6]:
x Determinismo Lingüístico o Relatividad Fuerte: el lenguaje determina el
procedimiento cognitivo y el pensamiento.
x Relatividad débil: el lenguaje afecta al pensamiento, las decisiones y la
perspectiva, pero no lo determina.

7
En el trascurso del proyecto se tomará como referencia la idea de la relatividad
o hipótesis débil, debido a varios factores:
x La relatividad fuerte ya no tiene mucho apoyo en la comunidad
académica y se cree que es mayormente falsa. [7]
x Se han obtenido algunas pruebas empíricas acerca de una posible
relación entre el lenguaje y el pensamiento, las decisiones y la
perspectiva de un ser humano.[8]

2.2.2 Origen y Evolución del Lenguaje

La evolución del lenguaje es área controversial. Pese a haber desarrollado


mucho nuestros conocimientos sobre la evolución biológica de los seres vivos,
sabemos bastante poco en comparación acerca de la evolución social de los
seres humanos, de su psicología y de los complejos sistemas lingüísticos que se
han desarrollado y su motivo de ser [9]. Dada la amplitud del concepto de
lenguaje, es indiscutible que la propia evolución de la especie ha afectado a su
desarrollo, ya que ciertos cambios anatómicos como el tracto vocal han
habilitado nuevos modos de lenguaje como el habla. [10]
Debido a la falta de pruebas empíricas con las que comprobar cuándo y
cómo un lenguaje surge, una de las partes más controvertidas de la evolución
del lenguaje es su propio origen. Esta ausencia de pruebas empíricas y las
abundantes discusiones al respecto causaron que en el siglo XIX la Sociedad de
Lingüística de Paris prohibiese su discusión, pero esto solo aumenta la
importancia de comprender la evolución del lenguaje para poder entender sus
orígenes y su futuro[11], y es por esto mismo que, a pesar de la dificultad de la
labor en cuestión, existen abundantes teorías acerca del surgimiento y
evolución del lenguaje, todas ellas altamente interdisciplinares. Un factor
importante debido a esto es que no todas las teorías son mutuamente
contradictorias, y también que hay demasiadas teorías como para listar aquí.

2.2.2.1 Estructuralismo

El estructuralismo, si bien generalmente aplicado a la sociología,


antropología y psicología, también tiene su lugar en la lingüística, ya que es una
teoría general de la cultura, definiéndola como algo que emana de un sistema
muy complejo y con muchos factores [12], indicando que los idiomas
potencialmente han influido y sido influidos por las distintas culturas humanas.

2.2.2.2 Lingüística Evolutiva o Darwinista

El enfoque sociobiológico de la evolución y el origen del lenguaje está muy


relacionado con la sociobiología, la psicología y antropología evolutiva, la
lingüística cognitiva y la Biolingüística y busca explorar desde un punto de vista

8
evolutivo el origen y la evolución del lenguaje. [13][14][15] No existen muchas
pruebas empíricas acerca del origen del lenguaje y eso causa ciertos bloqueos y
falta de consenso en el desarrollo científico del campo, dando lugar a muchas
teorías, como la teoría del instinto del lenguaje de Stephen Pinker[16], pero lo
que sí que está claro es que el lenguaje va evolucionando y cambiando con el
paso del tiempo[17]. Históricamente, se ha separado en tres etapas: la etapa de
Darwinismo social, que comenzó como intento de aplicar la teoría de Darwin a
la lingüística [18][19], la etapa del determinismo genético y la etapa del Neo-
Darwinismo. [20]

2.2.2.3 Lingüística Cognitiva y las Teorías de Chomsky. Programa


Minimalista

El enfoque propuesto por Chomsky es el de la gramática generativa, en el


que el lenguaje emana de nuestro cerebro de forma natural e inconsciente, como
parte de nuestra habilidad cognitiva. [21][22] En un sentido similar a Stephen
Pinker, también teoriza la existencia de una gramática universal, y que nuestro
cerebro se ha desarrollado mucho para facilitar el aprendizaje y uso del lenguaje
[23], implicando que todos los idiomas tienen ciertas características comunes
[24]. Esto lo detalla más desde su perspectiva acerca del origen del lenguaje, en
el que indica que el lenguaje es un resultado casi espontáneo que emana de un
desarrollo biológico evolutivo [25]. Una de las ideas de Chomsky más populares
es la de un Programa Minimalista. Publicada por primera vez en 1993 [26],
Chomsky extendió su teoría de la gramática generativa con esta idea para
intentar dar respuesta a dos preguntas:
x ¿Qué es el lenguaje?
x ¿Por qué tiene las propiedades que tiene?

A través de estas preguntas, se plantea la cuestión del diseño del lenguaje,


sobre si es perfecto o no; y si el modelo que usamos para generar nuestros
idiomas es óptimo [27]. Esto implica que la teoría del Programa Minimalista y
de la gramática generativa parte de varias asunciones [28]:
1) El lenguaje es cognitivo e innato del ser humano [29], y, por tanto, interactúa
con todos los demás sistemas cognitivos de una persona a través del Módulo
Lingüístico del cerebro. [30][31]
2) El Lenguaje es un sistema computacional ‫ܥ‬ு௅ por naturaleza cuyo estado
inicial ܵ଴ contiene una serie de principios y parámetros invariables, y que a
lo largo de su proceso evolutivo y subsiguientes estados se han podido ir
activando y desactivando. [32]
3) El proceso de adquisición del lenguaje, es decir, el proceso por el que un
humano aprende un idioma y la capacidad para entenderlo, percibirlo y
utilizarlo, viene dada por la adquisición de un léxico o vocabulario y los
medios para usar esas palabras, determinando la combinación de
parámetros a utilizar.

9
4) El lenguaje genera un conjunto infinito de expresiones dado una dupla ሺߨǡ ߣሻ
de sonido y significado, donde:
a) ߨ representa la forma fonética del lenguaje.
b) ߣ representa la forma lógica, es decir, semántica, del lenguaje.
5) La sintaxis del lenguaje se interpreta completamente en las interfaces
correspondientes computacionalmente, ya sea fonética o semántica, y envía
las instrucciones a los sistemas correspondientes.
6) Algunas características del lenguaje, como los principios y parámetros, así
como la semántica y su correspondiente forma lógica, son invariables.
7) Algunas características del lenguaje son variables, introduciendo cierta
arbitrariedad y aleatoriedad.

Además, el sistema computacional del Programa Minimalista se basa en una


única operación: la operación de Unión o merge. Esta operación consiste en unir,
de forma condicional a las reglas del lenguaje, dos o más unidades sintácticas
en una sola unidad sintáctica.

Una palabra cualquiera puede ser una Unidad Sintáctica. Asimismo, el


resultado de una operación de merge, resulta en otra Unidad Sintáctica. Las
reglas gramáticas del lenguaje pueden establecerse de tal forma que un
determinado tipo de Unidad Sintáctica, como puede ser un verbo, resulta “no
interpretable” para una operación merge si la otra unidad sintáctica es de un
tipo determinado. Por ejemplo, dada la Unidad Sintáctica del verbo “comer” y la
Unidad Sintáctica del adjetivo “guapo” se daría la siguiente situación:
1. Verbo “comer” es “no interpretable” para cualquier operación
merge con un adjetivo.
2. Unidad Sintáctica “guapo” es un adjetivo.
3. Merge(“comer”, “guapo”) no es una operación válida, porque
“guapo” es un adjetivo y “comer” no acepta adjetivos.

Asimismo, en 2001 Chomsky introduce el concepto de Minimalismo


fuerte [33], en la que se introduce un concepto de economía de derivación del
lenguaje ya desarrollado paralelamente con anterioridad. En este caso, se
plantea que las transformaciones ocurren únicamente si estas son
estrictamente necesarias, es decir, que el lenguaje solo tiende a cambiar si esto
10
es necesario para mejorarse, siendo más óptimo en el sentido computacional
[34]. Además, indirectamente, crea un tipo de operación merge denominada
merge interno, que pasa a conocerse como la operación move [35][36], como
parte del Principio de Proyección Extendida y su aplicación a esta teoría
extendida [37], principalmente para casos en los que una unidad sintáctica es
“no interpretable” para una operación merge. Un ejemplo sería la siguiente
sentencia en inglés en la que, debido al movimiento de “the girl”, ya que sin esto
se daría un error gramático.

Imagen por Ssavallia, usuario de Wikimedia. [38]

Desde entonces, se ha seguido desarrollando esta teoría y extendido con


las operaciones de label[39] y agree [40].

2.2.2.4 Lengua Proto-Humana

Dentro de varias teorías, se establece la posibilidad de que haya existido


un lenguaje inicial del que emanan todos los demás [41][42]. Sin embargo,
debido a lo inmensamente controversial que es esta idea [43], queda
mayoritariamente fuera del ámbito de análisis general de la lingüística histórica,
rama en la que se estudian los cambios y evolución de las lenguas a lo largo de
la historia [44], pero esto no implica que no se haya investigado, habiendo varios
estudios al respecto [45].
Algunos de los estudios indican cambios sustanciales entre esta lengua
y los lenguajes modernos, como un sistema increíblemente complejo de
consonantes y la potencial presencia de “clicks” [46]. Se indican que,
potencialmente, tendría un orden de Sujeto-Objeto-Verbo [47] y que tendría que
exhibir el concepto de gramática, definido como secuencia fija de elementos
lingüísticos, y recursión [48].
Con relación a su vocabulario, se trata de una lengua desarrollada a
partir de otras protolenguas [49] y por lo tanto altamente hipotético, pero
Murray Gell-Man y Merrit Ruhlen llegan a las siguientes conclusiones: [50]

11
aja ‘mother, older female relative’
bu(n)ka ‘knee, to bend’
bur ‘ashes, dust’
čun(g)a ‘nose; to smell’
kama ‘hold (in the hand)’
kano ‘arm’
kati ‘bone’
k’olo ‘hole’
kuan ‘dog’
ku(n) ‘who?’
kuna ‘woman’
mako ‘child’
maliq’a ‘to suck(le), nurse; breast’
mana ‘to stay (in a place)’
mano ‘man’
mena ‘to think (about)’
mi(n) ‘what?’
pal ‘two’
par ‘to fly’
poko ‘arm’
puti ‘vulva’
teku ‘leg, foot’
tik ‘finger; one’
tika ‘earth’
tsaku ‘leg, foot’
tsuma ‘hair’
ʔaq’wa ‘water’

Si bien este desarrollo no es particularmente relevante, ya que como se


ha dicho se trata de algo muy hipotético, sí que es interesante de cara a explorar
la posible trayectoria evolutiva del lenguaje: como se puede ver, la palabra
“ʔaq’wa” significa agua, y mantiene un gran parecido con muchas de las lenguas
actuales.

12
2.2.2.5 Modelos de Diversificación del Lenguaje. Árboles Filogenéticos.

De la misma forma que en la biología y la evolución es común separar las


especies en clase, orden, familia, … y representar estas relaciones con árboles
filogenéticos, como pueden ser las cladogramas o los taxones, también se ha
determinado apropiado utilizar esta estructura para mostrar las hipotéticas
relaciones entre idiomas y lenguas, que a pesar de no ser el único medio para
hacerlo, si son el medio más común de representación [51].

Árbol Filogenético en Lenguas Afroasiáticas Antiguas [52]

Estos árboles permiten ver con facilidad las supuestas relaciones


familiares entre los distintos idiomas. Según Ethonologue, plataforma de
investigación sobre los idiomas administrada por SIL International, existen más
de 7,000 idiomas. [53]

Mapa de los Idiomas Activos en el Mundo según Ethnologue. [53]

13
Otro dato importante al tener en cuenta en la evolución del lenguaje
natural es que es un proceso que lleva tiempo, aunque parece que la mejoría de
medios de transporte, así como la globalización, aceleran considerablemente
este proceso y la mayoría de los hablantes mundiales se concentran en unos
pocos idiomas [54]. Se puede tomar por ejemplo el siguiente gráfico que denota
la evolución de ochenta y siete lenguas indoeuropeas a lo largo de los últimos
milenios y en el que se puede ver las épocas estimadas en las que se han ido
separando los distintos idiomas [55].

Árbol Filogenético indicando la evolución de 87 lenguas europeas con relación


al tiempo [55]
Uno de los problemas de este tipo de representación es que no permite
explicar de una forma adecuada ciertos rasgos comunes que varios idiomas
aparentemente no relacionados entre sí puedan tener en común.

14
2.2.2.6 Modelo o Teoría de Ondas o Wellentheorie y Difusión Lingüística.
Sprachbund

La teoría de ondas es un modelo del cambio lingüístico en el que un nuevo


rasgo del lenguaje se propaga a otros lenguajes o áreas, causando una difusión
en onda a lo largo del tiempo, similar a como una onda se propagaría [56]. Esta
teoría busca modelar la evolución lingüística a través de un modelo alternativo
al de los árboles filogenéticos, ya que esta no es capaz de proporcionar toda la
información, por lo que este modelo ha ido ganando popularidad [57].

“Glottometric map of the Oceanic languages of North Vanuatu” por Kalyan et


al. [58]
Entre otros conceptos relacionados con este modelo se encuentra el
concepto de Sprachbund, un área de convergencia lingüística, en el que un
grupo de lenguajes comparten ciertos rasgos lingüísticos a pesar de no estar
relacionados entre sí debido a varios efectos como la proximidad geográfica y el
contacto lingüístico debido a migraciones u otras situaciones. Para considerarse
un Sprachbund, esta similitud puede ser genética, pero debe ser lejana, pero a
pesar de ello, puede provocar una similitud que falsamente de la sensación de
cercanía [59].
En particular, un Sprachbund exhibe características comunes en las
siguientes áreas [60]:
x Sintaxis
x Estructura Morfológica
x Vocabulario
x Fonética
15
Esto implica que se puede simular con cierto realismo el impacto de otras
lenguas en una misma para generar un lenguaje diferente [61], y por lo tanto, a
lo largo de este proyecto, se explorará la generación de lenguaje y el resultado
de interactuar con otras, con énfasis en el apartado fonético y en el vocabulario.

2.2.2.7 Tendencias en la Evolución del Lenguaje

Existen numerosas tendencias en la evolución del lenguaje que son


particularmente relevantes para el proyecto en cuestión. Una tendencia
relevante es el aumento del tiempo por el cual una palabra es popular,
demostrando que la globalización, con cuestiones como el internet y las redes
sociales ha causado un aumento de la duración del uso de ciertas palabras [62].

Adicionalmente, otra tendencia muy relevante es la tendencia a la


simplificación, que se puede ver en muchos casos en los que haya un elevado
grado de contacto lingüístico [63]. Por último, resulta clave mencionar que es
mucho más probable que aquellas palabras menos utilizadas exhiban
mutaciones [64].

2.2.3 Fonética y Fonología

La fonética es la rama de la lingüística dedicada a estudiar el sonido que


hacemos los humanos y como lo percibimos para entender un lenguaje [65]
Generalmente, se divide en tres áreas:
x Fonética Articulatoria: estudia como la articulación afecta a los sonidos
que producimos.
x Fonética Acústica: estudia como las ondas afectan a los sonidos que
producimos.
x Fonética Auditiva: estudia como percibimos y entendemos los sonidos.

16
Adicionalmente, la fonética está muy relacionada con la rama de la fonología,
que estudia la distribución y estado de los sonidos en el lenguaje. Entre otras
cosas, esta última está más relacionada con el análisis lingüístico, ya que
también estudia las diferencias fonéticas entre distintos dialectos o la evolución
de los propios idiomas [66]. Dentro de la fonética y la fonología, se establecen
ciertos conceptos de gran importancia:
x Fono: segmento de características acústicas particulares y de duración
típica. [67]
x Fonema: La unidad más básica de la fonología y que representa un
sonido particular que habilita la diferenciación entre palabras.
x Alófonos: Conjunto de fonos que se pueden usar para pronunciar un
mismo fonema.

Para clarificar, la diferencia entre un fono y un fonema es que cambiar un


fonema por otro alteraría completamente el significado de la palabra, mientras
que en un fono no importa si este cambio es crítico para mantener la integridad
del significado de la palabra. Por ejemplo, en Castellano se podría establecer el
siguiente ejemplo:

Ejemplo de Palabra Fono Fonema


[doˈloɾ] (dolor) d /d/
[ˈnaða] (nada) ð /d/

En este caso, el fonema se conserva, aunque el fono utilizado pueda ser


distinto, dando lugar a un alófono. Por lo general, este cambio es muy sutil,
resultando en el hecho de que la mayoría de los hablantes no se percatan de las
variaciones alofónicas de sus respectivas lenguas [68][69].

2.2.3.1 Alfabeto Fonético Internacional

Dada las diferencias que existen entre el significado de las distintas letras,
y la falta de sonidos comunes en distintos idiomas, resultaba necesaria la
creación de un alfabeto común para que cualquier persona pueda especificar a
qué sonido se refiere, y de esta forma surge el Alfabeto Fonético Internacional,
que fue creado por la International Phonetics Association en el Siglo XIX y
continúa administrándolo y actualizándolo en la actualidad. [70]

17
Alfabeto Fonético Internacional de la International Phonetic Association [70]
Esta herramienta es única y extremadamente popular entre una variedad
de personas, incluidos estudiantes y profesores de lenguas, lingüistas, doctores
que busquen identificar problemáticas en la voz y el habla, cantantes que
procuren acentuar o adaptar su canto a las necesidades melódicas e incluso
actores que busquen adaptar sus acentos [71] [72].

18
Además, si bien la herramienta contiene todo lo necesario para el habla
común en cualquier idioma, también contiene una extensión para lo que la
Asociación Internacional de Fonética denomina “Habla Desordenada”, que
incluye otros sonidos como expresiones del habla no relacionadas con el
lenguaje común [71].

19
Extensión al Alfabeto Fonético Internacional por la International Phonetic
Association [70]
Sin embargo, esta última sección no será utilizada en el proyecto, ya que
se centra exclusivamente en el uso y evolución de lenguaje natural predefinido.
20
2.2.3.2 Index Diachronica

El Index Diachronica [73] es una compilación amateur debidamente


citada en la que se recopilan la mayoría de los cambios históricos conocidos
sobre la fonética de los idiomas, en un orden cronológico y desde las
protolenguas a los idiomas modernos que conocemos. Esta herramienta es
crucial en el desarrollo del proyecto, ya que sin esta compilación sería muy
complicado elaborar un sistema realista para la evolución del lenguaje. A
continuación, se muestran algunos ejemplos de su contenido:

Evolución Fonológico de lenguas Afroasiáticas. Ej. del Index Diachronica [73]

2.2.3.3 Index Phonemica

Similar al Index Diachronica, el Index Phonemica [74] esta herramienta


encuentra la composición fonémica de lenguajes particulares. Igual que la
anterior recopilación, también dispone de fuentes académicas que consultar, y
permite la búsqueda más interactiva de los datos. A continuación, se muestra
un ejemplo de su funcionamiento:

21
Estructura Fonológica y Alfabeto Fonético de Abkhaz. Ej. De uso del Index
Fonémica. [74]

22
3 Diseño
3.1 Requisitos

Una vez establecidos los conocimientos requeridos e investigado


adecuadamente el campo para el que se pretende desarrollar el sistema, se
deben establecer una serie de requisitos:
x Debe ser capaz de emular el proceso evolutivo de un idioma de acuerdo
con las teorías previamente mencionadas.
x Debe ser un proceso realista que, para maximizar su realismo, debe
tener en cuenta la filogenia del lenguaje y la migración y contacto
lingüístico [75].
o Por ello, debe poseer algún componente que emulen estos
procesos.
x Debe ser capaz de generar nuevas palabras.

3.2 Limitaciones

Dado que es un área muy extensa, y que permite muchas opciones, el


proyecto se ve obligado a delimitar su alcance o scope. Las limitaciones o
constraints del proyecto, sin perjuicio a lograr sus objetivos establecidos en los
requisitos, son los siguientes:
x No se desarrollará una interfaz de usuario.
x No se dotará de significado a las palabras generadas.
x La evolución será puramente fonológica.
o No se tendrá en cuenta la gramática ni las reglas gramáticas.
x Se limitará el estudio a conjuntos de palabras procedentes del inglés y
el castellano.

3.3 Decisiones Tecnológicas


Se han tomado las siguientes decisiones con relación al desarrollo de la
herramienta:
x Se ha decidido que Python, por su sencillez y su inmensa cantidad de
librerías y gran comunidad, era una buena elección como lenguaje de
desarrollo.
x Debido a la carencia de una interfaz de usuario, resultaba necesario que
los archivos de almacenamiento de datos fuesen legibles por personas, y
por ello se ha tomado la decisión de usar la estructura JSON.
x Se ha decidido utilizar algoritmos genéticos debido a varios factores:
o Son sencillos pero capaces de resolver un problema por
minimización
o Permiten ver todas las etapas de la evolución del lenguaje
23
o Sigue un proceso que emula la evolución biológica, y en base a las
teorías de Biolingüística exploradas, se ha considerado que esto
era adecuado.

24
4 Desarrollo
4.1 Dificultades Encontradas

Más allá de la inmensa cantidad de investigación necesaria para poder llevar


a cabo el desarrollo de este generador de lenguaje natural, la mayor dificultad
residía en hacerlo realista. Por un lado, había que definir qué constituía el
realismo, ya que los resultados del proyecto son extremadamente subjetivos y
cualitativos. Para poder determinar esto, había que establecer una métrica, y
esto resulta inmensamente complicado, ya que, si bien se puede intentar
cuantificar la calidad de los resultados obtenidos, esto serían meramente
indicativos y no tendrían por sí mismos ningún valor. Algunos de los datos que
podrían indicar la calidad de los datos son los siguientes:
x Frecuencia de las mutaciones resultantes. Es decir, comparar las
mutaciones que han ocurrido con su frecuencia histórica.
Lamentablemente esto solo indica como de probable un resultado sería
en la realidad de acuerdo a las mutaciones existentes, pero al final
sería como comparar el realismo de una lengua como el Castellano con
otra como el Urdu en base a su histórico de cambios fonológicos.

Además, a lo largo del desarrollo se han encontrado algunos problemas


técnicos adicionales:
x Determinar los pesos de las mutaciones. Algunas mutaciones, como
por ejemplo pasar de un fono d a un fono ð, ambos pertenecientes a un
mismo fonema /d/ tiene un peso asignado en base a su frecuencia. Sin
embargo, la operación inversa, pasar de ð a d tiene otro distinto. Dado
que los algoritmos evolutivos en este caso buscaban minimizar, se
podía dar el caso de estar en un bucle infinito entre estas dos
mutaciones, resultando en una reducción infinita y minimización
absoluta para nada realista. Para resolver esto, hay que asegurarse de
que una vez se aplica una mutación por primera vez, su inversa recibe
un peso equivalente negativo, de tal forma que aplicar y desaplicar la
mutación carece de efecto en el fitness general.
x No se dispone de una base de datos con las mutaciones históricas. Es
decir, había que hacer parsing de las evoluciones fonológicas del Index
Diachronica. A este fin, se tuvo que desarrollar un Scrapper propio que
obtuviese todas las mutaciones.
o Además, no todas las mutaciones usaban exactamente la misma
notación, por lo que hubo que adaptarlas a mano para poder
clasificarlas y utilizarlas.
o Posteriormente, se tuvo que automatizar el proceso de
conversión de estas mutaciones al formato JSON desarrollado.

25
4.2 Implementación
4.2.1 Fichero de Entrada de Palabras: Formato CSV

Para su adecuado funcionamiento, la herramienta requiere un fichero


CSV que contenga la información del conjunto de palabras inicial que se va a
utilizar. Asimismo, requerirá otro fichero CSV para cualquier otro idioma y
conjunto de palabras que se vaya a “inyectar” en el proceso evolutivo. Se ha
seleccionado el formato CSV porque cualquier usuario puede generarlo con
facilidad mediante herramientas de ofimática básicas o incluso descargándolos
de internet en conjuntos prediseñados. El formato es el siguiente:
Palabra1
Palabra2
Palabra3
Palabra4
Un dato importante es que, si bien el sistema desarrollado es lingüísticamente
agnóstico, cualquier entrada debe estar en formato IPA, es decir, conformarse
al alfabeto fonético internacional. Se puede encontrar una entrada completa de
ejemplo en el anexo.

4.2.2 Formato JSON

Dada la carencia de una interfaz de usuario, resultaba imperativo


garantizar la legibilidad de todos los datos a los que el programa tenía acceso.
Este fichero además debía contener la siguiente información:
1. Debe especificar todos los posibles fonemas y alófonos disponibles en el
lenguaje en su inicio.
2. Debe indicar el fichero CSV que contenga los datos del conjunto de
palabras inicial.
3. Debe permitir la configuración de todas las mutaciones, así como el
listado de mutaciones permitido
4. Debe permitir la configuración de la inyección de otros conjuntos de
palabras para simular el contacto lingüístico, así como el ratio o
velocidad de la misma.
5. Debe especificar la duración en épocas del proceso evolutivo, así como
permitir configurar de algún modo el ratio o velocidad de evolución.
En base a estos requisitos, se ha llegado al siguiente esquema JSON (el
esquema en cuestión está comentado para facilitar el entendimiento y un
ejemplo funcional completo se encuentra en el anexo):
{

"data": [

26
{

"epoch": 0, // Initial dataset introduction must be at epoch 0

"introduction": 1, // Initial dataset does not need to be immediate

"file": "language_datasets/german.csv", // File

"limit": 50 // Words to use from the dataset (0 = entire dataset)

},

"epoch": 15,

"introduction": 10, // Number of epochs it takes to introduce the new


population, 0 = random, 1 = immediate, N = amount of epochs ( Words per epoch =
total_words / N (rounded Up))

"file": "language_datasets/icelandic.csv",

"limit": 10

],

"epochs": 100, // How many iterations should be done

"mutations": [ // List of mutation rules, generally from an evolutionary perspective


they are things that make the language easier to speak

// @INFO: THE SUM OF PROBABILITIES FOR ALL MUTATIONS MUST BE 1 OR LESS.

"name": "sample1",

"probability": 0.1,

"conditions": [

"initial": { // Initial Condition that must be met

"union": "any", // Any of the following types, can be "or",


"and", "nor", "xor", etc

"types": [

"vowel", // Any vowel

"labial" // Labial type of sound

},

"then": [ // Further conditions that have to be met (in order)

"union": "any", // Any of the following types, can be "or",


"and", "nor", "xor", etc

"types": [

"vowel", // Any vowel

"labial" // Labial type of sound

27
},

"union": "any", // Any of the following types, can be "or",


"and", "nor", "xor", etc

"types": [

"vowel", // Any vowel

"labial" // Labial type of sound

],

"effects": [ // What effect does it have

// SAMPLE: Switch entire phoneme with CH

"operation": "switch", // Any of the following: "switch", "remove",


"add", "phonetic_transform"

"data_type": [

"phoneme" // Operation applies to entire phoneme. Can be a


number (number of chars), "phoneme" (entire phoneme)

],

"transform_op": "shorten", // If applicable

"switch_op": [ // If applicable, to what do we change the phoneme


to?

"ch"

},

"name": "sample2", // LAST_LETTER == LONG_VOWEL -> SHORTEN

"probability": 0.1,

"conditions": [

"initial": { // Initial Condition that must be met

"union": "and", // Any of the following types, can be "or",


"and", "nor", "xor", etc

"types": [

"vowel", // Any vowel

"last_letter", // Is the last letter in word

28
"long" // is a long sound

],

"effects": [ // Shorten long last vowel

"operation": "phonetic_transform", // Any of the following:


"switch", "remove", "phonetic_transform"

"data_type": [

1 // Operation applies to single char

],

"transform_op": "shorten"

4.2.3 Algoritmo Evolutivo

Para empezar el desarrollo, era necesario implementar un algoritmo


evolutivo, en este caso del tipo Genético, altamente modificado para que tenga
sentido en el contexto lingüístico al que se aplica. El algoritmo es así:
1. Lee el fichero de configuración y realiza las modificaciones pertinentes
2. Prepara la población y comprueba que está en un formato IPA válido
3. Realiza las primeras iteraciones del algoritmo y repite hasta llegar al
limite de épocas establecido
a. Evalúa el fitness actual
i. Para ello, se basa en un problema de minimización de la
frecuencia de aparición de las mutaciones y las compara
con la base de datos del Index Diachronica.
b. Selecciona un fono aleatorio de entre todos los disponibles
i. Selecciona una mutación aleatoria aplicable a este fono
particular.
ii. Aplica la mutación a todos los fonos iguales dentro de la
población.
4. Si se incluye en el fichero de setup, se inyecta una cantidad de palabras
proporcional al número de épocas y a la velocidad de inyección.
a. Se repite el punto 3, esta vez con las nuevas palabras incluidas.
Se incluye un ejemplo de salida en el anexo.

29
30
5 Resultados y Conclusiones
5.1 Líneas Futuras de Desarrollo

Si bien se considera que esta herramienta dispone de todas las necesidades


básicas para emular adecuadamente el proceso evolutivo fonológico y fonético
de un idioma, y que por tanto es perfectamente utilizable en su forma actual,
puede ser mejorado considerablemente con más esfuerzo y dedicación. Muchos
de los potenciales desarrollos que se pueden aplicar a este modelo
computacional tienen que ver con tecnologías relativamente modernas. Algunas
posibles líneas de trabajo futuras pueden incluir las siguientes:
x Utilización de Modelos de Inteligencia Artificial avanzados y entrenados
con millones de datos.
o Utilización de fasttext para agrupar palabras en base a
significados y uso.
o Posterior uso de Genetic Adversarial Networks para generar
definiciones de nuevas palabras de forma realista, similar a
ThisWordDoesNotExist.
o Esto tendría la ventaja añadida de que podría implementarse un
análisis de la calidad del lenguaje en base a los significados que
abarcan las nuevas palabras en un contexto determinado.
x Utilización de reglas gramáticas
o Permitiría la evolución gramática paralela a la fonética.
o Debe poder desactivarse para evitar cambios en la gramática.
o Los resultados serían más aun realistas.
o Permitiría tener más parámetros en cuenta en la creación de
palabras.
x Desarrollo de una Interfaz de Usuario

5.2 Conclusión

En base a los resultados obtenidos, las aplicaciones de esta herramienta


en el sector interlingüístico, es decir, el sector dedicado al estudio de las lenguas
planificadas [76], son muchas, y sin duda alguna de ser utilizada facilitarían la
labor para muchos de los creadores de conlangs y de palabras, y por lo tanto se
puede indicar con seguridad que se trata de una herramienta útil para el sector.
Sin embargo, la herramienta se ve limitada por varios factores. Por un
lado, la carencia de una interfaz de usuario es una muy importante teniendo en
cuenta el público esperado de la misma: lingüistas que probablemente no estén
familiarizados con el entorno digital y programático. Otro de los problemas que
tiene es la falta de control sobre la gramática, un pilar fundamental del lenguaje.
Si bien esto es así por diseño, para delimitar el desarrollo, implica que los
usuarios tendrán que realizar esta labor por su cuenta en su totalidad.

31
Además de estos problemas, también existe una cuestión de inmensa
importancia en el contexto del desarrollo de la aplicación y de su utilidad: la
subjetividad de la calidad de los datos. Resulta muy complicado analizar estos
datos o incluso filtrarlos, ya que no hay una forma viable de determinar
computacionalmente si el lenguaje generado cumple las expectativas del
usuario o si es realista o no. Sin embargo, esto se ve mitigado por el hecho de
que el usuario puede ver el proceso evolutivo del lenguaje y retomarlo a
cualquier punto de su historia.
Para finalizar, la herramienta en cuestión proporciona valor a la
interlingüística de una forma que ninguna otra ha sido capaz de suplir; y abre
un sinfín de posibilidades en el área de la creación de lenguas. Sin embargo,
este nuevo universo de posibilidades también abre las puertas a una inmensa
cantidad de mejoras que solo crecerá con el paso del tiempo y las nuevas
tecnologías computacionales que puedan ir surgiendo.

32
6 Análisis de Impacto
Tras estudiar las necesidades de los creadores de lenguas artificiales, así
como las de las agencias estatales de creación de palabras, se llega a la
conclusión de que el software desarrollado, único en su metodología para
generar lenguaje natural realista y nuevas palabras, será de inmensa utilidad
en el campo.
Por un lado, permitirá la automatización de uno de los procesos más
costosos en tiempo de los creadores de lenguas que basen su proceso de diseño
en la creación de una protolengua inicial: la evolución fonética. De esta forma,
solo tendrán que incorporar sus palabras de la protolengua que deseen y
configurarlo adecuadamente a sus necesidades, garantizando el realismo del
proceso y facilitando el desarrollo, haciendo más viable esta profesión en auge.
Por otro lado, los creadores de palabras pertenecientes a organizaciones o
agencias estatales como la Comisión para el Enriquecimiento de la Lengua
Francesa dispondrán de una forma de crear nuevas palabras basadas en las
actuales, sino que además podrán configurar el sistema para evitar mutaciones
no deseadas. Además, podrán prever hasta cierto punto el efecto de las lenguas
invasoras en la fonética de los lenguajes que desean proteger.
En resumen, esta herramienta, con adecuada publicitación y manteniendo
un desarrollo activo, incluyendo features como las mencionadas en el apartado
de líneas futuras de desarrollo, podría llegar a ser una herramienta preciada
para el sector de la creación de lenguas artificiales.

33
7 Bibliografía
[1] "GPT-3." , github.com/openai/gpt-3 .
[2] "ThisWordDoesNotExist." , github.com/turtlesoupy/this-word-does-not-
exist .
[3] "Language Simulation.", github.com/whzup/language-simulation
[4] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors
with Subword Information
[5] "Ketchum." , github.com/mewo2/ketchum.
[6] Hickmann, Maya (2000). "Linguistic relativity and linguistic determinism:
some new directions". Linguistics. 38 (2): 410. doi:10.1515/ling.38.2.409.
S2CID 144852868.
[7] Boroditsky, Lera; Liberman, Mark (13–23 December 2010). "For and Against
Linguistic Relativity". The Economist. The Economist Newspaper Limited.
Archived from the original on 15 February 2012.
[8] Ahearn, Laura M. (2012). Living language : an introduction to linguistic
anthropology. Chichester, West Sussex, U.K. p. 69. ISBN 978-1-4443-4056-3.
OCLC 729731177.
[9] Christiansen MH, Kirby S. Language evolution: consensus and controversies.
Trends Cogn Sci. 2003 Jul;7(7):300-307. doi: 10.1016/s1364-6613(03)00136-
0. PMID: 12860188.
[10] Lieberman, Philip. "The Evolution of Human Speech. Its Anatomical and
Neural Bases." Current Anthropology Volume 48, Number 1, Feb. 2007,
www.journals.uchicago.edu/doi/10.1086/509092.
[11] Hauser, M. D.; Yang, C.; Berwick, R. C.; Tattersall, I.; Ryan, M. J.; Watumull,
J.; Chomsky, N.; Lewontin, R. C. (2014). "The mystery of language evolution".
Frontiers in Psychology. 5: 401. doi:10.3389/fpsyg.2014.00401. PMC 4019876.
PMID 24847300.
[12] Calhoun, Craig, ed. 2002. "Structuralism." In Dictionary of the Social
Sciences. Oxford: Oxford University Press. ISBN 9780195123715.
[13] Gontier, Nathalie (2012). "Selectionist approaches in evolutionary
linguistics: an epistemological analysis". International Studies in the Philosophy
of Science. 26 (1): 67–95. doi:10.1080/02698595.2012.653114.
hdl:10451/45246. S2CID 121742473.
[14] McMahon, April; McMahon, Robert (2012). Evolutionary Linguistics.
Cambridge University Press. ISBN 978-0521891394.
[15] Croft, William (October 2008). "Evolutionary Linguistics". Annual Review of
Anthropology. 37: 219–234. doi:10.1146/annurev.anthro.37.081407.085156.
[16] Pinker, Steven (1994). The Language Instinct: How the Mind Creates
Language (PDF). Penguin Books. ISBN 9780140175295. Retrieved 2022-03-03.

34
[17] Bybee, Joan L.; Beckner, Clay (2015). "Usage-Based theory". In Heine,
Bernd; Narrog, Heiko (eds.). The Oxford Handbook of Linguistic Analysis. Oxford
University Press. pp. 953–980.
doi:10.1093/oxfordhb/9780199544004.013.0032.
[18] Aronoff, Mark (2017). "20 Darwinism tested by the science of language". In
Bowern; Horn; Zanuttini (eds.). On Looking into Words (and Beyond): Structures,
Relations, Analyses. SUNY Press. pp. 443–456. ISBN 978-3-946234-92-0.
Retrieved 2022-03-03.
[19] Müller, Max (1870). "Darwinism tested by the science of language (review)".
Nature. 1: 256–259. doi:10.1038/001256a0. S2CID 176892155.
[20] de Bot, Kees (2015). A History of Applied Linguistics: From 1980 to the
Present. Routledge. ISBN 9781138820654.
[21] Wu, JIe Qiong (15 January 2014). An Overview of Researches on
Biolinguistics. Canadian Social Science. pp. 171–176. CiteSeerX
10.1.1.820.7700.
[22] Freidin, Robert (5 March 2012). Generative Grammar: Theory and its
History (1st ed.). Routledge Leading Linguists. ISBN 9780415541336.
[23] Crain, Stephen; Koring, Loes; Thornton, Rosalind (2017-10-01). "Language
acquisition from a biolinguistic perspective". Neuroscience & Biobehavioral
Reviews. The Biology of Language. 81 (Pt B): 120–149.
doi:10.1016/j.neubiorev.2016.09.004. ISSN 0149-7634. PMID 27633153.
S2CID 505901.
[24] Logan, Robert K (2007). The extended mind : the emergence of language,
the human mind, and culture. Toronto : University of Toronto Press. ISBN
9780802093035.
[25] Chomsky, N. (2004). Language and Mind: Current thoughts on ancient
problems. Part I & Part II. In Lyle Jenkins (ed.), Variation and Universals in
Biolinguistics. Amsterdam: Elsevier, pp. 379–405.
[26] Chomsky, Noam. 1993. A minimalist program for linguistic theory. MIT
occasional papers in linguistics no. 1. Cambridge, Massachusetts: Distributed
by MIT Working Papers in Linguistics.
[27] Boeckx, Cedric Linguistic Minimalism. Origins, Concepts, Methods and
Aims, pp. 84 and 115.
[28] Freidin, Robert; Lasnik, Howard (March 3, 2011). Some Roots of
Minimalism in Generative Grammar. Oxford University Press.
doi:10.1093/oxfordhb/9780199549368.013.0001.
[29] "The 'Innateness Hypothesis' and Explanatory Models in Linguistics" (PDF).
Archived from the original (PDF) on 2016-01-02. Retrieved 2021-10-21.
[30] Schwarz-Friesel, Monika (2008). Einführung in die Kognitive Linguistik.
Dritte, aktualisierte und erweiterte Auflage. Francke. ISBN 3825216365.

35
[31] Goel, Vinod (2007). "Anatomy of deductive reasoning". Trends in Cognitive
Sciences. 11 (10): 435–441. doi:10.1016/j.tics.2007.09.003. Retrieved 2021-10-
06.
[32] Newmeyer, F.J. (2004). Against a parameter-setting approach to language
variation. Linguistic Variation Yearbook 4:181-234.
[33] Chomsky, Noam (2001). "Beyond explanatory adequacy". MIT Working
Papers in Linguistics. 20: 1–22.
[34] Adger, David. 2003. Core Syntax. A Minimalist Approach. Oxford: Oxford
University Press; and also Carnie, Andrew. 2006. Syntax: A Generative
Introduction, 2nd Edition. Blackwell Publishers
[35] Fukui, Naoki (2001). "Phrase Structure". The Handbook of Contemporary
Syntactic Theory. Oxford, UK: Blackwell Publishers. pp. 374–408.
doi:10.1002/9780470756416.ch12. ISBN 978-0-470-75641-6.
[36] Sportiche, Dominique; Koopman, Hilda Judith; Stabler, Edward P.
(September 23, 2013). An introduction to syntactic analysis and theory.
Hoboken. ISBN 978-1-118-47048-0. OCLC 861536792.
[37] Chomsky, Noam (1982). Some concepts and consequences of the theory of
government and binding. MIT Press. p. 10.
[38] "EPP Feature in BPS." Minimalist Program, Wikimedia,
commons.wikimedia.org/wiki/File:EPP_Feature.png . Accessed 30 June 2022.
[39] Epstein, Samuel David; Seely, T. Daniel, eds. (2002). Derivation and
Explanation in the Minimalist Program (1 ed.). John Wiley & Sons, Ltd.
doi:10.1002/9780470755662. ISBN 9780470755662.
[40] Smith, Peter W.; Mursell, Johannes; Hartmann, Katharina (2020). Smith,
Peter W.; Mursell, Johannes; Hartmann, Katharina (eds.). Agree to Agree:
Agreement in the Minimalist Programme. Some remarks on agreement within
the Minimalist Programme. Berlin: Language Science Press. pp. 1–29.
doi:10.5281/zenodo.3541743.
[41] Ruhlen, Meritt (1994). The Origin of Language: Tracing the Evolution of the
Mother Tongue. Stanford: Stanford University Press.
[42] Trombetti, Alfredo (1905). L'unità d'origine del linguaggio (in Italian).
Bologna: Luigi Beltrami.
[43] de Saussure, Ferdinand (1986) [1916]. Cours de linguistique générale
[Course in General Linguistics] (in French). Translated by Harris, Roy. Chicago:
Open Court.
[44] Bynon, Theodora (1977). Historical Linguistics. Cambridge: Cambridge
University Press. p. 1. ISBN 9780521215824. Historical linguistics.
[45] Greenberg, Joseph H. (1987). Language in the Americas. Stanford: Stanford
University Press.
[46] CARTA: The Origin of Us -- Christopher Ehret: Relationships of Ancient
African Languages. August 1, 2013. Archived from the original on 2021-12-11.
36
[47] Gell-Mann, Murray; Ruhlen, Merritt (August 26, 2011). "The Origin and
Evolution of Word Order" (PDF). Proceedings of the National Academy of
Sciences of the United States of America. 108 (42): 17290–5.
Bibcode:2011PNAS..10817290G. doi:10.1073/pnas.1113716108. PMC
3198322. PMID 21987807. Archived from the original (PDF) on March 27, 2016.
Retrieved June 26, 2022.
[48] Campbell, Lyle, and William J. Poser. 2008. Language Classification:
History and Method. Cambridge: Cambridge University Press.
[49] Meritt Ruhlen; John Bengtson (1994). "Global etymologies". On the Origin
of Languages: Studies in Linguistic Taxonomy (PDF). pp. 277–336. Retrieved 27
June 2022.
[50] Ruhlen, Meritt (1994). The Origin of Language: Tracing the Evolution of the
Mother Tongue. New York: John Wiley and Sons. ISBN 9780471159636.
Retrieved 27 June 2022.
[51] François, Alexandre (2014), "Trees, Waves and Linkages: Models of
Language Diversification" (PDF), in Bowern, Claire; Evans, Bethwyn (eds.), The
Routledge Handbook of Historical Linguistics, London: Routledge, pp. 161–189,
ISBN 978-0-41552-789-7.
[52] Ehret, Christopher. “Reconstructing Proto-Afroasiatic (Proto-Afrasian):
Vowels, Tone, Consonants, and Vocabulary.” (1995).
[53] Eberhard, David M., Gary F. Simons, and Charles D. Fennig (eds.). 2022.
Ethnologue: Languages of the World. Twenty-fifth edition. Dallas, Texas: SIL
International. Online version: http://www.ethnologue.com. Accessed on
05/22/2022
[54] Watson, Abigail, "Lingua Franca: An Analysis of Globalization and
Language Evolution" (2016). Honors Projects. 275.
https://scholarworks.bgsu.edu/honorsprojects/275
[55] Gray, Russell & Atkinson, Quentin & Greenhill, Simon. (2011). Language
Evolution and Human History.
10.1093/acprof:osobl/9780199608966.003.0016.
[56] Wolfram, Walt; Schilling-Estes, Natalie (2003), "Dialectology and Linguistic
Diffusion" (PDF), in Joseph, Brian D.; Janda, Richard D. (eds.), The Handbook
of Historical Linguistics, Oxford: Blackwell, pp. 713–735.
[57] Heggarty, Paul; Maguire, Warren; McMahon, April (2010). "Splits or waves?
Trees or webs? How divergence measures and network analysis can unravel
language histories". Philosophical Transactions of the Royal Society B. 365
(1559): 3829–3843. doi:10.1098/rstb.2010.0099. PMC 2981917. PMID
21041208.
[58] Kalyan, Siva, and Alexandre François. "When the waves meet the trees: A
response to Jacques and List." Journal of Historical Linguistics 9.1 (2019): 168-
177.

37
[59] Mallinson, Graham; Blake, Barry J. (1981). Language Typology - Cross-
linguistic Studies in Syntax. North-Holland. pp. 17–18. ISBN 0-444-863117.
[60] Trubetzkoy, Nikolai S. (1930), "Proposition 16. Über den Sprachbund",
Actes du premier congrès international des linguistes à la Haye, du 10-15 avril
1928, Leiden: A. W. Sijthoff, pp. 17–18.
[61] Thomason, Sarah (2000), "Linguistic areas and language history" (PDF), in
Gilbers, Dicky; Nerbonne, John; Schaeken, Jos (eds.), Languages in Contact,
Amsterdam: Rodopi, pp. 311–327, ISBN 978-90-420-1322-3.
[62] Perc, Matjaž. "Evolution of the most common English words and phrases
over the centuries." Journal of The Royal Society Interface 9.77 (2012): 3323-
3328.
[63] Otheguy, Ricardo, and Naomi Lapidus. "Matización de la teoría de la
simplificación en las lenguas en contacto: El concepto de la adaptación en el
español de Nueva York." Matización de la teoría de la simplificación en las
lenguas en contacto: El concepto de la adaptación en el español de Nueva York
(2005): 143-160.
[64] Pagel, M., Atkinson, Q. & Meade, A. Frequency of word-use predicts rates
of lexical evolution throughout Indo-European history. Nature 449, 717–720
(2007). https://doi.org/10.1038/nature06176
[65] O'Grady, William (2005). Contemporary Linguistics: An Introduction (5th
ed.). Bedford/St. Martin's. ISBN 978-0-312-41936-3.
[66] Lass, Roger (1998). Phonology: An Introduction to Basic Concepts.
Cambridge, UK; New York; Melbourne, Australia: Cambridge University Press.
p. 1. ISBN 978-0-521-23728-4. Retrieved 8 January 2022 Paperback ISBN 0-
521-28183-0
[67] Dürr, Michael; Schlobinski, Peter (2006). Deskriptive Linguistik:
Grundlagen und Methoden (en alemán). Vandenhoeck & Ruprecht. p. 301
[68] B.D. Sharma (January 2005), Linguistics and Phonetics, Anmol
Publications Pvt. Ltd., 2005, ISBN 978-81-261-2120-5
[69] Y. Tobin (1997), Phonology as human behavior: theoretical implications and
clinical applications, Duke University Press, 1997, ISBN 978-0-8223-1822-4
[70] International Phonetic Association. (1999). Handbook of the International
Phonetic Association: A guide to the use of the International Phonetic Alphabet.
Cambridge, U.K: Cambridge University Press.
[71] MacMahon, Michael K. C. (1996). "Phonetic Notation". In P. T. Daniels; W.
Bright (eds.). The World's Writing Systems. New York: Oxford University Press.
pp. 821–846. ISBN 0-19-507993-0.
[72] Wall, Joan (1989). International Phonetic Alphabet for Singers: A Manual
for English and Foreign Language Diction. Pst. ISBN 1-877761-50-8.
[73] Index Diachronica, 10.2th ed., chridd.nfshost.com/diachronica/. Accessed
30 June 2022.

38
[74] Index Phonemica, www.indexphonemica.net/. Accessed 30 June 2022.
[75] Kapur, Rhea, and Phillip Rogers. "Modeling language evolution and feature
dynamics in a realistic geographic environment." Proceedings of the 28th
International Conference on Computational Linguistics. 2020.
[76] Federico Gobbo, Interlinguistics and Esperanto Studies in the new
millennium, University of Amsterdam, Amsterdam Center for Language and
Communication, 27 March 2015.

39
8 Anexo
8.1 Entrada y Salida de Onset!
Para comprobar el funcionamiento de la plataforma Onset! Se han llevado a
cabo pruebas con un pequeño conjunto de palabras en alemán y una traducción
al inglés.
Conjunto de Entrada Conjunto de Salida
ich iɟh
i i
sie sie
she she
das daːz
the the
ist iztʼ
is iz
du dɯː
you yuu
nicht diːɟhtʼ
not doːtʷ
die diːe
the the
und udtʼ
and adtʼ
es ez
it itʲ
der deːl
the the
was wɒz
What wɦatʼ
wir wyl
weather wɶadhel
er el
he he
zu zɯː

40
to tɤ
ein iid
a a
in id
in id
mit biːtʲ
with wyɟʷh
mir biːl
me beː
den deːd
the the
wie wye
how huw
ja ja
Yes yøz
auf ɑuv
on od
mich biːɟh
me beː
so sɤ
so sɤ
such suɟʷh
that thatʼ
eine iid̪͡ð̺eː
one od̪͡ð̺eː
aber amẽːl
but buːtʷ
hier hiel
here heɭe
sind sidtʼ
are aɭe
for foɫˠ

41
von voːd
from froːb
haben hamẽːd
have haʋe
hat hatʼ
Has haz
dich diːɟh
you yuu
war wɒl
was wɒz
dass daːzs
that thatʼ
wenn wødd
if iv
an ad
at atʼ
da daː
there theɭe
nein diːid
no dɤː
bin biːd
am ab
noch duːɟʷh
still still
dir diːl
you yuu
nur duːɫˠ
only odliː
habe hamẽː
have haʋe
ihr iɦr
your yuuɫˠ

42
sich siɟh
themselves thebzelveːz
einen iid̪͡ð̺eːd
a a
uns udz
US uz
hast haztʼ
have haʋe
dem deːb
to the tɤ
ihn the
him iɦd
aus hib
the ɑuz
end the
kann edtʼ
can kadd
gut cad
Well guːtʷ
auch wøll
even ɑuɟʷh
schon eʋed
beautiful schod
jetzt bæːɑurʷiɱũɫˠ
now jedztʼ
im duːw
in ib
the id
sein the
be siid
mal beː
times baːl

43
dann tibeːz
then daːdd
meine thed
my biːid̪͡ð̺eː
als biː
as alz
um az
around ub
mein aɭuudtʼ
my biːid
doch biː
but duːɟʷh
bist buːtʷ
are you biːztʼ
wird aɭe
will yuu
keine wyltʼ
no wyll
nach kiid̪͡ð̺eː
after dɤː
alles dæːɟh
All avtel
man alleːz
One all
you baːd
they od̪͡ð̺eː
people yuu
Indefinite thii
person peobʷleː
lch iddeːɱĩd̪͡ð̺iːd̪͡ð̺e
l pelzod
oder lɟh

44
or l
nichts oreːl
nothing oɫˠ
wo diːɟhts
Where doːdʷhidʔʲ
werden wo
will wɦeɭe
weiss wøldeːd
White wyll
will wyizs
want wɦid̪͡ð̺e
geht wyll
goes wɒdtʼ
mehr geːɦtʼ
more goːøz
warum beːɦr
why boːɭe
hab wɒɭub
have wɦi
ihnen hapʼ
them haʋe
bitte iɦdeːd
ich theb
i biːdʲte

8.2 Fichero de Entrada de Inglés (ingles.csv)


ði

æt

ðɛr

sʌm

maɪ

ʌv

bi

45
juz

hɜr

ðæn

ænd

ðɪs

æn

wʊd

fɜrst

hæv

meɪk

ˈwɔtər

tu

frʌm

wɪʧ

laɪk

bɪn

ɪn

ɔr

ʃi

hɪm

kɔl

ɪz

wʌn

du

ˈɪntu

hu

ju

hæd

haʊ

taɪm

46
ɔɪl

ðæt

baɪ

ðɛr

hæz

ɪts

ɪt

wɜrd

ɪf

lʊk

naʊ

hi

bʌt

wɪl

tu

faɪnd

wʌz

nɑt

ʌp

mɔr

lɔŋ

fɔr

wʌt

ˈʌðər

raɪt

daʊn

ɑn

ɔl

əˈbaʊt

goʊ

deɪ

ɑr

47
wɜr

aʊt

si

dɪd

æz

wi

ˈmɛni

ˈnʌmbər

gɛt

wɪð

wɛn

ðɛn

noʊ

kʌm

hɪz

jʊər

ðɛm

weɪ

meɪd

ðeɪ

kæn

ðiz

kʊd

meɪ

sɛd

soʊ

ˈpipəl

pɑrt

8.3 Fichero de Entrada de Configuración (setup.json)


{

48
"data": [

"epoch": 0,

"introduction": 1,

"file": "language_datasets/english100_ipa.csv",

"limit": 50,

"consonant_matrix": {

"labial": {

"nasal": "m",

"fortis_plosive_affricate": "p",

"lenis_plosive_affricate": "b",

"fortis_fricative": "f",

"lenis_fricative": "v",

"approximant": ""

},

"dental": {

"nasal": "",

"fortis_plosive_affricate": "",

"lenis_plosive_affricate": "",

"fortis_fricative": "θ",

"lenis_fricative": "ð",

"approximant": ""

},

"alveolar": {

"nasal": "n",

"fortis_plosive_affricate": "t",

"lenis_plosive_affricate": "d",

"fortis_fricative": "s",

"lenis_fricative": "z",

"approximant": "l"

},

"post_alveolar": {

49
"nasal": "",

"fortis_plosive_affricate": "tʃ",

"lenis_plosive_affricate": "dʒ",

"fortis_fricative": "ʃ",

"lenis_fricative": "ʒ",

"approximant": "r"

},

"palatal": {

"nasal": "",

"fortis_plosive_affricate": "",

"lenis_plosive_affricate": "",

"fortis_fricative": "",

"lenis_fricative": "",

"approximant": "j"

},

"velar": {

"nasal": "ŋ",

"fortis_plosive_affricate": "k",

"lenis_plosive_affricate": "ɡ",

"fortis_fricative": "x",

"lenis_fricative": "",

"approximant": "w"

},

"glottal": {

"nasal": "",

"fortis_plosive_affricate": "",

"lenis_plosive_affricate": "",

"fortis_fricative": "h",

"lenis_fricative": "h",

"approximant": ""

},

50
"vowel_matrix": {

"front": {

"short_close": "ɪ",

"short_mid": "ɛ",

"short_open": "æ",

"long_close": "i",

"long_mid": "eɪ",

"long_open": ""

},

"central": {

"short_close": "",

"short_mid": "ə",

"short_open": "ʌ",

"long_close": "",

"long_mid": "ɜ",

"long_open": "ɑ"

},

"back": {

"short_close": "ʊ",

"short_mid": "",

"short_open": "",

"long_close": "u",

"long_mid": "oʊ",

"long_open": "ɔ"

},

"diphtongs": [

"aɪ",

"ɔɪ",

"aʊ"

],

"triphtongs": []

51
},

"epoch": 15,

"introduction": 10,

"file": "language_datasets/icelandic.csv",

"limit": 10

],

"epochs": 100,

"mutations": [

"name": "SHORTEN_WORD_FINAL_LONG_VOWEL",

"probability": 0.1,

"conditions": [

"initial": {

"operation": "and",

"data_type": [

"vowel",

"last_letter",

"long"

],

"effects": [

"operation": "phonetic_transform",

"data_type": [

],

"transform_op": "shorten"

52
}

},

"name": "REMOVE_WORD_FINAL_SHORT_VOWEL",

"probability": 0.1,

"conditions": [

"initial": {

"operation": "and",

"data_type": [

"vowel",

"last_letter",

"short"

],

"effects": [

"operation": "remove",

"data_type": [

},

"name": "PALATALIZATION_T_K_TS_TO_CH_IF_J_SOUND_NEXT",

"probability": 0.1,

"conditions": [

53
"initial": {

"operation": "or",

"data_type": [

"t",

"k",

"ts"

},

"then": [

"union": "or",

"types": [

"i"

],

"effects": [

"operation": "switch",

"data_type": [

"phoneme"

],

"switch_op": [

"chi"

54
8.4 Resultados (tras una inyección de 5 palabras en
español después de 50 épocas)

paɺːaɺːa

tobãːɺːe

hoɭa

bẽː

llaːbɤ
̃ː

juɒd

the

ad
̰

theɭe

sobβːẽː

bĩː

ov

beː

ue

hel

thad
̰

add
̰

thiz

ad
̰

wuuɫˠd
̰

filzd
̰

haʋe

ææɟɦ

bãːɡ͡ɣeː

wɒøl

froːʔʷ

wɦiɟɦ

55
liːɡ͡ɣeː

beːed
̰

idʲ

uɫˠ

she

hig
̰

call

iz

õẽ

dɤː

idʲdɤː

wɦɤ

yuɯ

had
̰

huw

tibβːẽː

uyl

thad
̰

biː

thiil

haz

idʲz

idʲ

wuɫˠd
̰

iv

luːuɡʷ

dũːw

he

buːdʷ

wyll

tuɤ

fidʲd
̰

56
wɒz

dõːdʷ

uʔʷ

bõːɭe

loːdʷg
̰

fuɫˠ

wɦad
̰

odʷɦel

wriːe

duːwd
̰

odʷ

all

abβuːudʷ

gɤː

dæːi

aɭe

wøɭe

uudʷ

see

diːdʲ

az

we

̃ːĩ

dũːbʷbeːl

geːd
̰

wyɟʷɦ

wɦed
̰

thed
̰


̃ː

cobβːẽː

hiz

yuuɫˠ

57
theb
̰

wɶi

̃ːẽ

thii

cad
̰

thee

cuuɫˠd
̰

̃ːĩ

sæidʲ

peobʷleː

pald
̰

58
59
Este documento esta firmado por
Firmante CN=tfgm.fi.upm.es, OU=CCFI, O=ETS Ingenieros Informaticos -
UPM, C=ES
Fecha/Hora Fri Jul 01 01:13:30 CEST 2022
Emisor del EMAILADDRESS=camanager@etsiinf.upm.es, CN=CA ETS Ingenieros
Certificado Informaticos, O=ETS Ingenieros Informaticos - UPM, C=ES
Numero de Serie 561
Metodo urn:adobe.com:Adobe.PPKLite:adbe.pkcs7.sha1 (Adobe
Signature)

También podría gustarte