Está en la página 1de 15

Año de

N° Titulo Autores publicación

Efficient Estimation of
Tomas Mikolov, Kai arXiv:1301.3781
Word
´001 Chen, Greg Corrado, v3 [cs.CL] 7 Sep
Representations in Jeffrey Dean
2013
Vector Space

Linguistic
Regularities in Tomas Mikolov∗ , Wen- Proceedings of
tau Yih, Geoffrey Zweig
´002 Continuous Space Microsoft Research
the 2013
Word Redmond, WA 98052 conference 
Representations
Distributed
Representations of Tomás Mikolov, Ilya
Sutskever, Kai Chen, Advances in
´003 Words and Phrases Greg Corrado, Jeffrey neural …, 2013 
and their Dean
Compositionality

Two/Too Simple
Adaptations of Wang Ling , Chris
´004
Word2Vec for Syntax Dyer , Alan W. 2015
Problems Black , Isabel Trancoso

Simple task-specific
Stephan Gouws , Anders
´005 bilingual word Søgaard 2015
embeddings∗

López Solaz,
Tomás | Troyano
Una aproximación al
Jiménez, José
uso de word
Antonio | Ortega
´006 embeddings en una
Rodríguez, Francisco Sep-16
tarea de similitud de
Javier | Enríquez de
textos en espanol
Salamanca Ros,
Fernando

word2vec Parameter
´007
Learning Explained
Xin Rong Jun-16

Exploiting Similarities
among Languages Tomas Mikolov, Quoc V.
´008 17-Sep-13
for Machine Le, Ilya Sutskever
Translation
Jieyu Zhao , Tianlu
Gender Bias in Wang , Mark
Yatskar , Ryan
´009 ContextualizedWord Cotterell , Vicente
Embeddings Ordóñez , Kai-Wei
Chang

Bilingual Word
Embeddings for
´010
Phrase-Based
Machine Translation

Segmentacion de
corpus paralelos para
´011
memorias de
traduccion

Topical Word
´012
Embeddings

Estudio de Word
Embeddings y métodos
´013
de generación de Meta
Embeddings

´014
´015
Lugar de publicación
(qué congreso o revista) Descripción (breve resumen de la aproximación)

Proponemos dos arquitecturas de modelos novedosos para


calcular representaciones vectoriales continuas de palabras de
conjuntos de datos muy grandes. La calidad de estas
representaciones se mide en una tarea de similitud de
palabras, y los resultados se comparan con las técnicas de
mejor desempeño previas basadas en diferentes tipos de redes
neuronales.
Observamos grandes mejoras en la precisión a un costo
computacional mucho más bajo. Además, mostramos que estos
vectores proporcionan un rendimiento de vanguardia en nuestro
conjunto de pruebas para medir similitudes de palabras
sintácticas y semánticas.

Los modelos de lenguaje espacial continuo han demostrado


recientemente resultados sobresalientes en una variedad de
tareas. En este artículo, examinamos las representaciones de
palabras del espacio vectorial que los pesos de la capa de
entrada aprenden implícitamente. Encontramos que estas
representaciones son sorprendentemente buenas para capturar
regularidades sintácticas y semánticas en el lenguaje, y que
cada relación se caracteriza por un desplazamiento de vector
específico de relación. Esto permite un razonamiento orientado a
vectores basado en los desplazamientos entre palabras. Por
ejemplo, la relación hombre / mujer se aprende
automáticamente, y con las representaciones vectoriales
inducidas, "Rey - Hombre + Mujer" da como resultado un vector
muy cercano a "Reina". Demostramos que los vectores de
palabras capturan regularidades sintácticas por medio de
preguntas de analogía sintáctica (proporcionadas con este
documento), y son capaces de responder correctamente casi el
40% de las preguntas. Demostramos que los vectores de
palabras capturan regularidades semánticas mediante el uso del
método de desplazamiento de vectores para responder las
preguntas de la Tarea 2 SemEval-2012. Sorprendentemente,
este método supera a los mejores sistemas anteriores.
El modelo continuo de Skip-gram recientemente introducido es
un método eficiente para aprender representaciones vectoriales
distribuidas de alta calidad que capturan un gran número de
precisas relaciones sintácticas y semánticas de palabras. En
este artículo presentamos Varias extensiones que mejoran tanto
la calidad de los vectores como la formación. velocidad. Por
submuestreo de las palabras frecuentes obtenemos una
aceleración significativa y también aprenda representaciones de
palabras más regulares. También describimos una alternativa
simple tive al softmax jerárquico llamado muestreo negativo. Una
limitación inherente de las representaciones de palabras es su
En este trabajo
indiferencia mostramos
al orden cómo unay representación
de las palabras su incapacidad vectorial para de
palabras basada en word embeddings
representar frases idiomáticas. Por ejemplo, los significados depuede ayudar a mejorar
los resultados
"Canadá" y "Air" enno una setarea
pueden de similitud
combinarsemánticafácilmentede paratextos.
obtener
Para ello hemos experimentado
"Air Canada". Motivado con dos métodos
En este ejemplo, presentamos que se un apoyan
en la representación
método simple para encontrar vectorial de palabras
frases en el paratextocalcular
y mostramos el grado
Presentamos
de dedos modificaciones simples en alalos modelos de en la
quesimilitud
es posible dos
aprendertextos, uno basado
buenas representaciones agregación vectoriales
popular
vectores herramienta
y otrodebasado Word2Vec, para generar incrustaciones más
para millones frases.en el cálculo de alineamientos. El método
adecuadas para tareas que involucran
de alineamiento se apoya en la similitud de vectores de palabrassintaxis. El principal
problema con loslamodelos
para determinar vinculación originales
entre las es mismas.
el hecho El demétodo
que sonde
insensibles
Presentamos
agregación al
nos orden
unpermite de las
métodoconstruir palabras. Si
de envoltura bien la independencia
simple que utiliza
representaciones vectoriales del de
orden
los es
algoritmos útil
textos ade para inducir
incrustación
partir representaciones
de los vectoresde palabras semánticas,
disponibles
individuales para esto
de palabras. aprender
Estas
conduce a resultados
incrustaciones
representaciones de son subóptimos
palabras bilingües
comparadas cuando se dos
específicas
mediante utilizan
de lapara
tarea.
distancias
resolver
Utilizamos
clásicas problemas
comoun pequeño basados
son la euclídea e

diccionario n la sintaxis. Mostramos
y la delde clases
coseno. deHemos mejoras
equivalencia
evaluado de
en el etiquetado
palabras específicas
nuestros sistemas conde parte del
deeltareas discurso
corpusfácilmente
basado eny el análisis
obtenibles de
Wikipediapara distribuido
dependencia
producir
en paresutilizando
la competición mixtos denuestros
de similitud de modelos
textos enpropuestos.
contexto-objetivo que usamos
español para
de SemEval-
entrenar
2015. modelos
Nuestros de incrustación
experimentos estándar.
muestran que Nuestro
el método modelo
basado tiene
la ventaja de que (a) es independiente
en alineamiento se comporta mucho mejor, obteniendo de la elección del
algoritmo
resultadosde muyinclusión,
cercanos (b)alnomejor
requiere sistemadatos deparalelos
SemEval. y (c)
El
puede
método basado en agregación de vectores se comportaclases de
adaptarse a tareas específicas redefiniendo las
equivalencia.
sensiblementeMostramospeor. No obstante, cómo nuestro método supera
esta segunda las
aproximación
incrustaciones
parece capturarbilingües
aspectosdisponibles
de similitudennoelrecogidos mercado en porlalatarea de
etiquetado
primera, ya de
que lenguaje
cuando de
se voz (POS)
combinan
El modelo word2vec y la aplicación de Mikolov et al. Han no
las supervisado
salidas de en varios
ambos atraído
idiomas,
una gran cantidad de atención en los últimos dos años. Sesemi-
sistemas así
se como
mejoran en la
los tarea
resultadosde etiquetado
del método súper de sentido
alineamiento,ha
supervisado
superando
demostradoincluso en varios
que laslos idiomas (SuS).
resultados
representaciones del mejor sistema
vectoriales dede palabras
SemEval. | In
aprendidas porthis lospaper
modelos we show
word2vec how tienen
a vector representation of
significados
words
semánticos y son útiles en varias tareas de PNL. Comothe
based on word embeddings can help to improve un
results
númeroincada tasksvez focused
mayoron dethe semantic similarity
investigadores desearía of texts. Thus
we have experimented
experimentar con word2vec with two methods
o técnicas that relynoto
similares, on the quevector
carece
representation
de un material que of wordsexplique to calculate the degreeelof
exhaustivamente similarity
proceso deof
two texts, one
aprendizaje debased
parámetros on thede aggregation
los modelos of de
vectors and the
inclusión de other
one based
palabras enon the calculation
detalles, evitandoofasí alignments. The alignmentque no
que los investigadores
method reliesen
son expertos onredes
the similarity
neuronales of word vectors toEldetermine
comprendan mecanismo thede
semantic link between them. The aggregation
trabajo de tales modelos. Esta nota proporciona derivaciones method allows us
to construct vector representations of the
detalladas y explicaciones de las ecuaciones de actualización de texts from the individual
vectors
parámetros of each
de los word. Theseword2vec,
modelos representations incluidos arelos compared
modelosby
means
Los of two
diccionarios classic
y las distance
tablas de measures:
frases
originales de bolsa de palabra continua (CBOW) y skip-gram son Euclidean
la base dedistance
los and
cosine
modernos similarity.
(SG), así como sistemas We
técnicas have evaluated
estadísticos
avanzadas our
de traducción systems
de optimización, with the
automática. Este
que corpus
based
documento
incluyen onsoftmax
Wikipedia
desarrolla distributed
un método
jerárquico in que
y negativo the competition
puede of similarity
automatizar
muestreo. Las el of
texts
procesoin Spanish
de generación
interpretaciones of SemEval-2015.
intuitivas y extensión Our
de las ecuaciones experiments
de diccionarios y tablasthat
de gradiente show de
the method
frases. Nuestro based
también se proporcionan on the
método puede alignment
junto con traducir of words performs
entradas faltantes
las derivaciones muchde
matemáticas.
better,
En elobtaining
palabras y frasesresults
apéndice, mediante thatelare
se proporciona very
unaclose
aprendizaje de
revisión to estructuras
the
sobrebestlos system at
SemEval.
lingüísticas The
conceptos básicos method
basadasdeenlas based
grandes on vector representations
datos monolingües
redes neuronales y elof
y la propagación texts
mapeo
behaves
entre
hacia substantially
idiomas a partir creé
atrás. También worse.
de unaHowever,
pequeños datos
demostración this second approach
bilingües. Utiliza
interactiva, una
wevi,
seems
para to capture
representación
facilitar aspects of
distribuida
la comprensión similarity
deintuitiva
palabrasdel not detected
y aprende
modelo. unbymapeo
the firstlineal
one, as
entre when the
espacios outputs ofdeboth
vectoriales systemspesar
idiomas. A are combined the
de su simplicidad,
results ofmétodo
nuestro the alignment method are surpassed,
es sorprendentemente efectivo:even podemos exceeding
lograr
the results
casi un 90% ofdetheprecisión
best system @ 5 at paraSemEval.
la traducción de palabras
entre inglés y español. Este método supone poco acerca de los
idiomas, por lo que puede usarse para ampliar y refinar
diccionarios y tablas de traducción para cualquier par de idiomas.
En este artículo, cuantificamos, analizamos y mitigamos el sesgo
de género exhibido en los vectores de palabras contextualizados
de ELMo. Primero, llevamos a cabo varios análisis intrínsecos y
encontramos que (1) los datos de capacitación para ELMo
contienen significativamente más entidades masculinas que
femeninas, (2) las incorporaciones de ELMo capacitadas
codifican sistemáticamente información de género y (3) ELMo
codifica de manera desigual la información de género sobre
entidades masculinas y femeninas . Luego, mostramos que un
sistema de coreferencia de última generación que depende de
ELMo hereda su sesgo y demuestra un sesgo significativo en el
corpus de sondeo de WinoBias. Finalmente, exploramos dos
métodos para mitigar este sesgo de género y mostramos que el
sesgo demostrado en WinoBias puede eliminarse.

El objetivo general de este proyecto es el de evaluar diferentes word


embeddings y
diferentes técnicas para tratar de mejorar el rendimiento de los word
embeddings
originales. Para ello hemos escogido una serie de word embedding
pre-entrenados
mediante diferentes métodos y corpus. Más específicamente buscamos
realizar una serie
de aportaciones en el ámbito de la evaluación de word embeddings y
generación de meta-
embeddings.
Corpus (conjunto de Resultados
datos que usa para (resultados
Herramientas (qué librerías o programas o entrenar y/o evaluar más
software usa) el sistema) destacables)

- Feedforward Neural Net Language Model (NNLM)


- Recurrent Neural Net Language Model
(RNNLM) - Parallel Training of
Neural Networks (DistBelief).
conclusión

En este trabajo estudiamos la calidad de las representaciones vectoriales de palabras derivadas de varios
modelos en una colección de tareas de lenguaje sintáctico y semántico. Observamos que es posible
entrenar vectores de palabras de alta calidad usando arquitecturas de modelos muy simples, en
comparación con los modelos de redes neuronales populares. Debido a la complejidad computacional
mucho más baja, es posible calcular vectores de palabras de alta dimensión muy precisos a partir de un
conjunto de datos mucho más grande. Usando el marco distribuido DistBelief, debería ser posible entrenar
los modelos CBOW y Skip-grammodel incluso en corpus con un billón de palabras , para un tamaño
básicamente ilimitado del vocabulario.Una tarea interesante en la que recientemente se ha demostrado que
los vectores de palabras superan significativamente el estado del arte anterior es la Tarea 2 SemEval-2012
[11]. Los vectores RNN disponibles al público se utilizaron junto con otras técnicas para lograr un aumento
de más del 50% en la correlación de rango de Spearman sobre el mejor resultado anterior [31]. Los
vectores de palabras basados ​en redes neuronales se aplicaron previamente a muchas otras tareas
de PNL. Nuestro trabajo en curso muestra que los vectores de palabras se pueden aplicar con éxito a la
extensión automática de hechos en las Bases de conocimiento, y también para verificar la exactitud de los
hechos existentes. En el futuro, también sería interesante comparar nuestras técnicas con el Análisis
Relacional Latente [30] y otros. Creemos que nuestro conjunto completo de pruebas ayudará a la
comunidad investigadora a mejorar las técnicas existentes que imitan los vectores de palabras. También
esperamos que los vectores de palabras de alta calidad se conviertan en un bloque de construcción
importante para futuras aplicaciones de PNL.

Hemos presentado un método de desplazamiento de vectores generalmente aplicable para identificar


regularidades lingüísticas en representaciones de palabras espaciales continuas. Hemos demostrado que
las representaciones de palabras aprendidas por un RNNLM hacen un trabajo especialmente bueno al
capturar Estas regularidades. Presentamos un nuevo conjunto de datos para medir el rendimiento
sintáctico y lograr casi el 40% de corrección. También evaluamos la generalización semántica en la tarea
SemEval 2012, y superamos El estado del arte anterior. Sorprendentemente, ambos resultados son los
subproductos de un criterio de entrenamiento de máxima verosimilitud no supervisado que simplemente
opera en una gran cantidad de datos de texto.
bolsa de palabras introducido en [8]. Capacitamos con éxito modelos en varios órdenes
de magnitud más datos que los publicados anteriormente modelos lisados, gracias a la
arquitectura de modelo computacionalmente eficiente. Esto resulta en un gran Mejora en
la calidad de las representaciones de palabras y frases aprendidas, especialmente para las
raras entidades. También encontramos que el submuestreo de las palabras frecuentes da
como resultado un entrenamiento más rápido y representaciones significativamente
mejores de palabras poco comunes. Otra contribución de nuestro trabajo es El algoritmo
de muestreo negativo, que es un método de entrenamiento extremadamente simple que
aprende con precisión representaciones especialmente para palabras frecuentes. La
elección del algoritmo de entrenamiento y la selección de hiperparámetros es una
decisión específica de la tarea, ya que descubrimos que diferentes problemas tienen
diferentes configuraciones óptimas de hiperparámetros. En nuestros experimentos, las
decisiones más cruciales que afectan el rendimiento son la elección del modelo
arquitectura, el tamaño de los vectores, la tasa de submuestreo y el tamaño de la ventana
de entrenamiento. Un resultado muy interesante de este trabajo es que la palabra
vectores puede ser algo significativamente significativo combinado usando la simple
suma de vectores. Otro enfoque para aprender representaciones de frases presentado en
este
En documento
este es simplemente
trabajo, se presentan representar
dos cationes modificadores las frases con una
a los modelos sola ficha. Combinación
originales en Word2Vec que
de estos dos enfoques brindan una forma poderosa pero simple de cómo
mejoran la palabra incrustaciones obtenidos para tareas motivadas sintácticamente Estorepresentar
se realiza
mediante la introducción de cambios que hacen que la red consciente de la posición relativa de palabras de
fragmentos
contexto. Con de texto
estos másselargos,
modelos obtienen mientras
mejoras en quela tienen
corrienteing mínima
principal complejidad
de dos tareas de PLN, es decir
computacional. Por
partof etiquetado léxico loy latanto, nuestro
dependencia de trabajo
análisis, ypuede verse como
los resultados complementario
generalizar en ambos dominiosde lo
En
existente enfoque que intenta representar frases usando operaciones recursivas de los
este
limpios ytrabajo hemos
ruidosos. explorado la forma de aprovechar un modelo de word embedding para mejorar
resultados en una tarea de similitud semántica de textos. Nuestro principal objetivo era evaluar la mejora
matriz-vector [16].enCreamos
que se puede obtener esta tareaelsincódigo
hacer usopara entrenar
de otros los que
recursos vectores
no seandela palabras y frases
representación en
vectorial
base
en a las técnicas
el espacio continuo.descritas en este
Para ello hemos papeldos
definido disponible
maneras decomo proyecto
calcular desemántica
la similitud
Presentamos un enfoque simple, BARISTA, para aprender incrustaciones bilingües. BARISTA tiene las
código abierto  4 
de textos.
Por un lado, mediante un alineamiento entre textos bidireccional y ponderado en función del parecido de
ventajas de que
las palabras (a) es independiente
emparejadas. de laseelección
La otra técnica dellos
apoya en algoritmo
vectoresdedeinclusión,
palabras (b)
paranoconstruir
requiere datos
paralelos y (c) se puede
representaciones adaptar
vectoriales a tareas
de los textosespecíficas mediante elpara
que son comparadas uso determinar
de diccionarios apropiados.
el grado Nuestras
de similitud entre
incorporaciones demostraron ser útiles para el etiquetado POS / SuS en varios idiomas.
ellos. Los experimentos sobre un corpus de la competición SemEval de 2015 para español muestran que el
método de alineamiento se comporta de manera muy satisfactoria, quedando muy cerca del mejor sistema
de la competición. En el caso de la técnica basada en la representación vectorial de textos, los resultados
son peores, pero aportan conocimiento complementario. Esto se demuestra con el hecho de que cuando
se combinan las salidas de ambas técnicas se consiguen mejorar ambos resultados, superando incluso al
mejor de los sistemas de la competición. También hemos experimentado con dos modelos distintos de
word embedding, uno de ellos entrenado exclusivamente con textos de Wikipedia y otro, más extenso,
también con textos de la Wikipedia más textos de otras fuentes. Dado que el corpus de SemEval está
creado con textos de Wikipedia, este experimento nos ha permitido evaluar la sensibilidad de las técnicas a
los textos usados para el entrenamiento de los modelos. Los experimentos han mostrado que la técnica
basada en la representación vectorial de textos se beneficia de un modelo de word embedding más
extenso, aunque entrenado con textos de un dominio diferente. Por su parte, la técnica de alineamiento es
penalizada levemente por el cambio de dominio, aunque sus resultados siguen siendo mejores que los de
la técnica de representación vectorial. En cualquier caso, la combinación sigue mejorando los resultados de
ambas técnicas, quedando también por encima del mejor sistema de la competición. Como trabajo futuro
estamos especialmente interesados en analizar el comportamiento de nuestros sistemas en un con texto
multilingüe. El buen comportamiento de las técnicas de word embedding a la hora de comparar palabras
de distintos idiomas (Mikolov, Le, y Sutskever, 2013) y el hecho de que nuestra aproximación sólo se base
en la información de los modelos de word embedding nos hace pensar que puede comportarse bien para
calcular la similitud de textos en distintos idiomas

En este artículo, demostramos el potencial de las representaciones distribuidas para la traducción


automática. Usando grandes cantidades de datos monolingües y un pequeño diccionario inicial, podemos
aprender con éxito traducciones significativas para palabras individuales y frases cortas. Demostramos que
este enfoque funciona bien incluso para pares de idiomas que no están estrechamente relacionados, como
el inglés y el checo, e incluso el inglés y el vietnamita. En particular, nuestro trabajo se puede utilizar para
enriquecer y mejorar los diccionarios y las tablas de frases existentes, lo que a su vez conduciría a la mejora
de los sistemas de traducción automática más modernos. La aplicación a dominios de bajos recursos es
otro tema muy interesante para futuras investigaciones. Claramente, aún queda mucho por explorar.
Al igual que los modelos de inclusión de palabras, las incorporaciones de palabras contextualizadas
heredan un sesgo de género implícito.Analizamos el sesgo de género en ELMo, mostrando que el corpus en
el que está entrenado tiene un sesgo de género significativo y que ELMo es sensible al género, pero de
manera desigual para las entidades masculinas y femeninas.También mostramos estas transferencias de
sesgo a tareas posteriores, como la resolución de la correferencia, y exploramos dos estrategias de
mitigación de sesgo: 1) aumento de datos y 2) incrustaciones neutralizantes, eliminando efectivamente el
sesgo de ELMo en un sistema de vanguardia.Con la creciente adopción de incrustaciones contextualizadas
para obtener mejores resultados en tareas centrales de PNL, p. BERT (Devlin et al., 2018), debemos tener
cuidado de cómo estos métodos no supervisados perpetúan el sesgo hacia las aplicaciones posteriores y
nuestro trabajo forma la base para evaluar y mitigar dicho sesgo.
https: norma apa

Mikolov, T., Chen, K., Corrado, G., &


Dean, J. (2013). Efficient estimation of
https://arxiv.org/pdf/1301.3781.pdf
word representations in vector
space. arXiv preprint
arXiv:1301.3781.

Mikolov, T., Yih, W. T., & Zweig, G.


(2013, June). Linguistic regularities in
continuous space word
representations. In Proceedings of the
https://www.aclweb.org/anthology/N13-1090.pdf
2013 conference of the north
american chapter of the association
for computational linguistics: Human
language technologies (pp. 746-751).
Mikolov, T., Sutskever, I., Chen, K.,
Corrado, G. S., & Dean, J. (2013).
Distributed representations of words
https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
and phrases and their
compositionality. In Advances in
neural information processing
systems (pp. 3111-3119).

Ling, W., Dyer, C., Black, A. W., &


Trancoso, I. (2015). Two/too simple
adaptations of word2vec for syntax
problems. In Proceedings of the 2015
https://www.aclweb.org/anthology/N15-1142.pdf
Conference of the North American
Chapter of the Association for
Computational Linguistics: Human
Language Technologies (pp. 1299-
Gouws,
1304). S., & Søgaard, A. (2015).
Simple task-specific bilingual word
embeddings. In Proceedings of the
2015 Conference of the North
https://www.aclweb.org/anthology/N15-1157.pdf
American Chapter of the Association
for Computational Linguistics: Human
Language Technologies (pp. 1386-
1390).

López Solaz, T., Troyano Jiménez, J.


A., Ortega Rodríguez, F. J., &
Enríquez de Salamanca Ros, F.
https://rua.ua.es/dspace/bitstream/10045/57753/1/PLN_57_07.pdf
(2016). Una aproximación al uso de
word embeddings en una tarea de
similitud de textos en espanol.

Rong, X. (2014). word2vec parameter


https://arxiv.org/pdf/1411.2738.pdf
learning explained. arXiv preprint
arXiv:1411.2738.

Mikolov, T., Le, Q. V., & Sutskever, I.


(2013). Exploiting similarities among
https://arxiv.org/pdf/1309.4168.pdf
languages for machine
translation. arXiv preprint
arXiv:1309.4168.
Zhao, J., Wang, T., Yatskar, M.,
Cotterell, R., Ordonez, V., & Chang,
K. W. (2019). Gender bias in
https://arxiv.org/pdf/1904.03310.pdf
contextualized word
embeddings. arXiv preprint
arXiv:1904.03310.

García Ferrero, I. (2018). Estudio de


https://addi.ehu.es/bitstream/handle/10810/29088/MemoriaTFG_IkerGarciaFerrero.pdf?sequence=3&isAllowed=y
Word Embeddings y métodos de
generación de Meta Embeddings.

TESIS