Está en la página 1de 26

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/359560291

Similitud entre textos

Article · May 2021

CITATIONS READS
0 63

1 author:

Aitana Villaplana
Universitat Politècnica de València
3 PUBLICATIONS   0 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Recuperación de información multimedia View project

Similitud entre textos View project

All content following this page was uploaded by Aitana Villaplana on 29 March 2022.

The user has requested enhancement of the downloaded file.


Similitud entre textos
Aitana Villaplana Moreno
UNED - Universidad Nacional de Educación a Distancia
Dpto. Lenguajes y Sistemas Informáticos
avillapla7@alumno.uned.es

Abstract
Estimar la similitud entre dos textos es un elemento clave en múltiples problemas
del área del Procesamiento del lenguaje natural. Algunos de ellos son el cálculo
de la similitud entre una consulta y los documentos potencialmente relevantes en
un buscador, la comparación de documentos para la realización de varias tareas,
entre ellas; resúmenes, detección de contenido duplicado y plagio. También es
utilizado en social media behavior, para la identificación de trending topics en
redes sociales, o detección de bots.

1 Introducción
La similitud textual semántica (STS), mide la similitud que existe entre el significado de
las frases. Es decir, indica cual es el grado de cercanı́a entre los significados semánticos
entre distintos textos. Existen múltiples aplicaciones para esto, entre las cuales se
incluyen; tareas de traducción automática (MT), resumen, generación y respuesta a
preguntas (QA), clasificación de respuestas cortas, búsqueda semántica, sistemas de
diálogo y conversación, entre otros.
A lo largo de los años, se han realizado múltiples congresos sobre similitud textual,
donde los concursantes presentaban modelos para calcular la similitud entre dos o más
textos o frases. La principal conferencia anual de procesamiento del lenguaje natural
(NLP) es SemEval [1], que realiza una serie de talleres internacionales de investigación,
con el objetivo de avanzar en el estado actual del análisis semántico, ayudando a crear
conjuntos de datos anotados para solucionar múltiples problemas del área NLP. El
taller de cada año incluye una colección de tareas compartidas en las que se presen-
tan y comparan sistemas de análisis semántico computacional diseñados por diferentes
equipos [3].
La estructura presentada en este artı́culo es la siguiente; la sección 2 abordará to-
dos los temas relacionados como el corpus inicial, los conjuntos y subconjuntos de
datos que lo componen y sus caracterı́sticas; en la sección 3 se tratará el preprocesado
y filtrado de los datos; la sección 4 tratará sobre la similitud léxica, y las distintas
métricas utilizadas a nivel de palabra; la sección 5, tratará de las métricas a nivel de
texto utilizadas; mientras que las secciones 6, 7 y 8, expondrán los resultados obtenidos,
la comparación de resultados con el resto de compañeros, y las conclusiones obtenidas,
respectivamente. También se proporciona una apéndice, explicando las caracterı́sticas
del sistema desarrollado y las tecnologı́as utilizadas.

2 Corpus
En esta sección, se tratarán todos los temas relacionados con el corpus de datos uti-
lizado, su origen, estructura, procesamiento y otra información de utilidad.

1
El corpus utilizado, es un corpus Gold Standard de evaluación de Semantic Textual
Similitary (STS) [2]. STS Benchmark comprende una selección de los conjuntos de
datos en inglés utilizados en las tareas STS organizadas en el contexto de SemEval [2]
entre 2012 y 2017. En los apartados posteriores se entrará en detalle sobre los diferentes
aspectos del corpus.

2.1 Estructura del corpus


El corpus Benchmark, se distribuye en tres ficheros csv: train, dev y test; dedicados al
entrenamiento, el desarrollo, donde generalmente se utiliza para afinar los parámetros
del modelo, y el testeo, respectivamente. A su vez, estos ficheros se distribuyen en
géneros: news, captions, forum. La selección de dichos conjuntos de datos incluye
textos de pies de imágenes, titulares de noticias y foros de usuarios. Dichos géneros, a
su vez se subdividen en conjuntos que pertenecen a distintos años. La distribución de
muestras entre los diferentes ficheros por género, son las mostradas en la Tabla 1.

Table 1: Muestras del corpus STS Benchmark.

train dev test total


news 3299 500 500 1299
caption 2000 625 625 3250
forum 450 375 254 1079
total 5749 1500 1379 8628

La información dentro de los ficheros se organiza por filas, donde cada columna
representa el género, el conjunto, el año, identificador dentro del conjunto, la similitud
anotada y el par de oraciones correspondiente. El valor de similitud, etiquetado de
forma manual, está comprendido entre 0 y 5. En la Tabla 2 se observa la distribución
de muestras más en detalle según los conjuntos de cada género.

Table 2: Muestras del corpus STS Benchmark para cada conjunto.

Género Conjunto Origen de los datos Año train dev test


news MSRpar newswire 2012 1000 250 250
news headlines titulares noticias 2013-2016 1999 250 250
news deft-news resúmenes noticias 2014 300 0 0
captions MSRVid vı́deos 2012 1000 250 250
captions images descripciones imágenes 2014-2015 1000 250 250
captions track5.en-en track 5 semEval 2017 2017 0 125 125
forum deft-forum publicaciones foros 2014 450 0 0
forum answers-forums Q&A respuestas foros 2015 0 375 0
forum answers-answers Q&A respuestas foros 2016 0 0 254

2.2 Análisis de los datos


Como primer paso antes de realizar el cálculo de las similitudes, se pretende estudiar la
naturaleza de los datos y las caracterı́sticas de cada conjunto. Para ello, en primer lugar
se calcularon una serie de estadı́sticos para observar las similitud de los datos originales.

2
Dichos estadı́sticos de muestran en la Tabla 3, siendo s la media de similitudes, se la
mediana, y σ la desviación tı́pica.

Table 3: Estadı́sticos de la similitud de los datos originales

train dev test


Conjunto s se σ s se σ s se σ
MSRpar 3.30 0.93 3.40 3.34 0.91 3.40 3.21 0.89 3.40
MSRvid 2.23 1.60 2.25 2.25 1.68 2.38 2.10 1.60 2.00
deft-forum 2.74 1.24 2.60 - - - - - -
answers-forums - - - 1.66 1.23 1.60 - - -
deft-news 3.03 1.26 3.40 - - - - - -
headlines 2.63 1.50 2.80 2.45 1.49 2.40 2.65 1.54 2.63
images 2.57 1.50 3.00 2.51 1.56 2.60 2.71 1.56 3.00
track5.en-en - - - 2.23 1.52 2.20 2.32 1.32 2.20
answer-answer - - - - - - 2.49 1.75 2.00

Tal y como se observa, el conjunto MSRpar es el que cuenta con mayor similitud, a
diferencia de MSRvid, cuya media es baja, sin embargo la mediana indica que los datos
de MSRpar no se distribuyen de manera uniforme, si no que tienden a ser bajos. Por
otro lado, los datos de answer-forums, cuentan con una similitud muy baja. Una vez
obtenidas las similitudes etiquetadas de los datos originales, éstos servirán como base
para poder evaluar los resultados obtenidos mediante las diferentes técnicas a aplicar.
Las diferencias encontradas en los datos pueden deberse al origen de los datos, ya
que los conjuntos de datos con mayor similitud son MSRpar y deft-news, ambos con
origen en noticias, por lo que es posible que la redacción de las frases fuera más com-
pleta que en el resto de subconjuntos. Los datos con menor media, son MSRvid, y
answer-forum, cuyo origen son vı́deos, y respuestas de foros, respectivamente, lo que
en el caso de los vı́deos puede suponer una mala transcripción del audio, lo que podrı́a
interferir en el análisis de la similitud.

Otro factor a tener en cuenta, es el análisis sintáctico de los conjuntos de datos, es


decir, la frecuencia y distribución de etiquetas gramaticales entre los distintos conjun-
tos. Para ello, se analizaron sintácticamente las frases de cada conjunto. Los resultados
del análisis para el conjunto de entrenamiento son los obtenidos en la Figura 1, donde
el eje x, corresponde con las etiquetas gramaticales, siendo “DT” determinantes, “IN”
preposiciones, “JJ” adjetivos, “NN” nombres, “TO” infinitivo del verbo to, “VB” ver-
bos. Por simplicidad sólo se muestran las más comunes, y el resto de las etiquetas se
incluye en la categorı́a “OTHER”. El eje y corresponde con la cantidad de palabras
etiquetadas.

3
(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 1: Etiquetas gramaticales más comunes en los datasets.

Como era de esperar, el mayor número de palabras son nombres, y en segundo


lugar, verbos. Esto toma relevancia a la hora de filtrar o no ciertas palabras según su
etiqueta gramatical.
Otra cuestión a tener en cuenta es la longitud de las frases de cada conjunto, ya
que juega un papel importante a la hora de calcular la similitud entre ellas, es decir,
a menor longitud de las frases, más sencillo resulta que ambas sean más similares, a
mayor longitud hay mayor posibilidad de variantes por lo que es más fácil obtener una
baja similitud. En la Tabla 4 se muestran las longitudes medias de las frases de cada
conjunto.

Table 4: Longitud media de frase de los conjuntos.

Conjunto train dev test


MSRpar 17.2 17.1 17.0
headlines 7.2 7.2 7.2
deft-news 15.5 0 0
MSRVid 6.7 6.7 6.6
images 9.4 9.4 9.3
track5.en-en 0 9.0 8.4
deft-forum 8.2 0 0
answers-forums 0 14.7 0
answers-answers 0 0 8.6

También se llevó a cabo un análisis de los tópicos de cada subconjunto [15], mostra-
dos en la Tabla 5, donde se puede observar la relación entre los tópicos principales en
cada subconjunto y la fuente de dichos datos. Por ejemplo, los datos de origen pe-
riodı́stico (MSRpar, headlines y deft-news) tienen el tópico social como predominante,
como era de esperar. El resto de subconjuntos, tienen los tópicos distribuidos de man-
era más o menos uniforme, exceptuando el caso de MSRvid, donde predominan las
artes, cosa que se podrı́a explicar si los vı́deos de origen tienen contenido artı́stico o
educativo. En el caso de deft-forum, se observa una predominancia del tópico social,
posiblemente debido a la naturaleza de los foros.

4
Table 5: Análisis de tópicos del conjunto de datos.

Conjunto Artes Ocio Hogar Juegos Deporte Social Salud Ciencia Pc


MSRpar 3% 0% 0% 0% 0% 81% 1% 0% 0%
headlines 0% 0% 0% 0% 0% 100% 0% 0% 0%
deft-news 0% 0% 0% 0% 0% 100% 0% 0% 0%
MSRvid 39% 14% 13% 10% 8% 0% 0% 0% 0%
images 11% 67% 0% 3% 14% 0% 0% 0% 0%
track5.en-en 28% 12% 3% 8% 41% 0% 3% 0% 0%
deft-forum 13% 0% 0% 6% 0% 56% 10% 0% 0%
answer-forum 13% 6% 12% 13% 0% 5% 19% 16% 14%
answer-answer 10% 6% 14% 10% 0% 4% 22% 16% 15%
Total 117% 105% 42% 50% 64% 346% 55% 32% 29%

3 Preprocesamiento y filtrado
En esta sección, se presentan los procesos previos al cálculo de similitud de los datos;
el preprocesado, y posteriormente el filtrado, para tratar de ajustar lo máximo posible
los datos a los diferentes cálculos de la similitud.

El primer paso a realizar es el procesamiento del fichero csv de cada dataset del corpus,
para ello se utilizó la librerı́a pandas∗ , que permite leer y procesar la información es-
tructurada de ficheros csv. Posteriormente, se utilizó la librerı́a NLTK† para tokenizar
las palabras de cada frase, eliminando caracteres no alfanuméricos, y pasando las pal-
abras a minúsculas.
Una vez realizado el procesamiento inicial, se pretende realizar una serie de filtros
a las palabras, escogiendo únicamente palabras con ciertas categorı́as gramaticales. En
primer lugar, se debe realizar un etiquetado gramatical a las palabras previamente to-
kenizadas. Éste proceso se puede realizar mediante el POS-tagger de la librerı́a NLTK.

Una vez las palabras están etiquetadas, es posible seleccionar con que categorı́as gra-
maticales se debe trabajar, debido a que no todas las categorı́as tienen el mismo peso,
por ejemplo, las palabras con más peso suelen ser los nombres y los verbos. Debido a
esto, se realizó un filtrado gramatical, mediante el cual sólo se conservaron los tokens
de cada frase que fueran nombres y verbos.

4 Similitud léxica
En las secciones siguientes se presentan los resultados obtenidos del cálculo de la simili-
tud de cada par de oraciones en el corpus, ası́ como los métodos utilizados para ello. En
primer lugar, se hace una distinción entre dos tipos de aproximaciones; la aproximación
ontológica, donde se estudia la proximidad entre palabras, para ası́ poder extenderla
a frases; y la distribucional, donde se estudian las distribuciones de palabras, y sus
co-ocurrencias dentro del corpus [21].
Debido a la variedad de escalas de valores de similitud proporcionados por cada una

https://pandas.pydata.org/

https://www.nltk.org/

5
de las métricas, fue necesario aplicar una normalización de los valores en el rango 0 a
5, para ası́ ser comparables entre sı́, y con los valores de similitud originales.

4.1 Similitud basada en ontologı́as


La similitud basada en el conocimiento, es una de las medidas de similitud semántica
que se basa en la identificación del grado de similitud entre las palabras utilizando
información derivada de las redes semánticas u ontologı́as. Los sustantivos, verbos,
adjetivos y adverbios se agrupan en conjuntos de sinónimos cognitivos (synsets), cada
uno de los cuales expresa un concepto distinto. Los synsets están interconectados me-
diante relaciones conceptuales-semánticas y léxicas [7].
La base de datos léxica WordNet [4], organiza palabras, con categorı́a gramatical
nominal y verbal, en jerarquı́as de relaciones es-un (hiperónimo/hipónimo). Estas rela-
ciones, solo aplican a nombres y verbos, por lo que no están disponibles para adjetivos y
adverbios, entre otras categorı́as. Por ello, WordNet proporciona relaciones adicionales
(no jerárquicas) como tiene-parte, está hecho-de, es-un-atributo-de, etc. Además, cada
concepto (o sentido de la palabra) se describe con una breve definición escrita [5].
Dentro de la ontologı́a WordNet, a su vez, se distinguen dos tipos de similitud; la
similitud basada en la longitud del camino entre los distintos sentidos, y la similitud
basada en el contenido informativo (IC), es decir, una medida basada en la especifici-
dad de un concepto dado, en un corpus determinado [6].
En este apartado, se presentan los resultados de aplicar una serie de funciones de
similitud basadas en ontologı́as. Para ello, se ha utilizado la herramienta NLTK, que
utiliza la ontologı́a Wordnet para calcular la distancia entre palabras en función de la
longitud de caminos posibles entre los nodos que representan cada palabra.

Para el cálculo de dicha similitud, se procesaron las dos frases de cada una de las
filas del dataset (train, dev, test) y se calculó la similitud entre ambas frases, aplicando
la ecuación 1, donde se define la similitud de las frases como la media de las simili-
tudes de todos los pares de palabras posibles entre ambas frases. Siendo wsn la enésima
palabra de la frase s.
s1 X
X s2
sentenceSim(s1 , s2 ) = mean wordSim(w1n , w2n ) (1)
w1n w2n

La similitud entre dos palabras, se calcula aplicando la ecuación 2, donde se escoge


el valor máximo de la similitud entre cada par de sentidos de ambas palabras, donde
synsetSim es una función arbitraria de similitud de WordNet.
w1 X
X w2
wordSim(w1 , w2 ) = argmax synsetSim(cn1 , cn2 ) (2)
cn
1 cn
2

A continuación, se muestran las funciones de similitud utilizadas y los resultados


obtenidos. En la Figura 2 se muestra la leyenda de las gráficas de las próximas secciones,
siendo o los datos originales, y s los datos sintéticos.

6
Figure 2: Leyenda.

4.1.1 Longitud del camino más corto


La métrica de la longitud del camino más corto (path similarity en NLTK), devuelve
una puntuación que denota la similitud de dos sentidos de palabras, basándose en el
camino más corto que conecta dichos sentidos en la taxonomı́a es-un [7]. En la Figura 3
se muestra la comparación de los valores estadı́sticos de la similitud, obtenida mediante
la métrica path, y los valores del gold standard. Se aplicó un filtrado en el que sólo se
tienen en cuenta los nombres y los verbos.

(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 3: Comparación de valores estadı́sticos de path con gold standard.

Se puede observar, que la media y la mediana de las similitudes calculadas mediante


la métrica, son más altas que la similitud del gold standard, lo que sugiere que esta
métrica es demasiado permisiva, por lo que proporciona valores de similitud más altos
que los que deberı́an ser, sin embargo, la desviación es mayor en los datos originales,
lo que puede significar que, los valores de similitud del gold standard están más repar-
tidos, y en el caso de la similitud path, están más cerca de la media, lo que sugiere que
tienen una mayor tendencia a tomar valores más altos.
También se observa que la desviación tiene una tendencia parecida en ambas simil-
itudes, mientras que en el caso de la media y la mediana, sólo en el conjunto de
desarrollo, parecen tener cierta similitud entre sı́.

4.1.2 Longitud Leacock-Chodorow


La métrica de la longitud Leacock-Chodorow (lch similarity en NLTK), encuentra el
camino más corto entre dos conceptos, y normaliza ese valor basándose en la longitud
máxima del camino en la jerarquı́a es-un en la que se encuentran [5]. La ecuación 3
muestra la fórmula por la cual se calcula dicha longitud [8], donde len es la longitud
del camino más corto entre los sentidos o conceptos c dentro de WordNet, y depth la
longitud de la ruta de acceso al concepto desde el nodo raı́z de la jerarquı́a de WordNet,

7
es decir, la profundidad del nodo. Lo que se realiza es una normalización de la longitud
path, normalizando por el máximo valor de profundidad de la jerarquı́a.
len(c1 , c2 )
lchSimilarity(c1 , c2 ) = − log (3)
2 · argmax depth(c)
c∈W ordN et

En la Figura 4 se muestra la comparación de los valores estadı́sticos de la similitud,


obtenida mediante la métrica lch, y los valores del gold standard.

(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 4: Comparación de valores estadı́sticos de lch con gold standard.

Tal y como se observa, es un caso parecido al anterior (path), donde los valores de
la similitud lch toman valores más altos. Los datos están relacionados entre sı́ de una
manera parecida a path (sección 4.1.1), sin embargo aquı́ se puede observar una mayor
separación entre los datos de ambas similitudes.

4.1.3 Longitud Wu-Palmer


La métrica de la longitud Wu-Palmer (wup similarity en NLTK), encuentra la longitud
del camino al nodo raı́z desde el subsumidor común más bajo en la jerarquı́a (LCS) de
los dos conceptos, es decir, el hiperónimo más especı́fico que comparten. Dicho valor, se
calcula a partir de la suma de las longitudes de las rutas de los conceptos individuales
a la raı́z [5].
Wu y Palmer no sólo consideraron la longitud entre conceptos, sino también la profun-
didad del hiperónimo común inferior, es decir, el más cercano a ambos conceptos. La
ecuación 4, muestra la fórmula por la cual se calcula dicha distancia [8], siend lsc el
hiperónimo común más bajo en la jerarquı́a entre ambos conceptos.

2 · (lsc(c1 , c2 ))
wupSimilarity(c1 , c2 ) =
len(c1 , lsc(c1 , c2 )) + len(c2 , lsc(c1 , c2 )) + 2 · depth(lsc(c1 , c2 ))
(4)
En la Figura 5 se muestra la comparación de los valores estadı́sticos de la similitud,
obtenida mediante la métrica wup, y los valores del gold standard.

8
(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 5: Comparación de valores estadı́sticos de wup con gold standard.

Tal y como se observa, los resultados son idénticos a los obtenidos en la similitud
lch (sección 4.1.2)

4.1.4 Longitud Resnik


La métrica de la similitud Resnik (res similarity en NLTK), se basa en el contenido
informativo de un corpus, en lugar de la longitud del camino entre los nodos, visto en
las secciones anteriores. Para Resnik, la similitud semántica depende de la cantidad
de información que dos conceptos tienen en común, esta información compartida está
dada por la abstracción común más especı́fica que contiene, es decir, el hiperónimo
común de ambos conceptos [8].

Es necesario tener en cuenta, que para cualquier medida de similitud que utilice con-
tenido informativo, el resultado depende del corpus utilizado. En la ecuación 5, se
muestra el cálculo de dicha similitud, siendo IC la probabilidad de un concepto c en el
corpus, tal y como se muestra en la ecuación 6, siendo p(c) dicha probabilidad. Ésto
se conoce como probabilidad logarı́tmica negativa.
resSimilarity(c1 , c2 ) = IC(lsc(c1 , c2 )) (5)

IC(c) = − log p(c) (6)


Debido a que cada similitud depende directamente del corpus con el que se tra-
baje, es necesario comparar la similitud en distintos corpus para observar como varı́a
la similitud entre ellos.
Se han escogido dos corpus distintos. El corpus Brown [9], dado que fue el primer
corpus general disponible en formato electrónico. Se inició en Brown University en los
años 60 y contiene un millón de palabras. Este corpus también ha servido como base
para otros. También el corpus TreeBank [10], donde la estructura sintáctica utiliza una
estructura de árbol, el cual dispone de 7 millones de palabras etiquetadas. El material
anotado incluye varios géneros, tales como manuales de informática de IBM, notas de
enfermerı́a, artı́culos del Wall Street Journal y conversaciones telefónicas transcritas,
entre otros.

Para comparar la dependencia del corpus en el cálculo de las similitudes basadas en


contenido, se probó a realizar las funciones de cálculo de similitud con los distintos
corpus escogidos. En la Figura 6 se muestra la comparación de los valores estadı́sticos
de la similitud, obtenida mediante la métrica res, y los valores del gold standard.

9
(a) Corpus Brown (b) Corpus Treebank

Figure 6: Comparación de valores estadı́sticos de res con gold standard.

Tal y como se observa, los valores obtenidos son excesivamente bajos, lo que lleva
a pensar que las palabra utilizadas eran bastante comunes y poco significativas, por
lo que su valor de información es bajo. Además, esta métrica sólo permite calcular
la similitud entre palabras con la misma categorı́a gramatical, por lo que en casos
contrario la similitud es 0, lo que reduce el valor medio de la similitud. Se puede ver
como los valores varı́an ligeramente entre ambos corpus, aunque las diferencias no son
significativas.

4.1.5 Longitud Jiang-Conrath


La métrica de la similitud Jiang-Conrath (jcn similarity en NLTK), se basa en el
contenido informativo de un corpus, como se ha explicado en la sección 4.1.4. La
medida Jiang-Conrath, a diferencia de la similitud Resnik, no se basa exclusivamente
en el valor del lsc entre ambos conceptos, si no que amplı́a el contenido informativo del
LCS mediante la suma del contenido informativo de los conceptos individualmente. La
métrica resta el contenido informativo del LSC de esta suma (y luego toma la inversa
para convertirla de una distancia a una medida de similitud) [5]. En la ecuación 7 se
puede observar la fórmula por la cual se calcula dicha métrica [8].

jcnSimilarity(c1 , c2 ) = IC(c1 ) + IC(c2 ) − 2 · IC(lsc(c1 , c2 )) (7)

10
(a) Corpus Brown (b) Corpus Treebank

Figure 7: Comparación de valores estadı́sticos de jcn con gold standard.

Como se observa en la Figura 7, en el caso de esta métrica los valores de similitud


obtenidos son relativamente similares a los originales. Las tendencias son similares, con
los mejores resultados obtenidos hasta el momento. Lo que indica es que los valores
de información de las palabras aisladas, es significativamente mayor que el valor del
subsumidor común, lo que explicarı́a los resultados de res. En este caso la diferencia
entre los datos de ambos corpus son imperceptibles.

4.1.6 Longitud Lin


La métrica de la similitud Lin (lin similarity en NLTK), también se basa en el contenido
informativo de un corpus. La diferencia de esta métrica con las anteriores, es que
en lugar de restar el contenido informativo del LSC entre ambos conceptos, lo escala,
dividiendolo por la suma del contenido informativo de ambos conceptos, lo que pondera
el valor de el LSC entre ambos conceptos [8], tal y como se muestra en la ecuación 8.
2 · IC(lsc(c1 , c2 ))
linSimilarity(c1 , c2 ) = (8)
IC(c1 ) + IC(c2 )

11
(a) Corpus Brown (b) Corpus Treebank

Figure 8: Comparación de valores estadı́sticos de lin con gold standard.

Tal y como se observa en la Figura 8, en este caso los valores son más altos que los
originales, y se puede observar cierta similitud en los conjuntos deft-news, headlines e
images. Al igual que con la métrica jcn (sección 4.1.5), el hecho de introducir en el
cálculo de la similitud el LSC, parece obtener mucho mejores resultados, debido a que
se calcula la similitud de manera más completa.
Otra observación a llevar a cabo, es que el caso de los distintos corpus no afecta
prácticamente nada al cálculo de las similitudes, seguramente debido a que ambos cor-
pus son extensos, y las palabras utilizadas estaban presentes de la misma manera en
ambos.

4.2 Similitud basada en semántica distribucional


La similitud basada en semántica distribucional, las palabras quedan representadas
mediante vectores, en un espacio multidimensional, según sus propiedades de grandes
muestras de texto. Una de las aproximaciones a este modelo distribucional, es el mod-
elo Word2Vec [11] [12].
Word2Vec utiliza un modelo de red neuronal para aprender asociaciones en un cor-
pus de texto. Una vez entrenado, Word2Vec representa cada palabra mediante un
vector en el espacio. Dicho vector, debe generarse de forma que palabras similares
tengan vectores similares, para ası́ poder calcular la similitud entre palabras compara-
ndo sus vectores [13]. Para realizar esto, el modelo de redes neuronales, recibe como
entrada un gran corpus de texto y produce un espacio vectorial de varios cientos de
dimensiones, y a cada palabra se le asigna un vector en el espacio. Dichos vectores se
colocan en el espacio vectorial de manera que las palabras que comparten contexto se
representen en un espacio cercano.
Existen librerı́as en Python que implementan dicho modelo, por ejemplo Gensim ‡ , la
cual proporciona funciones para realizar todo tipo de cálculos con el modelo, además
de permitir trabajar con múltiples corpus de representaciones. En esta ocasión se uti-
lizaron las representaciones de Google, word2vec-google-news-300 § , el cual contiene en

https://radimrehurek.com/gensim/models/word2vec.html
§
https://code.google.com/archive/p/word2vec/

12
3 millones de palabras y sintagmas representados en vectores de 300 dimensiones.
Para el calculo de la similitud de los vectores de palabras, existen varias métricas,
entre ellas; similitud coseno, distancia euclı́dea y el producto escalar. Dichas métricas
se explicarán en detalle en las siguientes secciones. La forma en la que se calcula dicha
similitud se muestra en la ecuación 1, siendo wordSim la fórmula de similitud vecto-
rial correspondiente. Antes de calcular la similitud, los vectores que representan las
palabras son extraı́dos del modelo, y los cálculos de la similitud se realizan con dichos
vectores.

4.2.1 Similitud coseno


La similitud coseno, esta basada en el ángulo que forman los dos vectores de palabras en
el espacio. Debido a que palabras similares tienen representaciones similares, es lógico
pensar que también deben formar un ángulo pequeño. La fórmula mediante la cual se
calcula dicha similitud se muestra en la ecuación 9, siendo vi el vector que representa
la palabra i en la representación distribucional correspondiente [14], y siendo kvi k la
norma del vector vi .
v1 · v2
cosineSimilarity(v1 , v2 ) = (9)
kv1 k · kv2 k
Para calcular la similitud coseno, previamente es necesario cargar la representación
distribucional, en este caso la de Google, y después obtener los vectores de cada palabra
mediante el uso de la librerı́a Gensim, para posteriormente calcular la similitud coseno
mediante el uso de la librerı́a Sklearn ¶ . En la Figura 9 se observan los resultados de
aplicar dicha métrica al corpus de entrenamiento.

Figure 9: Comparación de valores estadı́sticos de similitud coseno con gold standard.

Tal y como se muestra en la Figura 9, los valores de similitud obtenidos son


prácticamente 0. Esto puede ser debido a que gran cantidad de palabras forman un
ángulo cercano a los 90º entre sı́, o que los vectores de palabra contienen muchos 0, de-
bido a que esta métrica no trabaja bien con matrices dispersas y con gran cantidad de
0 o valores bajos [20]. También al tratarse de vectores de 300 dimensiones, los valores
de la similitud coseno tienden a ser peores que con vectores de menores dimensiones
[14].

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.pairwise

13
4.2.2 Similitud euclı́dea
Otra de las métricas utilizada en la similitud entre vectores, es la distancia euclı́dea
entre éstos, definida mediante la ecuación 10. Siendo euclideanDistance la distancia
Euclı́dea, mostrada en la ecuación 11.
1
euclideanSimilarity(v1 , v2 ) = (10)
1 + euclideanDistance(v1 , v2 )
v
u n
uX
euclideanDistance(v1 , v2 ) = t (v1i − v2i )2 (11)
i=1

En la Figura 10 se observan los resultados de aplicar dicha métrica al corpus de


entrenamiento. Se puede observar que los valores de la similitud euclı́dea son más altos,
pero a su vez siguen un desarrollo parecido en cuanto la forma de la recta. En este
caso la desviación de los datos sintéticos es mucho menor que en los datos originales.

Figure 10: Comparación de valores estadı́sticos de similitud euclidea con gold standard.

Como se observa en la Figura 10, los resultados son bastante positivos, siguiendo
una traza cercana a la de los datos originales, puede ser debido a que a diferencia de
la similitud coseno (sección 4.2.1) la distancia Euclı́dea no es tan dependiente de la
dimensión de los vectores.

4.2.3 Producto escalar


La métrica del producto escalar entre ambos vectores de palabras, se define en la
ecuación 12. Dicha métrica es la misma que la similitud coseno (sección 4.2.1) pero sin
normalizar con la norma de ambos vectores.
n
X
dotP roduct(v1 , v2 ) = (v1i · v2i ) (12)
i=1

En la Figura 11 se observan los resultados de aplicar dicha métrica. Dichos resulta-


dos son idénticos a los obtenidos en la sección (4.2.1) debido a la similitud entre ambas
métricas.

14
Figure 11: Comparación de valores estadı́sticos de similitud del producto escalar con
gold standard.

5 Similitud a nivel de texto


En las secciones anteriores, se ha tratado la similitud a nivel de palabra, calculando la
similitud de frase, mediante pares palabra-palabra. En esta sección se realizarán dos
aproximaciones para estimar la similitud entre frases, basándose en la similitud a nivel
de palabra.
Para ello, se hará uso de dos métricas, descritas en [16]. La primera, se trata de
un solapamiento de palabras, la segunda se basa en el cálculo de la frecuencia de la
palabra dentro del conjunto de datos.

5.1 Solapamiento de palabras


La métrica del solapamiento de palabras, se basa en el número de términos de cada
frase que coinciden entre sı́, y el número de palabras que forman cada frase. La fórmula
utilizada es la descrita en la ecuación 13, donde Aligned representa el conjunto de
palabras que hay en común entre ambas frases.
2 · |Aligned|
wordOverlap(s1 , s2 ) = (13)
|s1 | + |s2 |
Originalmente, se consideraba que dos palabras estaban alineadas si eran idénticas,
pero se observó que las similitudes eran demasiado bajas, debido a la exigencia del
método. Por lo que se probó a realizar el cálculo de la similitud entre cada par de pal-
abras de la frase, y si dicha similitud alcanza un cierto umbral, se considera alineada.

Para ello, se seleccionó la mejor métrica observada de cada tipo de similitud a nivel
de palabra, es decir, path (sección 4.1.1) para el caso de similitudes basadas en la lon-
gitud del camino, jcn (sección 4.1.5) para las similitudes basadas en WordNet, y la
similitud euclı́dea (sección 4.2.2) para las similitudes distribucionales. Una vez hecho
esto, el cálculo de la similitud se realizó mediante la fórmula 13, donde el Aligned serı́a
el conjunto de pares de palabras que tenı́an una similitud mayor o igual a un umbral
dado. Dicho umbral se calculó de la siguiente manera: en primer lugar se ordenaron
las similitudes obtenidas en la métrica en cuestión, y se seleccionó el valor lı́mite del
20% de las similitudes más altas, por lo que ambas palabras entrarı́an en el 20% de

15
palabras mas parecidas entre sı́. Los resultados de aplicar dicho umbral se muestran el
la Figura 12.

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

Figure 12: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 20%.

Tal y como se observa en la gráfica, los valores no cambian demasiado entre las
distintas métricas de similitud, y son valores mucho más bajos que los del gold standard,
por ello, se aumentó el umbral, a un 30% y 40% de las palabras con mayor similitud
entre sı́, para ası́ poder obtener valores más altos. En la Figura 13 se muestran los
resultados con el umbral 30%. Se puede observar que los valores han aumentado
respecto al umbral del 20%, cosa que era de esperar, debido a es una métrica más
permisiva.

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

Figure 13: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 30%.

En la Figura 14, se muestran los resultados de aplicar el umbral del 40% de palabras
más similares, se puede observar que los valores han aumentado respecto a los umbrales
más bajos. A pesar de ello, no se alcanzan los valores originales del gold standard en
ningún caso, pero se observan resultados más cercanos en el umbral del 40%. Se puede
observar en todas las figuras que la mediana toma valores extremos, o es 0 o es un valor
alto, lo que indica que los valores no se distribuyen uniformemente, hay similitudes muy
bajas o 0, y similitudes altas.

16
(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

Figure 14: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 40%.

En conclusión, se puede decir que esta métrica no es demasiado precisa, y es preferi-


ble utilizar la similitud a nivel de palabra. Los resultados pueden deberse a que la
métrica es un tanto tajante, es decir, si las palabras llegan a un umbral, la similitud
es incrementada, si no se llega a dicho umbral, no se incrementa. Por lo tanto, no
existe distinción entre palabras dentro del grupo de similitudes superiores al umbral, y
similitudes inferiores, por lo que los valores de similitud no se distribuyen en función
del valor de similitud como tal. Por lo tanto, los valores de similitud no están dis-
tribuidos muy uniformemente, tal y como se puede observar en la desviación tı́pica que
presentan.

5.2 Similitud por frecuencia inversa


La métrica de similitud por frecuencia inversa [17], combina las métricas de similitud
entre palabras y la especificidad de palabras en una única fórmula. Donde la similitud
de la frase se calcula en base a una métrica de similitud descrita anteriormente, y la
frecuencia inversa del documento (IDF) [19] utilizada como pesado, combinando ası́ la
similitud léxica, con la importancia de la palabra, dando mayor peso a las palabras con
menor frecuencia, por lo que la similitud de dichas palabras es más determinante para
la de la frase.
P P
1 wi ∈s1 (idf (wi )·maxwj ∈s2 (sim(wi ,wj )) wj ∈s2 (idf (wj )·maxwi ∈s1 (sim(wj ,wi ))
f reqSim(s1 , s2 ) = ( P + P )
2 wi ∈s1 (idf (wi )) wj ∈s2 (idf (wj ))
(14)
Dicha similitud es mostrada en la ecuación 14. Donde idf es la frecuencia inversa
del documento definida mediante la ecuación 15, siendo N el número de términos del
corpus, y ni el número de apariciones del término i. Este valor se calculó mediante la
librerı́a Sklearn.
N
idf (termi ) = log (15)
ni
Los resultados de aplicar dicha métrica con las mismas similitudes léxicas de la
sección anterior (5.1), dichos resultados se muestran en la Figura 15. Tal y como se
observa, los resultados obtenidos son muy cercanos a los originales, especialmente por
la métrica jcn, donde se obtiene los valores más cercanos hasta el momento.

17
Se puede concluir que la métrica combinada de similitud léxica y frecuencia inversa
del documento es la que parece ser más precisa.

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

Figure 15: Comparación de valores estadı́sticos de la similitud textual con gold stan-
dard.

6 Evaluación
En las secciones anteriores se han descrito las técnicas utilizadas para calcular la simil-
itud entre frases de un corpus dado. Se ha proporcionado una medida orientativa para
evaluar los resultados obtenidos de forma superficial, mediante el cálculo de factores
estadı́sticos como la media, mediana y desviación tı́pica.

Ası́ pues, en esta sección se evaluarán los resultados mediante el Coeficiente de Cor-
relación Pearson [18]. Dicho coeficiente, se utiliza para observar si existe una relación
lineal entre los datos, lo que sirve para evaluar si las similitudes generadas por las dis-
tintas métricas, guardan relación con los datos originales. Lo que se hace es representar
los datos en un espacio bidimensional, y observar si se comportan de forma lineal, ya
sea positiva o negativamente. La ecuación 16 muestra la fórmula para calcular dicha
correlación, donde xi es el elemento i del vector de similitudes x, siendo x las similitudes
calculadas e y las similitudes originales.
Pn
(xi − x̄)(yi − ȳ)
r = pPn i=1 pPn (16)
2 2
i=1 (xi − x̄) i=1 (yi − ȳ)

Los valores del Coeficiente de Correlación oscilan en el intervalos (-1, 1), donde los
valores negativos indican correlación lineal negativa y los positivos correlación positiva.
En la tabla 6 se muestra la interpretación de los valores de correlación.

Table 6: Valores de Correlación Pearson

Valor Correlación
r ≤ ±0.35 Débil
±0.36 ≤ r ≤ ±0.67 Moderada
±0.68 ≤ r ≤ ±0.89 Fuerte
r ≥ ±0.90 Muy fuerte

18
6.1 Evaluación de la similitud basada en ontologı́as
En primer lugar se calculó la correlación con los datos calculados mediante la similitud
ontológica, dichos resultados se presentan en la Tabla 7, siendo r la media de valores de
correlación para cada fila y columna. Se puede observar que los valores oscilan en un
rango de correlación débil y moderada. Los mejores resultados obtenidos han sido los
de la métrica jcn (sección 4.1.5), tal y como indicaban los análisis previos en base a sus
valores estadı́sticos. El segundo mejor resultado se ha obtenido mediante la métrica
path (sección 4.1.1), también indicado por el análisis estadı́stico.
Respecto los distintos conjuntos del corpus, los dos conjuntos con mayor correlación
mediante esta técnica son MSRVid e images. En el análisis realizado en la sección
2.2, indica que MSRVid tiene los valores más bajos de similitud, junto con images, a
diferencia de MSRpar, cuyos valores de correlación son los más bajos, y que cuenta con
los valores de similitud más altos.
Ésto indica, que los valores de similitud bajos, son más fácilmente calculables de forma
precisa por los modelos de similitud ontológica, a diferencia de los valores más altos. Es
posible que la similitud alta sea debida a factores semánticos, en lugar ser léxicos, por
lo que podrı́a ser más difı́cilmente medible por modelos de similitud léxica ontológica.
Además de esto, la Tabla 4 muestra como la longitud de las frases del conjunto MSR-
par es significativamente mayor que el resto de métricas, lo que también influencia a la
hora de calcular la similitud, a mayor longitud de frase, mayor dificultad para calcular
la similitud precisa. El conjunto MSRVid, a su vez, cuenta con la longitud de frase
más baja, lo que corrobora dicha teorı́a.

Table 7: Correlación entre la similitud ontológica y el gold standard

Conjunto path lch wup res jcn lin r


MSRpar 0.18 0.10 0.12 0.03 0.21* 0.13 0.13
headlines 0.45 0.35 0.30 0.10 0.48* 0.41 0.35
deft-news 0.47 0.39 0.35 0.21 0.48* 0.42 0.39
MSRVid 0.64* 0.57 0.53 0.20 0.64* 0.53 0.52
images 0.69 0.59 0.53 0.15 0.71* 0.57 0.54
deft-forum 0.23 0.16 0.14 0.07 0.26* 0.17 0.17
r 0.44 0.36 0.33 0.13 0.46* 0.37 0.35

6.2 Evaluación de la similitud basada en semántica distribu-


cional
En segundo lugar, se calculó la correlación con los datos calculados mediante la simil-
itud distribucional, dichos resultados se presentan en la Tabla 8. Se puede observar
que los datos tienen nula correlación con los datos originales. Los mejores resultados
parecen ser los calculados mediante la similitud euclı́dea (sección 4.2.2), tal y como
indicaban los factores estadı́sticos.
Respecto a los conjuntos de datos, se pueden observar diferencias respecto a la similitud
ontológica (sección 6.1), pero existen varias coincidencias, como la correlación del con-
junto MSRpar es la más baja, mientras que MSRvid e images cuentan con la segunda
más alta. La diferencia reside en el conjunto deft-forum, que en la similitud ontológica
cuenta con una correlación baja, mientras que con la similitud distribucional, es la más
alta.

19
Table 8: Correlación entre la similitud distribucional y el gold standard

Conjunto Coseno Euclı́dea Producto |r|


MSRpar 0.03 0.03 0.03 0.03
headlines -0.07* 0.02 -0.07* 0.05
deft-news -0.05 0.12* -0.05 0.03
MSRVid -0.06* 0.04 -0.06* 0.05
images -0.02 -0.11* -0.02 0.05
deft-forum -0.07* 0.04 -0.07* 0.06
|r| 0.03 0.06* 0.05 0.05

6.3 Evaluación de la similitud textual


Por último, se calculó la correlación con los datos calculados mediante la similitud
textual, dichos resultados se presentan en la Tabla 9. Se observa que los resultados
mayoritariamente oscilan entre una similitud moderada y fuerte, a excepción de al-
gunos casos. Se observa que la similitud textual calculada con el IDF (sección 5.2)
funciona mejor que la calculada mediante el solapamiento de palabras (sección 5.1).
Dentro de la similitud de frecuencia inversa, los mejores resultados los obtuvieron path
y jcn, como se vio anteriormente. Los resultados de la similitud euclı́dea, mejoran
ligeramente respecto al cálculo por palabras, pero siguen siendo malos resultados.
Respecto a los conjuntos de datos, en este caso los resultados son iguales que los
obtenidos en la similitud ontológica (sección 6.1), con una correlación fuerte para los
conjuntos de datos de MSRVid e images, y baja para los conjuntos MSRpar y deft-
forum.
Se puede observar muchas similitudes con los resultados obtenidos en la sección 6.1,
debido a que la similitud textual se basa en las mismas métricas, pero en este caso
se puede ver que mejoran considerablemente los resultados, con correlaciones fuertes
en algunos casos, debido a la introducción del pesado IDF, que pondera el valor de la
similitud dependiendo de la especificidad del término en cuestión.

Table 9: Correlación entre la similitud textual y el gold standard

Solapamiento Frecuencia
Conjunto path jcn Euclı́dea path jcn Euclı́dea |r|
MSRpar 0.02 0.03 0.05 0.20 0.23* -0.05 0.10
headlines 0.20 0.23 0.04 0.46 0.49* -0.07 0.25
deft-news 0.23 0.23 0.04 0.54* 0.28 0.20 0.25
MSRVid 0.54 0.51 0.06 0.75* 0.74 -0.11 0.45
images 0.42 0.44 0.04 0.74* 0.74 -0.12 0.42
deft-forum 0.01 0.08 0.03 0.25 0.28* -0.02 0.11
|r| 0.24 0.23 0.04 0.49* 0.46 0.07 0.25

En conclusión, se puede decir que la métrica con mejores resultados tanto en valores
estadı́sticos, como en coeficiente de correlación, es la similitud textual calculada medi-
ante la similitud path y jcn combinada con el pesado IDF. Mientras que los conjuntos
con los que se obtuvo mayor correlación fueron MSRVid e images.

20
7 Comparativa de resultados
Una de las partes fundamentales de la experimentación es comparar los resultados
obtenidos en este experimento, con las variables y los métodos utilizados, con los resul-
tados obtenidos de los estudios de otros compañeros, para ası́ poder obtener hipótesis en
común. Es importante dicha comparación, tanto para saber si los resultados obtenidos
han sido satisfactorios, como para determinar si existen ciertas lineas en común en-
tre los trabajos, o por el contrario existen muchas diferencias. También confirmar o
desmentir las hipótesis planteadas en éste artı́culo, o valorar otras opciones que no se
trataron en éste, ası́ como estudiar variables en las que no se ha profundizado.

7.1 Análisis de resultados de los compañeros


En primer lugar, en la fase de preprocesado (sección 3), todos los estudios apuntan a
una mejora mediante la eliminación de stop words o palabras carentes de significado.
El uso o no de adjetivos, también parece ser determinante, ası́ como también el uso de
nombres y verbos exclusivamente (tal y como se realiza en este experimento). En la
mayorı́a de estudios, el uso de nombres, verbos y adjetivos, parece ser la mejor opción,
seguido por el uso de nombres y verbos. La eliminación de stop words siempre produce
mejoras en los resultados obtenidos, además, realizar una lematización de las palabras
también ha proporcionado resultados positivos.
En segundo lugar, respecto a la similitud léxica, existe una variedad de resultados
distintos entre sı́. Una mayor parte de trabajos apuntan a la similitud distribucional
como mejor opción que la similitud ontológica, debido a su mayor sofisticación. A
pesar de ello, otros trabajos, junto con este mismo, sugieren que la similitud ontológica
proporciona unos resultados superiores, debido posiblemente a la falta de profundidad
en los múltiples sentidos de la palabra para el caso de la similitud vectorial.

En cuanto al métricas de similitud ontológica, parece haber una lı́nea común que sug-
iere a path similarity (sección 4.1.1) y jcn similarity (sección 4.1.5) como las mejores
opciones dentro de la similitud ontológica, a pesar de haber otras métricas nombradas,
como lch similarity (sección 4.1.6). Dentro de las métricas utilizadas en la similitud
vectorial, no parece haber un claro ganador, las tres métricas parecen haber funcionado
de forma parecida, aunque se podrı́a destacar la similitud coseno (sección 4.2.1).
Respecto a los resultado de aplicar las técnicas de similitud textual, mediante sola-
pamiento (sección 5.1) y frecuencia inversa o Mihalcea (sección 5.2), el método de
solapamiento parece obtener mejores resultados en la gran parte de casos, aunque ex-
isten casos en los que Mihacea funciona mejor. Esto lleva a pensar que ambos métodos
pueden ser correctos, y a funcionar mejor o peor según otros factores, como el preproce-
sado, el corpus utilizado, o incluso la implementación de la métrica en cuestión. Cabe
comentar también que el factor umbral en el método de solapamiento juega también
un papel fundamental, donde gran parte de los trabajos apuestan por un umbral per-
misivo, entre el 50% y 75%.

Por último, en algunos trabajos se ha analizado la importancia del corpus escogido a


la hora de obtener mejores o peores resultados, donde el conjunto de desarrollo parece
ser el corpus con el cual se obtienen los mejores resultados.

7.2 Comparativa con el trabajo realizado


El trabajo realizado por el resto de compañeros, tiene puntos en común con este tra-
bajo, pero también varias diferencias. En este apartado se tratará de analizar dichas

21
similitudes y diferencias.
Los principales puntos en común encontrados son:

• El preprocesado proporciona mejores resultados eliminando las palabras como


artı́culos y determinantes, o dejando sólo nombres y verbos. Y en algunos casos
es necesario debido a las limitaciones de la ontologı́a WordNet.
• Dentro de la similitud ontológica, en general las métricas con mejores resultados
son path similarity y jcn similarity.
• En la similitud textual, algunos estudios indican que es preferible utilizar la
métrica de Mihacea, o en algunos casos según el tipo de frase a tratar.
• En el caso de la similitud por solapamiento de palabras, si bien en este trabajo no
se sobrepasa el umbral del 40%, si que se indica que un mayor umbral, proporciona
mejores resultados, en lı́nea con el resto de trabajos, que indican un umbral
óptimo entre el 50% y el 75%.

Por otra parte, las principales diferencias encontradas son:


• La similitud distribucional tiene mejores resultados que la ontológica, en la mayorı́a
de casos, lo que puede indicar algún fallo en la implementación de dichas simili-
tudes.
• Dentro de la similitud distribucional, en este trabajo se muestra que la similitud
Euclı́dea es la que proporciona mejores resultados, a diferencia de el resto de
estudios, que o bien no se decantan por ninguna, o reportan mejores resultados
con la similitud coseno.
• Respecto a la similitud textual, algunos trabajos apuntan a unos mejores resul-
tados de aplicar el solapamiento de palabras, que la similitud Mihacea, posible-
mente debido a que en este trabajo se probaron umbrales más bajos, por lo que
es posible que esta sea la causa de no obtener tan buenos resultados.
Como conclusión, se puede decir que ha habido ciertos puntos en común, sin embargo
parece haber diferencias sobre todo respecto a la similitud distribucional, donde parece
haberse realizado una implementación distinta a la usual. También existen variables
que intervienen, tales como las diferencias entre los distintos corpus utilizados, el proce-
sado, que no se han tratado en profundidad en este trabajo, por lo que no es posible
comparar los resultados.

8 Conclusión
Tras observar el estudio realizado, se pueden observar varias relaciones entre la natu-
raleza de los datos, las métricas utilizadas y los resultados obtenidos. La longitud de
las frases puede estar relacionada con la correlación que puede haber entre las simili-
tudes calculadas, y las similitudes originales, debido a que a mayor longitud de frase,
existe una mayor dificultad calcular la similitud de forma exacta, tal y como se observa
en la sección 6. También puede existir una relación entre el origen de los datos, y los
resultados obtenidos, ya que la correlación más alta fue obtenida en los dos conjuntos
de datos pertenecientes al género captions, de origen multimedia.

A su vez, se puede observar también que los factores estadı́sticos, como la media,
mediana, desviación tı́pica, entre otros, a pesar de no ser unas métricas de evaluación

22
como tal, si pueden proporcionar información útil sobre el parecido entre las simili-
tudes calculadas y las similitudes originales, tal y como se observa en los resultados, a
excepción de la similitud Euclı́dea.
También se puede intuir que los valores de similitud bajos, son más fácilmente cal-
culables de forma precisa por los modelos de similitud ontológica o textual, debido a
que podrı́an ser similares a nivel semántico, y no léxico, lo que hace que sea más difı́cil
medir esa similitud mediante las métricas léxicas, como se indica en las sección 6.1. Por
esa razón la similitud a nivel de texto, con el pesado IDF juega un papel importante,
ya que aporta una ponderación entre la importancia de la similitud en ciertas palabras
clave de las frases, lo que da una visión más completa.

La aproximación distribucional, por otra parte, no parece apropiada para este experi-
mento, tal vez debido a que las dimensiones de los vectores eran demasiadas. Dentro de
las similitudes basadas en Information Content (IC), los datos muestran que no existe
gran diferencia entre utilizar un corpus u otro, siempre y cuando ambos sean corpus
con gran cantidad de datos.

Por otro lado, una de las dificultades encontradas fue la gran variedad de rangos en
los cuales trabajan cada una de las métricas de similitud, siendo necesaria su normal-
ización. Otra de las dificultades fue escoger una forma para expresar los resultados
obtenidos de las distintas métricas, mas allá de la posterior evaluación de resultados
con el coeficiente Pearson.

Una vez dicho esto, según el análisis realizado en la sección 7.2, es posible que al-
guna de las métricas se haya implementado de una forma distinta a la recomendable,
por lo que es importante contrastar los resultados obtenidos, con los de otras personas.
En el caso de este trabajo, la similitud distribucional parece no haber obtenido los re-
sultados deseados. Por otro lado, el resto de métricas y análisis parecen ser acertados
observando los resultados del resto de compañeros.

23
Appendices
A Descripción del sistema
El sistema desarrollado, es un programa en Python, realizado mediante Programación
Orientada a Objetos (OOP), modularizado de manera en la cual cada clase era la encar-
gada de realizar una tarea, organizado de la misma forma que las secciones: una clase
encargada de realizar el preprocesamiento de los datos, leer los ficheros csv, procesarlos
y posteriormente realizar el filtrado y etiquetado gramatical; otra clase encargada de
calcular las distintas métricas de similitud; otra encargada de realizar la evaluación
mediante el coeficiente Pearson; y por último una clase principal que controla la eje-
cución, mediante los parámetros proporcionados desde la lı́nea de comandos.
El programa recibı́a una serie de parámetros de entrada, tales como el fichero del
Gold Standard a utilizar; el tipo de métrica, ontológica, distribucional o textual, y
dentro de éstas, la métrica a utilizar. En el caso de la similitud mediante solapamiento
de palabras, el umbral escogido.

A.1 Tecnologı́as utilizadas


Las tecnologı́as utilizadas fueron el lenguaje de programación Python‖ , y librerı́as del
mismo. Las librerı́as utilizadas fueron en esencia: NLTK, Sklearn, Gensim, NumPy∗∗ ,
matplotlib†† y Pandas, la documentación de todas ellas esta citada en el artı́culo.

References
[1] Wikipedia, SemEval [Online]. Available: https://en.wikipedia.org/wiki/SemEval
[2] STSbenchmark. Semantic Textual Similarity Wiki. [Online]. Available:
http://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark.
[3] CER, Daniel, et al. Semeval-2017 task 1: Semantic textual similarity-multilingual
and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055, 2017.
[4] MILLER, George A., et al. Introduction to WordNet: An on-line lexical database.
International journal of lexicography, 1990, vol. 3, no 4, p. 235-244.
[5] PEDERSEN, Ted, et al. WordNet:: Similarity-Measuring the Relatedness of Con-
cepts. En AAAI. 2004. p. 25-29.
[6] SECO, Nuno; VEALE, Tony; HAYES, Jer. An intrinsic information content metric
for semantic similarity in WordNet. En Ecai. 2004. p. 1089.
[7] GOMAA, Wael H., et al. A survey of text similarity approaches. International
Journal of Computer Applications, 2013, vol. 68, no 13, p. 13-18.
[8] ZHOU, Zili; WANG, Yanna; GU, Junzhong. New model of semantic similarity
measuring in wordnet. En 2008 3rd International Conference on Intelligent System
and Knowledge Engineering. IEEE, 2008. p. 256-261.

https://www.python.org/
∗∗
https://numpy.org/
††
https://matplotlib.org/

24
[9] Wikipedia, Brown Corpus [Online]. Available:
https://en.wikipedia.org/wiki/Brown Corpus#Sample distribution
[10] TAYLOR, Ann; MARCUS, Mitchell; SANTORINI, Beatrice. The Penn treebank:
an overview. Treebanks, 2003, p. 5-22.
[11] MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[12] MIKOLOV, Tomas, et al. Distributed representations of words and phrases and
their compositionality. arXiv preprint arXiv:1310.4546, 2013.
[13] Wikipedia, Word2Vec [Online]. Available: https://en.wikipedia.org/wiki/Word2vec
[14] JATNIKA, Derry; BIJAKSANA, Moch Arif; SURYANI, Arie Ardiyanti. Word2vec
model analysis for semantic similarities in english words. Procedia Computer Sci-
ence, 2019, vol. 157, p. 160-167.
[15] UClassify, Topics [Online]. Available: https://www.uclassify.com/browse/uclassify/topics
[16] GONZALEZ-AGIRRE, Aitor. Computational Models for Semantic Textual Simi-
larity, PhD Thesis, University of The Basque Country, 2017, p. 26-27.
[17] MIHALCEA, Rada, et al. Corpus-based and knowledge-based measures of text
semantic similarity. En Aaai. 2006. p. 775-780.
[18] TAYLOR, Richard. Interpretation of the correlation coefficient: a basic review.
Journal of diagnostic medical sonography, 1990, vol. 6, no 1, p. 35-39.
[19] ROBERTSON, Stephen. Understanding inverse document frequency: on theoret-
ical arguments for IDF. Journal of documentation, 2004.
[20] HAN, Jiawei, et al. Getting to know your data. En Data mining. Amsterdam,
Netherlands: Elsevier, 2012. p. 39-82.
[21] HANDLER, Abram. An empirical study of semantic similarity in WordNet and
Word2Vec. 2014.

25
View publication stats

También podría gustarte