Similitud Textos

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/359560291
Similitud entre textos
Article · May 2021
CITATIONS READS
0 63
1 author:
Aitana Villaplana
Universitat Politècnica de València
3 PUBLICATIONS 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Recuperación de información multimedia View project
Similitud entre textos View project
All content following this page was uploaded by Aitana Villaplana on 29 March 2022.
The user has requested enhancement of the downloaded file.

Similitud entre textos
Aitana Villaplana Moreno
UNED - Universidad Nacional de Educación a Distancia
Dpto. Lenguajes y Sistemas Informáticos
avillapla7@alumno.uned.es
Abstract
Estimar la similitud entre dos textos es un elemento clave en múltiples problemas
del área del Procesamiento del lenguaje natural. Algunos de ellos son el cálculo
de la similitud entre una consulta y los documentos potencialmente relevantes en
un buscador, la comparación de documentos para la realización de varias tareas,
entre ellas; resúmenes, detección de contenido duplicado y plagio. También es
utilizado en social media behavior, para la identificación de trending topics en
redes sociales, o detección de bots.
1 Introducción
La similitud textual semántica (STS), mide la similitud que existe entre el significado de
las frases. Es decir, indica cual es el grado de cercanı́a entre los significados semánticos
entre distintos textos. Existen múltiples aplicaciones para esto, entre las cuales se
incluyen; tareas de traducción automática (MT), resumen, generación y respuesta a
preguntas (QA), clasificación de respuestas cortas, búsqueda semántica, sistemas de
diálogo y conversación, entre otros.
A lo largo de los años, se han realizado múltiples congresos sobre similitud textual,
donde los concursantes presentaban modelos para calcular la similitud entre dos o más
textos o frases. La principal conferencia anual de procesamiento del lenguaje natural
(NLP) es SemEval [1], que realiza una serie de talleres internacionales de investigación,
con el objetivo de avanzar en el estado actual del análisis semántico, ayudando a crear
conjuntos de datos anotados para solucionar múltiples problemas del área NLP. El
taller de cada año incluye una colección de tareas compartidas en las que se presen-
tan y comparan sistemas de análisis semántico computacional diseñados por diferentes
equipos [3].
La estructura presentada en este artı́culo es la siguiente; la sección 2 abordará to-
dos los temas relacionados como el corpus inicial, los conjuntos y subconjuntos de
datos que lo componen y sus caracterı́sticas; en la sección 3 se tratará el preprocesado
y filtrado de los datos; la sección 4 tratará sobre la similitud léxica, y las distintas
métricas utilizadas a nivel de palabra; la sección 5, tratará de las métricas a nivel de
texto utilizadas; mientras que las secciones 6, 7 y 8, expondrán los resultados obtenidos,
la comparación de resultados con el resto de compañeros, y las conclusiones obtenidas,
respectivamente. También se proporciona una apéndice, explicando las caracterı́sticas
del sistema desarrollado y las tecnologı́as utilizadas.
2 Corpus
En esta sección, se tratarán todos los temas relacionados con el corpus de datos uti-
lizado, su origen, estructura, procesamiento y otra información de utilidad.
1
El corpus utilizado, es un corpus Gold Standard de evaluación de Semantic Textual
Similitary (STS) [2]. STS Benchmark comprende una selección de los conjuntos de
datos en inglés utilizados en las tareas STS organizadas en el contexto de SemEval [2]
entre 2012 y 2017. En los apartados posteriores se entrará en detalle sobre los diferentes
aspectos del corpus.
2.1 Estructura del corpus

El corpus Benchmark, se distribuye en tres ficheros csv: train, dev y test; dedicados al
entrenamiento, el desarrollo, donde generalmente se utiliza para afinar los parámetros
del modelo, y el testeo, respectivamente. A su vez, estos ficheros se distribuyen en
géneros: news, captions, forum. La selección de dichos conjuntos de datos incluye
textos de pies de imágenes, titulares de noticias y foros de usuarios. Dichos géneros, a
su vez se subdividen en conjuntos que pertenecen a distintos años. La distribución de
muestras entre los diferentes ficheros por género, son las mostradas en la Tabla 1.
Table 1: Muestras del corpus STS Benchmark.
train dev test total

news 3299 500 500 1299
caption 2000 625 625 3250
forum 450 375 254 1079
total 5749 1500 1379 8628
La información dentro de los ficheros se organiza por filas, donde cada columna
representa el género, el conjunto, el año, identificador dentro del conjunto, la similitud
anotada y el par de oraciones correspondiente. El valor de similitud, etiquetado de
forma manual, está comprendido entre 0 y 5. En la Tabla 2 se observa la distribución
de muestras más en detalle según los conjuntos de cada género.
Table 2: Muestras del corpus STS Benchmark para cada conjunto.
Género Conjunto Origen de los datos Año train dev test

news MSRpar newswire 2012 1000 250 250
news headlines titulares noticias 2013-2016 1999 250 250
news deft-news resúmenes noticias 2014 300 0 0
captions MSRVid vı́deos 2012 1000 250 250
captions images descripciones imágenes 2014-2015 1000 250 250
captions track5.en-en track 5 semEval 2017 2017 0 125 125
forum deft-forum publicaciones foros 2014 450 0 0
forum answers-forums Q&A respuestas foros 2015 0 375 0
forum answers-answers Q&A respuestas foros 2016 0 0 254
2.2 Análisis de los datos

Como primer paso antes de realizar el cálculo de las similitudes, se pretende estudiar la
naturaleza de los datos y las caracterı́sticas de cada conjunto. Para ello, en primer lugar
se calcularon una serie de estadı́sticos para observar las similitud de los datos originales.
2
Dichos estadı́sticos de muestran en la Tabla 3, siendo s la media de similitudes, se la
mediana, y σ la desviación tı́pica.
Table 3: Estadı́sticos de la similitud de los datos originales
train dev test

Conjunto s se σ s se σ s se σ
MSRpar 3.30 0.93 3.40 3.34 0.91 3.40 3.21 0.89 3.40
MSRvid 2.23 1.60 2.25 2.25 1.68 2.38 2.10 1.60 2.00
deft-forum 2.74 1.24 2.60 - - - - - -
answers-forums - - - 1.66 1.23 1.60 - - -
deft-news 3.03 1.26 3.40 - - - - - -
headlines 2.63 1.50 2.80 2.45 1.49 2.40 2.65 1.54 2.63
images 2.57 1.50 3.00 2.51 1.56 2.60 2.71 1.56 3.00
track5.en-en - - - 2.23 1.52 2.20 2.32 1.32 2.20
answer-answer - - - - - - 2.49 1.75 2.00
Tal y como se observa, el conjunto MSRpar es el que cuenta con mayor similitud, a
diferencia de MSRvid, cuya media es baja, sin embargo la mediana indica que los datos
de MSRpar no se distribuyen de manera uniforme, si no que tienden a ser bajos. Por
otro lado, los datos de answer-forums, cuentan con una similitud muy baja. Una vez
obtenidas las similitudes etiquetadas de los datos originales, éstos servirán como base
para poder evaluar los resultados obtenidos mediante las diferentes técnicas a aplicar.
Las diferencias encontradas en los datos pueden deberse al origen de los datos, ya
que los conjuntos de datos con mayor similitud son MSRpar y deft-news, ambos con
origen en noticias, por lo que es posible que la redacción de las frases fuera más com-
pleta que en el resto de subconjuntos. Los datos con menor media, son MSRvid, y
answer-forum, cuyo origen son vı́deos, y respuestas de foros, respectivamente, lo que
en el caso de los vı́deos puede suponer una mala transcripción del audio, lo que podrı́a
interferir en el análisis de la similitud.
Otro factor a tener en cuenta, es el análisis sintáctico de los conjuntos de datos, es

decir, la frecuencia y distribución de etiquetas gramaticales entre los distintos conjun-
tos. Para ello, se analizaron sintácticamente las frases de cada conjunto. Los resultados
del análisis para el conjunto de entrenamiento son los obtenidos en la Figura 1, donde
el eje x, corresponde con las etiquetas gramaticales, siendo “DT” determinantes, “IN”
preposiciones, “JJ” adjetivos, “NN” nombres, “TO” infinitivo del verbo to, “VB” ver-
bos. Por simplicidad sólo se muestran las más comunes, y el resto de las etiquetas se
incluye en la categorı́a “OTHER”. El eje y corresponde con la cantidad de palabras
etiquetadas.
3
(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test
Figure 1: Etiquetas gramaticales más comunes en los datasets.
Como era de esperar, el mayor número de palabras son nombres, y en segundo

lugar, verbos. Esto toma relevancia a la hora de filtrar o no ciertas palabras según su
etiqueta gramatical.
Otra cuestión a tener en cuenta es la longitud de las frases de cada conjunto, ya
que juega un papel importante a la hora de calcular la similitud entre ellas, es decir,
a menor longitud de las frases, más sencillo resulta que ambas sean más similares, a
mayor longitud hay mayor posibilidad de variantes por lo que es más fácil obtener una
baja similitud. En la Tabla 4 se muestran las longitudes medias de las frases de cada
conjunto.
Table 4: Longitud media de frase de los conjuntos.
Conjunto train dev test

MSRpar 17.2 17.1 17.0
headlines 7.2 7.2 7.2
deft-news 15.5 0 0
MSRVid 6.7 6.7 6.6
images 9.4 9.4 9.3
track5.en-en 0 9.0 8.4
deft-forum 8.2 0 0
answers-forums 0 14.7 0
answers-answers 0 0 8.6
También se llevó a cabo un análisis de los tópicos de cada subconjunto [15], mostra-
dos en la Tabla 5, donde se puede observar la relación entre los tópicos principales en
cada subconjunto y la fuente de dichos datos. Por ejemplo, los datos de origen pe-
riodı́stico (MSRpar, headlines y deft-news) tienen el tópico social como predominante,
como era de esperar. El resto de subconjuntos, tienen los tópicos distribuidos de man-
era más o menos uniforme, exceptuando el caso de MSRvid, donde predominan las
artes, cosa que se podrı́a explicar si los vı́deos de origen tienen contenido artı́stico o
educativo. En el caso de deft-forum, se observa una predominancia del tópico social,
posiblemente debido a la naturaleza de los foros.
4
Table 5: Análisis de tópicos del conjunto de datos.
Conjunto Artes Ocio Hogar Juegos Deporte Social Salud Ciencia Pc

MSRpar 3% 0% 0% 0% 0% 81% 1% 0% 0%
headlines 0% 0% 0% 0% 0% 100% 0% 0% 0%
deft-news 0% 0% 0% 0% 0% 100% 0% 0% 0%
MSRvid 39% 14% 13% 10% 8% 0% 0% 0% 0%
images 11% 67% 0% 3% 14% 0% 0% 0% 0%
track5.en-en 28% 12% 3% 8% 41% 0% 3% 0% 0%
deft-forum 13% 0% 0% 6% 0% 56% 10% 0% 0%
answer-forum 13% 6% 12% 13% 0% 5% 19% 16% 14%
answer-answer 10% 6% 14% 10% 0% 4% 22% 16% 15%
Total 117% 105% 42% 50% 64% 346% 55% 32% 29%
3 Preprocesamiento y filtrado
En esta sección, se presentan los procesos previos al cálculo de similitud de los datos;
el preprocesado, y posteriormente el filtrado, para tratar de ajustar lo máximo posible
los datos a los diferentes cálculos de la similitud.
El primer paso a realizar es el procesamiento del fichero csv de cada dataset del corpus,
para ello se utilizó la librerı́a pandas∗ , que permite leer y procesar la información es-
tructurada de ficheros csv. Posteriormente, se utilizó la librerı́a NLTK† para tokenizar
las palabras de cada frase, eliminando caracteres no alfanuméricos, y pasando las pal-
abras a minúsculas.
Una vez realizado el procesamiento inicial, se pretende realizar una serie de filtros
a las palabras, escogiendo únicamente palabras con ciertas categorı́as gramaticales. En
primer lugar, se debe realizar un etiquetado gramatical a las palabras previamente to-
kenizadas. Éste proceso se puede realizar mediante el POS-tagger de la librerı́a NLTK.
Una vez las palabras están etiquetadas, es posible seleccionar con que categorı́as gra-
maticales se debe trabajar, debido a que no todas las categorı́as tienen el mismo peso,
por ejemplo, las palabras con más peso suelen ser los nombres y los verbos. Debido a
esto, se realizó un filtrado gramatical, mediante el cual sólo se conservaron los tokens
de cada frase que fueran nombres y verbos.
4 Similitud léxica
En las secciones siguientes se presentan los resultados obtenidos del cálculo de la simili-
tud de cada par de oraciones en el corpus, ası́ como los métodos utilizados para ello. En
primer lugar, se hace una distinción entre dos tipos de aproximaciones; la aproximación
ontológica, donde se estudia la proximidad entre palabras, para ası́ poder extenderla
a frases; y la distribucional, donde se estudian las distribuciones de palabras, y sus
co-ocurrencias dentro del corpus [21].
Debido a la variedad de escalas de valores de similitud proporcionados por cada una
∗
https://pandas.pydata.org/
†
https://www.nltk.org/
5
de las métricas, fue necesario aplicar una normalización de los valores en el rango 0 a
5, para ası́ ser comparables entre sı́, y con los valores de similitud originales.
4.1 Similitud basada en ontologı́as

La similitud basada en el conocimiento, es una de las medidas de similitud semántica
que se basa en la identificación del grado de similitud entre las palabras utilizando
información derivada de las redes semánticas u ontologı́as. Los sustantivos, verbos,
adjetivos y adverbios se agrupan en conjuntos de sinónimos cognitivos (synsets), cada
uno de los cuales expresa un concepto distinto. Los synsets están interconectados me-
diante relaciones conceptuales-semánticas y léxicas [7].
La base de datos léxica WordNet [4], organiza palabras, con categorı́a gramatical
nominal y verbal, en jerarquı́as de relaciones es-un (hiperónimo/hipónimo). Estas rela-
ciones, solo aplican a nombres y verbos, por lo que no están disponibles para adjetivos y
adverbios, entre otras categorı́as. Por ello, WordNet proporciona relaciones adicionales
(no jerárquicas) como tiene-parte, está hecho-de, es-un-atributo-de, etc. Además, cada
concepto (o sentido de la palabra) se describe con una breve definición escrita [5].
Dentro de la ontologı́a WordNet, a su vez, se distinguen dos tipos de similitud; la
similitud basada en la longitud del camino entre los distintos sentidos, y la similitud
basada en el contenido informativo (IC), es decir, una medida basada en la especifici-
dad de un concepto dado, en un corpus determinado [6].
En este apartado, se presentan los resultados de aplicar una serie de funciones de
similitud basadas en ontologı́as. Para ello, se ha utilizado la herramienta NLTK, que
utiliza la ontologı́a Wordnet para calcular la distancia entre palabras en función de la
longitud de caminos posibles entre los nodos que representan cada palabra.
Para el cálculo de dicha similitud, se procesaron las dos frases de cada una de las
filas del dataset (train, dev, test) y se calculó la similitud entre ambas frases, aplicando
la ecuación 1, donde se define la similitud de las frases como la media de las simili-
tudes de todos los pares de palabras posibles entre ambas frases. Siendo wsn la enésima
palabra de la frase s.
s1 X
X s2
sentenceSim(s1 , s2 ) = mean wordSim(w1n , w2n ) (1)
w1n w2n
La similitud entre dos palabras, se calcula aplicando la ecuación 2, donde se escoge

el valor máximo de la similitud entre cada par de sentidos de ambas palabras, donde
synsetSim es una función arbitraria de similitud de WordNet.
w1 X
X w2
wordSim(w1 , w2 ) = argmax synsetSim(cn1 , cn2 ) (2)
cn
1 cn
2
A continuación, se muestran las funciones de similitud utilizadas y los resultados

obtenidos. En la Figura 2 se muestra la leyenda de las gráficas de las próximas secciones,
siendo o los datos originales, y s los datos sintéticos.
6
Figure 2: Leyenda.
4.1.1 Longitud del camino más corto

La métrica de la longitud del camino más corto (path similarity en NLTK), devuelve
una puntuación que denota la similitud de dos sentidos de palabras, basándose en el
camino más corto que conecta dichos sentidos en la taxonomı́a es-un [7]. En la Figura 3
se muestra la comparación de los valores estadı́sticos de la similitud, obtenida mediante
la métrica path, y los valores del gold standard. Se aplicó un filtrado en el que sólo se
tienen en cuenta los nombres y los verbos.
Figure 3: Comparación de valores estadı́sticos de path con gold standard.
Se puede observar, que la media y la mediana de las similitudes calculadas mediante

la métrica, son más altas que la similitud del gold standard, lo que sugiere que esta
métrica es demasiado permisiva, por lo que proporciona valores de similitud más altos
que los que deberı́an ser, sin embargo, la desviación es mayor en los datos originales,
lo que puede significar que, los valores de similitud del gold standard están más repar-
tidos, y en el caso de la similitud path, están más cerca de la media, lo que sugiere que
tienen una mayor tendencia a tomar valores más altos.
También se observa que la desviación tiene una tendencia parecida en ambas simil-
itudes, mientras que en el caso de la media y la mediana, sólo en el conjunto de
desarrollo, parecen tener cierta similitud entre sı́.
4.1.2 Longitud Leacock-Chodorow

La métrica de la longitud Leacock-Chodorow (lch similarity en NLTK), encuentra el
camino más corto entre dos conceptos, y normaliza ese valor basándose en la longitud
máxima del camino en la jerarquı́a es-un en la que se encuentran [5]. La ecuación 3
muestra la fórmula por la cual se calcula dicha longitud [8], donde len es la longitud
del camino más corto entre los sentidos o conceptos c dentro de WordNet, y depth la
longitud de la ruta de acceso al concepto desde el nodo raı́z de la jerarquı́a de WordNet,
7
es decir, la profundidad del nodo. Lo que se realiza es una normalización de la longitud
path, normalizando por el máximo valor de profundidad de la jerarquı́a.
len(c1 , c2 )
lchSimilarity(c1 , c2 ) = − log (3)
2 · argmax depth(c)
c∈W ordN et
En la Figura 4 se muestra la comparación de los valores estadı́sticos de la similitud,

obtenida mediante la métrica lch, y los valores del gold standard.
Figure 4: Comparación de valores estadı́sticos de lch con gold standard.
Tal y como se observa, es un caso parecido al anterior (path), donde los valores de
la similitud lch toman valores más altos. Los datos están relacionados entre sı́ de una
manera parecida a path (sección 4.1.1), sin embargo aquı́ se puede observar una mayor
separación entre los datos de ambas similitudes.
4.1.3 Longitud Wu-Palmer

La métrica de la longitud Wu-Palmer (wup similarity en NLTK), encuentra la longitud
del camino al nodo raı́z desde el subsumidor común más bajo en la jerarquı́a (LCS) de
los dos conceptos, es decir, el hiperónimo más especı́fico que comparten. Dicho valor, se
calcula a partir de la suma de las longitudes de las rutas de los conceptos individuales
a la raı́z [5].
Wu y Palmer no sólo consideraron la longitud entre conceptos, sino también la profun-
didad del hiperónimo común inferior, es decir, el más cercano a ambos conceptos. La
ecuación 4, muestra la fórmula por la cual se calcula dicha distancia [8], siend lsc el
hiperónimo común más bajo en la jerarquı́a entre ambos conceptos.
2 · (lsc(c1 , c2 ))
wupSimilarity(c1 , c2 ) =
len(c1 , lsc(c1 , c2 )) + len(c2 , lsc(c1 , c2 )) + 2 · depth(lsc(c1 , c2 ))
(4)
En la Figura 5 se muestra la comparación de los valores estadı́sticos de la similitud,
obtenida mediante la métrica wup, y los valores del gold standard.
8
Figure 5: Comparación de valores estadı́sticos de wup con gold standard.
Tal y como se observa, los resultados son idénticos a los obtenidos en la similitud
lch (sección 4.1.2)
4.1.4 Longitud Resnik

La métrica de la similitud Resnik (res similarity en NLTK), se basa en el contenido
informativo de un corpus, en lugar de la longitud del camino entre los nodos, visto en
las secciones anteriores. Para Resnik, la similitud semántica depende de la cantidad
de información que dos conceptos tienen en común, esta información compartida está
dada por la abstracción común más especı́fica que contiene, es decir, el hiperónimo
común de ambos conceptos [8].
Es necesario tener en cuenta, que para cualquier medida de similitud que utilice con-
tenido informativo, el resultado depende del corpus utilizado. En la ecuación 5, se
muestra el cálculo de dicha similitud, siendo IC la probabilidad de un concepto c en el
corpus, tal y como se muestra en la ecuación 6, siendo p(c) dicha probabilidad. Ésto
se conoce como probabilidad logarı́tmica negativa.
resSimilarity(c1 , c2 ) = IC(lsc(c1 , c2 )) (5)
IC(c) = − log p(c) (6)

Debido a que cada similitud depende directamente del corpus con el que se tra-
baje, es necesario comparar la similitud en distintos corpus para observar como varı́a
la similitud entre ellos.
Se han escogido dos corpus distintos. El corpus Brown [9], dado que fue el primer
corpus general disponible en formato electrónico. Se inició en Brown University en los
años 60 y contiene un millón de palabras. Este corpus también ha servido como base
para otros. También el corpus TreeBank [10], donde la estructura sintáctica utiliza una
estructura de árbol, el cual dispone de 7 millones de palabras etiquetadas. El material
anotado incluye varios géneros, tales como manuales de informática de IBM, notas de
enfermerı́a, artı́culos del Wall Street Journal y conversaciones telefónicas transcritas,
entre otros.
Para comparar la dependencia del corpus en el cálculo de las similitudes basadas en

contenido, se probó a realizar las funciones de cálculo de similitud con los distintos
corpus escogidos. En la Figura 6 se muestra la comparación de los valores estadı́sticos
de la similitud, obtenida mediante la métrica res, y los valores del gold standard.
9
(a) Corpus Brown (b) Corpus Treebank
Figure 6: Comparación de valores estadı́sticos de res con gold standard.
Tal y como se observa, los valores obtenidos son excesivamente bajos, lo que lleva
a pensar que las palabra utilizadas eran bastante comunes y poco significativas, por
lo que su valor de información es bajo. Además, esta métrica sólo permite calcular
la similitud entre palabras con la misma categorı́a gramatical, por lo que en casos
contrario la similitud es 0, lo que reduce el valor medio de la similitud. Se puede ver
como los valores varı́an ligeramente entre ambos corpus, aunque las diferencias no son
significativas.
4.1.5 Longitud Jiang-Conrath

La métrica de la similitud Jiang-Conrath (jcn similarity en NLTK), se basa en el
contenido informativo de un corpus, como se ha explicado en la sección 4.1.4. La
medida Jiang-Conrath, a diferencia de la similitud Resnik, no se basa exclusivamente
en el valor del lsc entre ambos conceptos, si no que amplı́a el contenido informativo del
LCS mediante la suma del contenido informativo de los conceptos individualmente. La
métrica resta el contenido informativo del LSC de esta suma (y luego toma la inversa
para convertirla de una distancia a una medida de similitud) [5]. En la ecuación 7 se
puede observar la fórmula por la cual se calcula dicha métrica [8].
jcnSimilarity(c1 , c2 ) = IC(c1 ) + IC(c2 ) − 2 · IC(lsc(c1 , c2 )) (7)
10
Figure 7: Comparación de valores estadı́sticos de jcn con gold standard.
Como se observa en la Figura 7, en el caso de esta métrica los valores de similitud

obtenidos son relativamente similares a los originales. Las tendencias son similares, con
los mejores resultados obtenidos hasta el momento. Lo que indica es que los valores
de información de las palabras aisladas, es significativamente mayor que el valor del
subsumidor común, lo que explicarı́a los resultados de res. En este caso la diferencia
entre los datos de ambos corpus son imperceptibles.
4.1.6 Longitud Lin

La métrica de la similitud Lin (lin similarity en NLTK), también se basa en el contenido
informativo de un corpus. La diferencia de esta métrica con las anteriores, es que
en lugar de restar el contenido informativo del LSC entre ambos conceptos, lo escala,
dividiendolo por la suma del contenido informativo de ambos conceptos, lo que pondera
el valor de el LSC entre ambos conceptos [8], tal y como se muestra en la ecuación 8.
2 · IC(lsc(c1 , c2 ))
linSimilarity(c1 , c2 ) = (8)
IC(c1 ) + IC(c2 )
11
Figure 8: Comparación de valores estadı́sticos de lin con gold standard.
Tal y como se observa en la Figura 8, en este caso los valores son más altos que los
originales, y se puede observar cierta similitud en los conjuntos deft-news, headlines e
images. Al igual que con la métrica jcn (sección 4.1.5), el hecho de introducir en el
cálculo de la similitud el LSC, parece obtener mucho mejores resultados, debido a que
se calcula la similitud de manera más completa.
Otra observación a llevar a cabo, es que el caso de los distintos corpus no afecta
prácticamente nada al cálculo de las similitudes, seguramente debido a que ambos cor-
pus son extensos, y las palabras utilizadas estaban presentes de la misma manera en
ambos.
4.2 Similitud basada en semántica distribucional

La similitud basada en semántica distribucional, las palabras quedan representadas
mediante vectores, en un espacio multidimensional, según sus propiedades de grandes
muestras de texto. Una de las aproximaciones a este modelo distribucional, es el mod-
elo Word2Vec [11] [12].
Word2Vec utiliza un modelo de red neuronal para aprender asociaciones en un cor-
pus de texto. Una vez entrenado, Word2Vec representa cada palabra mediante un
vector en el espacio. Dicho vector, debe generarse de forma que palabras similares
tengan vectores similares, para ası́ poder calcular la similitud entre palabras compara-
ndo sus vectores [13]. Para realizar esto, el modelo de redes neuronales, recibe como
entrada un gran corpus de texto y produce un espacio vectorial de varios cientos de
dimensiones, y a cada palabra se le asigna un vector en el espacio. Dichos vectores se
colocan en el espacio vectorial de manera que las palabras que comparten contexto se
representen en un espacio cercano.
Existen librerı́as en Python que implementan dicho modelo, por ejemplo Gensim ‡ , la
cual proporciona funciones para realizar todo tipo de cálculos con el modelo, además
de permitir trabajar con múltiples corpus de representaciones. En esta ocasión se uti-
lizaron las representaciones de Google, word2vec-google-news-300 § , el cual contiene en
‡
https://radimrehurek.com/gensim/models/word2vec.html
§
https://code.google.com/archive/p/word2vec/
12
3 millones de palabras y sintagmas representados en vectores de 300 dimensiones.
Para el calculo de la similitud de los vectores de palabras, existen varias métricas,
entre ellas; similitud coseno, distancia euclı́dea y el producto escalar. Dichas métricas
se explicarán en detalle en las siguientes secciones. La forma en la que se calcula dicha
similitud se muestra en la ecuación 1, siendo wordSim la fórmula de similitud vecto-
rial correspondiente. Antes de calcular la similitud, los vectores que representan las
palabras son extraı́dos del modelo, y los cálculos de la similitud se realizan con dichos
vectores.
4.2.1 Similitud coseno

La similitud coseno, esta basada en el ángulo que forman los dos vectores de palabras en
el espacio. Debido a que palabras similares tienen representaciones similares, es lógico
pensar que también deben formar un ángulo pequeño. La fórmula mediante la cual se
calcula dicha similitud se muestra en la ecuación 9, siendo vi el vector que representa
la palabra i en la representación distribucional correspondiente [14], y siendo kvi k la
norma del vector vi .
v1 · v2
cosineSimilarity(v1 , v2 ) = (9)
kv1 k · kv2 k
Para calcular la similitud coseno, previamente es necesario cargar la representación
distribucional, en este caso la de Google, y después obtener los vectores de cada palabra
mediante el uso de la librerı́a Gensim, para posteriormente calcular la similitud coseno
mediante el uso de la librerı́a Sklearn ¶ . En la Figura 9 se observan los resultados de
aplicar dicha métrica al corpus de entrenamiento.
Figure 9: Comparación de valores estadı́sticos de similitud coseno con gold standard.
Tal y como se muestra en la Figura 9, los valores de similitud obtenidos son

prácticamente 0. Esto puede ser debido a que gran cantidad de palabras forman un
ángulo cercano a los 90º entre sı́, o que los vectores de palabra contienen muchos 0, de-
bido a que esta métrica no trabaja bien con matrices dispersas y con gran cantidad de
0 o valores bajos [20]. También al tratarse de vectores de 300 dimensiones, los valores
de la similitud coseno tienden a ser peores que con vectores de menores dimensiones
[14].
¶
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.pairwise
13
4.2.2 Similitud euclı́dea
Otra de las métricas utilizada en la similitud entre vectores, es la distancia euclı́dea
entre éstos, definida mediante la ecuación 10. Siendo euclideanDistance la distancia
Euclı́dea, mostrada en la ecuación 11.
1
euclideanSimilarity(v1 , v2 ) = (10)
1 + euclideanDistance(v1 , v2 )
v
u n
uX
euclideanDistance(v1 , v2 ) = t (v1i − v2i )2 (11)
i=1
En la Figura 10 se observan los resultados de aplicar dicha métrica al corpus de

entrenamiento. Se puede observar que los valores de la similitud euclı́dea son más altos,
pero a su vez siguen un desarrollo parecido en cuanto la forma de la recta. En este
caso la desviación de los datos sintéticos es mucho menor que en los datos originales.
Figure 10: Comparación de valores estadı́sticos de similitud euclidea con gold standard.
Como se observa en la Figura 10, los resultados son bastante positivos, siguiendo
una traza cercana a la de los datos originales, puede ser debido a que a diferencia de
la similitud coseno (sección 4.2.1) la distancia Euclı́dea no es tan dependiente de la
dimensión de los vectores.
4.2.3 Producto escalar

La métrica del producto escalar entre ambos vectores de palabras, se define en la
ecuación 12. Dicha métrica es la misma que la similitud coseno (sección 4.2.1) pero sin
normalizar con la norma de ambos vectores.
n
X
dotP roduct(v1 , v2 ) = (v1i · v2i ) (12)
i=1
En la Figura 11 se observan los resultados de aplicar dicha métrica. Dichos resulta-

dos son idénticos a los obtenidos en la sección (4.2.1) debido a la similitud entre ambas
métricas.
14
Figure 11: Comparación de valores estadı́sticos de similitud del producto escalar con
gold standard.
5 Similitud a nivel de texto

En las secciones anteriores, se ha tratado la similitud a nivel de palabra, calculando la
similitud de frase, mediante pares palabra-palabra. En esta sección se realizarán dos
aproximaciones para estimar la similitud entre frases, basándose en la similitud a nivel
de palabra.
Para ello, se hará uso de dos métricas, descritas en [16]. La primera, se trata de
un solapamiento de palabras, la segunda se basa en el cálculo de la frecuencia de la
palabra dentro del conjunto de datos.
5.1 Solapamiento de palabras

La métrica del solapamiento de palabras, se basa en el número de términos de cada
frase que coinciden entre sı́, y el número de palabras que forman cada frase. La fórmula
utilizada es la descrita en la ecuación 13, donde Aligned representa el conjunto de
palabras que hay en común entre ambas frases.
2 · |Aligned|
wordOverlap(s1 , s2 ) = (13)
|s1 | + |s2 |
Originalmente, se consideraba que dos palabras estaban alineadas si eran idénticas,
pero se observó que las similitudes eran demasiado bajas, debido a la exigencia del
método. Por lo que se probó a realizar el cálculo de la similitud entre cada par de pal-
abras de la frase, y si dicha similitud alcanza un cierto umbral, se considera alineada.
Para ello, se seleccionó la mejor métrica observada de cada tipo de similitud a nivel
de palabra, es decir, path (sección 4.1.1) para el caso de similitudes basadas en la lon-
gitud del camino, jcn (sección 4.1.5) para las similitudes basadas en WordNet, y la
similitud euclı́dea (sección 4.2.2) para las similitudes distribucionales. Una vez hecho
esto, el cálculo de la similitud se realizó mediante la fórmula 13, donde el Aligned serı́a
el conjunto de pares de palabras que tenı́an una similitud mayor o igual a un umbral
dado. Dicho umbral se calculó de la siguiente manera: en primer lugar se ordenaron
las similitudes obtenidas en la métrica en cuestión, y se seleccionó el valor lı́mite del
20% de las similitudes más altas, por lo que ambas palabras entrarı́an en el 20% de
15
palabras mas parecidas entre sı́. Los resultados de aplicar dicho umbral se muestran el
la Figura 12.
(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea
Figure 12: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 20%.
Tal y como se observa en la gráfica, los valores no cambian demasiado entre las
distintas métricas de similitud, y son valores mucho más bajos que los del gold standard,
por ello, se aumentó el umbral, a un 30% y 40% de las palabras con mayor similitud
entre sı́, para ası́ poder obtener valores más altos. En la Figura 13 se muestran los
resultados con el umbral 30%. Se puede observar que los valores han aumentado
respecto al umbral del 20%, cosa que era de esperar, debido a es una métrica más
permisiva.
con umbral del 30%.
En la Figura 14, se muestran los resultados de aplicar el umbral del 40% de palabras
más similares, se puede observar que los valores han aumentado respecto a los umbrales
más bajos. A pesar de ello, no se alcanzan los valores originales del gold standard en
ningún caso, pero se observan resultados más cercanos en el umbral del 40%. Se puede
observar en todas las figuras que la mediana toma valores extremos, o es 0 o es un valor
alto, lo que indica que los valores no se distribuyen uniformemente, hay similitudes muy
bajas o 0, y similitudes altas.
16
con umbral del 40%.
En conclusión, se puede decir que esta métrica no es demasiado precisa, y es preferi-

ble utilizar la similitud a nivel de palabra. Los resultados pueden deberse a que la
métrica es un tanto tajante, es decir, si las palabras llegan a un umbral, la similitud
es incrementada, si no se llega a dicho umbral, no se incrementa. Por lo tanto, no
existe distinción entre palabras dentro del grupo de similitudes superiores al umbral, y
similitudes inferiores, por lo que los valores de similitud no se distribuyen en función
del valor de similitud como tal. Por lo tanto, los valores de similitud no están dis-
tribuidos muy uniformemente, tal y como se puede observar en la desviación tı́pica que
presentan.
5.2 Similitud por frecuencia inversa

La métrica de similitud por frecuencia inversa [17], combina las métricas de similitud
entre palabras y la especificidad de palabras en una única fórmula. Donde la similitud
de la frase se calcula en base a una métrica de similitud descrita anteriormente, y la
frecuencia inversa del documento (IDF) [19] utilizada como pesado, combinando ası́ la
similitud léxica, con la importancia de la palabra, dando mayor peso a las palabras con
menor frecuencia, por lo que la similitud de dichas palabras es más determinante para
la de la frase.
P P
1 wi ∈s1 (idf (wi )·maxwj ∈s2 (sim(wi ,wj )) wj ∈s2 (idf (wj )·maxwi ∈s1 (sim(wj ,wi ))
f reqSim(s1 , s2 ) = ( P + P )
2 wi ∈s1 (idf (wi )) wj ∈s2 (idf (wj ))
(14)
Dicha similitud es mostrada en la ecuación 14. Donde idf es la frecuencia inversa
del documento definida mediante la ecuación 15, siendo N el número de términos del
corpus, y ni el número de apariciones del término i. Este valor se calculó mediante la
librerı́a Sklearn.
N
idf (termi ) = log (15)
ni
Los resultados de aplicar dicha métrica con las mismas similitudes léxicas de la
sección anterior (5.1), dichos resultados se muestran en la Figura 15. Tal y como se
observa, los resultados obtenidos son muy cercanos a los originales, especialmente por
la métrica jcn, donde se obtiene los valores más cercanos hasta el momento.
17
Se puede concluir que la métrica combinada de similitud léxica y frecuencia inversa
del documento es la que parece ser más precisa.
Figure 15: Comparación de valores estadı́sticos de la similitud textual con gold stan-
dard.
6 Evaluación
En las secciones anteriores se han descrito las técnicas utilizadas para calcular la simil-
itud entre frases de un corpus dado. Se ha proporcionado una medida orientativa para
evaluar los resultados obtenidos de forma superficial, mediante el cálculo de factores
estadı́sticos como la media, mediana y desviación tı́pica.
Ası́ pues, en esta sección se evaluarán los resultados mediante el Coeficiente de Cor-
relación Pearson [18]. Dicho coeficiente, se utiliza para observar si existe una relación
lineal entre los datos, lo que sirve para evaluar si las similitudes generadas por las dis-
tintas métricas, guardan relación con los datos originales. Lo que se hace es representar
los datos en un espacio bidimensional, y observar si se comportan de forma lineal, ya
sea positiva o negativamente. La ecuación 16 muestra la fórmula para calcular dicha
correlación, donde xi es el elemento i del vector de similitudes x, siendo x las similitudes
calculadas e y las similitudes originales.
Pn
(xi − x̄)(yi − ȳ)
r = pPn i=1 pPn (16)
2 2
i=1 (xi − x̄) i=1 (yi − ȳ)
Los valores del Coeficiente de Correlación oscilan en el intervalos (-1, 1), donde los
valores negativos indican correlación lineal negativa y los positivos correlación positiva.
En la tabla 6 se muestra la interpretación de los valores de correlación.
Table 6: Valores de Correlación Pearson
Valor Correlación
r ≤ ±0.35 Débil
±0.36 ≤ r ≤ ±0.67 Moderada
±0.68 ≤ r ≤ ±0.89 Fuerte
r ≥ ±0.90 Muy fuerte
18
6.1 Evaluación de la similitud basada en ontologı́as
En primer lugar se calculó la correlación con los datos calculados mediante la similitud
ontológica, dichos resultados se presentan en la Tabla 7, siendo r la media de valores de
correlación para cada fila y columna. Se puede observar que los valores oscilan en un
rango de correlación débil y moderada. Los mejores resultados obtenidos han sido los
de la métrica jcn (sección 4.1.5), tal y como indicaban los análisis previos en base a sus
valores estadı́sticos. El segundo mejor resultado se ha obtenido mediante la métrica
path (sección 4.1.1), también indicado por el análisis estadı́stico.
Respecto los distintos conjuntos del corpus, los dos conjuntos con mayor correlación
mediante esta técnica son MSRVid e images. En el análisis realizado en la sección
2.2, indica que MSRVid tiene los valores más bajos de similitud, junto con images, a
diferencia de MSRpar, cuyos valores de correlación son los más bajos, y que cuenta con
los valores de similitud más altos.
Ésto indica, que los valores de similitud bajos, son más fácilmente calculables de forma
precisa por los modelos de similitud ontológica, a diferencia de los valores más altos. Es
posible que la similitud alta sea debida a factores semánticos, en lugar ser léxicos, por
lo que podrı́a ser más difı́cilmente medible por modelos de similitud léxica ontológica.
Además de esto, la Tabla 4 muestra como la longitud de las frases del conjunto MSR-
par es significativamente mayor que el resto de métricas, lo que también influencia a la
hora de calcular la similitud, a mayor longitud de frase, mayor dificultad para calcular
la similitud precisa. El conjunto MSRVid, a su vez, cuenta con la longitud de frase
más baja, lo que corrobora dicha teorı́a.
Table 7: Correlación entre la similitud ontológica y el gold standard
Conjunto path lch wup res jcn lin r

MSRpar 0.18 0.10 0.12 0.03 0.21* 0.13 0.13
headlines 0.45 0.35 0.30 0.10 0.48* 0.41 0.35
deft-news 0.47 0.39 0.35 0.21 0.48* 0.42 0.39
MSRVid 0.64* 0.57 0.53 0.20 0.64* 0.53 0.52
images 0.69 0.59 0.53 0.15 0.71* 0.57 0.54
deft-forum 0.23 0.16 0.14 0.07 0.26* 0.17 0.17
r 0.44 0.36 0.33 0.13 0.46* 0.37 0.35
6.2 Evaluación de la similitud basada en semántica distribu-

cional
En segundo lugar, se calculó la correlación con los datos calculados mediante la simil-
itud distribucional, dichos resultados se presentan en la Tabla 8. Se puede observar
que los datos tienen nula correlación con los datos originales. Los mejores resultados
parecen ser los calculados mediante la similitud euclı́dea (sección 4.2.2), tal y como
indicaban los factores estadı́sticos.
Respecto a los conjuntos de datos, se pueden observar diferencias respecto a la similitud
ontológica (sección 6.1), pero existen varias coincidencias, como la correlación del con-
junto MSRpar es la más baja, mientras que MSRvid e images cuentan con la segunda
más alta. La diferencia reside en el conjunto deft-forum, que en la similitud ontológica
cuenta con una correlación baja, mientras que con la similitud distribucional, es la más
alta.
19
Table 8: Correlación entre la similitud distribucional y el gold standard
Conjunto Coseno Euclı́dea Producto |r|

MSRpar 0.03 0.03 0.03 0.03
headlines -0.07* 0.02 -0.07* 0.05
deft-news -0.05 0.12* -0.05 0.03
MSRVid -0.06* 0.04 -0.06* 0.05
images -0.02 -0.11* -0.02 0.05
deft-forum -0.07* 0.04 -0.07* 0.06
|r| 0.03 0.06* 0.05 0.05
6.3 Evaluación de la similitud textual

Por último, se calculó la correlación con los datos calculados mediante la similitud
textual, dichos resultados se presentan en la Tabla 9. Se observa que los resultados
mayoritariamente oscilan entre una similitud moderada y fuerte, a excepción de al-
gunos casos. Se observa que la similitud textual calculada con el IDF (sección 5.2)
funciona mejor que la calculada mediante el solapamiento de palabras (sección 5.1).
Dentro de la similitud de frecuencia inversa, los mejores resultados los obtuvieron path
y jcn, como se vio anteriormente. Los resultados de la similitud euclı́dea, mejoran
ligeramente respecto al cálculo por palabras, pero siguen siendo malos resultados.
Respecto a los conjuntos de datos, en este caso los resultados son iguales que los
obtenidos en la similitud ontológica (sección 6.1), con una correlación fuerte para los
conjuntos de datos de MSRVid e images, y baja para los conjuntos MSRpar y deft-
forum.
Se puede observar muchas similitudes con los resultados obtenidos en la sección 6.1,
debido a que la similitud textual se basa en las mismas métricas, pero en este caso
se puede ver que mejoran considerablemente los resultados, con correlaciones fuertes
en algunos casos, debido a la introducción del pesado IDF, que pondera el valor de la
similitud dependiendo de la especificidad del término en cuestión.
Table 9: Correlación entre la similitud textual y el gold standard
Solapamiento Frecuencia
Conjunto path jcn Euclı́dea path jcn Euclı́dea |r|
MSRpar 0.02 0.03 0.05 0.20 0.23* -0.05 0.10
headlines 0.20 0.23 0.04 0.46 0.49* -0.07 0.25
deft-news 0.23 0.23 0.04 0.54* 0.28 0.20 0.25
MSRVid 0.54 0.51 0.06 0.75* 0.74 -0.11 0.45
images 0.42 0.44 0.04 0.74* 0.74 -0.12 0.42
deft-forum 0.01 0.08 0.03 0.25 0.28* -0.02 0.11
|r| 0.24 0.23 0.04 0.49* 0.46 0.07 0.25
En conclusión, se puede decir que la métrica con mejores resultados tanto en valores
estadı́sticos, como en coeficiente de correlación, es la similitud textual calculada medi-
ante la similitud path y jcn combinada con el pesado IDF. Mientras que los conjuntos
con los que se obtuvo mayor correlación fueron MSRVid e images.
20
7 Comparativa de resultados
Una de las partes fundamentales de la experimentación es comparar los resultados
obtenidos en este experimento, con las variables y los métodos utilizados, con los resul-
tados obtenidos de los estudios de otros compañeros, para ası́ poder obtener hipótesis en
común. Es importante dicha comparación, tanto para saber si los resultados obtenidos
han sido satisfactorios, como para determinar si existen ciertas lineas en común en-
tre los trabajos, o por el contrario existen muchas diferencias. También confirmar o
desmentir las hipótesis planteadas en éste artı́culo, o valorar otras opciones que no se
trataron en éste, ası́ como estudiar variables en las que no se ha profundizado.
7.1 Análisis de resultados de los compañeros

En primer lugar, en la fase de preprocesado (sección 3), todos los estudios apuntan a
una mejora mediante la eliminación de stop words o palabras carentes de significado.
El uso o no de adjetivos, también parece ser determinante, ası́ como también el uso de
nombres y verbos exclusivamente (tal y como se realiza en este experimento). En la
mayorı́a de estudios, el uso de nombres, verbos y adjetivos, parece ser la mejor opción,
seguido por el uso de nombres y verbos. La eliminación de stop words siempre produce
mejoras en los resultados obtenidos, además, realizar una lematización de las palabras
también ha proporcionado resultados positivos.
En segundo lugar, respecto a la similitud léxica, existe una variedad de resultados
distintos entre sı́. Una mayor parte de trabajos apuntan a la similitud distribucional
como mejor opción que la similitud ontológica, debido a su mayor sofisticación. A
pesar de ello, otros trabajos, junto con este mismo, sugieren que la similitud ontológica
proporciona unos resultados superiores, debido posiblemente a la falta de profundidad
en los múltiples sentidos de la palabra para el caso de la similitud vectorial.
En cuanto al métricas de similitud ontológica, parece haber una lı́nea común que sug-
iere a path similarity (sección 4.1.1) y jcn similarity (sección 4.1.5) como las mejores
opciones dentro de la similitud ontológica, a pesar de haber otras métricas nombradas,
como lch similarity (sección 4.1.6). Dentro de las métricas utilizadas en la similitud
vectorial, no parece haber un claro ganador, las tres métricas parecen haber funcionado
de forma parecida, aunque se podrı́a destacar la similitud coseno (sección 4.2.1).
Respecto a los resultado de aplicar las técnicas de similitud textual, mediante sola-
pamiento (sección 5.1) y frecuencia inversa o Mihalcea (sección 5.2), el método de
solapamiento parece obtener mejores resultados en la gran parte de casos, aunque ex-
isten casos en los que Mihacea funciona mejor. Esto lleva a pensar que ambos métodos
pueden ser correctos, y a funcionar mejor o peor según otros factores, como el preproce-
sado, el corpus utilizado, o incluso la implementación de la métrica en cuestión. Cabe
comentar también que el factor umbral en el método de solapamiento juega también
un papel fundamental, donde gran parte de los trabajos apuestan por un umbral per-
misivo, entre el 50% y 75%.
Por último, en algunos trabajos se ha analizado la importancia del corpus escogido a

la hora de obtener mejores o peores resultados, donde el conjunto de desarrollo parece
ser el corpus con el cual se obtienen los mejores resultados.
7.2 Comparativa con el trabajo realizado

El trabajo realizado por el resto de compañeros, tiene puntos en común con este tra-
bajo, pero también varias diferencias. En este apartado se tratará de analizar dichas
21
similitudes y diferencias.
Los principales puntos en común encontrados son:
• El preprocesado proporciona mejores resultados eliminando las palabras como

artı́culos y determinantes, o dejando sólo nombres y verbos. Y en algunos casos
es necesario debido a las limitaciones de la ontologı́a WordNet.
• Dentro de la similitud ontológica, en general las métricas con mejores resultados
son path similarity y jcn similarity.
• En la similitud textual, algunos estudios indican que es preferible utilizar la
métrica de Mihacea, o en algunos casos según el tipo de frase a tratar.
• En el caso de la similitud por solapamiento de palabras, si bien en este trabajo no
se sobrepasa el umbral del 40%, si que se indica que un mayor umbral, proporciona
mejores resultados, en lı́nea con el resto de trabajos, que indican un umbral
óptimo entre el 50% y el 75%.
Por otra parte, las principales diferencias encontradas son:

• La similitud distribucional tiene mejores resultados que la ontológica, en la mayorı́a
de casos, lo que puede indicar algún fallo en la implementación de dichas simili-
tudes.
• Dentro de la similitud distribucional, en este trabajo se muestra que la similitud
Euclı́dea es la que proporciona mejores resultados, a diferencia de el resto de
estudios, que o bien no se decantan por ninguna, o reportan mejores resultados
con la similitud coseno.
• Respecto a la similitud textual, algunos trabajos apuntan a unos mejores resul-
tados de aplicar el solapamiento de palabras, que la similitud Mihacea, posible-
mente debido a que en este trabajo se probaron umbrales más bajos, por lo que
es posible que esta sea la causa de no obtener tan buenos resultados.
Como conclusión, se puede decir que ha habido ciertos puntos en común, sin embargo
parece haber diferencias sobre todo respecto a la similitud distribucional, donde parece
haberse realizado una implementación distinta a la usual. También existen variables
que intervienen, tales como las diferencias entre los distintos corpus utilizados, el proce-
sado, que no se han tratado en profundidad en este trabajo, por lo que no es posible
comparar los resultados.
8 Conclusión
Tras observar el estudio realizado, se pueden observar varias relaciones entre la natu-
raleza de los datos, las métricas utilizadas y los resultados obtenidos. La longitud de
las frases puede estar relacionada con la correlación que puede haber entre las simili-
tudes calculadas, y las similitudes originales, debido a que a mayor longitud de frase,
existe una mayor dificultad calcular la similitud de forma exacta, tal y como se observa
en la sección 6. También puede existir una relación entre el origen de los datos, y los
resultados obtenidos, ya que la correlación más alta fue obtenida en los dos conjuntos
de datos pertenecientes al género captions, de origen multimedia.
A su vez, se puede observar también que los factores estadı́sticos, como la media,
mediana, desviación tı́pica, entre otros, a pesar de no ser unas métricas de evaluación
22
como tal, si pueden proporcionar información útil sobre el parecido entre las simili-
tudes calculadas y las similitudes originales, tal y como se observa en los resultados, a
excepción de la similitud Euclı́dea.
También se puede intuir que los valores de similitud bajos, son más fácilmente cal-
culables de forma precisa por los modelos de similitud ontológica o textual, debido a
que podrı́an ser similares a nivel semántico, y no léxico, lo que hace que sea más difı́cil
medir esa similitud mediante las métricas léxicas, como se indica en las sección 6.1. Por
esa razón la similitud a nivel de texto, con el pesado IDF juega un papel importante,
ya que aporta una ponderación entre la importancia de la similitud en ciertas palabras
clave de las frases, lo que da una visión más completa.
La aproximación distribucional, por otra parte, no parece apropiada para este experi-
mento, tal vez debido a que las dimensiones de los vectores eran demasiadas. Dentro de
las similitudes basadas en Information Content (IC), los datos muestran que no existe
gran diferencia entre utilizar un corpus u otro, siempre y cuando ambos sean corpus
con gran cantidad de datos.
Por otro lado, una de las dificultades encontradas fue la gran variedad de rangos en
los cuales trabajan cada una de las métricas de similitud, siendo necesaria su normal-
ización. Otra de las dificultades fue escoger una forma para expresar los resultados
obtenidos de las distintas métricas, mas allá de la posterior evaluación de resultados
con el coeficiente Pearson.
Una vez dicho esto, según el análisis realizado en la sección 7.2, es posible que al-
guna de las métricas se haya implementado de una forma distinta a la recomendable,
por lo que es importante contrastar los resultados obtenidos, con los de otras personas.
En el caso de este trabajo, la similitud distribucional parece no haber obtenido los re-
sultados deseados. Por otro lado, el resto de métricas y análisis parecen ser acertados
observando los resultados del resto de compañeros.
23
Appendices
A Descripción del sistema
El sistema desarrollado, es un programa en Python, realizado mediante Programación
Orientada a Objetos (OOP), modularizado de manera en la cual cada clase era la encar-
gada de realizar una tarea, organizado de la misma forma que las secciones: una clase
encargada de realizar el preprocesamiento de los datos, leer los ficheros csv, procesarlos
y posteriormente realizar el filtrado y etiquetado gramatical; otra clase encargada de
calcular las distintas métricas de similitud; otra encargada de realizar la evaluación
mediante el coeficiente Pearson; y por último una clase principal que controla la eje-
cución, mediante los parámetros proporcionados desde la lı́nea de comandos.
El programa recibı́a una serie de parámetros de entrada, tales como el fichero del
Gold Standard a utilizar; el tipo de métrica, ontológica, distribucional o textual, y
dentro de éstas, la métrica a utilizar. En el caso de la similitud mediante solapamiento
de palabras, el umbral escogido.
A.1 Tecnologı́as utilizadas

Las tecnologı́as utilizadas fueron el lenguaje de programación Python‖ , y librerı́as del
mismo. Las librerı́as utilizadas fueron en esencia: NLTK, Sklearn, Gensim, NumPy∗∗ ,
matplotlib†† y Pandas, la documentación de todas ellas esta citada en el artı́culo.
References
[1] Wikipedia, SemEval [Online]. Available: https://en.wikipedia.org/wiki/SemEval
[2] STSbenchmark. Semantic Textual Similarity Wiki. [Online]. Available:
http://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark.
[3] CER, Daniel, et al. Semeval-2017 task 1: Semantic textual similarity-multilingual
and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055, 2017.
[4] MILLER, George A., et al. Introduction to WordNet: An on-line lexical database.
International journal of lexicography, 1990, vol. 3, no 4, p. 235-244.
[5] PEDERSEN, Ted, et al. WordNet:: Similarity-Measuring the Relatedness of Con-
cepts. En AAAI. 2004. p. 25-29.
[6] SECO, Nuno; VEALE, Tony; HAYES, Jer. An intrinsic information content metric
for semantic similarity in WordNet. En Ecai. 2004. p. 1089.
[7] GOMAA, Wael H., et al. A survey of text similarity approaches. International
Journal of Computer Applications, 2013, vol. 68, no 13, p. 13-18.
[8] ZHOU, Zili; WANG, Yanna; GU, Junzhong. New model of semantic similarity
measuring in wordnet. En 2008 3rd International Conference on Intelligent System
and Knowledge Engineering. IEEE, 2008. p. 256-261.
‖
https://www.python.org/
∗∗
https://numpy.org/
††
https://matplotlib.org/
24
[9] Wikipedia, Brown Corpus [Online]. Available:
https://en.wikipedia.org/wiki/Brown Corpus#Sample distribution
[10] TAYLOR, Ann; MARCUS, Mitchell; SANTORINI, Beatrice. The Penn treebank:
an overview. Treebanks, 2003, p. 5-22.
[11] MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[12] MIKOLOV, Tomas, et al. Distributed representations of words and phrases and
their compositionality. arXiv preprint arXiv:1310.4546, 2013.
[13] Wikipedia, Word2Vec [Online]. Available: https://en.wikipedia.org/wiki/Word2vec
[14] JATNIKA, Derry; BIJAKSANA, Moch Arif; SURYANI, Arie Ardiyanti. Word2vec
model analysis for semantic similarities in english words. Procedia Computer Sci-
ence, 2019, vol. 157, p. 160-167.
[15] UClassify, Topics [Online]. Available: https://www.uclassify.com/browse/uclassify/topics
[16] GONZALEZ-AGIRRE, Aitor. Computational Models for Semantic Textual Simi-
larity, PhD Thesis, University of The Basque Country, 2017, p. 26-27.
[17] MIHALCEA, Rada, et al. Corpus-based and knowledge-based measures of text
semantic similarity. En Aaai. 2006. p. 775-780.
[18] TAYLOR, Richard. Interpretation of the correlation coefficient: a basic review.
Journal of diagnostic medical sonography, 1990, vol. 6, no 1, p. 35-39.
[19] ROBERTSON, Stephen. Understanding inverse document frequency: on theoret-
ical arguments for IDF. Journal of documentation, 2004.
[20] HAN, Jiawei, et al. Getting to know your data. En Data mining. Amsterdam,
Netherlands: Elsevier, 2012. p. 39-82.
[21] HANDLER, Abram. An empirical study of semantic similarity in WordNet and
Word2Vec. 2014.
25
View publication stats

Similitud Textos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Similitud Textos

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Similitud entre textos

Article · May 2021

Recuperación de información multimedia View project

Similitud entre textos View project

The user has requested enhancement of the downloaded file.

2.1 Estructura del corpus

Table 1: Muestras del corpus STS Benchmark.

train dev test total

Table 2: Muestras del corpus STS Benchmark para cada conjunto.

Género Conjunto Origen de los datos Año train dev test

2.2 Análisis de los datos

Table 3: Estadı́sticos de la similitud de los datos originales

train dev test

Otro factor a tener en cuenta, es el análisis sintáctico de los conjuntos de datos, es

Figure 1: Etiquetas gramaticales más comunes en los datasets.

Como era de esperar, el mayor número de palabras son nombres, y en segundo

Table 4: Longitud media de frase de los conjuntos.

Conjunto train dev test

Conjunto Artes Ocio Hogar Juegos Deporte Social Salud Ciencia Pc

4.1 Similitud basada en ontologı́as

La similitud entre dos palabras, se calcula aplicando la ecuación 2, donde se escoge

A continuación, se muestran las funciones de similitud utilizadas y los resultados

4.1.1 Longitud del camino más corto

(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 3: Comparación de valores estadı́sticos de path con gold standard.

Se puede observar, que la media y la mediana de las similitudes calculadas mediante

4.1.2 Longitud Leacock-Chodorow

En la Figura 4 se muestra la comparación de los valores estadı́sticos de la similitud,

(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test

Figure 4: Comparación de valores estadı́sticos de lch con gold standard.

4.1.3 Longitud Wu-Palmer

Figure 5: Comparación de valores estadı́sticos de wup con gold standard.

4.1.4 Longitud Resnik

IC(c) = − log p(c) (6)

Para comparar la dependencia del corpus en el cálculo de las similitudes basadas en

Figure 6: Comparación de valores estadı́sticos de res con gold standard.

4.1.5 Longitud Jiang-Conrath

jcnSimilarity(c1 , c2 ) = IC(c1 ) + IC(c2 ) − 2 · IC(lsc(c1 , c2 )) (7)

Figure 7: Comparación de valores estadı́sticos de jcn con gold standard.

Como se observa en la Figura 7, en el caso de esta métrica los valores de similitud

4.1.6 Longitud Lin

Figure 8: Comparación de valores estadı́sticos de lin con gold standard.

4.2 Similitud basada en semántica distribucional

4.2.1 Similitud coseno

Figure 9: Comparación de valores estadı́sticos de similitud coseno con gold standard.

Tal y como se muestra en la Figura 9, los valores de similitud obtenidos son

En la Figura 10 se observan los resultados de aplicar dicha métrica al corpus de

4.2.3 Producto escalar

En la Figura 11 se observan los resultados de aplicar dicha métrica. Dichos resulta-

5 Similitud a nivel de texto

5.1 Solapamiento de palabras

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

En conclusión, se puede decir que esta métrica no es demasiado precisa, y es preferi-

5.2 Similitud por frecuencia inversa

(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea

Table 6: Valores de Correlación Pearson

Table 7: Correlación entre la similitud ontológica y el gold standard

Conjunto path lch wup res jcn lin r

6.2 Evaluación de la similitud basada en semántica distribu-

Conjunto Coseno Euclı́dea Producto |r|

6.3 Evaluación de la similitud textual