Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Similitud Textos
Similitud Textos
net/publication/359560291
CITATIONS READS
0 63
1 author:
Aitana Villaplana
Universitat Politècnica de València
3 PUBLICATIONS 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Aitana Villaplana on 29 March 2022.
Abstract
Estimar la similitud entre dos textos es un elemento clave en múltiples problemas
del área del Procesamiento del lenguaje natural. Algunos de ellos son el cálculo
de la similitud entre una consulta y los documentos potencialmente relevantes en
un buscador, la comparación de documentos para la realización de varias tareas,
entre ellas; resúmenes, detección de contenido duplicado y plagio. También es
utilizado en social media behavior, para la identificación de trending topics en
redes sociales, o detección de bots.
1 Introducción
La similitud textual semántica (STS), mide la similitud que existe entre el significado de
las frases. Es decir, indica cual es el grado de cercanı́a entre los significados semánticos
entre distintos textos. Existen múltiples aplicaciones para esto, entre las cuales se
incluyen; tareas de traducción automática (MT), resumen, generación y respuesta a
preguntas (QA), clasificación de respuestas cortas, búsqueda semántica, sistemas de
diálogo y conversación, entre otros.
A lo largo de los años, se han realizado múltiples congresos sobre similitud textual,
donde los concursantes presentaban modelos para calcular la similitud entre dos o más
textos o frases. La principal conferencia anual de procesamiento del lenguaje natural
(NLP) es SemEval [1], que realiza una serie de talleres internacionales de investigación,
con el objetivo de avanzar en el estado actual del análisis semántico, ayudando a crear
conjuntos de datos anotados para solucionar múltiples problemas del área NLP. El
taller de cada año incluye una colección de tareas compartidas en las que se presen-
tan y comparan sistemas de análisis semántico computacional diseñados por diferentes
equipos [3].
La estructura presentada en este artı́culo es la siguiente; la sección 2 abordará to-
dos los temas relacionados como el corpus inicial, los conjuntos y subconjuntos de
datos que lo componen y sus caracterı́sticas; en la sección 3 se tratará el preprocesado
y filtrado de los datos; la sección 4 tratará sobre la similitud léxica, y las distintas
métricas utilizadas a nivel de palabra; la sección 5, tratará de las métricas a nivel de
texto utilizadas; mientras que las secciones 6, 7 y 8, expondrán los resultados obtenidos,
la comparación de resultados con el resto de compañeros, y las conclusiones obtenidas,
respectivamente. También se proporciona una apéndice, explicando las caracterı́sticas
del sistema desarrollado y las tecnologı́as utilizadas.
2 Corpus
En esta sección, se tratarán todos los temas relacionados con el corpus de datos uti-
lizado, su origen, estructura, procesamiento y otra información de utilidad.
1
El corpus utilizado, es un corpus Gold Standard de evaluación de Semantic Textual
Similitary (STS) [2]. STS Benchmark comprende una selección de los conjuntos de
datos en inglés utilizados en las tareas STS organizadas en el contexto de SemEval [2]
entre 2012 y 2017. En los apartados posteriores se entrará en detalle sobre los diferentes
aspectos del corpus.
La información dentro de los ficheros se organiza por filas, donde cada columna
representa el género, el conjunto, el año, identificador dentro del conjunto, la similitud
anotada y el par de oraciones correspondiente. El valor de similitud, etiquetado de
forma manual, está comprendido entre 0 y 5. En la Tabla 2 se observa la distribución
de muestras más en detalle según los conjuntos de cada género.
2
Dichos estadı́sticos de muestran en la Tabla 3, siendo s la media de similitudes, se la
mediana, y σ la desviación tı́pica.
Tal y como se observa, el conjunto MSRpar es el que cuenta con mayor similitud, a
diferencia de MSRvid, cuya media es baja, sin embargo la mediana indica que los datos
de MSRpar no se distribuyen de manera uniforme, si no que tienden a ser bajos. Por
otro lado, los datos de answer-forums, cuentan con una similitud muy baja. Una vez
obtenidas las similitudes etiquetadas de los datos originales, éstos servirán como base
para poder evaluar los resultados obtenidos mediante las diferentes técnicas a aplicar.
Las diferencias encontradas en los datos pueden deberse al origen de los datos, ya
que los conjuntos de datos con mayor similitud son MSRpar y deft-news, ambos con
origen en noticias, por lo que es posible que la redacción de las frases fuera más com-
pleta que en el resto de subconjuntos. Los datos con menor media, son MSRvid, y
answer-forum, cuyo origen son vı́deos, y respuestas de foros, respectivamente, lo que
en el caso de los vı́deos puede suponer una mala transcripción del audio, lo que podrı́a
interferir en el análisis de la similitud.
3
(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test
También se llevó a cabo un análisis de los tópicos de cada subconjunto [15], mostra-
dos en la Tabla 5, donde se puede observar la relación entre los tópicos principales en
cada subconjunto y la fuente de dichos datos. Por ejemplo, los datos de origen pe-
riodı́stico (MSRpar, headlines y deft-news) tienen el tópico social como predominante,
como era de esperar. El resto de subconjuntos, tienen los tópicos distribuidos de man-
era más o menos uniforme, exceptuando el caso de MSRvid, donde predominan las
artes, cosa que se podrı́a explicar si los vı́deos de origen tienen contenido artı́stico o
educativo. En el caso de deft-forum, se observa una predominancia del tópico social,
posiblemente debido a la naturaleza de los foros.
4
Table 5: Análisis de tópicos del conjunto de datos.
3 Preprocesamiento y filtrado
En esta sección, se presentan los procesos previos al cálculo de similitud de los datos;
el preprocesado, y posteriormente el filtrado, para tratar de ajustar lo máximo posible
los datos a los diferentes cálculos de la similitud.
El primer paso a realizar es el procesamiento del fichero csv de cada dataset del corpus,
para ello se utilizó la librerı́a pandas∗ , que permite leer y procesar la información es-
tructurada de ficheros csv. Posteriormente, se utilizó la librerı́a NLTK† para tokenizar
las palabras de cada frase, eliminando caracteres no alfanuméricos, y pasando las pal-
abras a minúsculas.
Una vez realizado el procesamiento inicial, se pretende realizar una serie de filtros
a las palabras, escogiendo únicamente palabras con ciertas categorı́as gramaticales. En
primer lugar, se debe realizar un etiquetado gramatical a las palabras previamente to-
kenizadas. Éste proceso se puede realizar mediante el POS-tagger de la librerı́a NLTK.
Una vez las palabras están etiquetadas, es posible seleccionar con que categorı́as gra-
maticales se debe trabajar, debido a que no todas las categorı́as tienen el mismo peso,
por ejemplo, las palabras con más peso suelen ser los nombres y los verbos. Debido a
esto, se realizó un filtrado gramatical, mediante el cual sólo se conservaron los tokens
de cada frase que fueran nombres y verbos.
4 Similitud léxica
En las secciones siguientes se presentan los resultados obtenidos del cálculo de la simili-
tud de cada par de oraciones en el corpus, ası́ como los métodos utilizados para ello. En
primer lugar, se hace una distinción entre dos tipos de aproximaciones; la aproximación
ontológica, donde se estudia la proximidad entre palabras, para ası́ poder extenderla
a frases; y la distribucional, donde se estudian las distribuciones de palabras, y sus
co-ocurrencias dentro del corpus [21].
Debido a la variedad de escalas de valores de similitud proporcionados por cada una
∗
https://pandas.pydata.org/
†
https://www.nltk.org/
5
de las métricas, fue necesario aplicar una normalización de los valores en el rango 0 a
5, para ası́ ser comparables entre sı́, y con los valores de similitud originales.
Para el cálculo de dicha similitud, se procesaron las dos frases de cada una de las
filas del dataset (train, dev, test) y se calculó la similitud entre ambas frases, aplicando
la ecuación 1, donde se define la similitud de las frases como la media de las simili-
tudes de todos los pares de palabras posibles entre ambas frases. Siendo wsn la enésima
palabra de la frase s.
s1 X
X s2
sentenceSim(s1 , s2 ) = mean wordSim(w1n , w2n ) (1)
w1n w2n
6
Figure 2: Leyenda.
7
es decir, la profundidad del nodo. Lo que se realiza es una normalización de la longitud
path, normalizando por el máximo valor de profundidad de la jerarquı́a.
len(c1 , c2 )
lchSimilarity(c1 , c2 ) = − log (3)
2 · argmax depth(c)
c∈W ordN et
Tal y como se observa, es un caso parecido al anterior (path), donde los valores de
la similitud lch toman valores más altos. Los datos están relacionados entre sı́ de una
manera parecida a path (sección 4.1.1), sin embargo aquı́ se puede observar una mayor
separación entre los datos de ambas similitudes.
2 · (lsc(c1 , c2 ))
wupSimilarity(c1 , c2 ) =
len(c1 , lsc(c1 , c2 )) + len(c2 , lsc(c1 , c2 )) + 2 · depth(lsc(c1 , c2 ))
(4)
En la Figura 5 se muestra la comparación de los valores estadı́sticos de la similitud,
obtenida mediante la métrica wup, y los valores del gold standard.
8
(a) Conjunto entrenamiento (b) Conjunto desarrollo (c) Conjunto test
Tal y como se observa, los resultados son idénticos a los obtenidos en la similitud
lch (sección 4.1.2)
Es necesario tener en cuenta, que para cualquier medida de similitud que utilice con-
tenido informativo, el resultado depende del corpus utilizado. En la ecuación 5, se
muestra el cálculo de dicha similitud, siendo IC la probabilidad de un concepto c en el
corpus, tal y como se muestra en la ecuación 6, siendo p(c) dicha probabilidad. Ésto
se conoce como probabilidad logarı́tmica negativa.
resSimilarity(c1 , c2 ) = IC(lsc(c1 , c2 )) (5)
9
(a) Corpus Brown (b) Corpus Treebank
Tal y como se observa, los valores obtenidos son excesivamente bajos, lo que lleva
a pensar que las palabra utilizadas eran bastante comunes y poco significativas, por
lo que su valor de información es bajo. Además, esta métrica sólo permite calcular
la similitud entre palabras con la misma categorı́a gramatical, por lo que en casos
contrario la similitud es 0, lo que reduce el valor medio de la similitud. Se puede ver
como los valores varı́an ligeramente entre ambos corpus, aunque las diferencias no son
significativas.
10
(a) Corpus Brown (b) Corpus Treebank
11
(a) Corpus Brown (b) Corpus Treebank
Tal y como se observa en la Figura 8, en este caso los valores son más altos que los
originales, y se puede observar cierta similitud en los conjuntos deft-news, headlines e
images. Al igual que con la métrica jcn (sección 4.1.5), el hecho de introducir en el
cálculo de la similitud el LSC, parece obtener mucho mejores resultados, debido a que
se calcula la similitud de manera más completa.
Otra observación a llevar a cabo, es que el caso de los distintos corpus no afecta
prácticamente nada al cálculo de las similitudes, seguramente debido a que ambos cor-
pus son extensos, y las palabras utilizadas estaban presentes de la misma manera en
ambos.
12
3 millones de palabras y sintagmas representados en vectores de 300 dimensiones.
Para el calculo de la similitud de los vectores de palabras, existen varias métricas,
entre ellas; similitud coseno, distancia euclı́dea y el producto escalar. Dichas métricas
se explicarán en detalle en las siguientes secciones. La forma en la que se calcula dicha
similitud se muestra en la ecuación 1, siendo wordSim la fórmula de similitud vecto-
rial correspondiente. Antes de calcular la similitud, los vectores que representan las
palabras son extraı́dos del modelo, y los cálculos de la similitud se realizan con dichos
vectores.
13
4.2.2 Similitud euclı́dea
Otra de las métricas utilizada en la similitud entre vectores, es la distancia euclı́dea
entre éstos, definida mediante la ecuación 10. Siendo euclideanDistance la distancia
Euclı́dea, mostrada en la ecuación 11.
1
euclideanSimilarity(v1 , v2 ) = (10)
1 + euclideanDistance(v1 , v2 )
v
u n
uX
euclideanDistance(v1 , v2 ) = t (v1i − v2i )2 (11)
i=1
Figure 10: Comparación de valores estadı́sticos de similitud euclidea con gold standard.
Como se observa en la Figura 10, los resultados son bastante positivos, siguiendo
una traza cercana a la de los datos originales, puede ser debido a que a diferencia de
la similitud coseno (sección 4.2.1) la distancia Euclı́dea no es tan dependiente de la
dimensión de los vectores.
14
Figure 11: Comparación de valores estadı́sticos de similitud del producto escalar con
gold standard.
Para ello, se seleccionó la mejor métrica observada de cada tipo de similitud a nivel
de palabra, es decir, path (sección 4.1.1) para el caso de similitudes basadas en la lon-
gitud del camino, jcn (sección 4.1.5) para las similitudes basadas en WordNet, y la
similitud euclı́dea (sección 4.2.2) para las similitudes distribucionales. Una vez hecho
esto, el cálculo de la similitud se realizó mediante la fórmula 13, donde el Aligned serı́a
el conjunto de pares de palabras que tenı́an una similitud mayor o igual a un umbral
dado. Dicho umbral se calculó de la siguiente manera: en primer lugar se ordenaron
las similitudes obtenidas en la métrica en cuestión, y se seleccionó el valor lı́mite del
20% de las similitudes más altas, por lo que ambas palabras entrarı́an en el 20% de
15
palabras mas parecidas entre sı́. Los resultados de aplicar dicho umbral se muestran el
la Figura 12.
Figure 12: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 20%.
Tal y como se observa en la gráfica, los valores no cambian demasiado entre las
distintas métricas de similitud, y son valores mucho más bajos que los del gold standard,
por ello, se aumentó el umbral, a un 30% y 40% de las palabras con mayor similitud
entre sı́, para ası́ poder obtener valores más altos. En la Figura 13 se muestran los
resultados con el umbral 30%. Se puede observar que los valores han aumentado
respecto al umbral del 20%, cosa que era de esperar, debido a es una métrica más
permisiva.
Figure 13: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 30%.
En la Figura 14, se muestran los resultados de aplicar el umbral del 40% de palabras
más similares, se puede observar que los valores han aumentado respecto a los umbrales
más bajos. A pesar de ello, no se alcanzan los valores originales del gold standard en
ningún caso, pero se observan resultados más cercanos en el umbral del 40%. Se puede
observar en todas las figuras que la mediana toma valores extremos, o es 0 o es un valor
alto, lo que indica que los valores no se distribuyen uniformemente, hay similitudes muy
bajas o 0, y similitudes altas.
16
(a) Similitud path (b) Similitud jcn (c) Similitud euclı́dea
Figure 14: Comparación de valores estadı́sticos de la similitud textual con gold standard
con umbral del 40%.
17
Se puede concluir que la métrica combinada de similitud léxica y frecuencia inversa
del documento es la que parece ser más precisa.
Figure 15: Comparación de valores estadı́sticos de la similitud textual con gold stan-
dard.
6 Evaluación
En las secciones anteriores se han descrito las técnicas utilizadas para calcular la simil-
itud entre frases de un corpus dado. Se ha proporcionado una medida orientativa para
evaluar los resultados obtenidos de forma superficial, mediante el cálculo de factores
estadı́sticos como la media, mediana y desviación tı́pica.
Ası́ pues, en esta sección se evaluarán los resultados mediante el Coeficiente de Cor-
relación Pearson [18]. Dicho coeficiente, se utiliza para observar si existe una relación
lineal entre los datos, lo que sirve para evaluar si las similitudes generadas por las dis-
tintas métricas, guardan relación con los datos originales. Lo que se hace es representar
los datos en un espacio bidimensional, y observar si se comportan de forma lineal, ya
sea positiva o negativamente. La ecuación 16 muestra la fórmula para calcular dicha
correlación, donde xi es el elemento i del vector de similitudes x, siendo x las similitudes
calculadas e y las similitudes originales.
Pn
(xi − x̄)(yi − ȳ)
r = pPn i=1 pPn (16)
2 2
i=1 (xi − x̄) i=1 (yi − ȳ)
Los valores del Coeficiente de Correlación oscilan en el intervalos (-1, 1), donde los
valores negativos indican correlación lineal negativa y los positivos correlación positiva.
En la tabla 6 se muestra la interpretación de los valores de correlación.
Valor Correlación
r ≤ ±0.35 Débil
±0.36 ≤ r ≤ ±0.67 Moderada
±0.68 ≤ r ≤ ±0.89 Fuerte
r ≥ ±0.90 Muy fuerte
18
6.1 Evaluación de la similitud basada en ontologı́as
En primer lugar se calculó la correlación con los datos calculados mediante la similitud
ontológica, dichos resultados se presentan en la Tabla 7, siendo r la media de valores de
correlación para cada fila y columna. Se puede observar que los valores oscilan en un
rango de correlación débil y moderada. Los mejores resultados obtenidos han sido los
de la métrica jcn (sección 4.1.5), tal y como indicaban los análisis previos en base a sus
valores estadı́sticos. El segundo mejor resultado se ha obtenido mediante la métrica
path (sección 4.1.1), también indicado por el análisis estadı́stico.
Respecto los distintos conjuntos del corpus, los dos conjuntos con mayor correlación
mediante esta técnica son MSRVid e images. En el análisis realizado en la sección
2.2, indica que MSRVid tiene los valores más bajos de similitud, junto con images, a
diferencia de MSRpar, cuyos valores de correlación son los más bajos, y que cuenta con
los valores de similitud más altos.
Ésto indica, que los valores de similitud bajos, son más fácilmente calculables de forma
precisa por los modelos de similitud ontológica, a diferencia de los valores más altos. Es
posible que la similitud alta sea debida a factores semánticos, en lugar ser léxicos, por
lo que podrı́a ser más difı́cilmente medible por modelos de similitud léxica ontológica.
Además de esto, la Tabla 4 muestra como la longitud de las frases del conjunto MSR-
par es significativamente mayor que el resto de métricas, lo que también influencia a la
hora de calcular la similitud, a mayor longitud de frase, mayor dificultad para calcular
la similitud precisa. El conjunto MSRVid, a su vez, cuenta con la longitud de frase
más baja, lo que corrobora dicha teorı́a.
19
Table 8: Correlación entre la similitud distribucional y el gold standard
Solapamiento Frecuencia
Conjunto path jcn Euclı́dea path jcn Euclı́dea |r|
MSRpar 0.02 0.03 0.05 0.20 0.23* -0.05 0.10
headlines 0.20 0.23 0.04 0.46 0.49* -0.07 0.25
deft-news 0.23 0.23 0.04 0.54* 0.28 0.20 0.25
MSRVid 0.54 0.51 0.06 0.75* 0.74 -0.11 0.45
images 0.42 0.44 0.04 0.74* 0.74 -0.12 0.42
deft-forum 0.01 0.08 0.03 0.25 0.28* -0.02 0.11
|r| 0.24 0.23 0.04 0.49* 0.46 0.07 0.25
En conclusión, se puede decir que la métrica con mejores resultados tanto en valores
estadı́sticos, como en coeficiente de correlación, es la similitud textual calculada medi-
ante la similitud path y jcn combinada con el pesado IDF. Mientras que los conjuntos
con los que se obtuvo mayor correlación fueron MSRVid e images.
20
7 Comparativa de resultados
Una de las partes fundamentales de la experimentación es comparar los resultados
obtenidos en este experimento, con las variables y los métodos utilizados, con los resul-
tados obtenidos de los estudios de otros compañeros, para ası́ poder obtener hipótesis en
común. Es importante dicha comparación, tanto para saber si los resultados obtenidos
han sido satisfactorios, como para determinar si existen ciertas lineas en común en-
tre los trabajos, o por el contrario existen muchas diferencias. También confirmar o
desmentir las hipótesis planteadas en éste artı́culo, o valorar otras opciones que no se
trataron en éste, ası́ como estudiar variables en las que no se ha profundizado.
En cuanto al métricas de similitud ontológica, parece haber una lı́nea común que sug-
iere a path similarity (sección 4.1.1) y jcn similarity (sección 4.1.5) como las mejores
opciones dentro de la similitud ontológica, a pesar de haber otras métricas nombradas,
como lch similarity (sección 4.1.6). Dentro de las métricas utilizadas en la similitud
vectorial, no parece haber un claro ganador, las tres métricas parecen haber funcionado
de forma parecida, aunque se podrı́a destacar la similitud coseno (sección 4.2.1).
Respecto a los resultado de aplicar las técnicas de similitud textual, mediante sola-
pamiento (sección 5.1) y frecuencia inversa o Mihalcea (sección 5.2), el método de
solapamiento parece obtener mejores resultados en la gran parte de casos, aunque ex-
isten casos en los que Mihacea funciona mejor. Esto lleva a pensar que ambos métodos
pueden ser correctos, y a funcionar mejor o peor según otros factores, como el preproce-
sado, el corpus utilizado, o incluso la implementación de la métrica en cuestión. Cabe
comentar también que el factor umbral en el método de solapamiento juega también
un papel fundamental, donde gran parte de los trabajos apuestan por un umbral per-
misivo, entre el 50% y 75%.
21
similitudes y diferencias.
Los principales puntos en común encontrados son:
8 Conclusión
Tras observar el estudio realizado, se pueden observar varias relaciones entre la natu-
raleza de los datos, las métricas utilizadas y los resultados obtenidos. La longitud de
las frases puede estar relacionada con la correlación que puede haber entre las simili-
tudes calculadas, y las similitudes originales, debido a que a mayor longitud de frase,
existe una mayor dificultad calcular la similitud de forma exacta, tal y como se observa
en la sección 6. También puede existir una relación entre el origen de los datos, y los
resultados obtenidos, ya que la correlación más alta fue obtenida en los dos conjuntos
de datos pertenecientes al género captions, de origen multimedia.
A su vez, se puede observar también que los factores estadı́sticos, como la media,
mediana, desviación tı́pica, entre otros, a pesar de no ser unas métricas de evaluación
22
como tal, si pueden proporcionar información útil sobre el parecido entre las simili-
tudes calculadas y las similitudes originales, tal y como se observa en los resultados, a
excepción de la similitud Euclı́dea.
También se puede intuir que los valores de similitud bajos, son más fácilmente cal-
culables de forma precisa por los modelos de similitud ontológica o textual, debido a
que podrı́an ser similares a nivel semántico, y no léxico, lo que hace que sea más difı́cil
medir esa similitud mediante las métricas léxicas, como se indica en las sección 6.1. Por
esa razón la similitud a nivel de texto, con el pesado IDF juega un papel importante,
ya que aporta una ponderación entre la importancia de la similitud en ciertas palabras
clave de las frases, lo que da una visión más completa.
La aproximación distribucional, por otra parte, no parece apropiada para este experi-
mento, tal vez debido a que las dimensiones de los vectores eran demasiadas. Dentro de
las similitudes basadas en Information Content (IC), los datos muestran que no existe
gran diferencia entre utilizar un corpus u otro, siempre y cuando ambos sean corpus
con gran cantidad de datos.
Por otro lado, una de las dificultades encontradas fue la gran variedad de rangos en
los cuales trabajan cada una de las métricas de similitud, siendo necesaria su normal-
ización. Otra de las dificultades fue escoger una forma para expresar los resultados
obtenidos de las distintas métricas, mas allá de la posterior evaluación de resultados
con el coeficiente Pearson.
Una vez dicho esto, según el análisis realizado en la sección 7.2, es posible que al-
guna de las métricas se haya implementado de una forma distinta a la recomendable,
por lo que es importante contrastar los resultados obtenidos, con los de otras personas.
En el caso de este trabajo, la similitud distribucional parece no haber obtenido los re-
sultados deseados. Por otro lado, el resto de métricas y análisis parecen ser acertados
observando los resultados del resto de compañeros.
23
Appendices
A Descripción del sistema
El sistema desarrollado, es un programa en Python, realizado mediante Programación
Orientada a Objetos (OOP), modularizado de manera en la cual cada clase era la encar-
gada de realizar una tarea, organizado de la misma forma que las secciones: una clase
encargada de realizar el preprocesamiento de los datos, leer los ficheros csv, procesarlos
y posteriormente realizar el filtrado y etiquetado gramatical; otra clase encargada de
calcular las distintas métricas de similitud; otra encargada de realizar la evaluación
mediante el coeficiente Pearson; y por último una clase principal que controla la eje-
cución, mediante los parámetros proporcionados desde la lı́nea de comandos.
El programa recibı́a una serie de parámetros de entrada, tales como el fichero del
Gold Standard a utilizar; el tipo de métrica, ontológica, distribucional o textual, y
dentro de éstas, la métrica a utilizar. En el caso de la similitud mediante solapamiento
de palabras, el umbral escogido.
References
[1] Wikipedia, SemEval [Online]. Available: https://en.wikipedia.org/wiki/SemEval
[2] STSbenchmark. Semantic Textual Similarity Wiki. [Online]. Available:
http://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmark.
[3] CER, Daniel, et al. Semeval-2017 task 1: Semantic textual similarity-multilingual
and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055, 2017.
[4] MILLER, George A., et al. Introduction to WordNet: An on-line lexical database.
International journal of lexicography, 1990, vol. 3, no 4, p. 235-244.
[5] PEDERSEN, Ted, et al. WordNet:: Similarity-Measuring the Relatedness of Con-
cepts. En AAAI. 2004. p. 25-29.
[6] SECO, Nuno; VEALE, Tony; HAYES, Jer. An intrinsic information content metric
for semantic similarity in WordNet. En Ecai. 2004. p. 1089.
[7] GOMAA, Wael H., et al. A survey of text similarity approaches. International
Journal of Computer Applications, 2013, vol. 68, no 13, p. 13-18.
[8] ZHOU, Zili; WANG, Yanna; GU, Junzhong. New model of semantic similarity
measuring in wordnet. En 2008 3rd International Conference on Intelligent System
and Knowledge Engineering. IEEE, 2008. p. 256-261.
‖
https://www.python.org/
∗∗
https://numpy.org/
††
https://matplotlib.org/
24
[9] Wikipedia, Brown Corpus [Online]. Available:
https://en.wikipedia.org/wiki/Brown Corpus#Sample distribution
[10] TAYLOR, Ann; MARCUS, Mitchell; SANTORINI, Beatrice. The Penn treebank:
an overview. Treebanks, 2003, p. 5-22.
[11] MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector
space. arXiv preprint arXiv:1301.3781, 2013.
[12] MIKOLOV, Tomas, et al. Distributed representations of words and phrases and
their compositionality. arXiv preprint arXiv:1310.4546, 2013.
[13] Wikipedia, Word2Vec [Online]. Available: https://en.wikipedia.org/wiki/Word2vec
[14] JATNIKA, Derry; BIJAKSANA, Moch Arif; SURYANI, Arie Ardiyanti. Word2vec
model analysis for semantic similarities in english words. Procedia Computer Sci-
ence, 2019, vol. 157, p. 160-167.
[15] UClassify, Topics [Online]. Available: https://www.uclassify.com/browse/uclassify/topics
[16] GONZALEZ-AGIRRE, Aitor. Computational Models for Semantic Textual Simi-
larity, PhD Thesis, University of The Basque Country, 2017, p. 26-27.
[17] MIHALCEA, Rada, et al. Corpus-based and knowledge-based measures of text
semantic similarity. En Aaai. 2006. p. 775-780.
[18] TAYLOR, Richard. Interpretation of the correlation coefficient: a basic review.
Journal of diagnostic medical sonography, 1990, vol. 6, no 1, p. 35-39.
[19] ROBERTSON, Stephen. Understanding inverse document frequency: on theoret-
ical arguments for IDF. Journal of documentation, 2004.
[20] HAN, Jiawei, et al. Getting to know your data. En Data mining. Amsterdam,
Netherlands: Elsevier, 2012. p. 39-82.
[21] HANDLER, Abram. An empirical study of semantic similarity in WordNet and
Word2Vec. 2014.
25
View publication stats