Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ABSTRACT
The reactions on social media about a specific comment can be classified in positive, negative o neutral, depen-
ding on the user’s opinion about the issue at stake. Idiomatic phrases are bearers of emotional value, going from
positive to negative (what we know as polarity). In our investigation, we established that in social media the
appearance of a negative idiomatic phrase in an opinion is directly linked to the polarity of the entire comment.
In other words, that the polarity is transferred to the comment itself.
Key Words: sentiment analysis, polarity, social networks, opinion, idioms.
* Profesor de la Escuela de Ciencias de la Computación e Informática, Universidad de Costa Rica. Costa Rica.
Correo electrónico: casasola@gmail.com
** Profesor de la Escuela de Filología, Lingüística y Literatura e investigador del Instituto de Investigaciones
Lingüísticas. Costa Rica. Correo electrónico: antonio.leoni@ucr.ac.cr
Recepción: 2/3/16. Aceptación: 10/8/16.
66 Káñina, Rev. Artes y Letras, Univ. Costa Rica XL (Extraordinario): 65-76, 2016/ ISSN:2215-2636
la gran cantidad de noticias y comentarios ahí que es necesario desarrollar métodos para
emitidos, cada día, en cada uno de los medios, llevarla a cabo automáticamente. El análisis
imposibilita realizar manualmente esta labor, de
FIGURA 1.
CUADRO 1.
Indicadores de valor
Indicadores Valor
+P Muy positivo
-P Algo positivo
N Neutro
-N Algo negativo
+N Muy negativo
5. La fecha y la hora en que se emitió una los que aparecen en la Figura 2. De ellos se
opinión son importantes, puesto que un pueden obtener entonces opiniones como las
emisor o usuario puede cambiar de punto expresadas en los Cuadros 2 y 3. El análisis
de vista; variación que se nota en el de sentimientos tiene diferentes vertientes, por
tiempo. lo que su estudio ha sido dividido en tareas.
La noticia tiende a generar opiniones El cálculo de la polaridad, como el efectuado
por parte de los lectores o personas que la leen. en esta investigación, es una de sus tareas
Esto genera una serie de comentarios como primordiales.
FIGURA 2.
CUADRO 2.
CUADRO 3.
FIGURA 3.
los diferentes candidatos presidenciales. A este las variantes, si las hay. Luego, incluimos los
grupo de comentarios se le denominó corpus comentarios donde aparece la expresión. Es muy
Candidatos2013 y fue creado de forma similar importante aclarar que la ausencia o presencia
al corpus CR2013FB. El corpus Candidatos2013, de acentuación y los errores corresponden a la
más pequeño, consiste en 227 866 comentarios. ortografía tal y como aparece en el corpus, los
De la lista de comentarios fueron extraídas textos son copia original de lo digitado por los
30 expresiones idiomáticas, las cuales fueron usuarios. Nuestro primer caso está relacionado
identificadas según su polaridad (positiva o con la frase pura habladuría:
negativa). Únicamente extrajimos 30 expresiones (3) Frase: pura habladuría
idiomáticas por limitaciones de recursos
humanos (anotadores de texto calificados) y de Polaridad atribuida: negativa
Consultas incluidas: puro bla bla bla,
tiempo para llevar a cabo la anotación manual e
pura paja, pura habladuría, pura hablada
identificación de la polaridad.
La búsqueda de comentarios que En el comentario 1566375, aparece una
contienen las expresiones idiomáticas implicó variante de la frase idiomática, “puro bla bla
la creación de un programa para la indexación bla”, ejemplo (4). El usuario claramente alude
de búsquedas por computadora y la realización despectivamente a la falta de acción y verborrea
de búsquedas automáticas de comentarios de inútil por parte de la entidad a la que se refiere.
opinión mediante consultas en formato de texto. Este comentario es claramente negativo.
Este motor fue desarrollado específicamente (4) Comentario 1566375: Pero como siempre
para este proyecto y es un producto importante todo se va a ir en pura hablada, no van a
de la investigación. El primer prototipo del disparar ni un misil, esa vara da pereza
motor permite extraer todos los comentarios no se que tanta hablada puro bla bla bla y
que contienen las palabras pertenecientes a la nada de pla.
frase idiomática buscada, sin tomar en cuenta
El segundo caso está relacionado con
ni el orden ni la distancia. Esto con el objetivo
la corrupción, ahí aparece la frase “huele a
de identificar otras variantes posibles de la
chorizo”:
frase al momento de los analizar los resultados.
Los resultados no son deterministas, por lo (5) Frase: huele a chorizo
que no fueron producidas estadísticas a partir Polaridad atribuida: negativa
de ellos, y brindan, a su vez, una idea de Consultas incluidas: huele a chorizo
nuevas variantes, por lo que, manualmente, En el comentario 439153, se muestra como
el anotador procedió a identificar variantes el uso de la frase manifiesta la sospecha de
para las 30 expresiones iniciales con el fin de cierto grado de corrupción atribuible a la forma
expandir las búsquedas. Finalmente, realizamos de proceder de la entidad a la que se refiere el
una valoración de la polaridad asociada a comentario.
los textos de los comentarios encontrados y (6) Comentario 439153: Esto huele a chorizo
determinamos la relación con la polaridad de podrido, esto no huele bien, quien sabe a
las frases iniciales. quien quieren favorecer y volver a pisotear
a nuestros agricultores, aqui hay gato
6. Resultados encerrado...
En el comentario se critica a un jugador
De la masa de resultados, extrajimos una por regresar arrepentido de una decisión tomada
muestra de ejemplos típicos que ilustran la en el pasado y solicitar una nueva oportunidad,
relación entre las expresiones idiomáticas y el lo que supone una cierta humillación personal
sentimiento en las opiniones. Cada ejemplo atribuida por el usuario al jugador que en este
consiste de la frase, la polaridad atribuida y caso es la entidad a la que se dirige la opinión.
CASASOLA Y LEONI: Transferencia de la polaridad semántica de frases idiomáticas... 73
CUADRO 4.
Al incluir las variantes de las frases texto, ya que existen variantes lexicográficas,
se logró aumentar la cobertura, pero se hace como abreviaturas, emoticonos que no son
necesario establecer un mecanismo que elementos gramaticales en sí, mayúsculas,
permita de forma automática el aumento de la errores de acentuación, errores de digitación,
cobertura, ya que estas frases tienen a ser un entre otros, que deben homogeneizarse. Véase
excelente indicador de polaridad (en este caso por ejemplo algunos de los casos asociados
negativa). Entre las propuestas para extender al perfeccionamiento de la identificación de
la cobertura está la transformación de todo el variantes (Cuadro 5).
74 Káñina, Rev. Artes y Letras, Univ. Costa Rica XL (Extraordinario): 65-76, 2016/ ISSN:2215-2636
CUADRO 5.
8. Agradecimientos
Les agradecemos el apoyo al Instituto Referencias
de Investigaciones Lingüísticas (INIL) y al
Centro de Investigaciones en Tecnologías de
la Información y la Comunicación (CITIC), Arce Sanabria, José Luis. (2012). Medios de
ambos de la Universidad de Costa Rica, así comunicación de masas en Costa Rica:
como al Ministerio de Ciencia, Tecnología y Entre la digitalización, la convergencia y el
Comunicaciones (MICITT), quien a través del auge de los "new media". Hacia la Sociedad
Consejo Nacional de Investigaciones Científicas de la Información y el Conocimiento,
y Tecnológicas (CONICIT) ha brindado un capítulo Medios de Comunicación
soporte fundamental para estas investigaciones. de Masas en Costa Rica: 283–308.
Programa Sociedad de la Información y el
Notas Conocimiento, Universidad de Costa Rica.
Cambria, E., Schuller, B., Xia, Y., & Havasi, C. Liu, Bing y Zhang, Lei 2012. A survey of opinion
2013. New avenues in opinion mining mining and sentiment analysis. C.C.
and sentiment analysis. IEEE Intelligent Aggarwal and C.X. Zhai (editores.), Mining
Systems XXVIII (2): 15-21. Text Data, Springer Science+Business
Media LLC: 415-463. Recuperado de
Chenlo, José M. y Losada, David E. 2014. An http://link.springer.com/book/10.1007%
empirical study of sentence features for 2F978-1-4614-3223-4.
subjectivity and polarity classification.
Information Sciences 280: 275–288. McDonald, Ryan et al. 2013. Universal
Recuperado de http://dx.doi.org/10.1016/j. dependency annotation for multilingual
ins.2014.05.009. parsing. Proceedings of the 51st
Annual Meeting of the Association for
Fernández Anta, Antonio et al. 2012. Sentiment Computational Linguistics: 92–97. Sofía,
analysis and topic detection of Spanish Bulgaria, 4-9 de agosto 2013, Association
tweets: A comparative study of NLP for Computational Linguistics. Recuperado
techniques. Procesamiento del Lenguaje de http://citeseerx.ist.psu.edu/viewdoc/dow
Natural. 50: 45–52. nload?doi=10.1.1.386.8061&rep=rep1&typ
e=pdf#page=140.
Hutto, Clayton y Gilbert, Eric. 2014. Vader:
A parsimonious rule-based model for Pang, Bo and Lee, Lillian. 2004, July. A
sentiment analysis of social media text. sentimental education: Sentiment analysis
Eighth International AAAI Conference on using subjectivity summarization based
Weblogs and Social Media. on minimum cuts. Proceedings of the
42nd annual meeting on Association
Leoni de León, Jorge Antonio. 2008. Modèle for Computational Linguistics: 271.
d’analyse lexico-syntaxique des locutions Association for Computational Linguistics.
espagnoles. Tesis de doctorado, Université Recuperado de http://dl.acm.org/citation.
de Genève, Ginebra, Suiza, 24 de mayo cfm?doid=1218955.1218990.
2008. Recuperado de http://www.
unige.ch/cyberdocuments/theses2008/
LeonideLeonJA/meta.html