Está en la página 1de 4

1

N. G. Reyes, Estudiante, UPN, Mz. F lt.2, Gustavoreyesz@hotmail.com)

Análisis de sentimientos – Tweets Perú


discute, Publicado y comentado en las redes sociales, por millones de
Resumen—En este trabajo, abordamos el problema de detección, personas.
Clasificación y cuantificación de las emociones del texto en P.ej. "Los ataques químicos de Siria rompen mi corazón!!: ’(” O
cualquier forma. Consideramos el texto en inglés recogido de las
redes sociales como Twitter, que puede proporcionar información “¡Cena deliciosa en Copper Chimney! : D ”o“ OMG! Ese es tan
que tiene utilidad en una variedad de Formas, sobre todo de la miedo! ".
opinión minera. Las redes sociales como Twitter y Facebook Capturando estas emociones en texto, especialmente Los
están lleno de emociones, sentimientos y opiniones de todas las publicados o distribuidos en las redes sociales, pueden ser una fuente
personas.
de información valiosa, que se puede utilizar para estudiar cómo
Sobre el mundo. Sin embargo, analizando y clasificando texto
en La base de las emociones es un gran desafío y puede diferentes Las personas reaccionan ante diferentes situaciones y
considerarse como Una forma avanzada de análisis de eventos. Los analistas de negocios pueden usar esta información para
sentimiento. Este trabajo propone un método para clasificar rastrear sentimientos y opiniones de las personas con respecto a sus
texto en seis categorías de emociones diferentes: productos. Los Problema con la mayor parte del análisis de
Felicidad, tristeza, miedo, ira, sorpresa y disgusto. sentimiento que se realiza. Hoy es que el análisis solo informa si el
En nuestro modelo, utilizamos dos enfoques diferentes y los público La reacción es positiva o negativa, pero no describe la exacta
combinamos para efectivamente extraer estas emociones del
texto. El primer enfoque es basado en el procesamiento del Sentimientos de los clientes y la intensidad de su reacción. Con
lenguaje natural, y utiliza varios textos características como nuestro análisis emocional, pueden tener un más profundo análisis de
emoticonos, palabras de grado y negaciones, partes de Análisis sus mercados que el ingenuo análisis de sentimientos de dos vías,
del habla y otros gramaticales. El segundo enfoque es Basado en que a su vez ha hecho que sus negocios sean más rentables. Los
algoritmos de clasificación de Machine Learning. Tenemos
líderes empresariales pueden analizar la visión holística de las
También ideó con éxito un método para automatizar la creación
de El conjunto de entrenamiento, para eliminar la necesidad de personas en Respuesta a sus acciones o eventos y trabajo en
manual. consecuencia. También, Los analistas de salud pueden estudiar los
Anotación de grandes conjuntos de datos. Por otra parte, he cambios de humor de individuos o Misas en diferentes momentos del
logrado crear una gran bolsa de palabras emocionales, junto con día o en respuesta a ciertos eventos. También se puede utilizar para
sus intensidades emocionales. En las pruebas, se muestra que
formular lo mental o lo emocional. Estado de un individuo,
nuestro modelo proporciona Exactitud significativa en la
clasificación de tweets tomados de Twitter. estudiando su actividad durante un período. De tiempo, y
posiblemente detectar riesgos de depresión.
Abstract--In this paper, we address the problem of detection,
classification and quantification of emotions of text in any form. Hemos desarrollado un sistema que podría calificar y
We consider English text collected from social media like Twitter, etiquetar cualquier parte del texto, especialmente los tweets y
which can provide information having utility in a variety of ways, las publicaciones en las redes sociales según seis categorías de
especially opinion mining. Social media like Twitter and emociones: felicidad, tristeza, miedo, sorpresa, enojo y
Facebook is full of emotions, feelings and opinions of people all
disgusto, junto con sus puntuaciones de intensidad, haciendo
over the world. However, analyzing and classifying text on the
basis of emotions is a big challenge and can be considered as an uso de su características textuales, una variedad de
advanced form of Sentiment Analysis. This paper proposes a herramientas de PNL y clasificadores estándar de aprendizaje
method to classify text into six different Emotion-Categories: automático. • Otra contribución importante es que hemos
Happiness, Sadness, Fear, Anger, Surprise and Disgust. In our ideado con éxito un sistema que podría, de manera automática
model, we use two different approaches and combine them to (sin ningún esfuerzo manual) construir un conjunto de
effectively extract these emotions from text. The first approach is entrenamiento eficiente para nuestros Clasificadores de ML,
based on Natural Language Processing, and uses several textual
features like emoticons, degree words and negations, Parts Of
que consiste en un conjunto suficientemente grande de tweets
Speech and other grammatical analysis. The second approach is etiquetados de todas las Categorías de Emociones. • Hemos
based on Machine Learning classification algorithms. We have creado una gran bolsa de palabras en inglés, que consiste en
also successfully devised a method to automate the creation of the palabras que expresan una emoción particular junto con la
training-set itself, so as to eliminate the need of manual intensidad de esa emoción. • Pudimos lograr una precisión de
annotation of large datasets. Moreover, we have managed to aproximadamente el 91.7% y el 85.4% utilizando los
create a large bag of emotional words, along with their clasificadores J48 y SMO, respectivamente.
emotionintensities. On testing, it is shown that our model
provides significant accuracy in classifying tweets taken from
Twitter. II. CONFIGURACIÓN DE DATOS
Esta sección describe los diversos conjuntos de datos
I. INTRODUCCIÓN utilizados, tales como conjunto de tweets, Conjunto de
Las emociones se describen como sentimientos intensos que se palabras de emoción (EWS), Conjunto de palabras de grado y
dirigen. En algo o alguien en respuesta a interno o externo Eventos Conjunto de áreas de ubicación.
que tienen un significado particular para el individuo. Y Internet, hoy
en día, se ha convertido en un medio clave a través del cual Las
personas expresan sus emociones, sentimientos y opiniones. Cada
evento, noticias o actividad en todo el mundo, se comparte, se
2

A. Utilizamos Tweepy para recoger tweets, que es una C. Grado-Palabras Set Palabras grados-Set es un conjunto de
biblioteca de Python para acceder a la API de Twitter. Toma alrededor de 50 grados, las palabras que se utilizan para
como entrada varios parámetros, tales como coordenadas, reforzar o debilitar la intensidad de las emociones en una
radio, etc., y después de la eliminación de duplicados, enlaces, oración. P.ej. "muy feliz" y “Apenas feliz” tener dos
hashtags y palabras en otros idiomas (además de Inglés) de significados diferentes, casi opuestas entre sí. En este
estos tweets, almacena el tweet-IDS, el texto y la ubicación de conjunto, cada palabra tiene un asociado Grado-Intensidad
la la mayoría de los más recientes en la base de datos. Esto nos almacenado con ella; H significa High (que tiene un alto
proporcionó una lista de tweets de varios lugares en todo el efecto multiplicador), norte significa la negación (que tiene un
país. P.ej. los Tweets Conjunto, hemos creado para Delhi tiene efecto opuesto), y L es decir, baja (que tiene un bajo efecto
cerca de 10.000 entradas. Otra forma en que utiliza Tweepy es multiplicador). Los ejemplos incluyen palabras como, Los
alimentándolo con un nombre de usuario twitter-(de un ejemplos incluyen palabras como, Los ejemplos incluyen
usuario) como una variable para almacenar todos los tweets de palabras como, Los ejemplos incluyen palabras como, Los
ese usuario (hasta la fecha), en nuestra base de datos ejemplos incluyen palabras como, Los ejemplos incluyen
palabras como, "también", "también", "también", "también",
"también", "también", “Más” (H); “Más” (H); “Más” (H);
“Más” (H); “Más” (H); “Más” (H); “Difícilmente” (N);
“Difícilmente” (N); “Difícilmente” (N); “Difícilmente” (N);
“Difícilmente” (N); “Difícilmente” (N); y “Casi” (L), etcétera

III. ELECCION DEL ALGORITMO


B. Emoción Palabras Conjunto (EWS) Una selección Nuestro modelo consta de dos enfoques colgantes
adecuada de relevante y comúnmente utilizado- Emotionwords completamente diferentes, pero interdependientes. El primer
es uno de los aspectos más esenciales e indispensables en lo enfoque utiliza procesamiento del lenguaje natural, Emoción-
emocional cuantificación de una oración. Hemos creado una Palabras Set y varias características textuales. Se trata de
bolsa de precisión de alta calidad de las palabras, llamada clasificar y marcar texto en función de las emociones presentes
Emoción-Palabras SET (EWS), de alrededor de 1500 palabras. en ella. El segundo enfoque utiliza ampli fi caciones estándar
Se ha desarrollado mediante la búsqueda de forma recursiva
como SMO y J48 para clasificar los tweets. Por último,
(primera búsqueda en profundidad) los sinónimos de la 6
combinamos estos dos enfoques para proponer un enfoque
básica Emoción-Categorías (Alegría, tristeza, ira, sorpresa,
miedo, disgusto) en un tesauro [14], hasta dos niveles. Cada híbrido para detectar emociones en el texto de manera más
una de estas palabras se marcaron entonces manualmente a eficaz. Tenga en cuenta que, a pesar de que estamos
uno de los tres Intensidad-Categorías (FUERTE, mediano, ampliamente utilizando el ejemplo de tweets largo de este
liviano), como se muestra en la Tabla I. documento, este algoritmo es muy genérico y se puede utilizar
para detectar y cuantificar las emociones en cualquier parte
del texto.
1) Tokenización y anotar: En primer lugar, usamos
PTBTokenizer [16] para tokenize los tweets en frases,
que se tokenizados más en fichas. A continuación, se
elimina todas las palabras vacías de estas fichas. Las
fichas se filtra a continuación, se anotaron utilizando el
siguiente anotadores CoreNLP:
• pos: Partes de la oración (sustantivo, verbo,
adjetivo, por ejemplo)
• lema: lematizadas versión de esa palabra.
2) La constatación pertinente: En este paso, el anotado (y
filtran) tokens se comparan con las palabras presentes
en el EWS. Pero primero, todas las palabras EWS se
lematizadas a su forma base. P.ej. "felicidad" y
"felizmente" se cambian a "feliz". Mientras que
emparejan las fichas contra la EWS, sólo las fichas que
están anotados como “O” (la otro entidad nombrada en
3

reconocimiento de entidades) se consideran, debido a


que una entidad nombrada (lugar, tiempo o una
persona de palabra, por ejemplo) nunca puede ser una
Emoción-palabra. A Matched contador junto con todas
sus características / anotaciones se almacena como una
golpear.
3) La detección de la persona en su contexto: En nuestro
análisis, nuestro objetivo es detectar las emociones
expresadas por el cartel de la pío, estrés ing en los
sentimientos del cartel. Por lo tanto, tratamos de
diferenciar entre los casos en los que las emociones
involucradas están en relación con el mismo cartel o
alguien más. Por ejemplo, el grado de tristeza del
cartel en el tweet "Estoy triste" es mucho más alto en
comparación con el pío, "Él está triste", Publicado por
la misma persona, ya que el primero forma clara y
directa sugiere la tristeza del mismo cartel.
4) Efecto de la negación y el grado Palabras: Hay muchos
casos, cuando se detectan algunas palabras con el EWS
se Ac- utilizado dualmente en un sentido
completamente opuesto, a causa de negaciones como
"no", "Nunca", “No”, etc. Por ejemplo, el tweet “No,
en absoluto sentirse emocionados por la escuela!”
puede ocasionar la inyección Felicidad Felicidad IV. RESULTADO DE LA PRUEBAS
Felicidad Felicidad Felicidad Felicidad como su como
su como su como su como su como su Emoción-
Al igual que en el entrenamiento conjunto, hemos creado
Categoría ( Emoción-Categoría ( Emoción-Categoría
una prueba-conjunto de tweets mediante la extracción de los
( Emoción-Categoría ( Emoción-Categoría ( Emoción-
tweets utilizando algunas palabras de semillas y luego usar el
Categoría ( debido a la debido a la debido a la debido a primer método fi a fi ltro y etiquetar estos tuits emocionales.
la debido a la debido a la Emotionword “excitado”), Este conjunto se compone de un total de 900 tweets, donde
Emotionword “excitado”), Emotionword “excitado”), cada Emoción-Categoría tiene alrededor de 150 tweets, a fin
Emotionword “excitado”), Emotionword “excitado”), de mantener la uniformidad. Además, se garantiza que todos
Emotionword “excitado”), Si negaciones no se los tweets en el conjunto de pruebas son diferentes de las del
contabilizan. Además, hay muchas palabras (en su conjunto de entrenamiento. Los dos ERS elegidos, sobre las
mayoría adverbios), que aumentan la intensidad de una pruebas con la prueba-set, dieron los resultados que se
emoción. P.ej. "Me siento bien" y “Me siento muy muestran en la Tabla VI y VII. Las instancias correctamente
bien” contener el mismo Emoción-palabra “bueno” son los tweets para el cual la espera EmotionCategory coincide
pero la puntuación dada a la segunda frase debería ser con el real Emoción-Categoría. Como se puede ver claramente
más. Para la detección de negaciones y grados- a partir de las tablas, hemos logrado una notable precisión del
palabras, que la búsqueda de fichas que se han anotado 91,7% para el SMO y el 85,4% para los J48, lo que demuestra
como neg y advmod, mientras que la determinación de los méritos de nuestro Emoción-algoritmo de detección.
las pendencias de- gramaticales en el paso 1, y
etiquetar como palabras grado / negación, si se
encuentran en el Palabras grados-Set. los Grado-
Intensidad del grado-palabra asociada (si los hay) con
cada golpe se almacena como una anotación para el
golpe.
5) Detección Emoticon: Emoticonos son una fuente muy
útil e informativo para la detección de las emociones
en el texto. Desde contras emoti- son formas directas
de conocer las emociones del usuario, se les da un
coeficiente de ponderación pesado, si se encuentra.
Esta característica es muy ef ciente fi y precisa, sobre
todo con la siempre creciente popularidad de los
emoticonos. Hemos añadido una lista de más de 100
emoticonos más utilizados en el EWS para mejorar
nuestro modelo.
4

[3] Lisa perla y Mark Steyvers. La identificación de las


emociones, intenciones y actitudes en el texto utilizando un
V. CONCLUSIONES juego con un propósito. En Actas del taller NAACL hlt 2010
En el presente trabajo, hemos abordado el problema de la sobre métodos computacionales de análisis y generación de
emoción en el texto, páginas 71-79. Asociación para la
clasificación de texto en los seis básica Emoción-Categorías,
en lugar de sólo LA- beling ellos como positivo o negativo. A lingüística computacional cional de 2010
. [4] Paul Ekman. Un argumento para emociones básicas. La
través de nuestra investigación y una bolsa fiable autogenerada
de las palabras emocionales ( EWS), ahora podemos cognición y la emoción, 6 (3-4): 169-200, 1992.
[5] Janyce Wiebe, Theresa Wilson, y Claire Cardie. La
cuantificar de manera efectiva diversas emociones en
cualquier bloque de texto. También hemos generado anotación de expresiones de opiniones y emociones en el
lenguaje. Los recursos lingüísticos y evaluación, 39 (2-3): 165-
automáticamente un entrenamiento conjunto etiquetado (sin
etiquetar manualmente los tweets) de tweets emocionalmente 210, 2005.
[6] Paulo Roberto Gonçalves Segundo. El lenguaje de la
polarizados utilizando un enfoque de coincidencia de palabras
clave, que luego fue utilizado para entrenar a varios ampli fi evaluación: Appraisal en Inglés (Martin, JR y negro, rrr).
Linha D'' Agua, ( 21): 133-137, 2008.
caciones. Por otra parte, también hemos introducido unas el
concepto de Factor Fiador para sugerir la fiabilidad de nuestra [7] Carlo Strapparava y Rada Mihalcea. Aprender a identificar
las emociones en texto. En Actas del Simposio ACM 2008 en
producción y el grado de utilidad y exactitud de los resultados.
Por último, visualizamos nuestros resultados utilizando la informática aplicada, páginas 1556-1560. ACM, 2008.
[8] Carlo Strapparava y Rada Mihalcea. tarea Semeval-2007
gráficos circulares, gráficos y mapas bar-, y demostramos las
diversas aplicaciones de nuestro análisis. En el futuro, se 14: Afectivo texto. En Actas del 4º Taller Internacional sobre
Semántica Las evaluaciones, páginas 70-74. Asociación de
podría establecer un sistema para actualizar automáticamente
las palabras bolsa de-la que hemos creado, sobre la base de Lingüística Computacional, 2007
nuevos tweets y los datos analizados. Usando nuestro enfoque,
muchas aplicaciones interesantes pueden ser creados, como un
complemento a un sitio de redes sociales que muestra el
reciente estado de ánimo de cada uno de sus amigos. Además,
nuestro análisis de Twitter se puede extender al desarrollo de
un sistema en tiempo real, análisis de cambios de humor y
emociones en Twitter..

VI. REFERENCIAS
[1] Rakesh C Balabantaray, Mudasir Mohammad, y Nibha
Sharma. MultiTwitter clase emoción clasi fi cación: Un nuevo
enfoque. Internacional Journal of Applied Information
Systems, 4 (1): 48-53, 2012.
[2] Cecilia Ovesdotter Alm, Dan Roth, y Richard Sproat. las
emociones a partir del texto: aprendizaje automático para la
predicción basada en texto emoción. En Actas de la
conferencia sobre la tecnología del lenguaje humano y los
métodos empíricos en el procesamiento del lenguaje natural,
páginas 579-586. Asociación de Lingüística Computacional,
2005.