Documentos de Académico
Documentos de Profesional
Documentos de Cultura
HP Laboratorios
HPL-2011-89
Abstracto:
Con el auge de los microblogs en la Web, las personas han comenzado a expresar sus opiniones sobre una
amplia variedad de temas en Twitter y otros servicios similares. El análisis de sentimientos de entidades
(por ejemplo, productos, organizaciones, personas, etc.) en los tweets (mensajes en Twitter) se convierte
así en una forma rápida y eficaz de medir la opinión pública para la comercialización de negocios o de
estudios sociales. Sin embargo, las características únicas de Twitter dan lugar a nuevos problemas para los
métodos de análisis de emociones actuales, que se centró inicialmente con un amplio corpus dogmático
como comentario. En este trabajo, se propone un nuevo método de análisis de opiniones a nivel de
entidad para Twitter. El método adopta primero un enfoque lexiconbased para llevar a cabo análisis de los
sentimientos de nivel de entidad. Este método puede dar de alta precisión, pero bajo el recuerdo. Para
mejorar la memoria, ecotweets adicionales que son propensos a ser obstinado se identifican
automáticamente mediante la explotación de la información en el resultado del método basado en el
léxico. Un clasificador es entonces entrenado para asignar polaridades a las entidades en los tweets
recientemente identificados. En lugar de ser etiquetados de forma manual, los ejemplos de entrenamiento
son dados por el enfoque basado en el léxico. Los resultados experimentales muestran que el método
propuesto mejora dramáticamente la retirada y el F-score, y supera las líneas de base del estado de la
técnica.
3 La técnica propuesta
En esta sección se presenta el enfoque propuesto.
La figura 1 ofrece una visión arquitectónica de
nuestro algoritmo sentimiento anal-Ysis.
Vamos a discutir las técnicas en las siguientes
sec-ciones. Antes de profundizar en los detalles de
los algoritmos, vamos a echar un vistazo a los
primeros datos de Twitter y se comentan sus
características.
datos 3.1Twitter Detección Tipo 3.3.1Sentence
Twitter ha desarrollado sus propias convenciones del detección de tipo de oración es un paso especial
lenguaje. para el análisis de los tweets. Hay tres tipos
Los siguientes son ejemplos de convenios de principales de sentencias en los tweets:
Twitter.
(i) oración declarativa: se establece una vista de
1. \ RT" es un acrónimo de retweet, que se pone la au-thor, por ejemplo, \ esto es un muy buen
delante de un tweet para indicar que el usuario teléfono ".
es la repetición-ción o volver a colocar.
3.2Preprocessing
Antes de iniciar el análisis de los sentimientos,
tenemos que hacer un poco de limpieza de datos.
Hemos eliminado retweets (duplicados que no añaden
ningún valor para nuestro propósito) cuyo texto se
inicia con \ RT "También restauramos abreviaturas
populares a su forma original utilizando un léxico de
abreviaturas correspondientes (por ejemplo, \ wknd" a \
fin de semana ") . enlaces y los nombres de usuario
(ed signi por @ signo externo) son eliminados. Sin
embargo, signos de puntuación se mantienen desde
PEO-plo a menudo expresan el sentimiento con fichas
como \ :) "\ :-)". Después de la limpieza, realizamos
segmenta frase tion, que separa un tweet en frases
individuales. Posteriormente, se acortan y ejecutar una
parte del discurso de marcado (POS) para cada
oración.
Resolución 3.3.2Coreference
Utilizamos algunas reglas heurísticas (por ejemplo,
la entidad más cercana) para realizar la resolución
de la correferencia en tweets. Aunque esto puede no
funcionar bien en general, funciona muy bien para
los tweets porque los tweets son cortas y simples, y
tienen pocas frases complicadas. Por ejemplo, en
un tweet, \ He comprado este iPhone ayer. Es
increíble! "Podemos resolver que \ it" en la segunda
frase se refiere a \ iPhone "en la frase primera como
\ iPhone" es la entidad más cercana a \ ella".
3.3.3Opinion Lexicon
El enfoque basado en el léxico de las palabras
depende de opinión (o sentimiento), que son palabras
que expresan sentimientos posi-tivos o negativos.
Palabras que codifican un estado-de sirable (por
ejemplo, \ grande "y \ bueno ') tienen una polaridad
positiva, mientras que las palabras que codifican un
estado indeseable tienen una polaridad negativa (por
ejemplo, \ malo' y \ horrible"). A pesar de que la
polaridad opinión se aplica normalmente a adjec-tivos y
adverbios, hay verbo y sustantivo palabras de opinión
también. Los investigadores han recopilado conjuntos
de palabras Opin de iones y frases de adjetivos,
adverbios, verbos y sustantivos, respectivamente.
Obtuvimos nuestro léxico inicial opin-ion de los autores
de (Ding et al., 2008). A continuación, el léxico
enriquecido con hashtags de opinión de Twitter. Como
introducido antes, hashtags son un con-vención para
añadir contexto y metadatos adicionales a los
microblogs. Algunas etiquetas son etiquetas que
asignan sentimiento sentimiento orientación a los datos
para el dominio película. Nuestro léxico no contiene identificar enti-dades en una oración comparativa.
tales palabras. Sin embargo, vamos a discutir cómo Pattern (a) se refiere a comparativas regulares y
tratar con ellos en la siguiente sección. superlativos formas de com-parisón. El patrón (b) se
refiere a la forma ecuativa de comparación.
3.3.4Aggregating Opiniones para una entidad en
una oración
Utilizando el léxico opinión anterior con palabras
positivas, nega-tiva, podemos identificar la polaridad
opinión expresada por una entidad en una frase. Sin
embargo, en algunos casos, puede ser necesario
combinar varias palabras de opinión en una frase como
ambas palabras positivas y negativas pueden ex ist en
una oración. Usamos la fórmula de agregación en la
ecuación (1) a continuación (la cual está adaptada a
partir de (Ding et al. 2008)). La idea básica es la
siguiente. Dada una frase s que contiene la entidad
dada por el usuario, palabras de opinión en la
sentencia son primera ed identi haciendo coincidir con
las palabras en el léxico opinión. A continuación,
calcular una puntuación de orientación para la entidad
e. Una palabra positiva se asigna la puntuación
orientación semántica de 1, y una palabra negativa se
asigna la puntuación orientación semántica de 1. Todas
las puntuaciones se suman a continuación usando la
siguiente función de puntuación:
puntuación wi tan (1)
(e) =
w :w Lw s
yo yo2 \ yo2 dis (wyo;
mi)
donde wyoes una palabra de opinión, L es el léxico
opinión y s es la frase que contiene la entidad e, y DIS
(wyo; e) es la distancia entre la entidad de correo y la
palabra w opiniónyoen la frase s. wyo así es la
puntuación orientación semántico de la palabra wyo. El
inverso multiplicativo en la fórmula se utiliza para dar
pesos bajos a las palabras de opinión que están lejos
de la entidad e.
3.3.5Comparative Sentencias
En tweets, se utilizan con frecuencia frases
comparativas. Expresa similitud y di erences de más
de una entidad. Por ejemplo, la frase, \ iPhone es
mejor que el teléfono HTC "expresa una opinión posi-
tiva comparativa en el iPhone y la opinión negativa en
el teléfono \ HTC". Para este tipo de frases, no se
aplicará la regla de agregación. Tenemos que usar
técnicas especiales para hacer frente a este problema.
Como sabemos, la comparación se debe al hecho de
que las palabras positivas y negativas de opinión
tienen su formas comparativas y su-perlative que
indican los estados superior e inferior,
respectivamente, correspondientes. Por lo tanto, en
primer lugar detectar palabra comparativo realizado por
su correspondiente etiquetado POS. Por ejemplo, JJR
(adjetivo comparativo), RBR (verbo comparativo), JJS
(adjetivo superlativo y RBS (adverbio superlativo) son
buenos indicadores para frases de comparación.
Entonces explotamos los siguientes dos patrones para
(a) + entidades. . . + + Compword. . . + una regla conjuntamente para determinar la opinión
entidades polar-dad. Por ejemplo, si en un tweet, la gente escribe
(b) + entidades. . . + Como JJ +. . . + entidades una frase como \ La película es muy divertido y la trama
fue inesperado "A partir de este ejemplo, podemos
descubrir que \ inesperada" es positivo para \ trama", ya
compword es una palabra comparativa. Entidad es que es con- unido a la positiva opinión palabra \
el nombre de la entidad en la sentencia, que puede diversión". Con este
ser identi cado por su etiquetado POS - NN o PNN.
Sobre la base de la minería de opiniones, si la
sentencia es posi-tiva, a continuación, las entidades
antes de la palabra clave comparativa son superiores y
por lo demás son inferiores (con la negación
considerado). frases superlativas pueden ser
manejados de una manera similar. Tenga en cuenta
que ecuativa com-comparaciones no expresan
preferencias.
Reglas 3.3.6Opinion
Además de frases comparativas, algunas de lenguaje
con-estructuras también necesitan un manejo especial,
para el que se aplica un conjunto de reglas de
opiniones. Una regla de opinión es un im-plicatura con
una expresión de la izquierda y una opinión implícita a
la derecha. La expresión es conceptual, ya que
representa un concepto, que se puede expresar de
muchas maneras en una sentencia real.
reglas de negación: Una palabra o frase negación
generalmente revierte la opinión expresada en una
frase. palabras de negación incluyen \ no "\ no", etc.,
por ejemplo \ este teléfono móvil no es bueno ".
Pero cláusula reglas: Una frase que contiene \
pero "También es necesario un tratamiento especial
La opinión antes de \ pero" y después de \ pero
"suelen ser los opuestos entre sí Frases tales
como \ excepto que" \ excepción de" comportarse
sim-ilarly .
La disminución y el aumento de reglas: Este
conjunto de reglas dice que deceasing o el aumento de
las cantidades aso-ciados con algunos artículos con
opiniones pueden cambiar las orientaciones de las
opiniones. Por ejemplo, \ La droga alivia mi dolor en
gran medida "Aquí \ dolor" es una palabra opinión
negativa en el léxico opinión, y la reducción de \ dolor"
indica una deseable e ect de la droga. Tenga en cuenta
que compila una correspondiente lista de verbos para
este tipo de acciones, que incluyen \ aumento "\
deceso", \ disminuyen", etc. Las reglas básicas son las
siguientes:
datos 5.3Test
Los datos de prueba es de tweets de opinión ed
recién identi de sec-ción 4. Con el fin de realizar el
análisis a nivel de entidad, el vector de
características de una entidad es el contexto en una
ventana de texto centrado en la entidad (el tamaño
de la ventana es 8 en nuestra caso, es decir, 4
palabras antes y 4 palabras después de la entidad).
Medidas 6.2Evaluation
Utilizamos primera exactitud para evaluar el
rendimiento todo ca-ción clasificación de cada
método con tres clases, positivas, negativas y
neutras (30% - 70% de tweets no tienen opiniones,
es decir, neutro). Para los sentimientos positivos y
negativos en las entidades, empleamos las medidas
evalu-ación estándar de precisión, recordar y F-
score.
resultados 6.3Evaluation
Se evaluó manualmente el resultado de cada
método. Un problema al juzgar las opiniones de
los tweets es que las decisiones pueden ser
subjetiva. Así, un consenso tuvo que ser
alcanzado entre dos anotadores.
La Tabla 3 muestra la precisión para las tres
clases de pos-itive, negativos y neutros para cada
método. Podemos ver que la exactitud de nuestro
LMS método es mejor que todos los métodos de
referencia.
La tabla 4 muestra los resultados de la evaluación
de opiniones positivas y negativas en las entidades.
La precisión y la recuperación se calculan basándose
tanto en la ed correctamente identificados
sentimientos positivos y negativos en las entidades. A
partir de la tabla, podemos ver que el método
supervisado ME funciona mal. JFA supera FBS por
con-Sidering las características de datos de Twitter.
para F-