Está en la página 1de 8

Procesamiento del Lenguaje Natural, Revista nº 50 marzo de 2013, pp 13-20 recibido 23-10-12 revisado 14-01-13 aceptado 19-02-13

Clasificación de polaridad en textos con opiniones en español


mediante análisis sintáctico de dependencias
Polarity classification of opinionated Spanish texts using dependency
parsing

David Vilares, Miguel A. Alonso y Carlos Gómez-Rodrı́guez


Departamento de Computación, Universidade da Coruña
Campus de Elviña, 15011 A Coruña
{david.vilares, miguel.alonso, carlos.gomez}@udc.es

Resumen: En este artı́culo se describe un sistema de minerı́a de opiniones que


clasifica la polaridad de textos en español. Se propone una aproximación basada
en pln que conlleva realizar una segmentación, tokenización y etiquetación de los
textos para a continuación obtener la estructura sintáctica de las oraciones mediante
algoritmos de análisis de dependencias. La estructura sintáctica se emplea entonces
para tratar tres de las construcciones lingüı́sticas más significativas en el ámbito que
nos ocupa: la intensificación, las oraciones subordinadas adversativas y la negación.
Los resultados experimentales muestran una mejora del rendimiento con respecto
a los sistemas puramente léxicos y refuerzan la idea de que el análisis sintáctico es
necesario para lograr un análisis del sentimiento robusto y fiable.
Palabras clave: Minerı́a de opiniones, Análisis del sentimiento, Análisis sintáctico
de dependencias
Abstract: This article describes an opinion mining system that classifies the polarity
of Spanish texts. We propose a nlp-based approach which performs segmentation,
tokenization and pos tagging of texts to then obtain the syntactic structure of
sentences by means of a dependency parser. The syntactic structure is then used to
address three of the most significant linguistic constructions in the area in question:
intensification, adversative subordinate clauses and negation. Experimental results
show an improvement in performance with respect to purely lexical approaches and
reinforce the idea that parsing is required to achieve a robust and reliable sentiment
analysis system.
Keywords: Opinion Mining, Sentiment Analysis, Dependency Parsing

1. Introducción pel importante como ámbito de investigación


en los últimos años. La mo se centra en tratar
El auge en los últimos años de los blogs, los
automáticamente información con opinión, lo
foros y las redes sociales ha hecho que millo-
que permite, entre otras cosas, extraer la po-
nes de usuarios utilicen estos recursos para
laridad (positiva, negativa, neutra o mixta)
expresar sus opiniones sobre toda una varie-
de un texto (Pang y Lee, 2008).
dad de temas. La diversidad y cantidad de
crı́ticas presentes en la web resultan de gran En este artı́culo presentamos un sistema
utilidad a fabricantes y vendedores, que ven de clasificación de polaridad para textos es-
en ellas un mecanismo para conocer de pri- critos en español, cuyas principales carac-
mera mano cómo sus artı́culos son percibidos terı́sticas son la utilización de diccionarios
por los consumidores. Los beneficios asocia- semánticos y de la estructura sintáctica de
dos a conocer toda esta información, sumados las oraciones para clasificar un texto subje-
a la complejidad técnica del análisis de las tivo como positivo o negativo. La utilidad
opiniones, han provocado que se hayan co- práctica de esta aproximación viene avalada
menzado a demandar soluciones capaces de por los resultados experimentales presenta-
monitorizar este flujo ingente de reseñas. dos, que muestran una mejora en precisión de
Todo ello ha contribuido a que la minerı́a más de cuatro puntos porcentuales con res-
de opiniones (mo), también conocida como pecto a un sistema reciente que no hace uso
análisis del sentimiento, esté jugando un pa- de la sintaxis.
ISSN 1135-5948 © 2013 Sociedad Española para el Procesamiento del Lenguaje Natural
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez

El resto del artı́culo se organiza como si- cha de la negación y en (Fernández Anta et
gue. En la sección 2 se revisa brevemente la al., 2012) se emplea una heurı́stica que asume
situación actual de la mo, centrándose en lo que los tres elementos a continuación de una
referido a la detección de la polaridad. En la negación son los que deben cambiar su polari-
sección 3 se describe la propuesta planteada dad. Para la intensificación, (Fernández An-
y se detallan los aspectos sintácticos trata- ta et al., 2012) considera de nuevo que los
dos. En la sección 4 se muestran detalles de tres términos a la derecha son los que deben
implementación y los resultados de los experi- variar su polaridad. (Taboada et al., 2011)
mentos realizados. Por último, en la sección 5 además de los intensificadores propiamente
se presentan las conclusiones y las principales dichos, trata como tales aspectos del discurso
lı́neas de trabajo futuras. como la conjunción “pero” o las mayúsculas.
Nuestra propuesta sigue una estrategia
2. Estado del arte distinta, que se basa en obtener la estructura
Una parte importante de los esfuerzos actua- sintáctica del texto para tratar las construc-
les relacionados con la mo se están realizando ciones lingüı́sticas e identificar los elementos
en tareas relativas a la clasificación de la pola- de la frase que están implicados en ellas. A
ridad, problema que ha sido abordado desde este respecto, trabajos anteriores (Jia, Yu, y
dos enfoques principales. El primero asume Meng, 2009) ya han mostrado los beneficios
esta tarea como un proceso genérico de clasi- de utilizar la estructura sintáctica de la frase
ficación (Pang, Lee, y Vaithyanathan, 2002): en aquellos textos en los que aparecen ocu-
a partir de un conjunto de entrenamiento, rrencias de términos negativos.
donde los textos son anotados con su pola- Un problema adicional al que se enfrentan
ridad, se construye un clasificador mediante los sistemas de mo es la calidad ortográfica
aprendizaje automático (aa). El segundo en- de los textos a analizar. Cuando éstos pro-
foque se apoya en la orientación semántica vienen de la web, debe tenerse en cuenta que
(os) de las palabras, donde cada término que es frecuente que sus autores omitan acentos,
expresa opinión es anotado con un valor que letras o vocablos; o empleen tanto abreviatu-
representa su polaridad (Turney, 2002). Este ras no reconocidas como oraciones agramati-
segundo enfoque es el que tomaremos como cales. La solución más utilizada consiste en
base para el desarrollo de nuestro trabajo. emplear patrones heurı́sticos para adaptar el
La mayor parte de los sistemas de mo se texto (Saralegi Urizar y San Vicente Roncal,
centran en el tratamiento de textos en inglés. 2012; Martı́nez Cámara et al., 2012) .
En el caso de textos escritos en español, pro-
3. Clasificación de opiniones
bablemente el sistema más relevante sea The
Spanish SO Calculator (Brooke, Tofiloski, y
basada en dependencias
Taboada, 2009), desarrollado en la Universi- sintácticas
dad Simon Fraser de Canadá. Este sistema, En contraste con las propuestas léxicas do-
además de resolver la os almacenada a nivel minantes hasta el momento, en este traba-
individual en adjetivos, sustantivos, verbos y jo proponemos la utilización de la estructu-
adverbios; trata modificadores de la polari- ra sintáctica de la frase para obtener la os
dad como son la negación o los intensificado- de un texto. Como primer paso, es necesa-
res (“muy”,“poco”, “bastante”, ...). También rio preprocesar los textos, para ello se ha di-
detecta y descarta el sentimiento reflejado en señado un preprocesador ad-hoc que trata los
el contenido no fáctico del texto, representa- siguientes aspectos:
do, por ejemplo, mediante expresiones condi-
cionales o subjuntivas. La unificación de expresiones compues-
tas, que actúan como una sola unidad
La manera más habitual de tratar todas
de significado (“a menos que”, “en ab-
estas construcciones lingüı́sticas es a nivel
soluto”,...).
léxico y en este aspecto The Spanish SO Cal-
culator no es una excepción. En lo que res- La normalización de los signos de pun-
pecta al tratamiento de la negación, (Taboa- tuación. En un entorno web es común
da et al., 2011) utiliza información morfológi- obviar las normas ortográficas respecto
ca para identificar el alcance de la negación, a la colocación de signos como el punto
mientras que (Yang, 2008) considera dicho al- o la coma, lo que puede afectar negati-
cance como los términos situados a la dere- vamente al resto del procesado.
14
Clasificación de polaridad en textos con opiniones en español mediante análisis sintáctico de dependencias

A continuación, se procede a segmentar Diccionario Nº términos


el texto en oraciones y a dividir cada una
adjetivos 2,049
de ellas en tokens (principalmente para pa-
sustantivos 1,324
labras, pero también signos de puntuación,
verbos 739
números, etc.) para después realizar la eti-
adverbios 548
quetación morfosintáctica de cada una de las
intensificadores 157
palabras del texto.

Tabla 1: Contenido del


SODictionariesV1.11Spa

3.1. Propuesta base


Nuestra versión inicial determina la polari-
dad de un texto únicamente a partir de la
Figura 1: Ejemplo de árbol de dependencias combinación de la os de sustantivos, adje-
tivos, verbos y adverbios; esto es, sin consi-
derar ninguna construcción lingüı́stica com-
El siguiente paso consiste en realizar el pleja, lo que equivale a ignorar la estructura
análisis sintáctico de dependencias median- sintáctica del texto. En la Figura 2 se ilustra
te el cual se identifican relaciones binarias un ejemplo de análisis de la os sobre el árbol
padre/dependiente entre los términos de una de dependencias correspondiente a la oración
oración. Se incluye un enlace con un elemento “Ese ordenador es muy rápido, pero no reco-
artificial inicial (root) para facilitar las de- miendo comprarlo”. Podemos observar que la
finiciones formales e implementaciones. Ca- propuesta base establece una os muy positiva
da uno de esos vı́nculos binarios constituye para un texto que intuitivamente se percibe
una dependencia, que se anota con la función como ligeramente negativo. Se trata de un
sintáctica que relaciona los dos términos. A ejemplo didáctico que refleja los problemas
la estructura obtenida se le denomina árbol de obviar fenómenos como la intensificación,
de dependencias. En la Figura 1 se ilustra un los nexos adversativos o la negación a la hora
ejemplo sencillo de este tipo de análisis. Co- de extraer completamente la polaridad.
mo corpus de referencia para la definición de
las relaciones de dependencia se ha utilizado
Ancora (Taulé, Martı́, y Recasens, 2008).
Finalmente, para la realización del análi-
sis semántico, nuestra propuesta se apoya en
el SODictionariesV1.11Spa (Brooke, Tofilos-
ki, y Taboada, 2009). Se trata un conjunto de
diccionarios de polaridad para adjetivos, sus-
tantivos, verbos, adverbios e intensificadores;
cuyo contenido se resume en la Tabla 1. Ca-
da término se encuentra anotado con un valor
entre -5 y 5, donde -5 es lo más negativo y Figura 2: Análisis semántico sobre árbol de
5 lo más positivo. El valor asignado a cada dependencias
palabra se corresponde con una orientación
semántica genérica, independientemente del
dominio o contexto en el que se utilice. Ası́, 3.2. Tratamiento de la
por ejemplo, al adjetivo “rápido” o al verbo intensificación
“recomendar” se les asocia una polaridad de Los intensificadores son términos o expre-
valor 2. Es importante señalar que los valo- siones que modifican la polaridad de ciertas
res numéricos asociados a los intensificadores palabras. Consideraremos dos tipos: amplifi-
tienen un significado distinto, ya que repre- cadores, si permiten aumentar la polaridad
sentan el porcentaje (positivo o negativo) por (“muy”,“bastante”,...), y decrementadores si
el que modifican el sentimiento de la expre- la disminuyen (“poco”, “en absoluto”,...). Pa-
sión a la que afectan. ra modelar esta construcción se asocia a cada
15
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez

intensificador un factor de ponderación. Ası́, ta. En la Tabla 2 se ilustran los factores de


basándonos en el SODictionariesV1.11Spa, al ponderación Fprincipal y Fsubordinada , estable-
amplificador “muy” se le asocia el valor 0,25 y cidos mediante una evaluación empı́rica del
al decrementador “en absoluto”, -1. La prin- SFU Spanish Review Corpus, cuyo contenido
cipal diferencia radica en que nuestra pro- se detalla en la sección 4.2.
puesta utiliza el árbol de dependencias pa-
ra determinar la parte de la frase que se ve Nexo Fprincipal Fsubordinada
afectada por tal modificación, considerando Restrictivo 0,75 1,4
las dependencias anotadas en Ancora como Excluyente 0 1
spec, espec, cc o sadv.
Para el ejemplo presentado en la Figu-
ra 2, la os de “muy rápido” se obtendrı́a in- Tabla 2: Factores de ponderación según el
crementando en un 25 % la os de “rápido”: tipo de nexo adversativo
2 ∗ (1 + 0, 25) = 2, 5. En caso de que haya va-
rios intensificadores, se combinan todos sus Para homogeneizar en un futuro la estruc-
porcentajes de intensificación antes de que tura sintáctica de otras subordinadas adver-
actúen sobre el término afectado. Por ejem- sativas, y para simplificar la ponderación de
plo, si la expresión intensificada fuese “en ab- estas oraciones; se optó por reestructurarlas
soluto muy rápido” la os se obtendrı́a como en el árbol de dependencias. En la Figura 3
2 ∗ (1 + (−1 + 0, 25)) = 0, 5. se ilustra la estructura esquemática de una
En un entorno web existen otras formas oración adversativa una vez reorganizada. Se
de enfatizar opiniones, como son el empleo de observa que en el nivel superior de la cláusula
mayúsculas o de exclamaciones. Hemos trata- subordinada se incluye un nodo de apoyo, re-
do estas peculiaridades siguiendo un enfoque presentado por **. Se crea también un nuevo
similar al del resto de intensificadores. tipo de de dependencia, art rel adversative,
para identificar sintácticamente el inicio de
3.3. Tratamiento de las oraciones una cláusula de este tipo. Si se retoma el
adversativas ejemplo de la Figura 2, donde aparecen dos
oraciones conectadas por la conjunción ad-
Los nexos adversativos permiten contraponer
versativa “pero”, la estructura sintáctica re-
hechos expresados en dos oraciones. En un
organizada serı́a la ilustrada en la Figura 4.
entorno de mo este tipo de frases se emplean
para restringir o excluir opiniones, lo que pue-
de ser considerado como un caso especial de
intensificación. Disponer de un árbol de de-
pendencias resulta de gran utilidad en este
caso, ya que nos permite identificar con pre-
cisión tanto la oración subordinada como la
subordinante. Desafortunadamente, el corpus
de Ancora representa sintácticamente este ti-
po de oraciones de forma distinta según el
nexo concreto utilizado, por lo que el trata- Figura 3: Reestructuración de oraciones
miento realizado para este tipo de cláusulas adversativas
no ha sido todo lo completo que nos hubiera
gustado. Hemos optado por centrarnos en los
nexos más relevantes que Ancora representa 3.4. Tratamiento de la negación
de manera uniforme. Se han dividido estos Son muchos los términos o expresiones que
nexos en dos grupos: los restrictivos, que re- permiten negar una opinión. Sin embargo, la
ducen la os de la oración principal y donde frontera entre un negador como tal y un in-
destaca la conjunción “pero”; y los excluyen- tensificador decrementador es difusa. En este
tes, que eliminan enteramente lo expresado trabajo se ha restringido el tratamiento de es-
en la primera oración, entre los que se encua- te fenómeno a los términos “no”, “nunca” y
dran conjunciones como “sino”. Ası́, según “sin”. Otras expresiones negadoras, como “lo
la clase de nexo, se pondera el sentimiento menos” o “en absoluto”, han sido tratadas
acumulado, tanto en la oración subordinan- como intensificadores. Para ello, se ha apro-
te como en la subordinada, de forma distin- vechado la información semántica proporcio-
16
Clasificación de polaridad en textos con opiniones en español mediante análisis sintáctico de dependencias

nada por el SODictionariesV1.11Spa para es- Si ninguna regla se cumple, entonces se


te tipo de locuciones. asume el alcance candidato (salvo el nodo pa-
Para resolver el sentimiento de una ora- dre) como el corregido. En el ejemplo de la
ción con ocurrencias de términos negativos es Figura 4, para la negación “no recomiendo
necesario realizar dos pasos: identificar el al- comprarlo”, ninguna de la reglas se cumple,
cance de la negación y modificar la polaridad por lo que el alcance corregido estarı́a forma-
del fragmento de la oración correspondiente. do sólo por el verbo “recomiendo”.
3.4.1. Identificación del alcance de la 3.4.2. Modificación de la polaridad
negación Nuestra propuesta para resolver la modifica-
Nuestra estrategia para identificar el alcan- ción de la polaridad que implica una negación
ce de la negación se basa en la propuesta de es similar a la empleada en trabajos como
(Jia, Yu, y Meng, 2009). Sin embargo, el pro- (Taboada et al., 2011). Una vez obtenido el
cedimiento ha sido adaptado a las peculia- alcance corregido, se extrae su polaridad, y
ridades del análisis sintáctico realizado. Las a continuación, el valor obtenido es modifi-
caracterı́sticas del árbol de dependencias per- cado en una cantidad preestablecida de signo
miten definir un procedimiento estrictamen- contrario. Para los negadores “no” y “nun-
te sintáctico, basado en las relaciones entre ca”, dicho valor es 4, mientras que para “sin”
elementos, sin necesidad de localizar delimi- el valor es menor, 3,5, para ajustarse a su
tadores léxicos. carácter más local. Ası́, en el ejemplo de la
La forma de identificar ese alcance difiere Figura 4, se observa como para la negación
según el negador utilizado. Cuando se emplea de “recomiendo” se obtiene una os de -2.
el término “sin”, el árbol de dependencias nos
asegura que la rama descendiente constitu-
ye el alcance de ese negador, sin necesidad
de analizar el tipo de relación. Por contra, la
estructura sintáctica utilizada para represen-
tar los elementos “no” y “nunca”, requiere
identificar dependencias concretas como neg
o mod, e iniciar un proceso más complejo. En
primer lugar, se establece un alcance candi-
dato, formado tanto por el padre del negador
como por sus hermanos. A continuación se
corrige dicho alcance aplicando una serie de
reglas heurı́sticas, que son procesadas en or-
den hasta que una cumpla los requisitos:
Figura 4: Análisis final de la OS sobre el
1. Regla del padre subjetivo: Si el padre árbol de dependencias reestructurado
del negador aparece en los diccionarios
semánticos, entonces sólo él constituye
el alcance corregido de la negación. 4. Resultados experimentales
2. Regla del atributo o complemento direc- 4.1. Implementación
to: Si alguno de los hermanos desempeña Nuestra propuesta para la clasificación de la
una de estas funciones sintácticas, enton- polaridad se ha implementado en Python,
ces dicho hermano forma parte del alcan- apoyado en el toolkit nltk1 para las tareas
ce de la negación. de segmentación, tokenización y etiquetación.
En concreto, para la tarea de etiquetación se
3. Regla del complemento circunstancial ha aplicado el algoritmo de Brill utilizando
más cercano: Si alguna rama al mismo el corpus Ancora (Taulé, Martı́, y Recasens,
nivel del negador actúa cómo comple- 2008) para el entrenamiento (se ha utilizado
mento circunstancial, entonces dicha ra- el 90 % del corpus para el entrenamiento y el
ma forma el alcance corregido. En caso 10 % restante para la evaluación). Para me-
de varios complementos circunstanciales, jorar el rendimiento práctico del etiquetador
sólo se incorpora el más cercano fı́sica-
1
mente al negador. http://nltk.org/
17
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez

sobre el análisis de textos de la web, don- que incrementaron el rendimiento se incluye-


de se obvian los acentos en muchas palabras, ron en la versión final de nuestro sistema.
el fragmento del corpus destinado al apren-
dizaje fue ampliado de forma que cada ora- 4.2. Evaluación
ción dispusiese de su equivalente sin palabras Para la evaluación de nuestra propuesta se
acentuadas gráficamente. Los resultados de la ha empleado un corpus formado por 400 do-
evaluación del etiquetador, mostrados en la cumentos: el SFU Spanish Review Corpus
Tabla 3, sugieren que las ambigüedades crea- (Brooke, Tofiloski, y Taboada, 2009). Con-
das por esta duplicación apenas afectan a la tiene reseñas de productos y servicios de
precisión teórica del etiquetador y, sin embar- ocho categorı́as distintas: lavadoras, hoteles,
go, se comprobó empı́ricamente que mejoraba pelı́culas, coches, ordenadores, libros, música
la anotación sobre textos no acentuados. y móviles. Para cada categorı́a se dispone de
un total de 50 documentos, donde en 25 de
Corpus Precisión ellos se expresa una opinión positiva, mien-
Original 0,9586 tras los otros 25 expresan una negativa.
Ampliado 0,9571 Nuestra propuesta procesa cada texto y
obtiene como resultado su os, si ésta es ma-
yor que 0 el texto se cataloga como positi-
Tabla 3: Precisión del etiquetador de Brill vo, en caso contrario como negativo. En la
Tabla 4 se ilustra la precisión para distin-
La tarea del análisis sintáctico de depen- tas configuraciones. Todas las construcciones
dencias se ha realizado con el algoritmo Nivre lingüı́sticas tratadas han mejorado el rendi-
arc-eager (Nivre, 2008) generado con Malt- miento. Especialmente significativo es el in-
Parser2 (Nivre et al., 2007) mediante apren- cremento obtenido con la incorporación de
dizaje automático a partir del corpus Ancora. la negación. Se realizaron test chi-cuadrado
En la sección anterior se comentó cómo se (p < 0, 01), comparando con las polaridades
han tratado algunas construcciones de natu- correctas. Con un * se ilustran las configura-
raleza sintáctica, sin embargo, hay aspectos ciones para las que se obtuvieron polaridades
que no pueden resolverse a ese nivel. Ejem- que no difieren de manera estadı́sticamente
plo de ello es la mayor importancia de las significativa de las correctas.
oraciones finales de una opinión. Para mode-
lar esta peculiaridad, en nuestra propuesta se Propuesta Precisión
ha optado por aumentar en un 75 % la os de Base 0,618
las tres últimas frases de una crı́tica. + intensificación 0,660
Otro aspecto a tener en cuenta es el intro- + adversativas 0,670
ducido en (Kennedy y Inkpen, 2006), donde + negación 0,755*
se habla del problema de la tendencia posi- Final 0,785*
tiva del lenguaje humano. Al expresar una
opinión negativa, es frecuente utilizar nega-
ciones de términos positivos en lugar de los Tabla 4: Precisión al incorporar distintas
correspondientes antónimos; “no barato” en funcionalidades
vez de “caro” o “no bueno” en vez de “ma-
lo” son dos ejemplos de esta situación. Pa- Haber utilizado para la evaluación el mis-
ra compensar dicha desviación, muchas apro- mo corpus y los mismos diccionarios semánti-
ximaciones léxicas incrementan la os de los cos que la solución léxica The Spanish SO-
términos negativos, mejorando notablemen- Calculator, permite comparar nuestra alter-
te su rendimiento. Sin embargo, el empleo de nativa sintáctica con ella. En la Tabla 5 se
esta técnica en nuestra propuesta resultó con- contrasta el rendimiento. Nuestra propuesta
traproducente. Sı́ se consiguió mejorar la pre- incrementa en un 5,72 % el rendimiento obte-
cisión del sistema aumentando la dispersión nido por The Spanish SO-CAL. También se
de las os de sustantivos, adjetivos, verbos y construyó un clasificador svm, basado en aa,
adverbios del SODictionariesV1.11Spa en un empleando para ello weka3 . Para su desa-
20 %, esto es, que sus polaridades compren- rrollo, se utilizó el SFU Spanish Review Cor-
dan valores entre -6 y 6. Todos los aspectos pus y como método de evaluación se optó por
2 3
http://www.maltparser.org/ http://www.cs.waikato.ac.nz/ml/weka/index.html
18
Clasificación de polaridad en textos con opiniones en español mediante análisis sintáctico de dependencias

una validación cruzada de 10 iteraciones. To- precisión global de 0,89 y 0,64, respectiva-
dos los términos se cambiaron a su forma mente. Es interesante reseñar que estos re-
minúscula y se utilizó su frecuencia absoluta sultados son similares a los obtenidos para
de aparición. (Brooke, Tofiloski, y Taboada, las categorı́as de hoteles y pelı́culas, respec-
2009) también propone un sistema de aa, in- tivamente, en el SFU Spanish Review.
cluyendo pln, pero sus resultados no mejoran
los presentados con nuestra configuración. 5. Conclusiones y trabajo futuro
Este artı́culo describe una estrategia para re-
Método Precisión ( %) solver la os de textos con opinión empleando
Nuestra propuesta 78,50 técnicas de análisis de dependencias. Los ex-
The Spanish SO-CAL 74,25 perimentos realizados confirman que la utili-
SVM 72,50 zación de la sintaxis resulta útil a la hora de
tratar construcciones lingüı́sticas en un en-
torno de mo, como son la negación, la in-
Tabla 5: Precisión para distintos métodos tensificación y las frases adversativas. A este
respecto, el análisis que se ha hecho de la ne-
En la Tabla 6 se muestra la precisión de la gación evita contrarrestar artificialmente la
versión final del sistema, desglosada para las tendencia positiva del lenguaje humano. Esto
categorı́as del corpus. Para los ámbitos consi- nos sugiere que se está realizando una iden-
derados de entretenimiento, como las pelı́cu- tificación fiable del alcance de la negación.
las o los libros; el rendimiento es peor que la En busca de futuras mejoras, tratar las
media. Hay dos razones posibles. La primera expresiones y construcciones desiderativas es
es referida al empleo de os genéricas. Térmi- una lı́nea de trabajo que nos gustarı́a explo-
nos como “guerra” o “asesino” son manifies- rar. También se ha planeado realizar una eva-
tamente negativos, sin embargo, en dominios luación más exhaustiva con otros algoritmos
relacionados con las novelas o las pelı́culas, de análisis sintáctico de dependencias, como
probablemente describan la temática o el ar- el 2-planar (Gómez-Rodrı́guez y Nivre, 2010).
gumento, sin afectar a la calidad del produc- La evaluación de nuestra propuesta se
to. El segundo motivo está relacionado con realizó sobre un corpus de textos extensos
los gustos personales, lo que complica clasifi- creado por (Brooke, Tofiloski, y Taboada,
car la polaridad de ciertos términos en estos 2009). Al respecto, el éxito de redes como
ámbitos. Por el contrario, se obtienen mejores Twitter ha aumentado el interés por analizar
resultados en dominios donde los criterios de textos cortos (Villena-Román et al., 2013),
calidad están claramente establecidos, como por lo que serı́a interesante poder evaluar y
es el caso de los hoteles o los ordenadores. adaptar nuestro sistema a las caracterı́sticas
de este tipo de documentos.
Categorı́a Neg Pos Total Ciertos factores que afectan a la clasifi-
Lavadoras 0,79 0,86 0,82 cación de la polaridad no se han considera-
Hoteles 0,88 0,92 0,90 do. Por ejemplo, el problema de la polari-
Pelı́culas 0,67 0,65 0,66 dad cambiante para determinados términos
Coches 0,77 0,71 0,74 según el dominio en el que aparezcan (Pang
Ordenadores 0,91 0,82 0,86 y Lee, 2008). La ironı́a o el sarcasmo son dos
Libros 0,80 0,70 0,74 figuras literarias que se utilizan para expresar
Música 0,84 0,71 0,76 una opinión de una forma mucho más crea-
Móviles 0,86 0,76 0,80 tiva y sutil, lo que dificulta su tratamiento y
su identificación. A este respecto, en (Reyes
y Rosso, 2011) se describe una aproximación
Tabla 6: Precisión según categorı́a para detectar la ironı́a que podrı́a ser utiliza-
da para enriquecer nuestra propuesta.
El sistema, con la misma configuración, se
evaluó también sobre HOpinion4 (crı́ticas de Agradecimientos
hoteles) y sobre CorpusCine (Cruz, Troyano, Este trabajo ha sido parcialmente finan-
y Ortega, 2008), para los que se obtuvo una ciado por el Ministerio de Economı́a y Com-
petitividad y FEDER (TIN2010-18552-C03-
4
http://clic.ub.edu/corpus/hopinion 02) y por la Xunta de Galicia (CN2012/008,
19
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez

CN 2012/319). pendency parsing. Natural Language En-


gineering, 13(2):95–135.
Bibliografı́a Pang, B. y L. Lee. 2008. Opinion Mining
Brooke, J., M. Tofiloski, y M. Taboada. and Sentiment Analysis. now Publishers
2009. Cross-Linguistic Sentiment Analy- Inc., Hanover, MA, USA.
sis: From English to Spanish. En Pro-
Pang, B., L. Lee, y S. Vaithyanathan. 2002.
ceedings of the International Conference
Thumbs up? sentiment classification using
RANLP-2009, páginas 50–54, Borovets,
machine learning techniques. En Procee-
Bulgaria. ACL.
dings of EMNLP, páginas 79–86.
Cruz, F., J. A. Troyano, y J. Ortega. 2008. Reyes, A. y P. Rosso. 2011. Mining subjec-
Clasificación de documentos basada en la tive knowledge from customer reviews: a
opinión: experimentos con un corpus de specific case of irony detection. En Pro-
crı́ticas de cine en español. En Procesa- ceedings of the 2nd Workshop on Compu-
miento de lenguaje natural, 41, páginas tational Approaches to Subjectivity and
81–87. Sentiment Analysis, WASSA ’11, páginas
Fernández Anta, A., P. Morere, L. 118–124, Stroudsburg, PA, USA. ACL.
Núñez Chiroque, y A. Santos. 2012. Saralegi Urizar, X. y I. San Vicente Roncal.
Techniques for Sentiment Analysis and 2012. Detecting Sentiments in Spanish
Topic Detection of Spanish Tweets: Preli- Tweets. En TASS 2012 Working Notes,
minary Report. En TASS 2012 Working Castellón, Spain.
Notes, Castellón, Spain.
Taboada, M., J. Brooke, M. Tofiloski, K. Voll,
Gómez-Rodrı́guez, C. y J. Nivre. 2010. y M. Stede. 2011. Lexicon-based met-
A transition-based parser for 2-planar hods for sentiment analysis. Computatio-
dependency structures. En Proceedings nal Linguistics, 37(2):267–307.
of the 48th Annual Meeting of the As-
Taulé, M., M. A. Martı́, y M. Recasens.
sociation for Computational Linguistics,
2008. AnCora: Multilevel Annotated Cor-
ACL’10, páginas 1492–1501, Stroudsburg,
pora for Catalan and Spanish. En Nicolet-
PA, USA. ACL.
ta Calzolari Khalid Choukri Bente Mae-
Jia, L., C. Yu, y W. Meng. 2009. The gaard Joseph Mariani Jan Odjik Stelios
effect of negation on sentiment analy- Piperidis, y Daniel Tapias, editores, Pro-
sis and retrieval effectiveness. En Pro- ceedings of the Sixth International Confe-
ceedings of the 18th ACM conference on rence on Language Resources and Evalua-
Information and knowledge management, tion (LREC’08), Marrakech, Morocco.
CIKM’09, páginas 1827–1830, New York, Turney, P. D. 2002. Thumbs up or thumbs
NY, USA. ACM. down?: semantic orientation applied to
Kennedy, A. y D. Inkpen. 2006. Sentiment unsupervised classification of reviews. En
classification of movie reviews using con- Proceedings of the 40th Annual Meeting on
textual valence shifters. Computational Association for Computational Linguis-
Intelligence, 22(2):110–125. tics, ACL ’02, páginas 417–424, Strouds-
burg, PA, USA. ACL.
Martı́nez Cámara, E., M. T. Martı́n Valdi-
via, M. A. Garcı́a Cumbreras, y L. A. Villena-Román, J., S. Lana-Serrano, J.C.
Ureña López. 2012. SINAI at TASS 2012. González Cristóbal, y E. Martı́nez-Cáma-
En TASS 2012 Working Notes, Castellón, ra. 2013. TASS Worshop on Sentiment
Spain. Analysis at SEPLN. Procesamiento de
Lenguaje Natural, 50.
Nivre, J. 2008. Algorithms for deterministic
Yang, K.. 2008. WIDIT in TREC 2008 blog
incremental dependency parsing. Com-
track: Leveraging multiple sources of opi-
puational Linguistics, 34(4):513–553.
nion evidence. En E. M. Voorhees y Lo-
Nivre, J., J. Hall, J. Nilsson, A. Chanev, ri P. Buckland, editores, NIST Special Pu-
G. Eryigit, S. Kübler, S. Marinov, y E. blication 500-277: The Seventeenth Text
Marsi. 2007. Maltparser: A language- REtrieval Conference Proceedings (TREC
independent system for data-driven de- 2008).
20

También podría gustarte