Analizador Sintactico de Oraciones en Es

Procesamiento del Lenguaje Natural, Revista nº 50 marzo de 2013, pp 13-20 recibido 23-10-12 revisado 14-01-13 aceptado 19-02-13
Clasificación de polaridad en textos con opiniones en español

mediante análisis sintáctico de dependencias
Polarity classification of opinionated Spanish texts using dependency
parsing
David Vilares, Miguel A. Alonso y Carlos Gómez-Rodrı́guez

Departamento de Computación, Universidade da Coruña
Campus de Elviña, 15011 A Coruña
{david.vilares, miguel.alonso, carlos.gomez}@udc.es
Resumen: En este artı́culo se describe un sistema de minerı́a de opiniones que

clasifica la polaridad de textos en español. Se propone una aproximación basada
en pln que conlleva realizar una segmentación, tokenización y etiquetación de los
textos para a continuación obtener la estructura sintáctica de las oraciones mediante
algoritmos de análisis de dependencias. La estructura sintáctica se emplea entonces
para tratar tres de las construcciones lingüı́sticas más significativas en el ámbito que
nos ocupa: la intensificación, las oraciones subordinadas adversativas y la negación.
Los resultados experimentales muestran una mejora del rendimiento con respecto
a los sistemas puramente léxicos y refuerzan la idea de que el análisis sintáctico es
necesario para lograr un análisis del sentimiento robusto y fiable.
Palabras clave: Minerı́a de opiniones, Análisis del sentimiento, Análisis sintáctico
de dependencias
Abstract: This article describes an opinion mining system that classifies the polarity
of Spanish texts. We propose a nlp-based approach which performs segmentation,
tokenization and pos tagging of texts to then obtain the syntactic structure of
sentences by means of a dependency parser. The syntactic structure is then used to
address three of the most significant linguistic constructions in the area in question:
intensification, adversative subordinate clauses and negation. Experimental results
show an improvement in performance with respect to purely lexical approaches and
reinforce the idea that parsing is required to achieve a robust and reliable sentiment
analysis system.
Keywords: Opinion Mining, Sentiment Analysis, Dependency Parsing
1. Introducción pel importante como ámbito de investigación

en los últimos años. La mo se centra en tratar
El auge en los últimos años de los blogs, los
automáticamente información con opinión, lo
foros y las redes sociales ha hecho que millo-
que permite, entre otras cosas, extraer la po-
nes de usuarios utilicen estos recursos para
laridad (positiva, negativa, neutra o mixta)
expresar sus opiniones sobre toda una varie-
de un texto (Pang y Lee, 2008).
dad de temas. La diversidad y cantidad de
crı́ticas presentes en la web resultan de gran En este artı́culo presentamos un sistema
utilidad a fabricantes y vendedores, que ven de clasificación de polaridad para textos es-
en ellas un mecanismo para conocer de pri- critos en español, cuyas principales carac-
mera mano cómo sus artı́culos son percibidos terı́sticas son la utilización de diccionarios
por los consumidores. Los beneficios asocia- semánticos y de la estructura sintáctica de
dos a conocer toda esta información, sumados las oraciones para clasificar un texto subje-
a la complejidad técnica del análisis de las tivo como positivo o negativo. La utilidad
opiniones, han provocado que se hayan co- práctica de esta aproximación viene avalada
menzado a demandar soluciones capaces de por los resultados experimentales presenta-
monitorizar este flujo ingente de reseñas. dos, que muestran una mejora en precisión de
Todo ello ha contribuido a que la minerı́a más de cuatro puntos porcentuales con res-
de opiniones (mo), también conocida como pecto a un sistema reciente que no hace uso
análisis del sentimiento, esté jugando un pa- de la sintaxis.
ISSN 1135-5948 © 2013 Sociedad Española para el Procesamiento del Lenguaje Natural
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez
El resto del artı́culo se organiza como si- cha de la negación y en (Fernández Anta et
gue. En la sección 2 se revisa brevemente la al., 2012) se emplea una heurı́stica que asume
situación actual de la mo, centrándose en lo que los tres elementos a continuación de una
referido a la detección de la polaridad. En la negación son los que deben cambiar su polari-
sección 3 se describe la propuesta planteada dad. Para la intensificación, (Fernández An-
y se detallan los aspectos sintácticos trata- ta et al., 2012) considera de nuevo que los
dos. En la sección 4 se muestran detalles de tres términos a la derecha son los que deben
implementación y los resultados de los experi- variar su polaridad. (Taboada et al., 2011)
mentos realizados. Por último, en la sección 5 además de los intensificadores propiamente
se presentan las conclusiones y las principales dichos, trata como tales aspectos del discurso
lı́neas de trabajo futuras. como la conjunción “pero” o las mayúsculas.
Nuestra propuesta sigue una estrategia
2. Estado del arte distinta, que se basa en obtener la estructura
Una parte importante de los esfuerzos actua- sintáctica del texto para tratar las construc-
les relacionados con la mo se están realizando ciones lingüı́sticas e identificar los elementos
en tareas relativas a la clasificación de la pola- de la frase que están implicados en ellas. A
ridad, problema que ha sido abordado desde este respecto, trabajos anteriores (Jia, Yu, y
dos enfoques principales. El primero asume Meng, 2009) ya han mostrado los beneficios
esta tarea como un proceso genérico de clasi- de utilizar la estructura sintáctica de la frase
ficación (Pang, Lee, y Vaithyanathan, 2002): en aquellos textos en los que aparecen ocu-
a partir de un conjunto de entrenamiento, rrencias de términos negativos.
donde los textos son anotados con su pola- Un problema adicional al que se enfrentan
ridad, se construye un clasificador mediante los sistemas de mo es la calidad ortográfica
aprendizaje automático (aa). El segundo en- de los textos a analizar. Cuando éstos pro-
foque se apoya en la orientación semántica vienen de la web, debe tenerse en cuenta que
(os) de las palabras, donde cada término que es frecuente que sus autores omitan acentos,
expresa opinión es anotado con un valor que letras o vocablos; o empleen tanto abreviatu-
representa su polaridad (Turney, 2002). Este ras no reconocidas como oraciones agramati-
segundo enfoque es el que tomaremos como cales. La solución más utilizada consiste en
base para el desarrollo de nuestro trabajo. emplear patrones heurı́sticos para adaptar el
La mayor parte de los sistemas de mo se texto (Saralegi Urizar y San Vicente Roncal,
centran en el tratamiento de textos en inglés. 2012; Martı́nez Cámara et al., 2012) .
En el caso de textos escritos en español, pro-
3. Clasificación de opiniones
bablemente el sistema más relevante sea The
Spanish SO Calculator (Brooke, Tofiloski, y
basada en dependencias
Taboada, 2009), desarrollado en la Universi- sintácticas
dad Simon Fraser de Canadá. Este sistema, En contraste con las propuestas léxicas do-
además de resolver la os almacenada a nivel minantes hasta el momento, en este traba-
individual en adjetivos, sustantivos, verbos y jo proponemos la utilización de la estructu-
adverbios; trata modificadores de la polari- ra sintáctica de la frase para obtener la os
dad como son la negación o los intensificado- de un texto. Como primer paso, es necesa-
res (“muy”,“poco”, “bastante”, ...). También rio preprocesar los textos, para ello se ha di-
detecta y descarta el sentimiento reflejado en señado un preprocesador ad-hoc que trata los
el contenido no fáctico del texto, representa- siguientes aspectos:
do, por ejemplo, mediante expresiones condi-
cionales o subjuntivas. La unificación de expresiones compues-
tas, que actúan como una sola unidad
La manera más habitual de tratar todas
de significado (“a menos que”, “en ab-
estas construcciones lingüı́sticas es a nivel
soluto”,...).
léxico y en este aspecto The Spanish SO Cal-
culator no es una excepción. En lo que res- La normalización de los signos de pun-
pecta al tratamiento de la negación, (Taboa- tuación. En un entorno web es común
da et al., 2011) utiliza información morfológi- obviar las normas ortográficas respecto
ca para identificar el alcance de la negación, a la colocación de signos como el punto
mientras que (Yang, 2008) considera dicho al- o la coma, lo que puede afectar negati-
cance como los términos situados a la dere- vamente al resto del procesado.
14
Clasificación de polaridad en textos con opiniones en español mediante análisis sintáctico de dependencias
A continuación, se procede a segmentar Diccionario Nº términos

el texto en oraciones y a dividir cada una
adjetivos 2,049
de ellas en tokens (principalmente para pa-
sustantivos 1,324
labras, pero también signos de puntuación,
verbos 739
números, etc.) para después realizar la eti-
adverbios 548
quetación morfosintáctica de cada una de las
intensificadores 157
palabras del texto.
Tabla 1: Contenido del

SODictionariesV1.11Spa
3.1. Propuesta base

Nuestra versión inicial determina la polari-
dad de un texto únicamente a partir de la
Figura 1: Ejemplo de árbol de dependencias combinación de la os de sustantivos, adje-
tivos, verbos y adverbios; esto es, sin consi-
derar ninguna construcción lingüı́stica com-
El siguiente paso consiste en realizar el pleja, lo que equivale a ignorar la estructura
análisis sintáctico de dependencias median- sintáctica del texto. En la Figura 2 se ilustra
te el cual se identifican relaciones binarias un ejemplo de análisis de la os sobre el árbol
padre/dependiente entre los términos de una de dependencias correspondiente a la oración
oración. Se incluye un enlace con un elemento “Ese ordenador es muy rápido, pero no reco-
artificial inicial (root) para facilitar las de- miendo comprarlo”. Podemos observar que la
finiciones formales e implementaciones. Ca- propuesta base establece una os muy positiva
da uno de esos vı́nculos binarios constituye para un texto que intuitivamente se percibe
una dependencia, que se anota con la función como ligeramente negativo. Se trata de un
sintáctica que relaciona los dos términos. A ejemplo didáctico que refleja los problemas
la estructura obtenida se le denomina árbol de obviar fenómenos como la intensificación,
de dependencias. En la Figura 1 se ilustra un los nexos adversativos o la negación a la hora
ejemplo sencillo de este tipo de análisis. Co- de extraer completamente la polaridad.
mo corpus de referencia para la definición de
las relaciones de dependencia se ha utilizado
Ancora (Taulé, Martı́, y Recasens, 2008).
Finalmente, para la realización del análi-
sis semántico, nuestra propuesta se apoya en
el SODictionariesV1.11Spa (Brooke, Tofilos-
ki, y Taboada, 2009). Se trata un conjunto de
diccionarios de polaridad para adjetivos, sus-
tantivos, verbos, adverbios e intensificadores;
cuyo contenido se resume en la Tabla 1. Ca-
da término se encuentra anotado con un valor
entre -5 y 5, donde -5 es lo más negativo y Figura 2: Análisis semántico sobre árbol de
5 lo más positivo. El valor asignado a cada dependencias
palabra se corresponde con una orientación
semántica genérica, independientemente del
dominio o contexto en el que se utilice. Ası́, 3.2. Tratamiento de la
por ejemplo, al adjetivo “rápido” o al verbo intensificación
“recomendar” se les asocia una polaridad de Los intensificadores son términos o expre-
valor 2. Es importante señalar que los valo- siones que modifican la polaridad de ciertas
res numéricos asociados a los intensificadores palabras. Consideraremos dos tipos: amplifi-
tienen un significado distinto, ya que repre- cadores, si permiten aumentar la polaridad
sentan el porcentaje (positivo o negativo) por (“muy”,“bastante”,...), y decrementadores si
el que modifican el sentimiento de la expre- la disminuyen (“poco”, “en absoluto”,...). Pa-
sión a la que afectan. ra modelar esta construcción se asocia a cada
15
intensificador un factor de ponderación. Ası́, ta. En la Tabla 2 se ilustran los factores de

basándonos en el SODictionariesV1.11Spa, al ponderación Fprincipal y Fsubordinada , estable-
amplificador “muy” se le asocia el valor 0,25 y cidos mediante una evaluación empı́rica del
al decrementador “en absoluto”, -1. La prin- SFU Spanish Review Corpus, cuyo contenido
cipal diferencia radica en que nuestra pro- se detalla en la sección 4.2.
puesta utiliza el árbol de dependencias pa-
ra determinar la parte de la frase que se ve Nexo Fprincipal Fsubordinada
afectada por tal modificación, considerando Restrictivo 0,75 1,4
las dependencias anotadas en Ancora como Excluyente 0 1
spec, espec, cc o sadv.
Para el ejemplo presentado en la Figu-
ra 2, la os de “muy rápido” se obtendrı́a in- Tabla 2: Factores de ponderación según el
crementando en un 25 % la os de “rápido”: tipo de nexo adversativo
2 ∗ (1 + 0, 25) = 2, 5. En caso de que haya va-
rios intensificadores, se combinan todos sus Para homogeneizar en un futuro la estruc-
porcentajes de intensificación antes de que tura sintáctica de otras subordinadas adver-
actúen sobre el término afectado. Por ejem- sativas, y para simplificar la ponderación de
plo, si la expresión intensificada fuese “en ab- estas oraciones; se optó por reestructurarlas
soluto muy rápido” la os se obtendrı́a como en el árbol de dependencias. En la Figura 3
2 ∗ (1 + (−1 + 0, 25)) = 0, 5. se ilustra la estructura esquemática de una
En un entorno web existen otras formas oración adversativa una vez reorganizada. Se
de enfatizar opiniones, como son el empleo de observa que en el nivel superior de la cláusula
mayúsculas o de exclamaciones. Hemos trata- subordinada se incluye un nodo de apoyo, re-
do estas peculiaridades siguiendo un enfoque presentado por **. Se crea también un nuevo
similar al del resto de intensificadores. tipo de de dependencia, art rel adversative,
para identificar sintácticamente el inicio de
3.3. Tratamiento de las oraciones una cláusula de este tipo. Si se retoma el
adversativas ejemplo de la Figura 2, donde aparecen dos
oraciones conectadas por la conjunción ad-
Los nexos adversativos permiten contraponer
versativa “pero”, la estructura sintáctica re-
hechos expresados en dos oraciones. En un
organizada serı́a la ilustrada en la Figura 4.
entorno de mo este tipo de frases se emplean
para restringir o excluir opiniones, lo que pue-
de ser considerado como un caso especial de
intensificación. Disponer de un árbol de de-
pendencias resulta de gran utilidad en este
caso, ya que nos permite identificar con pre-
cisión tanto la oración subordinada como la
subordinante. Desafortunadamente, el corpus
de Ancora representa sintácticamente este ti-
po de oraciones de forma distinta según el
nexo concreto utilizado, por lo que el trata- Figura 3: Reestructuración de oraciones
miento realizado para este tipo de cláusulas adversativas
no ha sido todo lo completo que nos hubiera
gustado. Hemos optado por centrarnos en los
nexos más relevantes que Ancora representa 3.4. Tratamiento de la negación
de manera uniforme. Se han dividido estos Son muchos los términos o expresiones que
nexos en dos grupos: los restrictivos, que re- permiten negar una opinión. Sin embargo, la
ducen la os de la oración principal y donde frontera entre un negador como tal y un in-
destaca la conjunción “pero”; y los excluyen- tensificador decrementador es difusa. En este
tes, que eliminan enteramente lo expresado trabajo se ha restringido el tratamiento de es-
en la primera oración, entre los que se encua- te fenómeno a los términos “no”, “nunca” y
dran conjunciones como “sino”. Ası́, según “sin”. Otras expresiones negadoras, como “lo
la clase de nexo, se pondera el sentimiento menos” o “en absoluto”, han sido tratadas
acumulado, tanto en la oración subordinan- como intensificadores. Para ello, se ha apro-
te como en la subordinada, de forma distin- vechado la información semántica proporcio-
16
nada por el SODictionariesV1.11Spa para es- Si ninguna regla se cumple, entonces se

te tipo de locuciones. asume el alcance candidato (salvo el nodo pa-
Para resolver el sentimiento de una ora- dre) como el corregido. En el ejemplo de la
ción con ocurrencias de términos negativos es Figura 4, para la negación “no recomiendo
necesario realizar dos pasos: identificar el al- comprarlo”, ninguna de la reglas se cumple,
cance de la negación y modificar la polaridad por lo que el alcance corregido estarı́a forma-
del fragmento de la oración correspondiente. do sólo por el verbo “recomiendo”.
3.4.1. Identificación del alcance de la 3.4.2. Modificación de la polaridad
negación Nuestra propuesta para resolver la modifica-
Nuestra estrategia para identificar el alcan- ción de la polaridad que implica una negación
ce de la negación se basa en la propuesta de es similar a la empleada en trabajos como
(Jia, Yu, y Meng, 2009). Sin embargo, el pro- (Taboada et al., 2011). Una vez obtenido el
cedimiento ha sido adaptado a las peculia- alcance corregido, se extrae su polaridad, y
ridades del análisis sintáctico realizado. Las a continuación, el valor obtenido es modifi-
caracterı́sticas del árbol de dependencias per- cado en una cantidad preestablecida de signo
miten definir un procedimiento estrictamen- contrario. Para los negadores “no” y “nun-
te sintáctico, basado en las relaciones entre ca”, dicho valor es 4, mientras que para “sin”
elementos, sin necesidad de localizar delimi- el valor es menor, 3,5, para ajustarse a su
tadores léxicos. carácter más local. Ası́, en el ejemplo de la
La forma de identificar ese alcance difiere Figura 4, se observa como para la negación
según el negador utilizado. Cuando se emplea de “recomiendo” se obtiene una os de -2.
el término “sin”, el árbol de dependencias nos
asegura que la rama descendiente constitu-
ye el alcance de ese negador, sin necesidad
de analizar el tipo de relación. Por contra, la
estructura sintáctica utilizada para represen-
tar los elementos “no” y “nunca”, requiere
identificar dependencias concretas como neg
o mod, e iniciar un proceso más complejo. En
primer lugar, se establece un alcance candi-
dato, formado tanto por el padre del negador
como por sus hermanos. A continuación se
corrige dicho alcance aplicando una serie de
reglas heurı́sticas, que son procesadas en or-
den hasta que una cumpla los requisitos:
Figura 4: Análisis final de la OS sobre el
1. Regla del padre subjetivo: Si el padre árbol de dependencias reestructurado
del negador aparece en los diccionarios
semánticos, entonces sólo él constituye
el alcance corregido de la negación. 4. Resultados experimentales
2. Regla del atributo o complemento direc- 4.1. Implementación
to: Si alguno de los hermanos desempeña Nuestra propuesta para la clasificación de la
una de estas funciones sintácticas, enton- polaridad se ha implementado en Python,
ces dicho hermano forma parte del alcan- apoyado en el toolkit nltk1 para las tareas
ce de la negación. de segmentación, tokenización y etiquetación.
En concreto, para la tarea de etiquetación se
3. Regla del complemento circunstancial ha aplicado el algoritmo de Brill utilizando
más cercano: Si alguna rama al mismo el corpus Ancora (Taulé, Martı́, y Recasens,
nivel del negador actúa cómo comple- 2008) para el entrenamiento (se ha utilizado
mento circunstancial, entonces dicha ra- el 90 % del corpus para el entrenamiento y el
ma forma el alcance corregido. En caso 10 % restante para la evaluación). Para me-
de varios complementos circunstanciales, jorar el rendimiento práctico del etiquetador
sólo se incorpora el más cercano fı́sica-
1
mente al negador. http://nltk.org/
17
sobre el análisis de textos de la web, don- que incrementaron el rendimiento se incluye-

de se obvian los acentos en muchas palabras, ron en la versión final de nuestro sistema.
el fragmento del corpus destinado al apren-
dizaje fue ampliado de forma que cada ora- 4.2. Evaluación
ción dispusiese de su equivalente sin palabras Para la evaluación de nuestra propuesta se
acentuadas gráficamente. Los resultados de la ha empleado un corpus formado por 400 do-
evaluación del etiquetador, mostrados en la cumentos: el SFU Spanish Review Corpus
Tabla 3, sugieren que las ambigüedades crea- (Brooke, Tofiloski, y Taboada, 2009). Con-
das por esta duplicación apenas afectan a la tiene reseñas de productos y servicios de
precisión teórica del etiquetador y, sin embar- ocho categorı́as distintas: lavadoras, hoteles,
go, se comprobó empı́ricamente que mejoraba pelı́culas, coches, ordenadores, libros, música
la anotación sobre textos no acentuados. y móviles. Para cada categorı́a se dispone de
un total de 50 documentos, donde en 25 de
Corpus Precisión ellos se expresa una opinión positiva, mien-
Original 0,9586 tras los otros 25 expresan una negativa.
Ampliado 0,9571 Nuestra propuesta procesa cada texto y
obtiene como resultado su os, si ésta es ma-
yor que 0 el texto se cataloga como positi-
Tabla 3: Precisión del etiquetador de Brill vo, en caso contrario como negativo. En la
Tabla 4 se ilustra la precisión para distin-
La tarea del análisis sintáctico de depen- tas configuraciones. Todas las construcciones
dencias se ha realizado con el algoritmo Nivre lingüı́sticas tratadas han mejorado el rendi-
arc-eager (Nivre, 2008) generado con Malt- miento. Especialmente significativo es el in-
Parser2 (Nivre et al., 2007) mediante apren- cremento obtenido con la incorporación de
dizaje automático a partir del corpus Ancora. la negación. Se realizaron test chi-cuadrado
En la sección anterior se comentó cómo se (p < 0, 01), comparando con las polaridades
han tratado algunas construcciones de natu- correctas. Con un * se ilustran las configura-
raleza sintáctica, sin embargo, hay aspectos ciones para las que se obtuvieron polaridades
que no pueden resolverse a ese nivel. Ejem- que no difieren de manera estadı́sticamente
plo de ello es la mayor importancia de las significativa de las correctas.
oraciones finales de una opinión. Para mode-
lar esta peculiaridad, en nuestra propuesta se Propuesta Precisión
ha optado por aumentar en un 75 % la os de Base 0,618
las tres últimas frases de una crı́tica. + intensificación 0,660
Otro aspecto a tener en cuenta es el intro- + adversativas 0,670
ducido en (Kennedy y Inkpen, 2006), donde + negación 0,755*
se habla del problema de la tendencia posi- Final 0,785*
tiva del lenguaje humano. Al expresar una
opinión negativa, es frecuente utilizar nega-
ciones de términos positivos en lugar de los Tabla 4: Precisión al incorporar distintas
correspondientes antónimos; “no barato” en funcionalidades
vez de “caro” o “no bueno” en vez de “ma-
lo” son dos ejemplos de esta situación. Pa- Haber utilizado para la evaluación el mis-
ra compensar dicha desviación, muchas apro- mo corpus y los mismos diccionarios semánti-
ximaciones léxicas incrementan la os de los cos que la solución léxica The Spanish SO-
términos negativos, mejorando notablemen- Calculator, permite comparar nuestra alter-
te su rendimiento. Sin embargo, el empleo de nativa sintáctica con ella. En la Tabla 5 se
esta técnica en nuestra propuesta resultó con- contrasta el rendimiento. Nuestra propuesta
traproducente. Sı́ se consiguió mejorar la pre- incrementa en un 5,72 % el rendimiento obte-
cisión del sistema aumentando la dispersión nido por The Spanish SO-CAL. También se
de las os de sustantivos, adjetivos, verbos y construyó un clasificador svm, basado en aa,
adverbios del SODictionariesV1.11Spa en un empleando para ello weka3 . Para su desa-
20 %, esto es, que sus polaridades compren- rrollo, se utilizó el SFU Spanish Review Cor-
dan valores entre -6 y 6. Todos los aspectos pus y como método de evaluación se optó por
2 3
http://www.maltparser.org/ http://www.cs.waikato.ac.nz/ml/weka/index.html
18
una validación cruzada de 10 iteraciones. To- precisión global de 0,89 y 0,64, respectiva-
dos los términos se cambiaron a su forma mente. Es interesante reseñar que estos re-
minúscula y se utilizó su frecuencia absoluta sultados son similares a los obtenidos para
de aparición. (Brooke, Tofiloski, y Taboada, las categorı́as de hoteles y pelı́culas, respec-
2009) también propone un sistema de aa, in- tivamente, en el SFU Spanish Review.
cluyendo pln, pero sus resultados no mejoran
los presentados con nuestra configuración. 5. Conclusiones y trabajo futuro
Este artı́culo describe una estrategia para re-
Método Precisión ( %) solver la os de textos con opinión empleando
Nuestra propuesta 78,50 técnicas de análisis de dependencias. Los ex-
The Spanish SO-CAL 74,25 perimentos realizados confirman que la utili-
SVM 72,50 zación de la sintaxis resulta útil a la hora de
tratar construcciones lingüı́sticas en un en-
torno de mo, como son la negación, la in-
Tabla 5: Precisión para distintos métodos tensificación y las frases adversativas. A este
respecto, el análisis que se ha hecho de la ne-
En la Tabla 6 se muestra la precisión de la gación evita contrarrestar artificialmente la
versión final del sistema, desglosada para las tendencia positiva del lenguaje humano. Esto
categorı́as del corpus. Para los ámbitos consi- nos sugiere que se está realizando una iden-
derados de entretenimiento, como las pelı́cu- tificación fiable del alcance de la negación.
las o los libros; el rendimiento es peor que la En busca de futuras mejoras, tratar las
media. Hay dos razones posibles. La primera expresiones y construcciones desiderativas es
es referida al empleo de os genéricas. Térmi- una lı́nea de trabajo que nos gustarı́a explo-
nos como “guerra” o “asesino” son manifies- rar. También se ha planeado realizar una eva-
tamente negativos, sin embargo, en dominios luación más exhaustiva con otros algoritmos
relacionados con las novelas o las pelı́culas, de análisis sintáctico de dependencias, como
probablemente describan la temática o el ar- el 2-planar (Gómez-Rodrı́guez y Nivre, 2010).
gumento, sin afectar a la calidad del produc- La evaluación de nuestra propuesta se
to. El segundo motivo está relacionado con realizó sobre un corpus de textos extensos
los gustos personales, lo que complica clasifi- creado por (Brooke, Tofiloski, y Taboada,
car la polaridad de ciertos términos en estos 2009). Al respecto, el éxito de redes como
ámbitos. Por el contrario, se obtienen mejores Twitter ha aumentado el interés por analizar
resultados en dominios donde los criterios de textos cortos (Villena-Román et al., 2013),
calidad están claramente establecidos, como por lo que serı́a interesante poder evaluar y
es el caso de los hoteles o los ordenadores. adaptar nuestro sistema a las caracterı́sticas
de este tipo de documentos.
Categorı́a Neg Pos Total Ciertos factores que afectan a la clasifi-
Lavadoras 0,79 0,86 0,82 cación de la polaridad no se han considera-
Hoteles 0,88 0,92 0,90 do. Por ejemplo, el problema de la polari-
Pelı́culas 0,67 0,65 0,66 dad cambiante para determinados términos
Coches 0,77 0,71 0,74 según el dominio en el que aparezcan (Pang
Ordenadores 0,91 0,82 0,86 y Lee, 2008). La ironı́a o el sarcasmo son dos
Libros 0,80 0,70 0,74 figuras literarias que se utilizan para expresar
Música 0,84 0,71 0,76 una opinión de una forma mucho más crea-
Móviles 0,86 0,76 0,80 tiva y sutil, lo que dificulta su tratamiento y
su identificación. A este respecto, en (Reyes
y Rosso, 2011) se describe una aproximación
Tabla 6: Precisión según categorı́a para detectar la ironı́a que podrı́a ser utiliza-
da para enriquecer nuestra propuesta.
El sistema, con la misma configuración, se
evaluó también sobre HOpinion4 (crı́ticas de Agradecimientos
hoteles) y sobre CorpusCine (Cruz, Troyano, Este trabajo ha sido parcialmente finan-
y Ortega, 2008), para los que se obtuvo una ciado por el Ministerio de Economı́a y Com-
petitividad y FEDER (TIN2010-18552-C03-
4
http://clic.ub.edu/corpus/hopinion 02) y por la Xunta de Galicia (CN2012/008,
19
CN 2012/319). pendency parsing. Natural Language En-

gineering, 13(2):95–135.
Bibliografı́a Pang, B. y L. Lee. 2008. Opinion Mining
Brooke, J., M. Tofiloski, y M. Taboada. and Sentiment Analysis. now Publishers
2009. Cross-Linguistic Sentiment Analy- Inc., Hanover, MA, USA.
sis: From English to Spanish. En Pro-
Pang, B., L. Lee, y S. Vaithyanathan. 2002.
ceedings of the International Conference
Thumbs up? sentiment classification using
RANLP-2009, páginas 50–54, Borovets,
machine learning techniques. En Procee-
Bulgaria. ACL.
dings of EMNLP, páginas 79–86.
Cruz, F., J. A. Troyano, y J. Ortega. 2008. Reyes, A. y P. Rosso. 2011. Mining subjec-
Clasificación de documentos basada en la tive knowledge from customer reviews: a
opinión: experimentos con un corpus de specific case of irony detection. En Pro-
crı́ticas de cine en español. En Procesa- ceedings of the 2nd Workshop on Compu-
miento de lenguaje natural, 41, páginas tational Approaches to Subjectivity and
81–87. Sentiment Analysis, WASSA ’11, páginas
Fernández Anta, A., P. Morere, L. 118–124, Stroudsburg, PA, USA. ACL.
Núñez Chiroque, y A. Santos. 2012. Saralegi Urizar, X. y I. San Vicente Roncal.
Techniques for Sentiment Analysis and 2012. Detecting Sentiments in Spanish
Topic Detection of Spanish Tweets: Preli- Tweets. En TASS 2012 Working Notes,
minary Report. En TASS 2012 Working Castellón, Spain.
Notes, Castellón, Spain.
Taboada, M., J. Brooke, M. Tofiloski, K. Voll,
Gómez-Rodrı́guez, C. y J. Nivre. 2010. y M. Stede. 2011. Lexicon-based met-
A transition-based parser for 2-planar hods for sentiment analysis. Computatio-
dependency structures. En Proceedings nal Linguistics, 37(2):267–307.
of the 48th Annual Meeting of the As-
Taulé, M., M. A. Martı́, y M. Recasens.
sociation for Computational Linguistics,
2008. AnCora: Multilevel Annotated Cor-
ACL’10, páginas 1492–1501, Stroudsburg,
pora for Catalan and Spanish. En Nicolet-
PA, USA. ACL.
ta Calzolari Khalid Choukri Bente Mae-
Jia, L., C. Yu, y W. Meng. 2009. The gaard Joseph Mariani Jan Odjik Stelios
effect of negation on sentiment analy- Piperidis, y Daniel Tapias, editores, Pro-
sis and retrieval effectiveness. En Pro- ceedings of the Sixth International Confe-
ceedings of the 18th ACM conference on rence on Language Resources and Evalua-
Information and knowledge management, tion (LREC’08), Marrakech, Morocco.
CIKM’09, páginas 1827–1830, New York, Turney, P. D. 2002. Thumbs up or thumbs
NY, USA. ACM. down?: semantic orientation applied to
Kennedy, A. y D. Inkpen. 2006. Sentiment unsupervised classification of reviews. En
classification of movie reviews using con- Proceedings of the 40th Annual Meeting on
textual valence shifters. Computational Association for Computational Linguis-
Intelligence, 22(2):110–125. tics, ACL ’02, páginas 417–424, Strouds-
burg, PA, USA. ACL.
Martı́nez Cámara, E., M. T. Martı́n Valdi-
via, M. A. Garcı́a Cumbreras, y L. A. Villena-Román, J., S. Lana-Serrano, J.C.
Ureña López. 2012. SINAI at TASS 2012. González Cristóbal, y E. Martı́nez-Cáma-
En TASS 2012 Working Notes, Castellón, ra. 2013. TASS Worshop on Sentiment
Spain. Analysis at SEPLN. Procesamiento de
Lenguaje Natural, 50.
Nivre, J. 2008. Algorithms for deterministic
Yang, K.. 2008. WIDIT in TREC 2008 blog
incremental dependency parsing. Com-
track: Leveraging multiple sources of opi-
puational Linguistics, 34(4):513–553.
nion evidence. En E. M. Voorhees y Lo-
Nivre, J., J. Hall, J. Nilsson, A. Chanev, ri P. Buckland, editores, NIST Special Pu-
G. Eryigit, S. Kübler, S. Marinov, y E. blication 500-277: The Seventeenth Text
Marsi. 2007. Maltparser: A language- REtrieval Conference Proceedings (TREC
independent system for data-driven de- 2008).
20

Analizador Sintactico de Oraciones en Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analizador Sintactico de Oraciones en Es

Cargado por

Copyright:

Formatos disponibles

Procesamiento del Lenguaje Natural, Revista nº 50 marzo de 2013, pp 13-20 recibido 23-10-12 revisado 14-01-13 aceptado 19-02-13

Clasificación de polaridad en textos con opiniones en español

David Vilares, Miguel A. Alonso y Carlos Gómez-Rodrı́guez

Resumen: En este artı́culo se describe un sistema de minerı́a de opiniones que

1. Introducción pel importante como ámbito de investigación

A continuación, se procede a segmentar Diccionario Nº términos

Tabla 1: Contenido del

3.1. Propuesta base

intensificador un factor de ponderación. Ası́, ta. En la Tabla 2 se ilustran los factores de

nada por el SODictionariesV1.11Spa para es- Si ninguna regla se cumple, entonces se

sobre el análisis de textos de la web, don- que incrementaron el rendimiento se incluye-

CN 2012/319). pendency parsing. Natural Language En-

También podría gustarte