Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El resto del artı́culo se organiza como si- cha de la negación y en (Fernández Anta et
gue. En la sección 2 se revisa brevemente la al., 2012) se emplea una heurı́stica que asume
situación actual de la mo, centrándose en lo que los tres elementos a continuación de una
referido a la detección de la polaridad. En la negación son los que deben cambiar su polari-
sección 3 se describe la propuesta planteada dad. Para la intensificación, (Fernández An-
y se detallan los aspectos sintácticos trata- ta et al., 2012) considera de nuevo que los
dos. En la sección 4 se muestran detalles de tres términos a la derecha son los que deben
implementación y los resultados de los experi- variar su polaridad. (Taboada et al., 2011)
mentos realizados. Por último, en la sección 5 además de los intensificadores propiamente
se presentan las conclusiones y las principales dichos, trata como tales aspectos del discurso
lı́neas de trabajo futuras. como la conjunción “pero” o las mayúsculas.
Nuestra propuesta sigue una estrategia
2. Estado del arte distinta, que se basa en obtener la estructura
Una parte importante de los esfuerzos actua- sintáctica del texto para tratar las construc-
les relacionados con la mo se están realizando ciones lingüı́sticas e identificar los elementos
en tareas relativas a la clasificación de la pola- de la frase que están implicados en ellas. A
ridad, problema que ha sido abordado desde este respecto, trabajos anteriores (Jia, Yu, y
dos enfoques principales. El primero asume Meng, 2009) ya han mostrado los beneficios
esta tarea como un proceso genérico de clasi- de utilizar la estructura sintáctica de la frase
ficación (Pang, Lee, y Vaithyanathan, 2002): en aquellos textos en los que aparecen ocu-
a partir de un conjunto de entrenamiento, rrencias de términos negativos.
donde los textos son anotados con su pola- Un problema adicional al que se enfrentan
ridad, se construye un clasificador mediante los sistemas de mo es la calidad ortográfica
aprendizaje automático (aa). El segundo en- de los textos a analizar. Cuando éstos pro-
foque se apoya en la orientación semántica vienen de la web, debe tenerse en cuenta que
(os) de las palabras, donde cada término que es frecuente que sus autores omitan acentos,
expresa opinión es anotado con un valor que letras o vocablos; o empleen tanto abreviatu-
representa su polaridad (Turney, 2002). Este ras no reconocidas como oraciones agramati-
segundo enfoque es el que tomaremos como cales. La solución más utilizada consiste en
base para el desarrollo de nuestro trabajo. emplear patrones heurı́sticos para adaptar el
La mayor parte de los sistemas de mo se texto (Saralegi Urizar y San Vicente Roncal,
centran en el tratamiento de textos en inglés. 2012; Martı́nez Cámara et al., 2012) .
En el caso de textos escritos en español, pro-
3. Clasificación de opiniones
bablemente el sistema más relevante sea The
Spanish SO Calculator (Brooke, Tofiloski, y
basada en dependencias
Taboada, 2009), desarrollado en la Universi- sintácticas
dad Simon Fraser de Canadá. Este sistema, En contraste con las propuestas léxicas do-
además de resolver la os almacenada a nivel minantes hasta el momento, en este traba-
individual en adjetivos, sustantivos, verbos y jo proponemos la utilización de la estructu-
adverbios; trata modificadores de la polari- ra sintáctica de la frase para obtener la os
dad como son la negación o los intensificado- de un texto. Como primer paso, es necesa-
res (“muy”,“poco”, “bastante”, ...). También rio preprocesar los textos, para ello se ha di-
detecta y descarta el sentimiento reflejado en señado un preprocesador ad-hoc que trata los
el contenido no fáctico del texto, representa- siguientes aspectos:
do, por ejemplo, mediante expresiones condi-
cionales o subjuntivas. La unificación de expresiones compues-
tas, que actúan como una sola unidad
La manera más habitual de tratar todas
de significado (“a menos que”, “en ab-
estas construcciones lingüı́sticas es a nivel
soluto”,...).
léxico y en este aspecto The Spanish SO Cal-
culator no es una excepción. En lo que res- La normalización de los signos de pun-
pecta al tratamiento de la negación, (Taboa- tuación. En un entorno web es común
da et al., 2011) utiliza información morfológi- obviar las normas ortográficas respecto
ca para identificar el alcance de la negación, a la colocación de signos como el punto
mientras que (Yang, 2008) considera dicho al- o la coma, lo que puede afectar negati-
cance como los términos situados a la dere- vamente al resto del procesado.
14
Clasificación de polaridad en textos con opiniones en español mediante análisis sintáctico de dependencias
una validación cruzada de 10 iteraciones. To- precisión global de 0,89 y 0,64, respectiva-
dos los términos se cambiaron a su forma mente. Es interesante reseñar que estos re-
minúscula y se utilizó su frecuencia absoluta sultados son similares a los obtenidos para
de aparición. (Brooke, Tofiloski, y Taboada, las categorı́as de hoteles y pelı́culas, respec-
2009) también propone un sistema de aa, in- tivamente, en el SFU Spanish Review.
cluyendo pln, pero sus resultados no mejoran
los presentados con nuestra configuración. 5. Conclusiones y trabajo futuro
Este artı́culo describe una estrategia para re-
Método Precisión ( %) solver la os de textos con opinión empleando
Nuestra propuesta 78,50 técnicas de análisis de dependencias. Los ex-
The Spanish SO-CAL 74,25 perimentos realizados confirman que la utili-
SVM 72,50 zación de la sintaxis resulta útil a la hora de
tratar construcciones lingüı́sticas en un en-
torno de mo, como son la negación, la in-
Tabla 5: Precisión para distintos métodos tensificación y las frases adversativas. A este
respecto, el análisis que se ha hecho de la ne-
En la Tabla 6 se muestra la precisión de la gación evita contrarrestar artificialmente la
versión final del sistema, desglosada para las tendencia positiva del lenguaje humano. Esto
categorı́as del corpus. Para los ámbitos consi- nos sugiere que se está realizando una iden-
derados de entretenimiento, como las pelı́cu- tificación fiable del alcance de la negación.
las o los libros; el rendimiento es peor que la En busca de futuras mejoras, tratar las
media. Hay dos razones posibles. La primera expresiones y construcciones desiderativas es
es referida al empleo de os genéricas. Térmi- una lı́nea de trabajo que nos gustarı́a explo-
nos como “guerra” o “asesino” son manifies- rar. También se ha planeado realizar una eva-
tamente negativos, sin embargo, en dominios luación más exhaustiva con otros algoritmos
relacionados con las novelas o las pelı́culas, de análisis sintáctico de dependencias, como
probablemente describan la temática o el ar- el 2-planar (Gómez-Rodrı́guez y Nivre, 2010).
gumento, sin afectar a la calidad del produc- La evaluación de nuestra propuesta se
to. El segundo motivo está relacionado con realizó sobre un corpus de textos extensos
los gustos personales, lo que complica clasifi- creado por (Brooke, Tofiloski, y Taboada,
car la polaridad de ciertos términos en estos 2009). Al respecto, el éxito de redes como
ámbitos. Por el contrario, se obtienen mejores Twitter ha aumentado el interés por analizar
resultados en dominios donde los criterios de textos cortos (Villena-Román et al., 2013),
calidad están claramente establecidos, como por lo que serı́a interesante poder evaluar y
es el caso de los hoteles o los ordenadores. adaptar nuestro sistema a las caracterı́sticas
de este tipo de documentos.
Categorı́a Neg Pos Total Ciertos factores que afectan a la clasifi-
Lavadoras 0,79 0,86 0,82 cación de la polaridad no se han considera-
Hoteles 0,88 0,92 0,90 do. Por ejemplo, el problema de la polari-
Pelı́culas 0,67 0,65 0,66 dad cambiante para determinados términos
Coches 0,77 0,71 0,74 según el dominio en el que aparezcan (Pang
Ordenadores 0,91 0,82 0,86 y Lee, 2008). La ironı́a o el sarcasmo son dos
Libros 0,80 0,70 0,74 figuras literarias que se utilizan para expresar
Música 0,84 0,71 0,76 una opinión de una forma mucho más crea-
Móviles 0,86 0,76 0,80 tiva y sutil, lo que dificulta su tratamiento y
su identificación. A este respecto, en (Reyes
y Rosso, 2011) se describe una aproximación
Tabla 6: Precisión según categorı́a para detectar la ironı́a que podrı́a ser utiliza-
da para enriquecer nuestra propuesta.
El sistema, con la misma configuración, se
evaluó también sobre HOpinion4 (crı́ticas de Agradecimientos
hoteles) y sobre CorpusCine (Cruz, Troyano, Este trabajo ha sido parcialmente finan-
y Ortega, 2008), para los que se obtuvo una ciado por el Ministerio de Economı́a y Com-
petitividad y FEDER (TIN2010-18552-C03-
4
http://clic.ub.edu/corpus/hopinion 02) y por la Xunta de Galicia (CN2012/008,
19
David Vilares, Miguel A. Alonso, Carlos Gómez-Rodríguez