Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LNR Ingles Teoria (1) - 4
LNR Ingles Teoria (1) - 4
Ejemplo
Fecha Entidad
Titular de opinión
A. Nivel de documento
– Clasificar un documento completo como expresión
de un sentimiento positivo o negativo
B. Nivel de oración
– Determina si cada oración expresa una opinión
positiva, negativa o neutral
C. Nivel de aspecto
• El nivel de aspecto realiza un análisis más detallado y
determina el sentimiento hacia diferentes aspectos
Machine Translated by Google
• Suposición:
• Cada documento se enfoca en un solo objeto (no es cierto en la
mayoría de los casos)
Características
b. Características semánticas
C. Características estilísticas
Machine Translated by Google
Aproximaciones no supervisadas
• No se requieren datos de entrenamiento
hermoso, bueno,
excelente, etc.
Léxicos de sentimientos
18
Machine Translated by Google
Sentimiento Léxicos
Ventajas desventajas
• Ventajas:
– Bastante preciso independientemente del medio
– Sin necesidad de corpus de entrenamiento
– Ampliable fácilmente a nuevos dominios con efectos afectivos adicionales
palabras
– Fácil de racionalizar el resultado de la predicción y de explicar
– A menudo se utiliza en la recuperación de opiniones (ver más adelante)
• Desventajas:
– En comparación con los modelos de ML bien entrenados en el dominio, generalmente tienen
un rendimiento inferior
– Sensible a la cobertura del diccionario afectivo (es decir, ¡depende mucho del tema!)
20
Machine Translated by Google
Características
b. Características semánticas
C. Características estilísticas
Machine Translated by Google
Enfoque supervisado
• Paradigma de “aprender con el ejemplo”
• Proporcionar un algoritmo con muchos ejemplos.
• Documentos que han sido manualmente/ semi
anotado automáticamente con una categoría, por ejemplo,
críticas positivas/negativas/neutrales
– El algoritmo extrae patrones característicos para cada categoría y
construye un modelo predictivo
– Aplicar modelo a texto nuevo -> obtener predicción
Enfoque supervisado
23
Machine Translated by Google
Características
b. Características semánticas
C. Características estilísticas
Machine Translated by Google
1. Obtenga documentos anotados manualmente del dominio que le interesa (es decir,
corpus de capacitación).
– por ejemplo, críticas positivas y negativas de productos electrónicos
2. Entrene a cualquier clasificador estándar usando una bolsa de palabras como
características » Clasificadores típicos: máquinas de vectores de soporte (SVM), Naïve Bayes, máxima entropía
» Usar características booleanas no basadas en frecuencia
Características sintácticas
• A. Características sintácticas
– Principios y reglas para la construcción de oraciones en natural
idiomas
Etiquetas y puntuación POS (parte del Patrones de n-gramas de POS Usó un conjunto de características modificadoras (p. ej.,
por ejemplo: una oración que contiene un película_NN.” la presencia de estas características indica la
adjetivo y “!” podría indicar la existencia de patrones como "n+aj" (sustantivo seguido de +ve presencia de evaluación
una opinión adjetivo) - representa un sentimiento positivo “..esta cámara es muy útil”
“¡El libro es genial!”
patrones como "n-aj" (sustantivo seguido de -ve
adjetivo) - expresa negativa
sentimiento
Machine Translated by Google
Características semánticas
• B. Características semánticas
– Aprovechar el significado de las palabras.
– Se puede hacer de forma manual/semi/totalmente automática
Características estilísticas
C. Características estilísticas
– Incorporar estudios estilométricos / de autoría en
clasificación de sentimientos, por ejemplo, Estudie el estilo de autoría
del blog de "Estudiantes vs Profesores"
Incluye:
Ventajas desventajas
• Ventajas:
– Buena precisión predictiva
• Desventajas:
– Necesidad de un corpus de entrenamiento muy específico
Solución: extracción automatizada (p. ej., reseñas
de Amazon , Rotten Tomatoes) o crowdsourcing del
proceso de anotación (p. ej., Mechanical Turk)
– Sensibilidad de dominio
Solución: entrenar muchos modelos específicos de dominio
Machine Translated by Google
Recuperación de opinión
clasifique las páginas de acuerdo con los clasifique las páginas según su relevancia para el
puntajes de relevancia temática y (tal vez) tema y el contenido de la opinión
alguna autoridad
Machine Translated by Google
• Tarea: localizar publicaciones de blog que expresen una opinión sobre un objetivo/
tema determinado
– objetivo: cualquier entidad nombrada, por ejemplo, persona, ubicación, organización, concepto, evento
<arriba>
<num>Número: 930</num>
<título>ikea</título>
reclasificación/filtro
Clasificado
obstinado
relacionado con la opinión Opinión
documentos -basado en diccionario
-clasificación de texto
Análisis
-lingüística
=
Opinión
Recuperación
Machine Translated by Google
• Primera etapa
• Los documentos se clasifican en función de su relevancia temática • Utilice
• Segunda etapa
• Resultados reclasificados o filtrados aplicando una o más heurísticas para detectar
opiniones
• La mayoría de los enfoques utilizan una combinación lineal de puntuación de relevancia y puntuación de opinión para
clasificar los documentos, por ejemplo:
*
( , )QD
* puntuación (1 una puntuación
ÿÿ
) ( , QDÿ ÿuna
de_relevancia ) puntuación _de opinión
( , QD )
*
( , )QD
* puntuación (1 una puntuación
ÿÿ
) ( , QDÿ ÿuna
de_relevancia ) puntuación _de opinión
( , QD )
la idea basica
bonito
discusión
pesada
bonito
discusión
pesado
bonito
discusión
pesado
Seguimiento de opiniones
sin retuits
Eventos:
Día Sentimiento Potencial Razón
40
Machine Translated by Google
Política
Mercado
El pico se produce el 04/08/2011, después de
una serie de muertes en China relacionadas
con la mala calidad de la leche
Machine Translated by Google
• Motivación
Motivación
• Análisis de sentimiento
• Reputación
Reyes A., Rosso P. Sobre la dificultad de detectar automáticamente la ironía: más allá de un simple caso de neg
Sistemas de Información y Conocimiento 40(3):595-614, 2014
Maynard D., Greenwood MA ¿A quién le importan los tuits sarcásticos? Investigando el impacto del sarcasmo en
el análisis de sentimiento. En: Proc. LREC, 2014
Hernández I., Rosso P. Ironía, sarcasmo y análisis de sentimiento. Capítulo 7 En: Análisis de sentimiento en redes
sociales, FA Pozzi, E. Fersini, E. Messina y B. Liu (Eds.), Elsevier Science and Technology, pp. 113-128, 2016.
Machine Translated by Google
Motivación
• Análisis de
sentimiento •
Reputación • Marketing
• Ciberseguridad
• Salud: mecanismo de alivio del estrés…
• ¡Divertida!
Machine Translated by Google
Hernández I., Rosso P. Ironía, sarcasmo y análisis de sentimiento. Capítulo 7 En: Análisis de sentimiento en las redes social
Networks, FA Pozzi, E. Fersini, E. Messina y B. Liu (Eds.), Elsevier Science and Technology, págs. 113-128,
2016.
Machine Translated by Google
Reputación
• Nuevo eslogan de Toyota; seguir adelante (incluso si no quieres);
jajajaja :)
Reyes A., Rosso P., Veale T. Un enfoque multidimensional para detectar la ironía en Twitter. Idioma
Recursos y Evaluación 47(1):239-268, 2013.
Machine Translated by Google
La seguridad cibernética
• ¿Amenaza terrorista?
A dos irlandeses se les negó la entrada a los Estados Unidos después de twittear
La seguridad cibernética
Machine Translated by Google
La seguridad cibernética
• ¿Amenaza terrorista?
A dos irlandeses se les negó la entrada a los Estados Unidos después de twittear
La seguridad cibernética
Machine Translated by Google
La seguridad cibernética
• ¿Amenaza terrorista?
A dos irlandeses se les negó la entrada a los Estados Unidos después de twittear
La seguridad cibernética
• Oficina de Investigación del Ejército (ARO) - subvención 64481-MA / W9111F-13-1-0406
Español - PNL sociolingüísticamente informada: Automatización de la detección de ironía
• ¿Mensaje engañoso? •
¿Mensaje irónico?
En caso de una amenaza potencial: •
variedad lingüística
Machine Translated by Google
Oposición: ÿ
Incongruencia:
ÿ A veces necesito lo que solo tú puedes brindar: tu ausencia [ironía]
Mihalcea R. Strapparava C., Risa computacional: reconocimiento automático de frases ingeniosas humorísticas.
proc. 27 de enero. Conf. Sociedad de Ciencias Cognitivas (CogSci 2005), 2005.
Machine Translated by Google
Gibbs RW, Bryant GA, Colston HL ¿Dónde está el humor en la ironía verbal? Humor 27(4):575-595, 2014
Reyes A., Rosso P., Buscaldi D. Del reconocimiento del humor a la detección de la ironía: el lenguaje figurativo
de las redes sociales. Ingeniería de datos y conocimiento 74:1-12, 2012
Machine Translated by Google
[debilidad humana]
ÿ Conviértete en un programador de computadoras y nunca vuelvas a ver la
palabra [tema / comunidad]
ÿ Mi software nunca tiene errores, solo desarrolla características aleatorias
[tema / comunidad]
ÿ El sexo es una de las nueve razones de la reencarnación, las otras ocho son
sin importancia [idioma]
ÿ No te preocupes por lo que piense la gente. No lo hacen muy a menudo.
[ironía]
ÿ Tengo un cuerpo de dios… por desgracia es Buda [ironía]
Gibbs RW, Bryant GA, Colston HL ¿Dónde está el humor en la ironía verbal? Humor 27(4):575-595, 2014
Reyes A., Rosso P., Buscaldi D. Del reconocimiento del humor a la detección de la ironía: el lenguaje figurativo de
Redes sociales. Ingeniería de datos y conocimiento 74:1-12, 2012
Machine Translated by Google
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba hablando con
mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba habland
a mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
Reyes et al.
• Firmas: Puntuosidad (marcadores tipográficos: puntuación o
emoticonos); Contrafactualidad (marcadores discursivos: adverbios que
implican negación: sin embargo); Compresión temporal: oposición en el tiempo
(adverbios de tiempo: de repente, ahora).
Barbieri y Saggion
• Frecuencia: brecha entre palabras raras y comunes (frecuencia de uso de
palabras: American National Corpus) • Estructura: longitud, puntuación,
emoticones
• Sentimiento: brecha entre palabras positivas y negativas
(SentiWordNet)
• Ambigüedad: ambigüedad de palabras (WordNet)
• Sinónimos: frecuencia de sinónimos comunes frente a raros (WordNet
y ANC)
• Escrito-hablado: uso del estilo escrito-hablado (ANC)
• Intensidad: intensidad de los adjetivos y adverbios de Potts;
escala basada en calificaciones de estrellas en revisiones de servicios
y productos (http://www.stanford.edu/~cgpotts/data/wordnetscales/)
Machine Translated by Google
Características
Polaridad Valencia
Detección de ironía
Reyes A., Rosso P., Veale T. Un enfoque multidimensional para detectar la ironía en Twitter. Idioma
Recursos y Evaluación 47(1):239-268, 2013.
Barbieri F. y Saggion H. Ironía. Modelando ironía en Twitter, Proc. del Taller de Investigación Estudiantil en
la 14ª Conf. del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL), pp. 56-64,
Gotemburgo, Suecia, 2014.
Hernández I., Benedí JM, Rosso P. Aplicación de características básicas del análisis de sentimiento en la ironía automática
Detección. En: Proc. VII Conf. Ibérica. sobre reconocimiento de patrones y análisis de imágenes (ibPRIA), patrones
Reconocimiento y análisis de imágenes, Springer-Verlag, LNCS(9117), págs. 337-344, 2015.
Machine Translated by Google
El modelo EmotIDM
EmotIDM: IDM + información afectiva (78 funcionalidades)
– Características estructurales :
1. Características de sentimiento:
Hernández-Farías I., Patti, V., Rosso P. Detección de ironía en Twitter: el papel del contenido afectivo.
Transacciones de ACM en tecnología de Internet 16(3):1-24, 2016
Machine Translated by Google
Hernández-Farías I., Patti, V., Rosso P. Detección de ironía en Twitter: el papel del contenido afectivo.
Transacciones de ACM en tecnología de Internet 16(3):1-24, 2016
Machine Translated by Google
Características
estructurales
¿Ironía o sarcasmo?
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba habland
a mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba hablando con
mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba hablando con
mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
Ironía vs sarcasmo
Giora R. y Attardo S. Ironía. Encyclopedia of Humor Studies, SAGE, págs. 397–401, 2014.
Hernández-Farías I., Patti, V., Rosso P. Detección de ironía en Twitter: el papel del contenido afectivo.
Transacciones de ACM en tecnología de Internet 16(3):1-24, 2016
Machine Translated by Google
SemEval-2015 en Task11 en
SA de lenguaje figurado
• La tarea se refiere a la clasificación de tweets
que contenga ironía, sarcasmo o metáfora
• Clasificación de polaridad (sentimiento positivo, negativo o neutral): escala
de sentimiento detallada de -5 a +5 • Seguimiento de tweets (1025)
anotados manualmente (por 7 anotadores), capacitación (8000) y prueba
(4000) anotados con CrowdFlower ( por un mínimo de 5 anotadores)
• Sentimiento mezquino más negativo para el sarcasmo, que para la ironía y que para
la metáfora; por ejemplo, en el conjunto de datos de prueba: sarcasmo (-2,02),
ironía (-1,87), metáfora (-0,77), otro (-0,26)
Ghosh A., Li G., Veale T., Rosso P., Shutova E., Barnden J., Reyes A. Semeval-2015 Tarea 11: Análisis de
sentimiento del lenguaje figurado en Twitter. En: Proc. 9º Int. Workshop on Semantic Evaluation (SemEval
2015), Co ubicado con NAACL, Denver, Colorado, 4-5 de junio. Asociación de Lingüística Computacional, págs.
470–478, 2015
Machine Translated by Google
Resultados
Sistema Coseno MSE
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba hablando con
mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
8. Compañeros de cuarto vegetarianos hablando de desconectar si están en coma porque
no quiero ser vegetales.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
2. ¿Cuándo me di cuenta de que era Dios? Bueno, estaba rezando y de repente me di cuenta de que estaba hablando con
mí mismo.
3. Abogado: ¿Bebe cuando está de servicio?; Testigo: No bebo cuando estoy de servicio,
a menos que venga de servicio borracho.
4. @pwr: ¿Quieres que tu computadora vaya muy rápido? - ¡Tíralo por la ventana! :) 5. @delprado: Sin
6. Siguen hablando de diversidad y cada una de las 500 personas aquí es blanca....
7. La chica del pelo alternativo, el novio alternativo y la mochila con 'FUCK THE
SYSTEM' tippexed está bebiendo un Starbucks.
11. Me encanta volver a casa después de unas largas vacaciones y encontrar caca de perro en mi habitación...
Sulis E., Hernández I., Rosso P., Patti V., Ruffo G. Mensajes figurativos y afecto en Twitter: diferencias
entre #ironía, #sarcasmo y #no. Sistemas basados en el conocimiento 108:132–143, 2016
Machine Translated by Google
ganancia de información
Machine Translated by Google
• #sarcasmo : palabras más relacionadas con emociones positivas (p. ej. Plutchik: alegría,
anticipación); también en #no
• #ironía : más creativa y sutil; transmite emociones implícitas ( dimensión de imágenes
del diccionario Whissel) mientras que #sarcasm es más explícito
(Dimensión de dominancia de ANEW)
Machine Translated by Google
Joshi A., Tripathi V., Patel K., Bhattacharyya P. y Carman MJ ¿Son útiles las funciones basadas en incrustación de palabras para
la detección de sarcasmo? En Proc. de la Conf. de 2016. on Empirical Methods in Natural Language Processing, EMNLP 2016,
Austin, Texas, EE. UU., noviembre, págs. 1006–1011, 2016.
Poria S., Cambria E., Hazarika D. y Vij P. Una mirada más profunda a los tweets sarcásticos usando redes neuronales
convolucionales profundas. CoRR, abs/1610.08815, 2016.
Zhang, S., Zhang, X., Chan, J., Rosso, P. Detección de ironía a través del aprendizaje por transferencia basado en sentimientos.
Procesamiento y gestión de la información 56(5): 1633-1644, 2019
Machine Translated by Google
Ironía multimodal
Anotación
CAPACITACIÓN PRUEBA
Transporte 91 184 23 46
Sociedad tecnológica 85 172 22 44
IC-Comercio 74 150 19 38
Economía 57 103 14 26
Ciencias 56 111 14 28
CAPACITACIÓN PRUEBA
CAPACITACIÓN PRUEBA
Líneas base
• LDSE
– CU: LDSE+RF
– SP: LDSE+MVS
– MX: LDSE+BayesNet
• W2V
– CU: FastText-Wiki+LR
• Ngrama de palabras
– CU: 10000 palabras+SVM
• Clase de Mayoría
Machine Translated by Google
Evaluación
• Intra-variantes: entrenamiento y pruebas en el mismo
variante
Participantes
CERPAMID, UO
ATC, UniTO
• Equipos de 7 instituciones SCoMoDi, UniTO
Aspie96, UniTO
de 5 países
• Un total de 14 carreras fueron LaSTUS/TALN, UPF
Resultados intra-variantes
Rango EQUIPO CU ES MX PROMEDIO
Ortega-Bueno R., Rangel F., Hernández-Farías I., Rosso P., Montes-y-Gómez M., Medina E. Overview of the
Tarea de detección de ironía en variantes españolas. En: Actas del Foro de Evaluación de Lenguas Ibéricas
(IberLEF 2019), coubicado con la 34ª Conferencia de la Sociedad Española de Procesamiento del Lenguaje Natural
(SEPLN 2019). Actas del Taller CEUR. CEUR-WS.org, Bilbao, España, 2019
Machine Translated by Google
Resultados intra-variantes
Machine Translated by Google
Participantes
• Marco común para la evaluación de la detección de la ironía en español
modelos
• No se arrojaron pruebas sólidas sobre el impacto del contexto para comprender la ironía.
Machine Translated by Google
Opinión 1 vs….
Me casé en el área de Chicago este pasado fin de semana
y todos mis invitados se hospedaron en el Ambassador
East Hotel. ¡No tenían nada más que cosas buenas que
decir al respecto! La madre de mi esposo es terriblemente
exigente con el lugar donde se hospeda y este hotel
satisfizo sus necesidades. Las habitaciones están muy
bien decoradas y no tienen ese olor extraño a hotel. El
Pump Room era un lugar divertido para que los hombres
pasaran el rato y vieran deportes. Si alguna vez vuelvo a
la zona, me aseguraré de reservar una habitación en el
Ambassador East Hotel.
Machine Translated by Google
…Opinión 2
Lo último
• Ott et al., ACL 2011
SVM (LIWC+uni/bigrams) •
Feng & Hirst, JCNLP 2013 SVM
(características de perfiles de productos)
• Ren et al., EMNLP 2014 SVM
(pesos positivos/negativos para ejemplos de espionaje) •
Banerjee &Chua, IJCSA 2014 Regresión logística
Experimentos
Conjunto de datos de opiniones falsas: 1600 opiniones sobre
los 20 hoteles más populares de Chicago
Experimentos
Experimentos
Experimentos
Experimentos
Experimentos
Hernández D., Montes-y-Gómez M., Rosso P., Guzmán R. Detección de opiniones engañosas positivas y
negativas mediante PU-learning. En: Procesamiento y gestión de la información 51(4):433–443, 2015
Machine Translated by Google
Discusión
C. Wardle, H. Derakhshan. Un año después, todavía no reconocemos la complejidad del desorden de la información en línea.
https://firstdraftnews.org/latest/coe_infodisorder/
Machine Translated by Google
• Estrategias contra la HS
Machine Translated by Google
ÿ El discurso de odio (SH) se define comúnmente como cualquier comunicación que menosprecia
a una persona o un grupo sobre la base de alguna característica como raza, color, etnia,
género, orientación sexual, nacionalidad, religión u otra.
ÿ Expresiones que: (i) inciten a la discriminación o violencia por odio racial, xenofobia,
orientación sexual y otras formas de intolerancia; (ii) fomentar la hostilidad a través de los prejuici
e intolerancia.
JT Nockleby (2000). El discurso del odio. Encyclopedia of the American Constitution (2.ª ed., editada por Leonard W. Levy, Kenneth L. Karst et al., New
4
York: Macmillan), págs. 1277–1279
Machine Translated by Google
Tolerancia vs intransigencia 5
Machine Translated by Google
contenido inflamatorio 6
Machine Translated by Google
Conceptos relacionados
Detección de ciberacoso :
ÿ La forma en línea del acoso tradicional
ÿ Acoso: intención de dañar a un individuo (objetivo) que
no puede defenderse
Detección de radicalización :
ÿ Motiva el extremismo violento
7
Machine Translated by Google
Conceptos relacionados
F. Poletto, V. Basile, M. Sanguinetti, C. Bosco, V. Patti (2021). Recursos y corpus de referencia para la detección del discurso de
odio: una revisión sistemática. Recursos lingüísticos y evaluación, 55: 477–523
Machine Translated by Google
tareas compartidas
https://hatebase.org/
10
Machine Translated by Google
ÿ Métodos supervisados
ÿ Métodos semisupervisados
ÿ Métodos no supervisados
P. Fortuna, S. Nunes (2018). Una encuesta sobre detección automática de discurso de odio en texto.
Encuestas de Informática ACM (CSUR) 51,4
Machine Translated by Google
10%
63%
Mujeres Migrantes
ITALIA 2015-2016
2,6 millones de tuit
10%
7%
LGBT Desactivado
https://www.repubblica.it/tecnologia/social-network/2016/07/13/news/l_odio_corre_su_twitter_nel_mirino_soprattutto_le_donne-143983944/
Machine Translated by Google
@SemEval 2019
V. Basile, C. Bosco, E. Fersini, D. Nozza, V. Patti, F. Rangel., P. Rosso, M. Sanguinetti (2019). SemEval-2019 tarea 5:
Detección multilingüe de discurso de odio contra inmigrantes y mujeres en Twitter. proc. SemEval 2019
patricio martínez barco
Machine Translated by Google
conjunto de datos
Anotación
• Colaboración colectiva
SA Odioso no odioso
Objetivo individual
TR Objetivo genérico
AG Agresivo
no agresivo
SA Odioso no odioso
Objetivo individual
TR
Objetivo genérico
Agresivo
AG
no agresivo
SA Odioso no odioso
Objetivo genérico
TR Objetivo individual
Agresivo
AG no agresivo
SA Odioso no odioso
Objetivo genérico
TR Objetivo individual
no agresivo
AG Agresivo
Evaluación
• Subtarea A
– Exactitud, Precisión, Recuperación, Macro-F1
• Subtarea B
– Macro-F1
• Líneas base
– Clase más frecuente (MFC)
– SVM basado en una representación TF-IDF
18
Machine Translated by Google
Técnicas
• Enfoques
– Aprendizaje profundo (más de la mitad): RNN en particular
• Características
• Preprocesamiento
– Mayormente estándar
19
Machine Translated by Google
Resultados
74 equipos
Enfoques:
• Tarea B. EN: línea de base de MFC; SVM (mejor); LR, LSTM; ES: LR (mejor); MVS
20
Machine Translated by Google
M. Zampieri, S. Malmasi, P. Nakov, S. Rosenthal, N. Farra, R. Kumar (2019). Semeval-2019 tarea 6: Identificar y categorizar lenguaje
ofensivo en redes sociales (OffensEval). proc. SemEval 2019 M. Zampieri, P. Nakov, S. Rosenthal, P. Atanasova, G. Karadzhov, H. Mubarak,
C. Çöltekin (2020). SemEval-2020 tarea 12: Identificación multilingüe de lenguaje ofensivo en redes sociales (OffensEval 2020). proc.
SemEval 2020 21
Machine Translated by Google
BERT
22
Machine Translated by Google
mejor sistema
Modelo: Modelado de lenguaje enmascarado RoBERTa-gran conjunto Resultados (validación cruzada de 10 veces):
ÿ BERT_base ÿ
BERT_large ÿ
RoBERTa-base
ÿ Roberta-grande
ÿ XLM-RoBERTa
ÿ ALBERT_large-v1
ÿ ALBERT_large-v2
ÿ ALBERT_xxlarge-v1
ÿ ALBERT_xxlarge-v2
G. Wiedemann, SM Yimam, C. Biemann (2020). UHH-LT y LT2 en la tarea 12 de SemEval-2020: ajuste fino de redes de transformadores preentrenadas
23
para la detección de lenguaje ofensivo. preimpresión de arXiv arXiv:2004.11493
Machine Translated by Google
Nuestra propuesta
Vector de características (F_vector)
ÿ Características
básicas: - longitud de los
tweets - número de palabras mal
escritas - uso de signos de puntuación
ÿ Características
semánticas: - uso de
emoticonos - uso de frases nominales
G. De La Peña, P. Rosso (2020). PRHLT-UPV en SemEval-2020 tarea 12: BERT para detección de lenguaje ofensivo multilingüe. proc. 24 de septiembre de 2020
Machine Translated by Google
• Estrategias contra la HS