Está en la página 1de 132

Machine Translated by Google

Segmentación de imagen

• Problema: las técnicas globales por sí solas producen poca precisión


– El color y la textura caracterizan los objetos, no las imágenes

• Soluciones diferentes:
1. Segmentar en discontinuidades de color y textura 2.
Representar el tamaño , la forma y la orientación de los
objetos 3. Representar las posiciones relativas de los objetos

por ejemplo , ángulos entre líneas que unen los centros
4. Realice coincidencias invariantes de rotación y escala

14
Machine Translated by Google

Segmentación de Blobworld

15
Machine Translated by Google

Recuperación de Blobworld

dieciséis
Machine Translated by Google

3. Enfoque basado en conceptos

• ¡El sistema es capaz de capturar las características conceptuales


de una imagen!
– Ejemplo:
https://ivi.fnwi.uva.nl/isis/mediamill/demo/index.php
• ¿Es esto simplemente una aplicación de aprendizaje automático para la
recuperación de imágenes?

- ¡Realmente no!

17
Machine Translated by Google

Enfoque basado en conceptos

• Se requiere conocimiento del dominio de la aplicación


– Por ejemplo, la indexación de imágenes médicas requiere conocimientos de
medicamento

• El sistema asigna conceptos (= términos de índice) a parte de la


imagen:
– Asignación automática de conceptos: muy imprecisa y
proceso ambiguo
– Asignación manual de conceptos: proceso muy subjetivo

• Muy pocos sistemas experimentales hasta el momento, pero el


sistema semiautomático parece ser el mejor

18
Machine Translated by Google

Indexación y recuperación de videos

• La recuperación de videos es una actividad muy compleja

• Mencionaremos únicamente:

1. Segmentación de videos

2. Navegación no secuencial

3. Indexación basada en contenido

• Pero la indexación y recuperación de videos es mucho más

19
Machine Translated by Google

1. Segmentación de videos

Perspectiva del usuario

persona semántica

personal técnico

persona física

Escena es una colección de tomas relacionadas semánticamente (es el


objetivo de la mayoría de las búsquedas de videos)
La toma es una secuencia de cuadros grabados en una
operación de cámara (es la unidad para manejar datos de video)
20
Machine Translated by Google

Detección de límite de disparo

¿Como funciona?

21
Machine Translated by Google

Detección de límite de disparo


• SBD es una tarea muy compleja:
– Difícil de determinar los muchos parámetros de entrada

– La precisión varía del 20% al 80%

– La computación es costosa
– Ejemplo (utilizando la distribución de colores):

22
Machine Translated by Google

SBD a través de la similitud de cuadros

Aquí hay un ejemplo de una técnica que se puede usar para SBD:

23
Machine Translated by Google

2. Navegación no secuencial
• Examinar tomas secuencialmente lleva mucho tiempo
– ¡ Ver un video de 1 hora toma 1 hora!
– La navegación lleva menos de 1 hora, … ¡pero no mucho menos!
– ¿Qué pasa si tengo 10k horas de video?

• Soluciones:
– Estructurar el video en términos de tomas y escenas para
navegar de forma no secuencial
– Una jerarquía de escenas permite navegar y recuperar
información de video en varios niveles semánticos

24
Machine Translated by Google

Estructuración de videos
• Procedimiento:

1. Segmentar vídeo
2. Agrupa tomas en escenas 3.
Genera una jerarquía de escenas según el contenido

Los usuarios pueden buscar y recuperar videos de forma no


secuencial en varios niveles semánticos

• Tamaño y forma de un árbol de escena determinado por


complejidad del video
25
Machine Translated by Google

Árbol de escenas y fotogramas clave

• Generada automáticamente
– Árbol de escenas y fotogramas clave:

26
Machine Translated by Google

Otro ejemplo

27
Machine Translated by Google

3. Indexación basada en contenido

Uso combinado de diferentes detectores:

28
Machine Translated by Google

Combinación de características visuales


Similar a la indexación de imágenes (pero no tan fácil)

Distribución de color similar Coincidencia de histograma

Análisis de textura
Patrón de textura similar

Segmentación de imagen,
Forma/patrón similar
Reconocimiento de patrones

Contenido real similar objetivo de por vida

29
Machine Translated by Google

Indexación por colores


Imágenes que contienen los mismos colores.

30
Machine Translated by Google

Indexación por formas

Imágenes que contienen las mismas formas.

31
Machine Translated by Google

Indexación por... Contenido

¡Imágenes que contienen el mismo contenido, pero


con formas y colores totalmente diferentes!

32
Machine Translated by Google

Indexación basada en contenido

• En la mayoría de los casos, ninguna de las técnicas anteriores por sí sola


obras
• La mejor solución es combinarlos, haciendo coincidir el
dominio y las características de las imágenes, por ejemplo:

33
Machine Translated by Google

Combinación de diferentes detectores


Muy importante determinar el tipo de video combinando la
salida de diferentes detectores de video:

Cortes de escena

piedra amarilla

Cámara Estático Estático Zoom

Objetos Hembra adulta Animal Dos adultos

Acción Movimiento de la cabeza Movimiento Izquierdo Ninguna

subtítulos [Ninguna] piedra amarilla [Ninguna]

Escenario Interior Exterior Interior

34
Machine Translated by Google

8. Incrustaciones de palabras

Daniel Jurafsky, James H. Martin. Procesamiento del habla y el lenguaje. Una introducción al procesamiento del lenguaje natural,
la lingüística computacional y el reconocimiento del habla. 2020
Machine Translated by Google

Modelos vectoriales de significado

• ¿Por qué incrustaciones de palabras?

– Son vectores cortos (longitud 50-1000): más fáciles de usar como


características en el aprendizaje automático (menos pesos para ajustar)

– Los vectores densos (la mayoría de los elementos no son cero)


pueden generalizarse mejor que almacenar recuentos explícitos

– Pueden hacerlo mejor en la captura de la sinonimia:


• coche y automóvil son sinónimos; pero son dimensiones distintas: una
palabra con automóvil como vecino y una palabra con automóvil
como vecino deberían ser similares, pero no lo son
– En la práctica, funcionan mejor
Machine Translated by Google

incrustaciones de palabras

• Word2vec (Mikolov y
otros) https://code.google.com/archive/p/
word2vec/ • Fasttext http://www.fasttext.cc/ •
Guante (Pennington, Socher, Manning) http://
nlp.stanford.edu/projects/glove/
Machine Translated by Google

Word2vec

• Popular método de incrustación •


Muy rápido de entrenar
• Código disponible en la web

• Idea: predecir en lugar de contar


Machine Translated by Google

Word2vec

– En lugar de contar con qué frecuencia cada palabra w


ocurre cerca del albaricoque

– Entrenar un clasificador (red neuronal) en un binario

tarea de predicción :

• ¿Es probable que w aparezca cerca del albaricoque?

– En realidad no nos importa esta tarea.

• Pero tomaremos los pesos del clasificador aprendido como las


incrustaciones de palabras
Machine Translated by Google

Word2vec

– Modelo skip-gram: el modelo usa la palabra actual


para predecir la ventana circundante de palabras
de contexto

– Bolsa de palabras continua (CBOW): el modelo


predice la palabra actual a partir de una ventana
de palabras de contexto circundantes
Machine Translated by Google

Word2Vec: Modelo Skip-Gram

• Word2vec proporciona una variedad de opciones, por ejemplo

– "saltar gramo con muestreo negativo" (SGNS)


Machine Translated by Google

Algoritmo de salto de gramo

1. Trate la palabra objetivo y una palabra de contexto


vecina como ejemplos positivos

2. Muestra aleatoriamente otras palabras en el léxico


para obtener muestras negativas

3. Use la regresión logística para entrenar a un clasificador


para distinguir esos dos casos

4. Usa los pesos como incrustaciones .


Machine Translated by Google

Datos de entrenamiento Skip-Gram

• Oración de entrenamiento:

... limón, una cucharada de mermelada de albaricoque una pizca ...
• c1 c2 objetivo c3 c4

Suponga que las palabras de contexto son aquellas en la ventana de +/- 2 palabras
Machine Translated by Google

Objetivo de salto de gramo

• Dada una tupla (t,c) = destino, contexto


– (albaricoque,

mermelada) – (albaricoque,

oso hormiguero) • Probabilidad de retorno de que c sea una palabra de context

• P(+|t,c)
• P(ÿ|t,c) = 1ÿP(+|t,c)
Machine Translated by Google

Calcular p(+|t,c)
• Intuición:

– Es probable que las palabras aparezcan cerca de palabras similares

– Similitud del modelo con producto escalar


– Semejanza(t,c) ÿ tÿ c •

Problema:

–El producto escalar no es una probabilidad


• Tampoco lo es el coseno
Machine Translated by Google

Convirtiendo el producto punto en una probabilidad

• El sigmoide se encuentra entre 0 y 1:


Machine Translated by Google

Convirtiendo el producto punto en una probabilidad

• La probabilidad se obtiene aplicando la función


sigmoidea al producto escalar de las incrustacion
de la palabra objetivo y cada palabra de contexto
Machine Translated by Google

Para todas las palabras de contexto

• Hay muchas palabras de contexto en la ventana


• Suponga que todas las palabras de contexto son independientes

• Skip-gram entrena un clasificador probabilístico que, dada


una palabra objetivo de prueba t y su ventana de contexto de k
palabras c, asigna una probabilidad basada en cuán similar es esta
ventana de contexto a la palabra objetivo
Machine Translated by Google

Incorporaciones aprendidas por Skip-gram

• Se almacenan dos incrustaciones para cada palabra: la incrustación de


destino y la incrustación de contexto
• El parámetro ÿ es una matriz de 2|V| vectores, formados por
concatenando las dos matrices
Machine Translated by Google

Datos de entrenamiento Skip-Gram

• Oración de entrenamiento:

... limón, una cucharada de mermelada de albaricoque una pizca ...
• c1 c2 t c3 c4

• Datos de entrenamiento: pares de entrada/salida centrados en

albaricoque

• Suponga una ventana de +/- 2 palabras


Machine Translated by Google

Entrenamiento Skip-Gram

• Oración de entrenamiento:

... limón, una cucharada de mermelada de albaricoque una pizca
...

• c1 c2 t c3 c4

•Para cada ejemplo positivo,


crearemos k ejemplos negativos

•Usando palabras ruidosas


•Cualquier palabra al azar que no sea
Machine Translated by Google

Entrenamiento Skip-Gram

• Oración de entrenamiento:

... limón, una cucharada de mermelada de albaricoque una pizca
...

• c1 c2 t c3 c4
k=2
Machine Translated by Google

Elegir palabras ruidosas

• Podría escoger w de acuerdo a la frecuencia de su unigrama P(w) •


Más común que se elija luego de acuerdo a pÿ (w)

• ÿ= ¾ funciona bien porque le da a las palabras irrelevantes una


probabilidad ligeramente mayor
• Para mostrar esto, imagina dos eventos p(a)=.99 y p(b) = .01:
Machine Translated by Google

Configuración

• Representemos las palabras como vectores de cierta longitud (digamos 300


inicializado al azar
• Así que empezamos con 300 * V parámetros aleatorios

• En todo el conjunto de entrenamiento, nos gustaría ajustar esa palabra


vectores tales que nosotros:

– Maximizar la similitud de la palabra objetivo, pares de


palabras de contexto (t,c) extraídas de los datos positivos
– Minimizar la similitud de los pares (t,c) extraídos de
los datos negativos
Machine Translated by Google

Aprendiendo el Clasificador

• Proceso iterativo •

Comenzaremos con 0 o ponderaciones aleatorias •

Luego ajustaremos las ponderaciones de las palabras para

–hacer que los pares positivos sean más

probables – y los pares negativos menos

probables • durante todo el conjunto de entrenamiento


Machine Translated by Google

Criterios objetivos

• Queremos maximizar…

• Maximice la etiqueta + para los pares de datos de


entrenamiento positivos y la etiqueta – para la muestra
de pares de datos negativos.
Machine Translated by Google

Centrándose en una palabra objetivo t

• Función de pérdida:

• Para ser minimizado usando descenso de gradiente estocástico


Machine Translated by Google

Intuición de un paso de descenso de gradiente


Machine Translated by Google

Entrena usando Gradient Descent

• Algoritmo de optimización iterativo para encontrar el


mínimo local de una función
• En realidad aprende dos matrices de
incrustación separadas W y C
• Puede usar W y descartar C, o fusionarlos de alguna
manera
Machine Translated by Google

Cómo aprender incrustaciones de word2vec

• Comience con V vectores aleatorios de 300 dimensiones como

incrustaciones iniciales

• Usar la regresión logística, la segunda más básica


clasificador utilizado en el aprendizaje automático después de naïve bayes
– Tome un corpus y tome pares de palabras que co-ocurren como
ejemplos positivos
– Tomar pares de palabras que no coexisten como
ejemplos negativos
– Entrene al clasificador para distinguirlos ajustando lentamente
todas las incrustaciones para mejorar el rendimiento del clasificador
– Tirar el código clasificador y conservar las incrustaciones
Machine Translated by Google

Incorporaciones Captura Relacional


Significado (analogía)

vector('rey') - vector('hombre') + vector('mujer') ÿ


vector('reina') vector('París') - vector('Francia') +
vector('Italia') ÿ vector( 'Roma')

27
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

Incrustaciones diacrónicas de palabras para


Estudiar cambio de idioma

Vectores de palabras 1990


Vectores de palabras para 1920
vector de palabra "perro" 1990

vector de palabra "perro" 1920

contra

mil novecientos 1950 2000

William L. Hamilton, Jure Leskovec y Dan Jurafsky. Las incrustaciones diacrónicas de palabras revelan las leyes estadísticas
del cambio semántico. Procedimientos de ACL. 2016
Machine Translated by Google

Visualización de cambios

Proyecte 300 dimensiones en 2

~30 millones de libros, 1850-1990, datos de Google Books


Machine Translated by Google

La evolución de las palabras de sentimiento

Las palabras negativas cambian más rápido que las palabras positivas.

32
Machine Translated by Google

Las incorporaciones reflejan el sesgo cultural

• Pregunte “París: Francia :: Tokio: x”

– x = Japón
• Preguntar “padre: médico :: madre: x”
– x = enfermera

• Pregunte “hombre : programador informático :: mujer : x”


– x = ama de casa

Bolukbasi, Tolga, Kai-Wei Chang, James Y. Zou, Venkatesh Saligrama y Adam T. Kalai. ¿El hombre es al programador de
computadoras lo que la mujer es al ama de casa? eliminación de incrustaciones de palabras. En Avances en sistemas de
procesamiento de información neuronal, págs. 4349-4357, 2016
Machine Translated by Google

Las incorporaciones reflejan el sesgo cultural


• Qué tan asociados están:
– ¿ conceptos (flores, insectos) y atributos (agrado, desagrado)?

– Estudiado mediante la medición de latencias de tiempo para la categorización


• Hallazgos psicológicos en participantes estadounidenses:
– Los nombres afroamericanos están asociados con palabras desagradables (más que
los nombres europeo-americanos)
– Nombres masculinos asociados más con las matemáticas, nombres femeninos con las artes .
– Nombres de personas mayores con palabras desagradables , nombres de personas jóvenes
con palabras agradables
• Caliskan et al. (2017) replicación con incrustaciones:
– Los nombres afroamericanos (Leroy, Shaniqua) tenían un coseno GloVe más alto con
palabras desagradables (abuso, hedor, feo)
– Los nombres americanos europeos (Brad, Greg, Courtney) tenían un coseno más alto
con palabras agradables (amor, paz, milagro)
• Las incorporaciones reflejan y replican todo tipo de sesgos (p. ej., estereotipos)
Caliskan, Aylin, Joanna J. Bruson y Arvind Narayanan. La semántica derivada automáticamente de los corpus
lingüísticos contiene sesgos similares a los humanos. Ciencia 356:6334, 183-186, 2017
Machine Translated by Google

Direcciones

• Algoritmos de eliminación de sesgo para incrustaciones

• Usar incrustaciones como una herramienta histórica para estudiar el sesgo

Bolukbasi, Tolga, Kai-Wei Chang, James Y. Zou, Venkatesh Saligrama y Adam T. Kalai. ¿El hombre es al programador de
computadoras lo que la mujer es al ama de casa? eliminación de incrustaciones de palabras. En Avances en sistemas de
procesamiento de información neuronal, págs. 4349-4357, 2016
Machine Translated by Google

Incrustaciones como una ventana a la historia

• Utilice las incrustaciones históricas


• La similitud del coseno de las incrustaciones por décad
X para ocupaciones (como profesor) a hombre vs mujer
nombres
– Está correlacionado con el porcentaje real de mujeres
docentes en la década X

Garg, Nikhil, Schiebinger, Londa, Jurafsky, Dan y Zou, James. Las incrustaciones de palabras cuantifican 100
años de estereotipos étnicos y de género. Actas de la Academia Nacional de Ciencias, 115(16), E3635–
E3644, 2018
Machine Translated by Google

Historia de los encuadres sesgados de las mujeres

• Las incrustaciones de adjetivos de competencia están


sesgadas hacia los hombres

– Listo, sabio, brillante, inteligente, ingenioso,


reflexivo, lógico, etc.
• Este sesgo está disminuyendo lentamente

Garg, Nikhil, Schiebinger, Londa, Jurafsky, Dan y Zou, James. Las incrustaciones de palabras cuantifican 100
años de estereotipos étnicos y de género. Actas de la Academia Nacional de Ciencias, 115(16), E3635–
E3644, 2018
Machine Translated by Google

Las incrustaciones reflejan étnicos


Estereotipos a lo largo del tiempo

• Experimentos de la trilogía de Princeton

• Actitudes hacia los grupos étnicos (1933, 1951, 1969) puntajes


para adjetivos

• trabajador, supersticioso, nacionalista, etc.


• El coseno de las incrustaciones de nombres chinos con esas
incrustaciones de adjetivos se correlaciona con las calificaciones
humanas

Garg, Nikhil, Schiebinger, Londa, Jurafsky, Dan y Zou, James. Las incrustaciones de palabras cuantifican 100
años de estereotipos étnicos y de género. Actas de la Academia Nacional de Ciencias, 115(16), E3635–
E3644, 2018
Machine Translated by Google

Cambio en el marco lingüístico

Cambio en la asociación de nombres chinos con


adjetivos enmarcados como "otredad" (bárbaro,
monstruoso, extraño): marco lingüístico 1910-1990
Machine Translated by Google

Cambios en el encuadre:
Adjetivos asociados con el chino

Garg, Nikhil, Schiebinger, Londa, Jurafsky, Dan y Zou, James. Las incrustaciones de palabras cuantifican 100
años de estereotipos étnicos y de género. Actas de la Academia Nacional de Ciencias, 115(16), E3635–
E3644, 2018
Machine Translated by Google

Conclusión
• Conceptos o sentidos de las palabras

– Tener una asociación compleja de muchos a muchos con palabras


(homonimia, múltiples sentidos)
– Tener relaciones entre sí.
• Sinonimia, Antonimia, Superordinado
– Pero son difíciles de definir formalmente (condiciones necesarias y suficientes)
• Embeddings = modelos vectoriales de significado
– Más detallado que solo una cadena o un índice
– Especialmente bueno para modelar similitudes/analogías
• ¡Solo descárgalos y usa cosenos!

– Modelos dispersos (tf-idf) frente a modelos densos (word2vec, GLoVE)


– Útiles en la práctica pero saben que codifican estereotipos culturales
Machine Translated by Google

PNL PARA
ESTUDIAR LOS
ESTEREOTIPOS
El caso de los inmigrantes

berta chulvi
paolo rosso
Javier Sánchez-Junquera
PHRLT-UPV
Machine Translated by Google

NUEVAS
POSIBILIDADES ES
EL ESTUDIO DE LOS
ESTEREOTIPOS

• Tenemos más datos


procendentes del lenguaje
natural.
• La lingüística computacional
ofrece nuevas técnicas para
estudiar más en profundidad
fenómenos sociales clave como
el uso de los estereotipos
Machine Translated by Google

EL PREJUICIO COMO FENÓMENO


Es un juicio CATEGÖRICO, respecto a todo un grupo

Componente cognitivo: ESTEREOTIPO


Creencias sobre un grupo o categoría social
(idea)

Componente afectivo: PREJUICIO


Evaluación de un grupo o categoría social
(actitud)

Componente conductual: DISCRIMINACIÓN


Trato que se da a un grupo social
(conducta)
Machine Translated by Google

ESTEREOTIPO
EL ORIGEN DEL CONCEPTO
• El término estereotipo en las ciencias sociales
fue utilizado por primera vez por Walter Lippman
en 1922 en su libro “Public Opinion”. • Es un
conjunto de creencias compartidas sobre un
objeto social
• Una imagen “fija” contra la que es difícil luchar. •
Tiene la connotación de cosa repetitiva, rígida, un
molde que se aplica de manera casi mecánica a
los componentes de un grupo: un cliché
Machine Translated by Google
Machine Translated by Google

ESTEREOTIPO
EL ORIGEN DEL CONCEPTO
COMPOSICIÓN DE TIPOS ESTEREOTIPO O
MÓVILES PLANCHA FIJA
Machine Translated by Google

ESTEREOTIPO COMO SESGO

• El estereotipo es un tipo de sesgo social que se produce cuando un mensaje sobre


un grupo ignora la gran diversidad existente entre los miembros de este grupo y
destaca un pequeño conjunto de rasgos (Tajfel, 1964). • Este proceso de
homogeneización de todo un grupo de personas es el
núcleo del concepto de estereotipo.
• Lippman (1922) dijo que este proceso cognitivo que ignora la
deseable del mundo real se produce porque ``no vemos primero y luego
definimos; definimos primero y luego vemos''.

Cómo se produce ese proceso de definición es lo relevante si


queremos combatir el sesgo
Machine Translated by Google

ESTEREOTIPO
REPENSAR EL CONCEPTO

• Walter Lippmann escribió su obra "Opinión pública" en


una época en la que el único mecanismo para llegar a
un gran número de individuos eran los periódicos.
Luego vendría la radio, la TV y más tarde internet y las
redes sociales….

• “El medio es el mensaje”. McLuhan , METRO.

(1964) Comprender los medios: las extensiones


de
hombre. ÿEl medio afecta a la sociedad no solo por el
contenido que transmite, sino también por las
características del medio en sí.
¿Qué ha
cambiado?
Machine Translated by Google

ESTUDIO EMPÍRICO DE LOS ESTEREOTIPOS


PROPONEMOS UN NUEVO ENFOQUE

atributos Marcos

¿en qué contextos


¿Cómo narrativos
se describe el grupo? es mencionado el
grupo?
Machine Translated by Google

EL CONCEPTO DE
"CUADRO"
La forma en que un tema
está “enmarcado” afecta a
la comprensión del mismo.

Tversky, A.; Kahneman, D.


El encuadre de las decisiones
y la psicología de
elección. Ciencia1981,211
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

OPINIÓN PÚBLICA: POLÍTICOS+MEDIOS DE COMUNICACIÓN


Porcentaje de la población española que considera que la inmigración es uno de los tres
problemas más graves en España (CIS)

45

38,71
40

35
30,78
30
26,35
25,37
25

20 17,63
15,14 15,75 15,74
13,4 14,25
15
10,5
10 7,03 6,95
5,54
3,32 3,64 3,25 3,71
5 2,55

0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Machine Translated by Google

LOS DATOS
• El total de población inmigrada (nacida fuera de España) con 16 o más
años era de 4,5 millones de personas a comienzos de 2007.
• El 40% procedimiento de América Latina y el 33% de otros países de la Unión
Europea, de 27 miembros.
• Las poblaciones procedentes de África suponían el 17% del total. Muy atrás, con
menos del 5%, los contingentes originarios de la Europa no comunitaria y de Asia,
en tanto que los oriundos de América del Norte aportan menos del 1% del total.

Encuesta Nacional de Inmigrantes 2007


Machine Translated by Google
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

7,8%
como
Mucho….
Machine Translated by Google
Machine Translated by Google

¿CÓMO SE VE AL INMIGRANTE?
DIMENSIONES DE UNA TAXONOMIA

AMENAZA AMENAZA
VÍCTIMAS VÍCTIMAS RECURSO
PARA EL
MENOS
XENOFOBIA POBREZA PARA EL
ECONÓMICO HUMANOS
GRUPO INDIVIDUO
Machine Translated by Google

ETIQUETA 1. SE LES VE COMO


IGUALES PERO VÍCTIMAS XENOFOBIA
1.1. Con los mismos derechos y con las mismas obligaciones. Se les nombra como “ciudadanos”,
“nueva ciudadanía”, etc.
1.2. Se les presenta haciendo un símil con los españoles que emigraron
1.3. Se plantea que el problema son las actitudes racistas o xenófobas de la gente.
1.4. Se afirma que usa la inmigración como arma electoralista o partidista y que eso no está bien.
Se acusa a algún partido de ser racista yo xenófobo. Se apela a que la política de inmigración ha
sido fruto del consenso de todos los partidos.
1.5. Se plantea que la inmigración no es un problema para la convivencia. Que la población no está
preocupada por la presencia de inmigrantes y que lo que quiere es que se resuelva la situación de
emergencia, de pobreza, etc.
1.6. La inmigración aporta diversidad cultural, pluralismo, etc…y eso es positivo para el país.
Machine Translated by Google

ETIQUETA 2. SE LES VE COMO


VÍCTIMAS DEL SUFRIMIENTO
2.1 Víctimas del sufrimiento y la pobreza. Se plantea que la pobreza y el sufrimiento en sus
países de origen es la causa de la inmigración. Tambien se habla del sufrimiento una vez
estan aqui .
2.2 Víctimas de la injusticia y discriminación. Víctimas de la explotación laboral y de las
mafias. Se denuncia que no se respetan los derechos humanos en el trato a los
inmigrantes.
2.3 Se exige o se manifiesta solidaridad frente a los problemas de los inmigrantes
2.4 Se plantea que mueren intentando llegar, se habla de los rescates en el mar de
personas y de cadáveres.
Machine Translated by Google

ETIQUETA 3. SE LES VE COMO


RECURSO ECONÓMICO
3.1 Hacen los trabajos que los españoles no quieren hacer. Sostienen la economía
sumergida. Se les ve como trabajadores en una situación de desprotección, con dificultades
especiales.

3.2 Traen prosperidad económica: Pagan impuestos, envían remesas al exterior, etc.
3.3 Solucionar el problema de falta de población
3.4 Se habla de los contingentes de trabajadores inmigrantes. Se dice que son necesarios o
se opina sobre ellos
3.5 Se plantea que hay que regular la entrada de inmigrantes en función de las
necesidades del mercado laboral.
Machine Translated by Google

ETIQUETA 4. SE LES VE COMO


UNA AMENAZA
para el grupo
4.1 Vienen en masa y generan una situación de caos. Se habla de “avalancha”, “descontrol”, de cifras de llegada a las
costas, etc.
4.2 El problema es que son ilegales. Se refiere a ellos como “ilegales” o “irregulares” bien usando la categoría
“inmigrantes”, bien usando la categoría “inmigración”. Se habla de repatriaciones, devoluciones, expulsiones
4.6 Se plantea que la inmigración es un problema para la sociedad de acogida, que provoca desequilibrios en la
convivencia del grupo.

Para el individuo
4.3 Se plantea que los inmigrantes compiten con la población del país por los recursos como el trabajo, los servicios
sanitarios, la educación. Se plantea la inmigración como un problema en lo que respeta al uso de esos recursos.
4.4 Se señala que los inmigrantes traen enfermedades, o se hace referencia a ellos como portadores de nuevas
enfermedades.

4.5 Se asocia inmigración con delincuencia


Machine Translated by Google

¿CÓMO OPERAN LOS MARCOS?

1.3. Se plantea que el problema son las actitudes racistas o


xenófobas de la gente.
“Estos encuadres no describen al
2.1 Víctimas del sufrimiento y pobreza en sus países de origen.
grupo sino que transmiten una
Tambien se habla del sufrimiento una vez estan aqui.
imagen homogénea del grupo
3.1 Hacen los trabajos que los españoles no quieren hacer.
Sostienen la economía sumergida.
ubicándolo en un escenario
particular”. Junquera et al. (2021) en prensa
4.1 Vienen en masa y generan una situación de caos.
4.5 Se asocia inmigración con delincuencia
Machine Translated by Google

¿QUÉ HEMOS
HECHO?
• Sánchez-Junquera, J.; Chulvi, B.; Rosso, P.;
Ponzetto, SP ¿Cómo hablas de
inmigrantes? Taxonomía
andStereoImmigrants Conjunto de datos para identificar
Estereotipos sobre los inmigrantes. Aplicado
Ciencias.2021,1, (en prensa)

• 3635 frases extraídas de ParlSpeech V2


• 1673 dentro de la taxonomía
• 1962 que hablan de inmigración pero no
presentan una imagen del colectivo

¿Cómo ha sido
el proceso de anotación?
Machine Translated by Google

ANOTACION EN DOS PASOS

• PASO 1. Una anotación experta identifica las dimensiones de la taxonomía y los


ejemplos negativos (se habla de inmigración pero no se refiere al estereotipo)

• PASO 2. Cinco anotadores no expertos leían la etiqueta indicada por el


experto a cada frase:
• 2.1 decidieron si estaban de acuerdo con ella o aceptaron que otra etiqueta de la
taxonomía era más adecuada para esta frase.
• 2.2 decían si la frase en cuestión expresaba una actitud positiva, negativa o
neutral hacia los inmigrantes.

• Sólo conservamos las frases en las que al menos tres validadores


coincidieron en la misma categoría.
Machine Translated by Google

Pearsonÿ2=3828.24,df=8,p<.000
Machine Translated by Google

ESTEREOTIPO INMIGRANTE

ACTITUDES SUPRA-CATEGORÍAS CATEGORÍAS-MARCOS

Víctimas de la xenofobia (I)


VÍCTIMAS
POSITIVO
Víctimas que sufren (II)

AMBIVALENTE RECURSOS Recurso Económico (III)

Amenaza Colectiva (IV)

NEGATIVO AMENAZA Amenaza personal (V)

Deshumanización (III)
Machine Translated by Google

¿HAY DIFERENCIAS
ENTRE PARTIDOS
POLÍTICOS?
PNL y posiciones sociales en el estudio
de los estereotipos sobre los
inmigrantes
Machine Translated by Google

ALGUNAS PREGUNTAS
1. ¿Existe una correspondencia entre las posiciones ideológicas y el uso
de los estereotipos sobre los inmigrantes?

2. ¿Esa correspondencia cambia dependiendo de si están en el


gobierno o no?

3. ¿Utilizan los políticos el lenguaje de forma diferente cuando emplean


los estereotipos sobre los inmigrantes?

4. ¿Utilizan el lenguaje de forma diferente cuando están en el gobierno o en


la oposición?
Machine Translated by Google

CONSTRUIMOS UN NUEVO
CONJUNTO DE DATOS

• Recuperamos los discursos de los que se han extraído las frases y creamos
otro conjunto de datos IMMSPEECH, un conjunto de datos con 475 discursos
que contienen 487.697 palabras pronunciadas por 143 políticos (63% hombres)
en el Parlamento español.
• Disponemos de los metadatos de cada discurso (nombre del orador, partido
del orador, fecha del discurso y sexo)
• Construimos una serie de índices para caracterizar el lenguaje de esos
discursos con dos estrategias:
• (1) utilizamos la anotación previa de Stereoimmigrant
• (2) aplicamos herramientas de anotación automática (LWIC y SpaCi) para
analizar los estilos lingüísticos.
Machine Translated by Google

CONSTRUIMOS UNA SERIE DE ÍNDICES I


En base a las herramientas de PNL

• Un diccionario que clasifica


las palabras en categorías
psicolingüísticas.
• La mayoría de las variables
de salida del LIWC son
porcentajes del total de
palabras de un texto. • Por
ejemplo, si el número de
Emociones Positivas
(emo_pos) es 4,20, significa
que el 4,20 por ciento de
todas las palabras del texto
eran palabras de emociones https://www.liwc.app/
positivas.
Machine Translated by Google
Machine Translated by Google

CONSTRUIMOS UNA SERIE DE ÍNDICES II


En base a las herramientas de PNL

• Aplicamos también la
herramienta de
Etiquetado POS SpaCy
• Para reconocer las
categorías
gramaticales de
cada discurso
porque LWIC no nos
identificaba algunas
categorías
gramaticales como
por ejemplo, los
nombres
https://spacy.io/
Machine Translated by Google

CONSTRUIMOS UNA SERIE DE ÍNDICES III


En base a las herramientas de PNL

1. Índice de pensamiento analítico

2. Índice de pensamiento categórico vs narrativo

3. Índice endogrupo vs exogrupo

4. Índice emociones positivas vs emociones negativas

5. Índice lenguaje emocional


Machine Translated by Google

¿QUÉ QUEREMOS SABER?

1. ¿Existe una correspondencia entre las posiciones


ideológicas y el uso de los estereotipos sobre
los inmigrantes?

2. ¿Esa correspondencia cambia dependiendo de si los


partidos están en el gobierno o no?
Machine Translated by Google

CONTROL PRIMER ONU


MANUAL DE ANOTACION
• LWIC calcula los porcentajes de
una serie de categorías que
agrupa bajos “preocupaciones
personales”:
• Familia
• Trabajar
• Logro
• Ocio
• Hogar

• Dinero
• Religión
• muerte

Tabla 1. Porcentaje de categorías de palabras “familia” y “trabajo” por tipos


de discurso. Nota. Los medios que no comparten subíndices difieren en la p. <.01
Machine Translated by Google

POSICIONES IDEOLÓGICAS Y ESTEREOTIPOS


Los Residuos tipificados
corregidos son fácilmente
interpretables: utilizando un
nivel de confianza de 0,95,
podemos afirmar que los
residuos mayores de 1,96
delatan casillas con más
casos de los que deberían
haber en esa casilla si las
variables estudiadas
acompañantes independientes;
mientras que los residuos
menores de -1,96 delatan
casillas con menos casos de
los que cabría esperar bajo la
condición de independencia.

Tabla 1. Número de discursos en cada categoría de discurso por ideología del hablante.
(Pearsonÿ2= 51,399, gl = 9, p < 0,000).
Machine Translated by Google

POSICIONES IDEOLÓGICAS Y ESTEREOTIPOS

Índice de estereotipia
“víctima vs amenaza”.
(SI) número de frases que
presentan a los inmigrantes
como victimas (V) menos
el número de frases que
presentan a los inmigrantes
como amenaza (T) en
cada discurso
parlamentario (SI=VT).

Correlación Spearman (r=.369;


p<.000)
Machine Translated by Google

IDEOLOGIA, ESTEREOTIPOS
Y POSICIÓN POLÍTICA
Índice de estereotipia
"víctima vs amenaza"
En el gobierno, PP y PSOE
no difieren (los dos
presentan más como
víctimas que como
amenaza) pero cuando
están en la oposición el
PSOE presenta a los
inmigrantes como "víctimas"
y el PP como "amenaza".

ANOVA factorial (partido x


posición política) (F(1,244)=
15,755; p>.000).
Machine Translated by Google

¿QUÉ QUEREMOS SABER?

3. ¿Utilizan los políticos el lenguaje de forma diferente


cuando utilizan los estereotipos sobre los inmigrantes?

4. ¿Utilizan el lenguaje de forma diferente cuando están en


el gobierno o en la oposición?
Machine Translated by Google
Machine Translated by Google

ESTEREOTIPOS Y ESTILOS LINGÜÍSTICOS

Cuanto más se presenta a los inmigrantes como víctimas más marcadores


lingüísticos del endogrupo aparecen en el discurso (más se usa el nosotros)

Cuanto más se presenta a los inmigrantes como amenaza más marcadores


lingüísticos del exogrupo aparecen en el discurso (más se usa el ellos)

Cuanto mas marcadores lingüísticos del endogrupo....


- mas pensamiento analitico
- un estilo lingüístico más categórico y menos narrativo
- más prevalecen las emociones positivas frente a las negativas
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

IDEOLOGÍA,
ESTILOS
LINGÜÍSTICOS
Y POSICION
POLÍTICA

Interacción significativa entre partido y


posición política en el índice
categórico-narrativo (F (1, 247)=5.464;
p<.020)
Machine Translated by Google

IDEOLOGÍA,
ESTILOS
LINGÜÍSTICOS
Y POSICIÓN
POLÍTICA

Interacción significativa entre partido y


posición política en el índice de
pensamiento analítico (F (1.247)=4.379;
p<.037)
Machine Translated by Google

IDEOLOGÍA,
ESTILOS
LINGÜÍSTICOS
Y POSICIÓN
POLÍTICA

Interacción significativa entre partido y


posición política en el índice de endogrupo
vs exogrupo (F(1,247)=3,994; p<.047)
Machine Translated by Google

ESTILOS LINGÜÍSTICOS Y POSICIÓN POLÍTICA


• Efecto simple significativo de la
posición política (F(1.247)=8.211;
p<.005) sobre el "índice de
emociones positivas vs negativas"
(PNE), que indica que ambos
partidos utilizan más el lenguaje
emocional positivo estando en
el gobierno (M=1. 93) que en la
oposición (M=1,10).

• Efecto simple significativo de la


posición política(F(1,247)=7,243;
p<.045) sobre el "índice de lenguaje
emocional" (ET) que indica que
ambos partidos utilizan más
lenguaje emocional en el gobierno
(M=5,34 ) que en la oposición
(M=4,77)
Machine Translated by Google

¿CAMBIA LA
FORMA DE HABLAR
CUANDO CAMBIAN
DE TEMA?

PNL y posiciones sociales en el estudio


de los estereotipos sobre los
inmigrantes
Machine Translated by Google

CONSTRUIMOS UN NUEVO
CONJUNTO DE DATOS

• Construimos otro dataset, IMMISPEAKER, concatenando todas las explosiones de cada


orador de IMMISPEECH, y seleccionando, y concatenando, todas las explosiones que
este orador hizo en el mismo año pero que no contienen las palabras clave sobre
inmigración utilizadas para seleccionar los discursos del conjunto de datos
Stereoimmigrants. • En este conjunto de datos tenemos 131 oradores:

• 31 de derecha
• 25 derecha moderada
• 39 de izquierda moderada
• 36 de izquierda • Estos
políticos han pronunciado 426 discursos con 420.031 palabras que hablan de los
inmigrantes y 4.719 discursos con 1.090.053 palabras que hablan de otros temas.
• Calculamos los mismos índices
Machine Translated by Google

¿QUÉ QUEREMOS SABER?

5. ¿Utilizan los políticos el lenguaje de forma diferente


cuando utilizan los estereotipos sobre los inmigrantes que
cuando hablan de otras cosas?
Machine Translated by Google

• Podemos decir que existe un estilo personal de lenguaje


porque cuando un político utiliza más un estilo categorial que
narrativo hablando de los inmigrantes, hace lo mismo
cuando habla de otros temas (r=481; p<.001). Encontramos
ESTILOS un fenómeno similar con el "índice de pensamiento
analítico" (r=.460; p<.000), con el "índice de emociones positivas
LINGÜÍSTICOS vs negativas" (r=.300; p<.000), y con el "índice de lenguaje
PERSONALES emocional” (r=.230; p<.001).

• Correlación significativa en todos los índices que describen


el uso del lenguaje, excepto en el índice "in-group vs out
group". Esta ausencia de conexiones nos permite afirmar que los
políticos utilizan los marcadores lingüísticos "nosotros" y "ellos"
de forma diferente cuando hablan los inmigrantes
en contraste con los discursos sobre otros temas que no
incluyen la inmigración
Machine Translated by Google

EL TEMA SI
IMPORTA

Hablando de inmigrantes,
los politicos de todos los
partidos expresan menos
emociones positivas
(M=1,46) que hablando de
otros temas (M=1,89).

ANOVA mixto con un factor de medida


repetida (tema inmigrantes frente a
tema general) y la ideología como
intersujeto variable. Efecto principal (F=
5.598; p<.02) del tema sobre el "índice
de emoción positiva vs negativa":
Machine Translated by Google

TEMA, IDEOLOGÍA Y POSICIÓN POLÍTICA

Encontramos una triple interacción que tiende a ser significativa (F(1,56)=3,021; p<.088) entre el tema de los
discursos, el partido y la posición política en el índice de lenguaje categórico vs narrativo
Machine Translated by Google

CONCLUSIONES

- Con el uso del lenguaje se construye una representación del mundo: lo que
creemos que sucede, lo que vemos, se construye en actos de comunicacion

- Las tecnicas de procesamiento del lenguaje natural nos han permitido crear unos
índices para demostrar empíricamente que los grupos en conflicto usan el
lenguaje en beneficio de sus propias estrategias.

- Las tecnicas de NLP y la ciencia de datos pueden servir para mejorar el mundo al
hacer transparentes a los ojos de la ciudadanía esas estrategias de comunicación.
Machine Translated by Google

REFERENCIAS

• Bateson, G. (1925) Ecología de la Mente.Informe de Investigación Psiquiátrica, 2, 21.

• Boyd, RL (2017). Análisis psicológico de textos en las humanidades digitales. En S. Hai-Jew (Ed.), Análisis de datos en
Humanidades digitales (págs. 161–189). Publicaciones internacionales de Springer. https://doi.org/10.1007/978-3-319-54499-1_7.

• Goffman, E. (1974) Análisis de estructura; Nueva York: Harper & Row.

• Jordan, KN, Sterling, J., Pennebaker, JW y Boyd, RL (2019). Examinar las tendencias a largo plazo en la política y la cultura a
través del lenguaje de los líderes políticos y las instituciones culturales. Actas de la Academia Nacional de Ciencias,
201811987. https://doi.org/10.1073/pnas.1811987116

• Lipmann, W. (1922) Opinión Pública; Nueva York: Harcourt Brace.

• Tajfel, H.; Jeque, AA; Gardner, RC (1964) Contenido de los estereotipos y la inferencia de similitud entre
miembros de grupos estereotipados. Acta Psychologica, 22, 191-201

• Tversky, A.; Kahneman, D. (1981) El marco de las decisiones y la psicología de la elección. Ciencia, 211.
Machine Translated by Google

10. Sentimiento, ironía,


sarcasmo, lenguaje engañoso
Machine Translated by Google

Lo que otras personas piensan

• Lo que otros piensan siempre ha sido una


información importante

• Las opiniones son importantes porque


cada vez que necesitamos tomar una decisión,
queremos escuchar las opiniones de los demás

¿A qué universidad
debo aplicar? ¿Qué auto
¿Qué teléfono debo comprar?
debo comprar?
Machine Translated by Google

buscando opiniones
• Pasado:
- individuos: opiniones de amigos y familiares
- empresas: encuestas, focus group, consultores, etc.

• Hoy en día:
- medios generados por el usuario: uno puede expresar opiniones
sobre cualquier cosa en reseñas, foros, grupos de discusión,
blogs - opiniones de escala global
• Pero:
- ahora tenemos mucha información sobre cualquier tema y
podemos formarnos una opinión y tomar decisiones fácilmente...

- ¿Es esto cierto? ¿Estas opiniones se basan en hechos reales?


Machine Translated by Google

Información abrumadora
• Difícil de analizar todas y cada una de las reseñas
• Las opiniones se expresan de diferentes maneras,
en diferentes medios de diferentes usuarios

• La opinión está oculta en una gran cantidad de datos


• “…Compré un teléfono de Google pensando que sería útil pero…”
• “el teléfono de Google es excelente, pero esperaba más en términos de…”
• “el teléfono de google es una decepción…”
• “no malgastes tu dinero en el g-phone…”

• … y, por supuesto, hay opiniones falsas (es


decir, reseñas falsas): ¡spam!
Machine Translated by Google

Minería de opinión

• Han surgido varios campos diferentes para ayudar a los


usuarios a comprender lo que otros usuarios piensan,
sienten, etc., como:
– análisis de sentimiento / análisis de opinión / minería de opinión
– recuperación de opiniones

– análisis de opinión comparativa

– minería de opinión temporal


– detección de emociones

– detección de ironía
- etc.
Machine Translated by Google

Áreas de aplicaciones
• Empresas y organizaciones: interesados en opiniones
– Business intelligence : lo que le gusta/no le gusta a la gente en mi
¿producto?
– Encuesta sobre un tema
• Las personas están interesadas en las opiniones de los demás cuando...
– Compra de un producto –
Uso de un servicio –
Seguimiento de temas políticos
• Ubicaciones de anuncios: colocar anuncios en contenido generado por el usuario
– Poner un anuncio cuando se elogia un producto
– Colocar un anuncio de un competidor si uno critica un producto •
Recuperación de opiniones: proporciona una búsqueda general de opiniones
Machine Translated by Google

Desafíos de la minería de opinión


• Hay formas sutiles de expresar
opiniones:
• “Si estás leyendo esto porque es tu fragancia favorita, úsala en casa
exclusivamente y tape las ventanas para cerrarlas” No hay palabras negativas
• “Miss Austen no es una poetisa” ¿ Hecho u opinión? •
Contexto “Ve a leer el libro”
• "¡Si seguro!" Ironía •
“Me siento azul” vs “El cielo es azul” Modismos
• “Si pensabas que esta sería una buena película, este no es tu día” Negación

• Inglés incorrecto
• No hay inglés estándar "wuddup doe mah nigga juz droppin sum cuzz luv"

• Cambio de opinión
• “Esta película debe ser brillante. Suena como una gran trama, los actores son de primer grado,
y el elenco de apoyo también es bueno . Sin embargo, no puede aguantar”
Machine Translated by Google

¿Qué es una opinión?

A diferencia de la declaración objetiva o fáctica (se puede demostrar que es correcta o incorrecta)

Opinión ÿ una declaración subjetiva que describe lo que una


persona cree o piensa acerca de algo

Titular de opinión
Objetivo de opinión

Depende de la cultura, los antecedentes y


contexto
Machine Translated by Google

Análisis de los sentimientos

• El tratamiento computacional de la subjetividad en


texto
– Subjetividad: la expresión lingüística de las opiniones,
sentimientos, emociones, evaluaciones, creencias,
especulaciones de alguien (es decir, estados privados)
• Objetivo: diseñar e implementar algoritmos que puedan detectar
y analizar automáticamente las expresiones de opiniones en
el texto
– ¿Quién piensa/siente qué sobre qué?
• El análisis de sentimiento también se conoce como análisis de opinión.
y requiere minería de opinión para extraer expresiones de
opiniones para ser analizadas
Machine Translated by Google

Definición
• Una opinión (u opinión regular) es un quíntuple: (ei ,
aij, ooijkl, hk , tl ) • donde: – ei es el nombre de una
entidad, – aij es un aspecto de ei , – ooijkl es la
orientación de la opinión sobre el aspecto aij

de
ei , – hk es el titular de la
opinión y – tl es la fecha/hora en que hk expresa la opinión
• La orientación de la opinión ooijkl puede ser positiva,
negativa o neutra, o expresarse con diferentes niveles de
fuerza/intensidad

También podría gustarte