Está en la página 1de 33

Departamento de Ciencias Políticas y Sociales

Grado en Ciencias Políticas y de la Administración


Universitat Pompeu Fabra

Metodología cuantitativa IV

Clase 2: causalidad

Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clase 2: causalidad

¿Que vamos a hacer hoy?


✓ ¡¡¡Asociación no es lo mismo que causalidad!!!

✓ “Explicaciones alternativas”

✓ Relaciones espurias y variables confundidoras (o


factores confundidores)
✓ Causalidad y el enfoque contrafactual

✓ Sesgo de omisión de variables relevantes

2
Clase 2: causalidad

Limitación del modelo de regresión simple

✓ El coeficiente de correlación lineal (r) y la


regresión lineal simple miden la relación
entre 2 variables, ignorando todas las
demás.

✓ ¿Es un problema?

✓ Ejemplo: ¿En los barrios donde hay más


ancianos, el voto a Podemos es menor?
3
Clase 2: causalidad

Presencia de ancianos y voto a Podemos


Conclusión que
podríamos sacar: la
•En el eje X edad influye en el
se representa voto
Pero podemos
el % de pararnos aquí sin
población tener en cuenta otras
cosas? No, porque
anciana sobre no estamos teniendo
el total y en el en cuenta otras
eje Y el % de variables como el
nivel socioeconómico
voto a
Podemos en
las elecciones
europeas de
2014.

• Cada punto
representa un
distrito de
Madrid.

✓ http://www.eldiario.es/piedrasdepapel/voto-Podemos-graficos_6_264983501.html
4
Clase 2: causalidad

Presencia de ancianos y voto a Podemos

✓ Los barrios mas “ancianos” son también los


más ricos. Para separar el efecto de la
estructura poblacional del efecto renta
podríamos estimar un modelo múltiple:

Voto a Podemos =
b0 + b1 * Pobl. Anciana + b2 * Renta media

✓ Véase el comentario al grafico: http://www.eldiario.es/piedrasdepapel/voto-


Podemos-graficos_6_264983501.html 5
Clase 2: causalidad

Tenemos que ser serios sobre la causalidad

✓ “Puede asegurarse que celebrar


los cumpleaños es saludable.
La estadística demuestra que la
gente que celebra más
cumpleaños vive más tiempo.”

6
Clase 2: causalidad

Descripción vs explicación
✓ Un investigador social empieza siempre con la descripción de los
femémonos (que está pasando) antes de explicarlos (por qué está
pasando).

✓ Describir significa, por ejemplo, observar una asociación.


Establecemos las regularidades que se observan en la sociedad.

✓ Pero en las ciencias sociales, la identificación de las causas es el


fundamento para entender los fenómenos.

✓ Entender lo que causa variabilidad en una variable de interés es


relevante para evaluar o proponer políticas publicas.

7
Clase 2: causalidad

¿Casualidad o causalidad?

8
Clase 2: causalidad

¿Casualidad o causalidad?
✓ Los países con mayor consumo de chocolate tienen más premios
Nobel, por lo que se recomienda su consumo para mejorar la
inteligencia.

✓Véase por ejemplo: 9


http://www.bbc.co.uk/mundo/noticias/2012/10/121011_chocolate_nobel_ar.shtml
Clase 2: causalidad

¿Asociación o causalidad?
✓ “Ver la televisión un promedio de 6 horas al día puede
acortar la vida en casi 5 años”:

http://ecodiario.eleconomista.es/salud/noticias/3310638
/08/11/Ver-la-television-acorta-la-vida-hasta-en-cinco-
anos.html#.Kku8KXcPdnZ14Sp

✓ Otros ejemplos y criticas: http://www.ciencia-


explicada.com/2013/06/correlacion-causalidad-y-grafos-
lo-mas.html

10
Clase 2: causalidad

Asociación vs causalidad
✓ Asociación significa que dos variables se mueven juntas.
Causalidad significa que una de las dos produces cambios en la
otra.

✓ Evidencia de asociación entre dos variables no implica


necesariamente causalidad (es una condición necesaria pero no
suficiente).

✓ ¿Que condiciones deben respectarse para que se pueda hablar de


relación causal entre dos variables? Es decir, para poder interpretar
una asociación (por ejemplo una pendiente de una recta de
regresión lineal) como efecto causal.

11
Clase 2: causalidad

Condiciones necesarias para la causalidad


Hay evidencia empírica de un efecto causal de X sobre Y si:

1. Hay una asociación entre X y Y (condición de asociación).

2. X precede temporalmente y/o lógicamente Y (condición del


antecedente).

3. La asociación observada entre X y Y no debe ser debida a


factores no controlados en el estudio (condición de
ausencia de explicaciones alternativas).

12
Clase 2: causalidad

Asociación no implica causalidad


Una asociación entre dos variables no se puede
interpretar como causalidad cuando:

A. Se han invertido causas y efectos (falacia de dirección


incorrecta).

B. X y Y están mutualmente relacionadas (causalidad


bilateral).

C. X y Y están asociadas solo porqué algún otro factor está


relacionado a ambas variables (asociación espuria).

13
Clase 2: causalidad

Ejemplos de falacia de dirección incorrecta


Cuando ocurre un incendio, más alto es el numero de
bomberos (X), mayor es el daño causado por el fuego (Y).
¡Entonces los bomberos causan los daños del incendio!

A. Se han invertido causas y

daño del incendio


efectos :

fire size
Más grande es el incendio,
más bomberos serán enviados para
apagarlo.
¡Has violado
la condición 2!
n.bomberos
firemen

Hay una fuerte correlación entre X y Number


Y. of deaths Fitted va

¡Pero es temprano para traer conclusiones causales!


Pregúntate: ¿es X la causa de Y o es al revés?
14
(SPSS no puede contestar)
Clase 2: causalidad

Ejemplos de falacia de dirección incorrecta


✓ Familias grandes tienen coches más grandes. ¿Tener
un coche grande influye en la probabilidad de tener
mas hijos? ¿O, más bien, la relación funciona al revés?

¡Has violado
la condición 2!

http://www.youtube.com/watch?v=xDZSxFLcMVg&feature
=player_embedded 15
Clase 2: causalidad

¡Que poner en los ejes lo decides tu!


✓ ¿La economía influye en el abstencionismo o es al
revés?

http://www.eumed.net/ce/2011b/lhbg3.html

16
Clase 2: causalidad

Ejemplos de causalidad bilateral


✓ Más huevos (X) implica más El dilema: ¿qué fue
gallinas? (Y) primero: el huevo o la
gallina?
… ¿¿¿ o es al revés???

B. X y Y están mutualmente
relacionadas (causalidad
bilateral)

✓ … numero de hijos satisfacción con la relación conyugal numero de


hijos …
✓ … interés en la política tiempo pasado viendo informativos en la tele
interés en la política…

✓ ¡Cuidado con la interpretación de los resultados!


17
Clase 2: causalidad

Ejemplo de asociación espuria


✓ Hay datos que muestran que más alta es la presencia de cigüeñas (X) en un
pueblo, más alta es la tasa de fecundidad (Y).
Entonces podemos pensar que las cigüeñas traen a los niños y
causan el aumento de la tasa de fecundidad.

✓ ¿Como se puede aumentar la tasa de fecundidad? Simple! ¡Poniendo


cigüeñas en los pueblos!

Otro dilema: ¿Los niños los


trae la cigüeña?
Tasa de fecundidad

r = + 0.63

presencia cigüeñas
✓ Problema considerado, por ejemplo, por
Kronmal, Richard A. (1993) “Spurious Correlation and the
Fallacy of the Ratio Standard Revisited”, 18
Journal of the Royal Statistical Society – A.
Clase 2: causalidad

Ejemplo de asociación espuria


✓ Hay una fuerte correlación positiva entre la tasa de fecundidad y la presencia
de cigüeñas.
¡Pero es temprano para traer conclusiones causales!
Pregúntate: ¿hay alguna explicación alternativa para la relación
observada diferente de un efecto causal? ¿Hay causas comunes?
✓ Podría ser, por ejemplo, que en las áreas rurales tanto la tasa de
fecundidad como la presencias de cigüeñas son más altas. ¿Que pasa si
segmentamos los datos por tipo de área?
Tasa de fecundidad

Recta de
regresión en: r=0
Áreas urbanas r=0

Áreas rurales

19
presencia cigüeñas
Clase 2: causalidad

Ejemplo de asociación espuria


✓ La relación entre tasa de fecundidad y la presencia de cigüeñas desaparece
cuando mantenemos constante la otra variable (tipo de área).
✓ La relación encontrada en la muestra total es debida al hecho que tanto la
tasa de fecundidad como la presencia de cigüeñas son más altas en áreas
rurales y más bajas en áreas urbanas!!!
✓ ¡La causa común “ruralidad” provoca la correlación ficticia!

C. X y Y están asociadas solo porqué algún otro


factor está relacionado a ambas variables Si continua a
ignorar la ruralidad
(asociación espuria)
usted viola
la condición 3!
✓ Veremos que la regresión múltiple es un método
para controlar por efectos de confundimiento causados
por “terceras variables”.
Otra manera (no siempre factible) es segmentar la
muestra como hemos hecho antes.

20
Clase 2: causalidad

Cigüeñas, ruralidad y fecundidad

✓ Las áreas con más cigüeñas son también


áreas rurales. Para separar los dos efectos
sobre la fecundidad podríamos estimar un
modelo múltiple:

Fecundidad = b0 + b1 * cigüeñas + b2 * ruralidad


En las ciencias sociales es básico entender
que cuando queremos comprobar la
relación entre dos variables, debemos
incluir los factores confundidores

21
Clase 2: causalidad

Factores confundidores
RURALIDAD (Z)

CIGUEÑAS (X) FECUNDIDAD (Y)


✓ La variable “ruralidad” es un factor confundidor. Los factores
confundidores pueden reducir, invertir, cancelar asociaciones.

✓ El efecto de la presencia de cigüeñas, representado por la recta negra,


estaba (completamente) confundido con el efecto de la ruralidad!

✓ No podemos interpretar la correlación entre X y Y como causal porqué Z


es un factor confundidor. Necesitamos tener Z constante (controlar
por Z).

22
Clase 2: causalidad

Otros ejemplos de asociación espuria


✓ Dormir con los zapatos puestos está fuertemente asociado con despertarse
con dolor de cabeza.
Entonces, dormir con los zapatos puestos causa el dolor de cabeza.
Pero… ¿cuanto has bebido ayer?
Causa común: ir a la cama borracho.

✓ Las ventas de helados son más altas cuando la tasa de muertes por
ahogamiento es mas alta.
¡Cuidado con los helados que te ahogas!
Pero… Causa común: ola de calor (o las estaciones del año)

Ventas helados

ahogamientos
tiempo
✓ La tendencia común, ¡es un problema muy común! Ocurre cada vez que
tenemos datos temporales sobre dos variables que “naturalmente” se
mueven juntas. 23
Clase 2: causalidad

Concepto de causa
✓ Causa: X (input, variable independiente, variable exógena).
✓ Efecto: Y (output, variable dependiente, endógena).
✓ Definición adaptada de causa de Gerring: X es una causa de Y si
variaciones en el nivel de X provocan variaciones en el nivel de Y.
✓ Los efectos causales se pueden definir en términos contrafacticos
comparando lo que en realidad ha ocurrido (facto), bajo ciertas
condiciones, con lo que habría ocurrido bajo condiciones diferentes
(contrafacto).
✓ Xcl = variable independiente clave o tratamiento (variable causal
principal)
✓ Facto: X clr k ; Contrafacto: X clh j k
✓ Valor factual de Y: Yr; Valor contrafactual de Y: Yh
✓ Efecto causal de Xcl sobre Y:
(valor de Y bajo Xcl=k) comparado al (valor de Y bajo Xcl=j)
Yr vs Yh 24
Clase 2: causalidad

Efectos causales en el enfoque contrafactual:


un ejemplo
✓ ¿Comer donuts hace que Homer sea gordo?
(Si es así el Gobierno podría aumentar los impuestos sobre los donuts)

✓ Xcl = comer (=1) o no comer (=0) donuts (variable dicotómica)


✓ Facto: Homer come donuts: Xcl = 1
✓ Y = índice de masa corporal, IMC
✓ Imaginemos que el valor factual de Y sea Yr = 38

Razonamiento contrafactico:
¿Cual seria el IMC de Homer si él no comiera donuts? Yh = ???

✓ El efecto causal de comer donuts


por Homer se puede definir como: Yr - Yh vs
25
Clase 2: causalidad

El problema fundamental de la inferencia


causal
✓ Por estimar el efecto causal de comer donuts deberíamos medir para
Homer tanto Yr como Yh. Pero eso es imposible.

✓ Para cada persona sólo una de las dos cuantidades se puede observar y la
otra no se conoce.

✓ El IMC de Homer es Yr = 38 pero Yh no se puede medir.

✓ Holland (1986) ha definido la imposibilidad de medir para la misma unidad


los valores de la Y correspondientes a diferentes valores de la variable
independiente el problema fundamental de la inferencia causal.

26
Clase 2: causalidad

¿Como resolver el problema fundamental?


✓ Encontrar un substituto del estado no observado contrafactico de Homer.

Donuts No donuts

VS

?
BMI = 38 BMI = 25

✓ Efecto causal: Yr - Yh = 38 – 25 = 13
✓ El efecto causal se puede derivar de dos modelos:
Yh 0 X h
1 cl ; Yr 0 X r
1 cl
Yr Yh 1 ( X clr X clh )
✓ β1 mide el efecto causal de una variacion de Xcl (+1 unidad) sobre Y.
✓ En este caso: 38 25 1 (1 0)
27
✓ Pero... ¿Entre Homer y Ned cambia sólo Xcl (comer o no donuts)?
Clase 2: causalidad

¿Hay otras variables que diferencian Homer y


Ned?
✓ Homer y Ned no se diferencian sólo respecto a comer o no donuts. Homer
tiene un estilo de vida general peor que lo de Ned (come demasiado, come
comida basura, bebe mucha cerveza, no hace deporte…)

✓ Imaginemos que se pueda resumir el estilo de vida en una variable Z (= 1


si el estilo de vida no es saludable; = 0 si el estilo de vida es saludable), y
que el efecto de esta variable sobre Y sea de 8 puntos (β2) mientras el
efecto de comer donuts sea de 5 puntos (β1).

✓ ¿Que pasa si calculamos la diferencia entre Yr y Yh?


Yr Yh 1 ( X clr X clh ) 2 (Z r Zh) 38 25 5(1 0) 8(1 0)
✓ Al cambiar de Xcl también Z cambia, entonces la diferencia entre Yr y Yh no
mide (sólo) el efecto causal de Xcl!
(38 25) 13 5 1
✓ La consecuencia es un sesgo: sesgo de omisión de variable relevante.
✓ Sesgo = estimación – valor verdadero = 13 – 5 = + 8 (sesgo positivo) 28
Clase 2: causalidad

Diagrama de influencia
✓ El diagrama de influencia es un método simple y intuitivo para
entender la dirección (signo) del sesgo causado por una variable
omitida. En este caso el sesgo sería positivo (“+” * “+” = “+”)
porqué el estilo de vida no saludable aumenta tanto el consumo de
donuts como el IMC.
✓ Entonces la simple comparación del IMC de Homer y de Ned (38 -
25 = 13) sobreestima el efecto debido solo a donuts.
✓ El diagrama también indica que si una de las dos flechas falta (=0)
no hay sesgo!
✓ Entonces las variables
Z (omitidas) Estilo de vida no saludable (Z)
relevantes son
aquellas + +
asociadas tanto a
X como a Y! Donuts (X ) cl IMC (Y) 29
Clase 2: causalidad

Solución al sesgo de omisión de variables


relevantes
✓ Tenemos que calcular el efecto de comer o no donuts a paridad de
condiciones (“todo lo demás igual” o “ceteris paribus”), es decir
cuando todas las otras variables relevantes no cambian.
✓ En lugar de Ned tendríamos que buscar otra persona que no come
donuts pero tiene un estilo de vida no saludable (una persona que
es diferente de Homer solo respecto a Xcl!).
✓ Veremos que la regresión múltiple es un método para calcular el
efecto parcial de Xcl, es decir el efecto de Xcl manteniendo
constantes las otras variables incluidas en el modelo.

✓ Notad que las variables “terceras” que se controlan en un modelo


de regresión se llaman variables de control y se pueden indicar
con Xco. (Entonces Z indica una variable omitida pero si esa variable
se incluye en el modelo se indica como Xco). 30
Clase 2: causalidad

Referencias
✓ Capítulos 2, 3 y 4 de: LAGO, Ignacio. La lógica de la
explicación en ciencias sociales: una introducción
metodológica. Madrid: Alianza Editorial, 2008

31
Clase 2: causalidad

Para practicar
✓ Utilizando una muestra representativa de 1000 personas, un
estudio ha demostrado que la gente que va más al teatro vota
más a partidos de centro respecto a los otros.

✓ ¿Se puede afirmar que ir al teatro influye en el voto?


¿Qué otros factores habría que tener en cuenta y por qué?

✓ ¿En condiciones ideales, como se podría evaluar si ir al teatro


frecuentemente en vez de ir a ver partidos de futbol influye en
los comportamientos políticos?

32
Si algo no queda claro…

podéis pedirme tutorías

o escribirme un email

33

También podría gustarte