Está en la página 1de 22

Traducido del inglés al español - www.onlinedoctranslator.

com

Gráficos acíclicos dirigidos

Todos los días llueve, así que todos los días el dolor fue ignorado y estoy seguro de que la ignorancia fue la culpable, pero la
vida es una cadena, causa y efecto.. Jay Z

La historia del modelado causal gráfico se remonta a principios del siglo XX y a


Sewall Wright, uno de los padres de la genética moderna e hijo del
economista Philip Wright. Sewall desarrolló diagramas de ruta para la
genética y se cree que Philip los adaptó para la identificación econométrica.
[Matsueda, 2012].1
Pero a pesar de ese comienzo prometedor, la profesión económica ha
ignorado en gran medida el uso de modelos gráficos para la inferencia causal,
con algunas excepciones [Heckman y Pinto, 2015; Imbens, 2019]. Fue revitalizado
con el propósito de realizar inferencias causales cuando el científico informático y
ganador del Premio Turing Judea Pearl los adaptó para su trabajo sobre
inteligencia artificial. Explicó esto en su obra mangum, que es una teoría general
de inferencia causal que expone la utilidad de su notación gráfica dirigida [Pearl,
2009]. Dado que los modelos gráficos son inmensamente útiles para diseñar una
estrategia de identificación creíble, he decidido incluirlos para su consideración.
Repasemos los modelos gráficos, uno de los aportes de Pearl a
La teoría de la inferencia causal.2

Introducción a la notación DAG


El uso de la notación gráfica acíclica dirigida (DAG) requiere algunas declaraciones
iniciales. Lo primero que hay que notar es que en la notación DAG, la causalidad va
en una dirección. Específicamente, avanza en el tiempo. No hay ciclos en un DAG.
Para mostrar la causalidad inversa, sería necesario crear múltiples nodos,
probablemente con dos versiones del mismo nodo separadas por un índice de
tiempo. De manera similar, la simultaneidad, como en los modelos de oferta y
demanda, no es sencilla con los DAG [Heckman y Pinto, 2015]. Para manejar la
simultaneidad o la causalidad inversa, se recomienda tomar una
enfoque del problema completamente diferente al presentado en este capítulo.
En tercer lugar, los DAG explican la causalidad en términos de contrafácticos. Es
decir, un efecto causal se define como una comparación entre dos estados del
mundo: un estado que realmente ocurrió cuando alguna intervención adquirió
algún valor y otro estado que no ocurrió (el “contrafactual”) bajo alguna otra
intervención.
Piense en un DAG como una representación gráfica de una cadena de efectos
causales. Los efectos causales se basan en algún proceso estructurado subyacente y
no observado, que un economista podría llamar valores de equilibrio de un sistema
de ecuaciones conductuales, que en sí mismas no son más que unamodelodel
mundo. Todo esto se captura de manera eficiente mediante notación gráfica, como
nodos y flechas. Los nodos representan variables aleatorias, y se supone que esas
variables aleatorias son creadas por algunos
proceso de generación de datos.3Las flechas representan un efecto causal entre dos
variables aleatorias que se mueven en la dirección intuitiva de la flecha. La dirección
de la flecha captura la dirección de la causalidad.
Los efectos causales pueden ocurrir de dos maneras. Pueden ser directos (p. ej.,D
→ Y), o pueden estar mediados por una tercera variable (p. ej.,D→X→Y). Cuando
están mediados por una tercera variable, estamos capturando una secuencia de
eventos que se originan conD, que puede ser importante o no para usted según la
pregunta que esté formulando.
Un DAG está destinado a describir todas las relaciones causales relevantes
para el efecto deDenY. Lo que distingue al DAG es tanto el compromiso explícito
con una vía de efecto causal como el compromiso completo con lafalta deuna vía
causal representada por las flechas que faltan. En otras palabras, un DAG
contendrá flechas que conectan variables y opciones para excluir flechas. Y la
falta de una flecha significa necesariamente que usted piensa que no existe tal
relación en los datos; esta es una de las creencias más fuertes que puede tener.
Un DAG completo tendrá todos los efectos causales directos entre las variables
del gráfico, así como todas las causas comunes de cualquier par de variables del
gráfico.
Llegados a este punto, quizás te preguntes de dónde viene el DAG. Es una
excelente pregunta. Puede serelpregunta. Se supone que un DAG es una
representación teórica del conocimiento más reciente sobre los fenómenos que
estás estudiando. Es lo que un experto diría que es la cosa misma, y esa
experiencia proviene de una variedad de fuentes. Los ejemplos incluyen teoría
económica, otros modelos científicos, conversaciones con expertos, su
propias observaciones y experiencias, revisiones de literatura, así como su propia
intuición e hipótesis.
He incluido este material en el libro porque he descubierto que los DAG son útiles
para comprender el papel fundamental que desempeña el conocimiento previo en la
identificación de efectos causales. Pero también hay otras razones. Primero, descubrí
que los DAG son muy útiles para comunicar diseños de investigación y estimadores,
aunque solo sea por la razón que las imágenes valen más que mil palabras. En mi
experiencia, esto es especialmente cierto para las variables instrumentales, que tienen
una representación DAG muy intuitiva. En segundo lugar, a través de conceptos como el
criterio de puerta trasera y el sesgo del colisionador, un DAG bien diseñado puede
ayudarle a desarrollar un diseño de investigación creíble para identificar los efectos
causales de alguna intervención. Como beneficio adicional, también creo que un DAG
proporciona un puente entre varias escuelas empíricas, como los grupos estructural y de
forma reducida. Y, por último, los DAG resaltan el hecho de que los supuestos son
necesarios para cualquier identificación de efectos causales, algo que los economistas
han estado insistiendo durante años [Wolpin, 2013].

Un DAG sencillo. Comencemos con un DAG simple para ilustrar algunas ideas básicas. Lo
ampliaré para construir otros un poco más complejos más adelante.

En este DAG, tenemos tres variables aleatorias:X,D, yY. Hay un directocaminodeDa


Y, que representa un efecto causal. Ese camino está representado porD→Y. Pero
también hay un segundo camino desdeDaYllamó alcamino de puerta trasera. El
camino de la puerta trasera esD←X→Y. Si bien el camino directo es un efecto causal,
el camino de puerta trasera no es causal. Más bien, es un proceso que crea
correlaciones espurias entreDyYque son impulsados únicamente por fluctuaciones
en elXvariable aleatoria.
La idea de la ruta de puerta trasera es una de las cosas más importantes que
podemos aprender del DAG. Es similar a la noción de sesgo de variable omitida en el
sentido de que representa una variable que determina el resultado y la variable de
tratamiento. Así como no controlar una variable como esa en una regresión crea un
sesgo de variable omitida, dejar una puerta trasera abierta crea un sesgo. El camino
de la puerta trasera esD←X→Y. Por lo tanto llamamosXaconfundidorporque
determina conjuntamenteDyY, y así confunde nuestra capacidad de discernir el
efecto deDenYen comparaciones ingenuas.
Piense en la ruta de la puerta trasera de esta manera: A veces, cuandoD
adquiere diferentes valores,Yadquiere valores diferentes porqueDcausasY.
Pero a vecesDyYtomar valores diferentes porqueXtoma diferentes valores,
y esa parte de la correlación entreDyYes puramente espurio. La existencia
de dos vías causales está contenida dentro de la correlación entreDyY.

Veamos un segundo DAG, que es sutilmente diferente del primero. En el


ejemplo anterior,Xfue observado. Sabemos que fue observado porque los bordes
directos deXaDyYeran líneas continuas. Pero a veces existe un factor de
confusión que no se observa y, cuando lo hay, representamos sus bordes
directos con líneas discontinuas. Considere el siguiente DAG:

Igual que antes,Ud.es un no colisionador a lo largo del camino de puerta


trasera desdeDaY, pero a diferencia de antes,Ud.no es observada por el
investigador. Existe, pero es posible que simplemente falte en el conjunto de
datos. En esta situación, hay dos caminos desdeDaY. Ahí está el camino directo,D
→Y, que es el efecto causal, y está la vía de puerta trasera,D←Ud.→Y. Y desdeUd.
no se observa, esa vía de puerta trasera esabierto.
Pasemos ahora a otro ejemplo, uno que es un poco más realista. Una pregunta clásica
en economía laboral es si la educación universitaria aumenta los ingresos. Según el
modelo de capital humano de Becker [Becker, 1994], la educación aumenta el producto
marginal y, dado que a los trabajadores se les paga su producto marginal en mercados
competitivos, la educación también aumenta sus ingresos. Pero la educación
universitaria no es aleatoria; se elige de manera óptima dadas las preferencias subjetivas
y las limitaciones de recursos de un individuo. Lo representamos con el siguiente DAG.
Como siempre, dejaDser el tratamiento (p. ej., educación universitaria) yYser el resultado
de los intereses (por ejemplo, ganancias). Además, dejemosEDUCACIÓN FÍSICAser la
educación de los padres,Iser ingreso familiar, yψPueden ser factores de fondo no
observados, como la genética, el entorno familiar y la capacidad mental.
Este DAG está contando una historia. Y una de las cosas que me gusta de los DAG es
que invitan a todos a escuchar la historia juntos. Aquí está mi interpretación de la
historia que se cuenta. Cada persona tiene algunos antecedentes. No está contenido en
la mayoría de los conjuntos de datos, ya que mide cosas como la inteligencia, la
conflictividad, la estabilidad del estado de ánimo, la motivación, la dinámica familiar y
otros factores ambientales; por lo tanto, no se observa en la imagen. Es probable que
esos factores ambientales estén correlacionados entre padres e hijos y, por lo tanto,
estén incluidos en la variableψ.
Los antecedentes hacen que los padres de un niño elijan su propio nivel óptimo de
educación, y esa elección también hace que el niño elija su nivel de educación a través de
una variedad de canales. Primero, están los factores de fondo compartidos,ψ. Esos
factores de fondo hacen que el niño elija un nivel de educación, tal como lo hizo su
padre. En segundo lugar, hay un efecto directo, tal vez a través de un simple modelado
de logros o del establecimiento de expectativas, una especie de efecto de pares. Y en
tercer lugar, está el efecto que tiene la educación de los padres sobre los ingresos
familiares,I, lo que a su vez afecta la cantidad de escolarización que recibe el niño. Los
ingresos familiares pueden afectar los ingresos futuros del niño a través de legados y
otras transferencias, así como de inversiones externas en la productividad del niño.

Esta es una historia sencilla de contar, y el DAG la cuenta bien, pero quiero alertar su
atención sobre algunos puntos sutiles contenidos en este DAG. En realidad, el DAG
cuenta dos historias. Está contando lo que está sucediendo y está contando lo que está
sucediendo.nosucediendo. Por ejemplo, observe queψno tiene ningún efecto directo
sobre los ingresos del niño excepto a través de su efecto sobre la escolaridad. ¿Pero es
esto realista? Los economistas han sostenido durante mucho tiempo que la capacidad no
observada determina cuánta escolarización recibe un niño y afecta directamente sus
ingresos futuros, en la medida en que la inteligencia y la motivación pueden influir en las
carreras. Pero en este DAG no existe relación entre antecedentes y ganancias, lo que en
sí mismo es unasuposición. Y usted es libre de criticar esta suposición si cree que los
factores de fondo afectan tanto la escolarización como la propia productividad del niño,
que a su vez debería afectar los salarios. ¿Y qué si
¿Crees que debería haber una flecha desdeψaY? Luego dibujarías uno y
reescribirías todas las rutas de puerta trasera entreDyY.
Ahora que tenemos un DAG, ¿qué hacemos? Me gusta enumerar todas las rutas directas e
indirectas (es decir, rutas de puerta trasera) entreDyY. Una vez que tengo todo eso, tengo
una mejor idea de dónde están mis problemas. Entonces:
1.D→Y(el efecto causal de la educación sobre los ingresos)
2.D←I→Y(camino de puerta trasera 1)

3.D←EDUCACIÓN FÍSICA→I→Y(camino de puerta trasera 2)

4.D←ψ→EDUCACIÓN FÍSICA→I→Y(camino de puerta trasera 3)

Entonces hay cuatro caminos entreDyY: un efecto causal directo (que podría decirse que
es el importante si queremos conocer el retorno de la escolarización) y tres caminos de
puerta trasera. Y dado que ninguna de las variables a lo largo de las rutas de la puerta
trasera es un colisionador, cada una de las rutas de la puerta trasera esabierto. El
problema, sin embargo, con las puertas traseras abiertas es que crean correlaciones
sistemáticas e independientes entreDyY. Dicho de otra manera, la presencia de puertas
traseras abiertas introduce sesgos al comparar a los trabajadores educados con los
menos educados.

ωollando. ¿Pero qué es este colisionador? Es un término inusual, uno que quizás
nunca hayas visto antes, así que presentémoslo con otro ejemplo. Voy a
mostrarles gráficamente qué es un colisionador usando un DAG simple, porque
es algo fácil de ver y un fenómeno un poco más complicado de explicar.
Entonces, trabajemos con un nuevo DAG. Presta mucha atención a las
direcciones de las flechas, que han cambiado.

Como antes, enumeremos todas las rutas desdeDaY:

1.D→Y(efecto causal deDenY)


2.D→X←Y(camino de puerta trasera 1)

Al igual que la última vez, hay dos maneras de llegar desdeDaY. Puedes obtener de D
aYutilizando el camino directo (causal),D→Y. O puedes usar la ruta de la puerta
trasera,D→X←Y. Pero hay algo diferente en este camino de puerta trasera; ¿lo ves?
Esta vez elXtiene dos flechas apuntando hacia él, no lejos de él. Cuando dos variables
causan una tercera variable a lo largo de algún camino, lo llamamos
La tercera variable es un “colisionador”. Dicho de otra manera,Xes un colisionador a lo largo de
este camino de puerta trasera porqueDy los efectos causales deYchocar enX. ¿Y qué? ¿Qué hace
que un colisionador sea tan especial? Los colisionadores son especiales en parte porque cuando
aparecen a lo largo de una ruta de puerta trasera, esa ruta de puerta trasera es cerrado
simplemente por su presencia. Los colisionadores, cuando se los deja solos, siempre cierran una
ruta de puerta trasera específica.

criterio de puerta trasera. Nos preocupamos por los caminos abiertos porque crean
correlaciones sistemáticas y no causales entre la variable causal de interés y el resultado que
se intenta estudiar. En términos de regresión, las rutas de puerta trasera abiertas introducen
un sesgo de variable omitida y, por lo que sabemos, el sesgo es tan malo que cambia el signo
por completo. Nuestro objetivo, entonces, es cerrar estas puertas traseras. Y si podemos
cerrar todas las puertas traseras que de otro modo estarían abiertas, entonces podremos
aislar el efecto causal deDenYutilizando uno de los diseños de investigación y estrategias de
identificación discutidos en este libro. Entonces, ¿cómo cerramos un camino de puerta
trasera?
Hay dos formas de cerrar una ruta de puerta trasera. Primero, si tiene un factor de
confusión que ha creado una ruta de puerta trasera abierta, entonces puede cerrar esa
rutaacondicionamientosobre el factor de confusión. El condicionamiento requiere
mantener fija la variable mediante algo como subclasificación, emparejamiento,
regresión u otro método. Equivale a “controlar por” la variable en una regresión. La
segunda forma de cerrar una ruta de puerta trasera es la aparición de un colisionador a
lo largo de esa ruta de puerta trasera. Dado que los colisionadores siempre cierran rutas
de puerta trasera, y el condicionamiento en un colisionador siempre abre una ruta de
puerta trasera, elegir ignorar los colisionadores es parte de su estrategia general para
estimar el efecto causal en sí. Al no condicionarse a un colisionador, habrá cerrado ese
camino de puerta trasera y eso lo acercará a su ambición más amplia de aislar algún
efecto causal.
Cuando se han cerrado todas las puertas traseras, decimos que se ha ideado un
diseño de investigación que satisface lascriterio de puerta trasera. Y si se ha
satisfecho el criterio de la puerta trasera, entonces se ha aislado algún efecto causal.
Pero formalicemos esto: un conjunto de variablesXsatisface el criterio de puerta
trasera en un DAG si y solo siXbloquea todos los caminos entre los factores de
confusión que contienen una flecha deDaY. Repasemos nuestro DAG original que
involucra la educación, los antecedentes y los ingresos de los padres.
La estrategia de acondicionamiento mínimamente suficiente necesaria para alcanzar el
criterio de puerta trasera es el control deI, porqueIapareció como un no colisionador en cada
ruta de puerta trasera (ver antes). Literalmente, podría no ser más sencillo que ejecutar la
siguiente regresión:

Simplemente condicionandoI, tu estimado adquiere una causalidad


interpretación.4
Pero tal vez al escuchar esta historia y estudiarla usted mismo revisando la
literatura y la teoría económica que la rodea, se sienta escéptico ante este DAG.
Tal vez este DAG realmente te haya molestado desde el momento en que me
viste producirlo porque eres escéptico de queψno tiene relación conY excepto a
través deDoEDUCACIÓN FÍSICA. Ese escepticismo te lleva a creer que debería
haber unadirectoconexión deψaY, no meramente mediada por la propia
educación.

Tenga en cuenta que incluir esta nueva ruta de puerta trasera ha creado un
problema porque nuestra estrategia de condicionamiento ya no satisface el criterio
de puerta trasera. Incluso controlando porI, todavía existen correlaciones espurias
entreDy Ydebido a laD←ψ→Ycamino de puerta trasera. Sin más información sobre la
naturaleza deψ→Yyψ→D, no podemos decir mucho más sobre la correlación parcial
entreDyY. Simplemente no estamos legalmente autorizados a interpretar nuestra
regresión como el efecto causal deDenY.
Más ejemplos de sesgo del colisionador. La cuestión del condicionamiento de un
colisionador es importante, entonces, ¿cómo sabemos si tenemos ese problema o no?
Ningún conjunto de datos viene con una bandera que diga "colisionador" y "confusor".
Más bien, la única forma de saber si se ha cumplido el criterio de puerta trasera es con
un DAG, y un DAG requiere un modelo. Requiere un conocimiento profundo del proceso
de generación de datos para las variables de su DAG, pero también requiere descartar
rutas. Y la única manera de descartar vías es mediante la lógica y los modelos. No hay
forma de evitarlo: todo trabajo empírico requiere una teoría que lo guíe. De lo contrario,
¿cómo sabes si te has condicionado a un colisionador o a un no colisionador? Dicho de
otra manera, no se pueden identificar los efectos del tratamiento sin hacer suposiciones.

En nuestro DAG anterior con sesgo de colisionador, condicionamos alguna variableX


Ese era un colisionador, específicamente, era un descendiente deDyY. Pero ese es sólo
un ejemplo de colisionador. A menudo, los colisionadores ingresan al sistema de
maneras muy sutiles. Consideremos el siguiente escenario: De nuevo, dejemosDyY ser la
escolarización infantil y los ingresos futuros del niño. Pero esta vez introducimos tres
nuevas variables:Ud.1, que es la capacidad genética no observada del padre;Ud.2, que es
la capacidad genética no observada de la madre; yI, que es la renta familiar conjunta.
Asumir queIse observa pero queUd.ino se observa para ambos
padres.

Observe en este DAG que hay varias rutas de puerta trasera desdeDaY. Son
los siguientes:
1.D←Ud.2→Y
2.D←Ud.1→Y
3.D←Ud.1→I←Ud.2→Y
4.D←Ud.2→I←Ud.1→Y
Tenga en cuenta que los dos primeros son caminos de puerta trasera abierta y, como
tales, no se pueden cerrar, porqueUd.1 yUd.2 no se observan. Pero ¿y si controláramos
porI ¿de todos modos? Controlando porIsólo empeora las cosas, porque abre la tercera y
cuarta puerta trasera, comoIHabía un colisionador junto a ambos. No parece que
cualquierLa estrategia de acondicionamiento podría cumplir con el criterio de puerta
trasera en este DAG. Y cualquier estrategia que controle porIen realidad empeoraría las
cosas. El sesgo del colisionador es un concepto difícil de entender al principio, por lo que
he incluido un par de ejemplos para ayudarte a entenderlo.

Discriminación y sesgo de colisionador.. Examinemos un ejemplo del mundo real sobre


el problema de la discriminación de género en los mercados laborales. Es común
escuchar que una vez que se condiciona la ocupación u otras características de un
trabajo, la disparidad salarial entre géneros desaparece o se reduce. Por ejemplo, los
críticos afirmaron una vez que Google sistemáticamente pagaba menos a sus
empleadas. Pero Google respondió que sus datos mostraban que cuando se toma en
consideración “la ubicación, la permanencia, el puesto de trabajo, el nivel y el
desempeño”, el salario de las mujeres es básicamente idéntico al de los hombres. En
otras palabras, controlando por las características del trabajo, las mujeres recibieron el
mismo salario.
Pero ¿qué pasa si una de las formas en que la discriminación de género crea disparidades
de género en los ingresos es a través de la clasificación ocupacional? Si la discriminación
ocurre a través de la adecuación ocupacional, entonces los contrastes ingenuos de salarios
por género controlando las características de la ocupación probablemente subestimarán la
presencia de discriminación en el mercado. Permítanme ilustrar esto con un DAG basado en
un modelo de clasificación ocupacional simple con heterogeneidad no observada.

Obsérvese que, de hecho, el género femenino no tiene ningún efecto sobre los ingresos; Se supone
que las mujeres tienen una productividad idéntica a la de los hombres. Así, si pudiéramos
control por discriminación, obtendríamos un coeficiente de cero como en este ejemplo
porque las mujeres son, inicialmente, tan productivas como los hombres.5
Pero en este ejemplo, no nos interesa estimar el efecto de ser mujer
en los ingresos; Nos interesa estimar el efecto de la discriminación en sí.
Ahora se pueden ver varios caminos notables entre la discriminación y
los ingresos. Son los siguientes:
1.D→τ→Y
2.D→τ←A→Y

El primer camino no es un camino de puerta trasera; más bien, es un camino por el cual la
discriminación está mediada por la ocupación antes de que la discriminación tenga un efecto
sobre los ingresos. Esto implicaría que las mujeres son discriminadas, lo que a su vez afecta
los empleos que desempeñan y, como resultado de tener empleos marginalmente peores,
las mujeres reciben menos salario. El segundo camino se relaciona con ese canal pero es un
poco más complicado. En este camino, la capacidad no observada afecta tanto a los trabajos
que consiguen las personas como a sus ingresos.
Entonces digamos que retrocedemosYsobreD, nuestra variable de discriminación.
Esto produce el efecto total de la discriminación como la suma ponderada tanto del
efecto directo de la discriminación sobre los ingresos como del efecto mediado de la
discriminación sobre los ingresos a través de la clasificación ocupacional. Pero
digamos que queremos controlar la ocupación porque queremos comparar hombres
y mujeres en trabajos similares. Bueno, controlar la ocupación en la regresión cierra
el canal de mediación, pero luego abre el segundo canal. ¿Por qué? PorqueD→τ←A→Y
tiene un colisionadorτ. Entonces, cuando controlamos la ocupación, abrimos este
segundo camino. Se había cerrado porque los colisionadores cierran rutas de puerta
trasera, pero como lo condicionamos, en realidad lo abrimos. Ésta es la razón por la
que no podemos limitarnos a controlar
ocupación. Irónicamente, este control introduce nuevos patrones de sesgo.6
Lo que se necesita es controlar la ocupación y la capacidad, pero como la capacidad
no se observa, no podemos hacerlo y, por lo tanto, no poseemos una estrategia de
identificación que satisfaga el criterio de la puerta trasera. Miremos ahora
código para ilustrar este DAG.7
Esta simulación codifica el proceso de generación de datos representado por el DAG
anterior. Observe que la habilidad es una extracción aleatoria de la distribución normal
estándar. Por tanto, es independiente de las preferencias femeninas. Y luego tenemos
nuestras dos últimas variables generadas: las ocupaciones heterogéneas y sus salarios
correspondientes. Las ocupaciones están aumentando en capacidad no observada pero
disminuyendo en discriminación. Los salarios están disminuyendo en la discriminación,
pero aumentan en los empleos de mayor calidad y mayor capacidad. Por lo tanto,
sabemos que existe discriminación en esta simulación porque la estamos codificando de
esa manera con los coeficientes negativos tanto del proceso de ocupación como del de
salario.
Los coeficientes de regresión de las tres regresiones al final del código se presentan en
Tabla 9. En primer lugar, cabe señalar que cuando simplemente hacemos una regresión de
los salarios según el género, obtenemos un gran efecto negativo, que es la combinación del
efecto directo de la discriminación sobre los ingresos y el efecto indirecto a través de la
ocupación. Pero si ejecutamos la regresión que recomiendan Google y otros en la que
controlamos por ocupación, el signo de género cambia. Se vuelve
¡positivo! Sabemos que esto está mal porque codificamos el efecto del género para
que sea −1. El problema es que la ocupación es un colisionador. Es causada por la
capacidad y la discriminación. Si controlamos por ocupación, abrimos una puerta
trasera entre la discriminación y los ingresos que es espuria y tan fuerte que
pervierte toda la relación. De modo que sólo cuando controlamos por ocupación y
capacidad podemos aislar el efecto causal directo del género sobre los salarios.

Tabla 9.Regresiones que ilustran sesgos de confusión con disparidad de género simulada.

Selección de muestras y sesgo del colisionador.. Sin embargo, los malos controles no son el único tipo
de sesgo del colisionador al que hay que temer. El sesgo del colisionador también se puede incorporar
directamente a la muestra si la muestra en sí era un colisionador. Sin duda es un concepto extraño de
imaginar, así que tengo una ilustración divertida para aclarar lo que quiero decir.
Una publicación de blog de CNN de 2009 informó que Megan Fox, quien protagonizó
la películatransformadoresFue votada como la peor y más atractiva actriz de 2009 en una
encuesta sobre estrellas de cine [Piazza, 2009]. Se podría interpretar que la implicación
es que el talento y la belleza están correlacionados negativamente. ¿Pero lo son? ¿Y por
qué podrían serlo? ¿Qué pasa si en realidad son independientes entre sí pero están
correlacionados negativamente en una muestra de estrellas de cine debido a
¿sesgo del colisionador? ¿Es eso siquiera posible?8
Para ilustrar, generaremos algunos datos basados en el siguiente DAG:
Ilustremos esto con un programa simple.
Figura 12muestra el resultado de esta simulación. El panel inferior izquierdo muestra
el diagrama de dispersión entre talento y belleza. Observe que las dos variables son
extracciones aleatorias e independientes de la distribución normal estándar, lo que crea
una nube de datos oblonga. Pero como “estrella de cine” se encuentra en el percentil 85
superior de la distribución de una combinación lineal de talento y belleza, la muestra
está formada por personas cuya puntuación combinada se encuentra en la parte
superior derecha de la distribución conjunta. Esta frontera tiene una pendiente negativa
y se encuentra en la parte superior derecha de la nube de datos, lo que crea una
correlación negativa entre las observaciones de la muestra de estrellas de cine.
Asimismo, el sesgo del colisionador ha creado una correlación negativa entre el talento y
belleza también en la muestra que no es estrella de cine. Sin embargo,
sabemos que en realidad existeNorelación entre las dos variables. Este tipo de
selección de muestras crea correlaciones espurias. Una muestra aleatoria de
toda la población sería suficiente para demostrar que no existe relación entre
las dos variables, pero al dividir la muestra sólo en estrellas de cine,
introducimos correlaciones espurias entre las dos variables de interés.

Figura 12.Aspirantes a actores y actrices.


σota: Arriba a la izquierda: diagrama de dispersión de muestra de belleza (eje vertical) y talento (eje horizontal) de muestras no estelares. Arriba a la derecha:

diagrama de dispersión de muestra de belleza y talento en forma de estrella. Abajo a la izquierda: diagrama de dispersión de muestra completo (estrellas y no

estrellas combinados) de belleza y talento.

Sesgo de activistas y uso de la fuerza por parte de la policía.. Conocemos los problemas de la
selección de muestras no aleatorias desde hace décadas [Heckman, 1979]. Pero los DAG aún
pueden ser útiles para ayudar a detectar lo que de otro modo podrían ser casos sutiles de
condicionamiento en colisionadores [Elwert y Winship, 2014]. Y dado el omnipresente
aumento del acceso de los investigadores a grandes bases de datos administrativas, también
es probable que se necesite algún tipo de razonamiento guiado teóricamente.
para ayudarnos a determinar si las bases de datos que tenemos están plagadas de sesgo de
colisionador. Un debate contemporáneo podría ayudar a ilustrar lo que quiero decir.
La preocupación pública por la discriminación sistemática de los agentes de policía contra
las minorías ha llegado a un punto de ruptura y ha llevado al surgimiento del movimiento
Black Lives Matter. Los episodios de “justicia vigilante”, como el asesinato del adolescente
Trayvon Martin por parte de George Zimmerman, así como los asesinatos policiales de
Michael Brown, Eric Garner y muchos otros, sirvieron como catalizadores para crear
conciencia sobre la percepción de que los afroamericanos enfrentan mayores riesgos de
sufrir tiroteos. Fryer [2019] intentó determinar el grado de prejuicio racial en el uso de la
fuerza por parte de la policía. Ésta es quizás una de las cuestiones más importantes en
materia policial en el momento de la publicación de este libro.
Sin embargo, existen varios desafíos empíricos críticos al estudiar los prejuicios raciales
en el uso de la fuerza por parte de la policía. El principal problema es que todos los datos
sobre las interacciones entre la policía y los ciudadanos están condicionados a que ya haya
ocurrido una interacción. Los datos mismos se generaron en función de interacciones
anteriores entre la policía y los ciudadanos. En este sentido, podemos decir que los datos en
sí son endógenos. Fryer [2019] recopiló varias bases de datos que esperaba que nos
ayudaran a comprender mejor estos patrones. Dos eran conjuntos de datos de uso público:
la base de datos Stop and Frisk de la ciudad de Nueva York y la Encuesta de contacto entre la
policía y el público. El primero era del Departamento de Policía de Nueva York y contenía
datos sobre detenciones policiales e interrogatorios de peatones; si la policía quisiera, podría
cachearlos en busca de armas o contrabando. Esta última fue una encuesta de civiles que
describían las interacciones con la policía, incluido el uso de la fuerza.

Pero dos de los conjuntos de datos eran administrativos. El primero fue una
recopilación de resúmenes de eventos de más de una docena de grandes ciudades y
grandes condados de los Estados Unidos de todos los incidentes en los que un oficial
disparó un arma contra un civil. El segundo fue una muestra aleatoria de
interacciones entre policías y civiles del Departamento de Policía de Houston. La
acumulación de estas bases de datos fue, sin lugar a dudas, una tarea empírica
gigantesca. Por ejemplo, Fryer [2019] señala que los datos de Houston se basaron en
relatos de arrestos que tenían entre dos y cien páginas de extensión. A partir de
estos relatos de arresto, un equipo de investigadores recopiló casi trescientas
variables relevantes para el uso policial de la fuerza en el incidente. Sin embargo,
este es el mundo en el que vivimos ahora. Es más fácil que nunca acceder a las bases
de datos administrativas y están ayudando a romper la caja negra de muchos
procesos sociales opacos.
Es importante tener en cuenta algunos hechos. En primer lugar, utilizando los datos de parar y
registrar, Fryer descubre que los negros y los hispanos tenían más del 50 por ciento más de
probabilidades de tener una interacción con la policía en los datos sin procesar. La diferencia
racial sobrevive al condicionamiento de 125 características de referencia, características de
encuentro, comportamiento civil, recinto y efectos fijos de año. En su modelo completo, los
negros tienen un 21 por ciento más de probabilidades que los blancos de estar involucrados en
una interacción con la policía en la que se saca un arma (lo cual es estadísticamente significativo).
Estas diferencias raciales también aparecen en la Encuesta de contacto entre la policía y el
público, sólo que aquí las diferencias raciales son considerablemente mayores. Entonces, lo
primero que hay que tener en cuenta es que la parada real parece ser mayor para las minorías,
sobre lo cual volveré en un momento.
Las cosas se vuelven sorprendentes cuando Fryer pasa a sus ricas fuentes de datos
administrativos. Encuentra que, condicionada a la interacción policial, no hay diferencias
raciales en los tiroteos en los que participan agentes. De hecho, controlando la
demografía de los sospechosos, la demografía de los oficiales, las características del
encuentro, el arma sospechosa y los efectos fijos del año, los negros tienen un 27 por
ciento menos de probabilidades de recibir disparos de la policía que los no hispanos. El
coeficiente no es significativo y aparece en especificaciones y cortes de datos
alternativos. Con estos datos, Fryer simplemente no puede encontrar pruebas de
discriminación racial en tiroteos en los que participaron agentes.
Uno de los principales puntos fuertes del estudio de Fryer es el cuero del zapato que
utilizó para acumular las fuentes de datos necesarias. Sin datos, no se puede estudiar la
cuestión de si la policía dispara más a las minorías que a los blancos. Y la extensa
codificación de la información de las narrativas también es una ventaja, ya que le brindó
a Fryer la capacidad de controlar los factores de confusión observables. Pero el estudio
no está exento de problemas que podrían hacer que un escéptico se muestre en
desacuerdo. Quizás los departamentos de policía más dispuestos a cooperar con un
estudio de este tipo sean los que tienen menos prejuicios raciales, por ejemplo. En otras
palabras, tal vez estos no sean los departamentos con el sesgo racial para
empezar con.9O tal vez exista una explicación más siniestra, como que los registros
no sean confiables porque los administradores borran los datos sobre tiroteos por
motivos raciales antes de entregárselos por completo a Fryer.
Pero me gustaría discutir una posibilidad más inocente, una que no requiere teorías de
conspiración y, sin embargo, es un problema tan básico que, de hecho, es más preocupante.
Quizás la fuente de datos administrativa sea endógena debido al condicionamiento de un
colisionador. Si es así, entonces los datos administrativos en sí pueden tener el sesgo racial
incorporado desde el principio. Déjame explicarte con un DAG.
Fryer demostró que las minorías tenían más probabilidades de ser detenidas
utilizando tanto los datos de detención y cacheo como la Encuesta de contacto entre la
policía y el público. Entonces ya sabemos que elD→εcamino existe. De hecho, fue una
correlación muy sólida entre múltiples estudios. Las minorías tienen más probabilidades
de tener un encuentro con la policía. El estudio de Fryer introduce amplios controles
sobre la naturaleza de la interacción, la hora del día y cientos de factores que he
capturado conX. Controlando porXpermite a Fryer cerrar esta ruta de puerta trasera.
Pero avisoε—la parada misma. Todos los datos administrativos están condicionados a
una parada. Fryer [2019] lo reconoce desde el principio: “A menos que se indique lo
contrario, todos los resultados están condicionados a una interacción. Comprender la
posible selección en conjuntos de datos policiales debido al sesgo en cuanto a con quién
interactúa la policía es una tarea difícil” (3). Sin embargo, lo que este DAG muestra es que
si la policía detiene a personas que cree que son sospechosasyusar la fuerza contra
personas que consideran sospechosas, entonces condicionar la detención esequivalente
al acondicionamiento en un colisionador. Se abre elD→ε←Ud.→Ycamino mediado, que
introduce patrones espurios en los datos que, dependiendo de los signos de estas
asociaciones causales, pueden distorsionar cualquier relación verdadera entre la policía
y las diferencias raciales en los tiroteos.
Dean Knox, Will Lowe y Jonathan Mummolo son un talentoso equipo de politólogos
que estudian la actuación policial, entre otras cosas. Produjeron un estudio que revisó la
pregunta de Fryer y, en mi opinión, ambos arrojaron nuevas pistas sobre el papel del
prejuicio racial en el uso de la fuerza por parte de la policía y los desafíos de utilizar
fuentes de datos administrativos para hacerlo. Considero que Knox et al. [2020] uno de
los estudios metodológicamente más útiles para comprender este problema e intentar
resolverlo. El estudio debería ser ampliamente leído por cadainvestigador aplicado cuyo
trabajo diario implica trabajar con propietarios
conjuntos de datos administrativos, porque este DAG puede ser, de hecho, un
problema más general. Después de todo, las fuentes de datos administrativos ya son
muestras seleccionadas y, dependiendo de la pregunta del estudio, pueden
constituir un problema de colisionador del tipo descrito en este DAG. Los autores
desarrollan un procedimiento de corrección de sesgos que pone límites a la
gravedad de los problemas de selección. Al utilizar este enfoque límite, encuentran
que incluso las estimaciones más bajas de la incidencia de la violencia policial contra
civiles son hasta cinco veces mayores que un enfoque tradicional que ignora por
completo el problema de selección de la muestra.
Es incorrecto decir que los problemas de selección de muestras eran
desconocidos sin los DAG. Los conocemos y hemos tenido algunas soluciones
limitadas al menos desde Heckman [1979]. Lo que he intentado mostrar aquí es
más general. Un enfoque ateórico del empirismo simplemente fracasará. Ni
siquiera el “big data” lo solucionará. La inferencia causal no se resuelve con más
datos, como sostengo en el próximo capítulo. La inferencia causal requiere
conocimiento sobre los procesos conductuales que estructuran los equilibrios en
el mundo. Sin ellos, no se puede esperar diseñar una estrategia de identificación
creíble. Ni siquiera los datos sustituyen el conocimiento institucional profundo
sobre el fenómeno que se está estudiando. Eso, por extraño que parezca, incluye
incluso los procesos conductuales que generaron lamuestrasestás usando en
primer lugar. Simplemente debe tomar en serio la teoría del comportamiento
que está detrás del fenómeno que está estudiando si espera obtener
estimaciones creíbles de los efectos causales. Y los DAG son una herramienta útil
para entender y expresar esos problemas.

ωonclusión. En conclusión, los DAG son herramientas poderosas.10Son útiles tanto


para aclarar las relaciones entre variables como para guiarlo en un diseño de
investigación que tenga la oportunidad de identificar un efecto causal. Los dos
conceptos que analizamos en este capítulo (el criterio de puerta trasera y el sesgo
del colisionador) son sólo dos cosas que quería llamar su atención. Y dado que los
DAG se basan en formas de razonamiento contrafactuales, encajan bien con el
modelo de resultados potenciales que analizo en el próximo capítulo.

Notas
1Volveré a analizar a los Wright en el capítulo sobre variables instrumentales. Eran una pareja
interesante.
2Si encuentra interesante este material, le recomiendo Morgan y Winship [2014], un libro excelente en
todos los aspectos sobre inferencia causal y, especialmente, sobre modelos gráficos.
3Sin embargo, omito algunos de esos detalles porque su presencia (generalmente solo términos de error
que apuntan a las variables) satura el gráfico innecesariamente.
4Los capítulos siguientes analizan otros estimadores, como el emparejamiento.
5Sin embargo, la productividad podría divergir si las mujeres seleccionan sistemáticamente ocupaciones de menor calidad en
las que el capital humano se acumula con el tiempo a un ritmo menor.
6Angrist y Pischke [2009] hablan de este problema de una manera diferente utilizando un lenguaje llamado “malos
controles”. Los malos controles no condicionan simplemente los resultados. Más bien, son cualquier situación en la que el
resultado haya sido un colisionador que vincule el tratamiento con el resultado de interés, como
D→τ←A→Y.
7Erin Hengel es profesora de economía en la Universidad de Liverpool. Ella y yo estábamos hablando de esto
en Twitter un día, y ella y yo escribimos el código que describe este problema. Su código era mejor, así que le
pregunté si podía reproducirlo aquí y dijo que sí. El trabajo de Erin se centra en parte en la discriminación de
género. Puedes ver algo de ese trabajo en su sitio web enhttp://www.erinhengel.com.
8IdesearHabía pensado en este ejemplo, pero desgraciadamente el sociólogo Gabriel Rossman se lleva todo el mérito. 9No
simpatizo con esta afirmación. Los datos administrativos provienen de grandes ciudades de Texas, un gran condado de
California, el estado de Florida y varias otras ciudades y condados en los que se ha informado de prejuicios raciales.

10Hay mucho más sobre los DAG de lo que he cubierto aquí. Si está interesado en aprender
más sobre ellos, le invito a leer atentamente Pearl [2009], que es su obra maestra y una
importante contribución a la teoría de la causalidad.

También podría gustarte