Está en la página 1de 50

Traducido del inglés al español - www.onlinedoctranslator.

com

70 Variables instrumentales

el nuevo tratamiento farmacológico al “estándar de atención”. La diferencia medida en las tasas


de supervivencia entre el nuevo fármaco y el estándar de atención es el efecto del tratamiento.
La adición de la palabra "promedio" sugiere que el efecto del tratamiento varía entre los
pacientes.
Si el efecto del tratamiento es heterogéneo, el enfoque de la variable
instrumental no es válido. El enfoque no permite que la variable instrumental afecte
sistemáticamente a la variable de política de una manera que esté relacionada con el
resultado. No podemos medir el efecto promedio del tratamiento si eltuyZ
interactuar para afectarX. Pero no todo puede estar perdido. En algunos casos
podemos interpretar la estimación como el efecto promedio para un subconjunto de
la población (Tarjeta,2001). Esta estimación se llamaEfecto de tratamiento promedio
localo TARDE. El econometrista de Stanford, Guido Imbens, argumenta que TARDE
es mejor que nada (Imbens,2010).

3.6.2 Efecto Promedio Local del Tratamiento

Suponga que hay cuatro grupos de personas. Estos cuatro grupos se caracterizan por la
probabilidad de que acepten el tratamiento correspondiente al instrumento. Es importante
destacar que no observamos en qué grupo se encuentra una persona en particular.

1. Cumplidores: Pr(X=1|Z=1,C) = Pr(X=0|Z=0,C) = 1


2. Siempre tomadores: Pr(X=1|Z=1,A) = Pr(X=1|Z=0,A) = 1
3. Nunca Tomadores: Pr(X=0|Z=1,NORTE) = Pr(X=0|Z=0,NORTE) = 1
4. Desafiadores: Pr(X=0|Z=1,D) = Pr(X=1|Z=0,D) = 1
Tanto la variable de política (X) y el instrumento (Z) son 0 o 1. En el ejemplo de
retornos a la educación,Xpuede representar la asistencia a la universidad
mientrasZ representa si el joven vive cerca de una universidad o no.
Los cuatro tipos son obedientes, siempre tomadores, nunca tomadores y desafiantes.
Un cumplidor es una persona que asiste a la universidad (X=1) si viven cerca de una
universidad (Z=1) pero no asiste a la universidad (X=0) si viven lejos de una universidad (Z=
0). Este grupo “cumple” con el tratamiento asignado. Un siempre tomador asiste a la
universidad (X=1) independientemente de donde vivan (Z∈ {0,1}). Un nunca tomador,
nunca asiste a la universidad (X=0). Finalmente, un desafiante asiste a la universidad (X=1)
si viven lejos de una universidad (Z=0), pero no asiste a la universidad (X=0) si viven cerca
de una universidad (Z=1).
No se espera que estos grupos sean inmutables. Más bien están determinados por la
economía. La distancia a la universidad es un “precio”. Es parte del precio o costo de
asistir a una universidad en particular. Si cambia el precio, cambia la demanda. Sin
embargo, solo algunas personas cambian su demanda del producto cuando cambia el
precio. Algunas personas siguen comprando el producto al nuevo precio y otras nunca
compran el producto, sin importar el precio. Dicho esto, pocas personas compran más
cuando aumenta el precio.
Para cada tipo, podemos anotar el efecto de intención de tratar siguiendo el
Mejor TARDE que Nada 71

Ley de Expectativa Total.13

MI(Y |Z=1)−MI(Y |Z=0)


∑ = (3.14)
T∈{CANDÓ}(MI(Y |Z=1, T)−MI(Y |Z=0, T)) Pr(T)

dóndeTrepresenta uno de nuestros cuatro grupos. La intención incondicional de tratar es


un promedio ponderado de la intención de tratar de cada grupo, ponderada por la
fracción de población de cada grupo.
Podemos escribir el resultado esperado condicional al instrumento y al tipo a
través de la misma ley.

MI(Y |Z=1, T) =MI(Y |Z=1,X=1, T) Pr(X=1|Z=1, T)


(3.15)
+ mi(Y |Z=1,X=0, T) Pr(X=0|Z=1, T)

La renta esperada condicionada al instrumento es un promedio de la renta esperada


condicionada tanto al instrumento como a la asignación del tratamiento, ponderada
por la probabilidad de recibir la asignación del tratamiento condicionada al
instrumento.
El efecto deZenYessolamentemedianteX. Por definición, una vez que
conocemos el valor de la variable de política, el valor del instrumento es
irrelevante. Bajo el supuesto de queZes un instrumento que tenemos queMI(Y |
X=1,Z=1) = MI(Y |X=1,Z=0) =MI(Y |X=1).
Esto implica lo siguiente para nuestra intención de tratar estimaciones para cada grupo.

MI(Y |Z=1,C)−MI(Y |Z=0,C) =MI(Y |X=1,C)−MI(Y |X=0,C) MI(Y |Z=1,A)−MI(


Y |Z=0,A) =MI(Y |X=1,A)−MI(Y |X=1,A) = 0 MI(Y |Z=1,NORTE)−MI(Y |Z=0
,NORTE) =MI(Y |X=0,NORTE)−MI(Y |X=0,NORTE) = 0 MI(Y |Z=1,D)−MI(Y |
Z=0,D) =MI(Y |X=0,D)−MI(Y |X=1,D)
(3.16)
Para dos de los tipos, la intención de tratar la regresión es cero. Eso deja a los obedientes
y desafiantes. Dada la suposición adicional de que no hay desafiantes (Pr(D) = 0) (también
llamado supuesto de monotonicidad), observamos la intención de tratar para los
cumplidores.
Dado que podemos observar la fracción de cumplidores, tenemos el resultado

MI(Y |Z=1)−MI(Y |Z=0)


MI(Y |X=1,C)−MI(Y |X=0,C) =
pr(X=1|Z=1)−pr(X=1|Z=0)
(3.17)
Tenga en cuenta que el valor en la parte inferior de la fracción es el porcentaje de cumplidores.
Solo los que siempre toman y los que cumplen asisten a la universidad, y el número de siempre
que toman no cambia con el valor del instrumento. Cualquier cambio en la asistencia a la
universidad asociado con un cambio en el valor del instrumento se debe entonces a los
cumplidores.

13Siempre podemos escribir la probabilidad de un evento como una suma ponderada de todas las
probabilidades condicionales del evento. es decir, pr(A) = Pr(A|B) Pr(B) + PR(aire acondicionado) Pr(C), donde
Pr(B) + PR(C) = 1.
72 Variables instrumentales

Esta fracción es la versión discreta de la estimación IV presentada anteriormente.


La estimación LATE es una interpretación alternativa de la estimación original.

3.6.3 Estimador TARDE


Es sencillo derivar el estimador LATE de la Ecuación (3.17). es simplemente
elintención de tratardividido por el efecto deZenX.
El análogo empírico de la parte superior de la fracción es el siguiente.

∑norte

µ̂y1= ∑i=1yi1(zi=1) (3.18)


i=11(zi=1)
norte

y ∑norte

µ̂y0= ∑i=1yi1(zi=0) (3.19)


i=11(zi=0)
norte

dónde1()es una función indicadora. Esta función es 1 si el valor entre paréntesis


es verdadero, 0 si es falso.
También podemos escribir los estimadores analógicos para las dos probabilidades inferiores.

∑norte
i=11(Xi=1 yzi=1)
pags
1̂1= ∑norte (3.20)
i=11(zi=1)

y ∑norte
i=11(Xi=1 yzi=0)
pags
10= ∑norte (3.21)
i=11(zi=0)

Poniendo todo esto junto, tenemos el estimador LATE.

µ̂y1 − µ̂ y0
µ̂TARDE= (3.22)
pags11− p̂10

3.6.4 Estimaciones LATE de retornos a la escolarización

Para usar el enfoque LATE necesitamos hacer de la educación una variable binaria.
Esto se hace dividiendo la población entre los que van a la universidad y los que no.
Se supone que todas las personas con más de 12 años de educación van a la
universidad.
El estimador LATE obtenido anteriormente se codifica a continuación. Tenga en cuenta que
significar()de una variable binaria da la probabilidad.

> X2 <- X[,1] > 12 # indicador universitario


> # usando la proximidad universitaria como instrumento.
> mu_y1 <- media(y[Z1[,1]==1])
> mu_y0 <- media(y[Z1[,1]==0])
> p_11 <- media(X2[Z1[,1]==1])
> p_10 <- media(X2[Z1[,1]==0])
Discusión y lecturas adicionales 73

> # LATE, divide por 4 para obtener el efecto por año


> ((mu_y1 - mu_y0)/(p_11 - p_10))/4

[1] 0.3196679

> # esto permite la comparación con las estimaciones de MCO.


>
> # usando vivir con ambos padres como instrumento.
> mu_y1 <- media(y[Z2[,1]==1])
> mu_y0 <- media(y[Z2[,1]==0])
> p_11 <- media(X2[Z2[,1]==1])
> p_10 <- media(X2[Z2[,1]==0])
> ((mu_y1 - mu_y0)/(p_11 - p_10))/4

[1] 0.1772967

Podemos comparar la LATE para los dos instrumentos propuestos. La estimación del efecto
anual promedio de asistir a la universidad es 0.32 utilizando la proximidad a la universidad. Es
0,18 utilizando como instrumento la convivencia con ambos padres. Estas estimaciones son
mucho más grandes que las estimaciones de MCO. Tenga en cuenta que no hemos controlado
otras características observadas del individuo, como la edad, la raza, etc.Cuadro 3.3muestra que
aquellos individuos que crecen cerca de las universidades tienen una serie de otras
características observadas asociadas con mayores ingresos.
La variación en las estimaciones de LATE sugiere que los retornos a la educación son
heterogéneos. Aquellos cuya asistencia a la universidad se ve afectada por la distancia a la universidad
obtienen rendimientos muy altos. Mientras que aquellos que se ven afectados por tener a ambos
padres en casa obtienen rendimientos universitarios más bajos. VerKédagni(2017) para una discusión
de este tema.

3.7 Discusión y lecturas adicionales


IV se ha convertido en una técnica estándar en microeconometría. Permite al
investigador debilitar la suposición de que la variable política esindependiente de
características no observadas.
El uso de OLS puede dar lugar a estimaciones sesgadas. Tal vez haya unrelación de
puerta traseraentre la variable de política y la variable de resultado de interés. En el
capítulo anterior, resolvimos el sesgo estimando directamente la ruta de la puerta
trasera. No podemos usar ese método aquí porque no observamos la característica no
observada. En su lugar, podemos utilizar variables instrumentales.
Las variables instrumentales se pueden considerar como un "dispositivo de
aleatorización". Hacen que los individuos obtengan más o menos educación por razones
ajenas a los ingresos que recibirán. Usando variables instrumentales, podemos estimar el
efecto causal de la variable de política sobre el resultado de interés en dos pasos.
74 Variables instrumentales

En el primer paso estimamos elintención de tratar la regresión.Es decir, hacemos una


regresión del resultado de interés en elvariable instrumental.Esto nos da una respuesta
incorrecta, pero podemos obtener la respuesta correcta dividiendo la intención de tratar
por el resultado de una regresión de la variable de política en el instrumento. El capítulo
muestra que esta idea de "división" se puede generalizar a múltiples variables usando
álgebra matricial.
Tarjeta(1995) argumenta que podemos obtener estimaciones no sesgadas de los rendimientos de
la educación utilizando la "distancia a la universidad" como instrumento. El argumento es que vivir
más cerca de una universidad reduce el costo de asistir a la universidad y, por lo tanto, aumenta las
probabilidades de que la persona asista. Las estimaciones IV de los retornos a la educación son
aproximadamente el doble de las estimaciones OLS.
IV requiere suposiciones sólidas y los investigadores deben tener cuidado al
elegir los instrumentos. El capítulo presenta una forma de probar la validez del
instrumento. También presenta la idea de Estimación de Tratamiento Promedio
Local (LATE). LATE permite al econométrico relajar la suposición de que la
característica no observada tiene un efecto aditivo en el resultado de interés. Sin
embargo, no está claro si la estimación LATE proporciona información valiosa al
formulador de políticas.Imbens(2010) presenta un lado del debate sobre el valor de
LATE.Kédagni(2017) considera lo que se puede decir cuando se relajan los supuestos
IV.
El siguiente capítulo analiza un enfoque alternativo sin los fuertes supuestos del
método IV.Capítulo 6presenta un enfoque relacionado que utiliza para estimar los
rendimientos de la educación, el modelo de selección de Heckman.Capítulo 8 presenta el
enfoque del método generalizado de momentos para la estimación IV de los retornos a la
escolaridad.
4
Estimación de límites

4.1 Introducción
En los primeros tres capítulos estimamos, o intentamos estimar, un solo valor de
interés. Este capítulo considera situaciones en las que no podemos o no queremos
estimar un valor único para el parámetro de política de interés. En cambio, el
capítulo considera casos en los que estamos limitados a estimar un rango de
valores. Estamos interesados en usar los datos para estimar lalímitesen el
parámetro de política de interés.
Es una práctica estándar en econometría presentar laefecto promedio del tratamiento
(COMIÓ). Esta estimación proporciona al formulador de políticas el impacto promedio de
la política sitodo el mundoiba a recibir la póliza. Es decir, si todos pasan de no asistir a la
universidad a asistir a la universidad, la ATE predice lo que sucedería. Daría un ejemplo,
pero no puedo pensar en uno. En general, las políticas no funcionan así. Considere la
política de hacer que las universidades estatales públicas sean gratuitas. Tal política
alentaría a más personas a asistir a la universidad, pero un montón de gente ya estaba
asistiendo a la universidad y un montón de gente no asistirá a la universidad, incluso si es
gratis. ¿Qué nos dice la ATE que sucederá con aquellos que recién se animan a ir a la
universidad? No mucho.
Si asistir a la universidad tiene el mismo efecto en todos, entonces el ATE brinda
información útil. Si todos tienen el mismo efecto de tratamiento, el promedio debe ser
igual al efecto de tratamiento. La dificultad surge cuando diferentes personas obtienen
un valor diferente de ir a la universidad. Es decir, siempre surge la dificultad.
Este capítulo considera dos implicaciones. En el primer caso, los datos permiten
estimar la ATE, pero preferiríamos conocer la distribución del efecto de política. En
general, no podemos estimar esta distribución. Sin embargo, podemos encuadernarlo.
Estos límites se basan en una conjetura del gran matemático soviético Andrey
Kolmogorov. El capítulo explica cómo elLímites de Kolmogorovtrabajo y cuando
proporcionan información útil al responsable de la formulación de políticas. Estos límites
se ilustran mediante el análisis de un ensayo controlado aleatorio sobre el efecto de los
dispositivos de "ahorro de compromiso".
En el segundo caso, los datos no permiten estimar la ATE. O más exactamente,
no estamos dispuestos a hacer las suposiciones no creíbles necesarias para estimar
la ATE. El econometrista de Northwestern, Charles Manski, argumenta que los
econometristas están demasiado dispuestos a presentar estimaciones basadas en
suposiciones no creíbles. Manski demuestra que es más débil pero más creíble

75
76 Estimación de límites

las suposiciones a menudo conducen a una variedad de estimaciones. Él sugiere que


presentar un rango de estimaciones es mejor que proporcionar una tontería estimada
con precisión. El capítulo presenta lalímites naturalesy analiza cómo los supuestos
pueden reducir el rango de estimaciones del efecto de la política. El capítulo ilustra estas
ideas estimando si más armas reducen el crimen.

4.2 Resultados potenciales


La campaña AOC 2028 le ha encomendado que calcule el impacto probable de una propuesta
para hacer que la matrícula de las universidades públicas estatales sea gratuita.1Su colega tiene
la tarea de estimar cuántas personas más asistirán a la universidad una vez que sea gratuita.
Debe averiguar qué sucede con los ingresos de aquellos que eligen ir a la universidad, ahora
que es gratis. Necesitas estimar elefecto del tratamientode la universidad

4.2.1 Modelo de Resultados Potenciales


Considere una versión simple del problema. Hay dos resultados posibles.
Está el ingreso que recibe el individuo si asiste a la universidad (yi(1)) y los
ingresos que recibirían si no asistieran a la universidad (yi(0)).

yi(Xi) =a+biXi+υi (4.1)

dóndeyies individualilos ingresos deXi∈ {0,1}es individual o noi asiste a la universidad yυi
representa alguna característica no observada que también afecta a los individuosilos
ingresos de . El efecto del tratamiento está representado porbiy esto puede variar entre
los individuos.
Estamos interesados en determinar el efecto del tratamiento para cada individuo.i.

bi=yi(1)−yi(0) (4.2)

Esta es la diferencia entre los dos resultados posibles para cada individuo.

4.2.2 Simulación de Datos Imposibles


Imagine que tiene acceso al conjunto de datos imposiblemente bueno creado a continuación
(en realidad, solo un conjunto de datos imposible). Los datos proporcionan información sobre el
resultado del individuo simulado (y) porambas cosastratamientos (X=0 yX=1). Esto es
equivalente a conocer los ingresos de un individuo tanto para el caso en que fue a la
universidad como para el caso en que no fue a la universidad. Estos resultados contrafácticos se
denominanresultados potenciales (Frotar,1974).

1Alexandria Ocasio-Cortez a menudo se conoce como AOC.


Resultados potenciales 77

> set.seed(123456789)
> n <- 200
> un <- 2
> b <- norma(N,media=2,sd=3)
> # esto crea variación en la pendiente con un promedio
> # efecto de 2.
> x0 <- rep(0,N) # crea un vector de ceros
> x1 <- rep(1,N)
> u <- norma(N)
> y <- a + b*cbind(x0,x1) + u
> # y es una matriz, [a + u, a + b + u]
> # rep crea un vector repitiendo el primer número por el
> # cantidad del segundo número.

Figura 4.1presenta las funciones de densidad, las medias y las funciones de distribución
acumulada de los dos posibles resultados de los datos simulados. La figura sugiere que los
individuos generalmente tienen mejores resultados cuandoX=1. Dejay ser ingresos yX=1 ser
asistencia a la universidad. ¿Crees que esto es evidencia de que las personas ganan más dinero
porque asisten a la universidad? La media de la distribución de los ingresos de los que asisten a
la universidad es mucho más alta que la media de la distribución de los ingresos de los que no
asisten a la universidad. Suponiendo que estos datos simulados representaran datos reales,
¿debería AOC 2028 usar estos resultados como evidencia para hacer que la universidad sea
gratuita?
Una preocupación es que las dos distribuciones se superponen. Además, las funciones de
distribución acumulativa se cruzan. Puede haber individuos en los datos que en realidad estén
mejor siX=0. El estudiante promedio que asiste a la universidad gana más que el estudiante
promedio que no asiste a la universidad, pero algunos pueden ganar menos si van a la
universidad. Podemos determinar si esto ocurre observando la distribución conjunta de los
posibles resultados. Veremos que el cruce observado enFigura 4.1implica que algunas
personas están mejor siX=0 mientras que otros están mejor siX=1.

4.2.3 Distribución del efecto del tratamiento


ecuación (4.2) establece que el efecto del tratamiento puede variar entre individuos.
Si lo hace, entonces tiene una distribución.Figura 4.2presenta la densidad y la
función de distribución acumulada para la diferencia en el resultado si el individuo
asistió a la universidad y si no lo hizo. La distribución muestra que el efecto del
tratamiento varía entre los individuos. Es heterogéneo. Además, el efecto de la
universidad puede aumentar o disminuir los ingresos, según el individuo.
78 Estimación de límites

> par(mfrow=c(2,1)) # crea un diagrama de panel simple


> par(mar=c(2,4,0.5,0.5)) # ajusta los márgenes entre parcelas.
> parcela(densidad(y[,1]),tipo="l",lwd=5,xlim=rango(y),
+ ylab="densidad",principal="")
> lineas(densidad(y[,2]),lwd=2)
> abline(v=colMeans(y),lwd=c(5,2))
> leyenda ("arriba a la derecha", c ("Sin universidad", "Universidad"), lwd = c (5,2))
> plot(ecdf(y[,1]), xlim=rango(y),main="",do.puntos=FALSO,
+ lwd=5,xlab="y")
> lineas(ecdf(y[,2]),lwd=2,do.points=FALSO)
> # función de distribución acumulada empírica ecdf.

Sin colegio
0.30

Colega
0.20
densidad

0.10
0.00

−2 0 2 4 6 8 10
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

−2 0 2 4 6 8 10

FIGURA 4.1
Densidad y distribución de probabilidad acumulada de resultados potenciales. los
las líneas verticales son los resultados potenciales medios.
Efecto de tratamiento promedio 79

0.12
0.08
Densidad

0.04
0.00

−5 0 5 10
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

−5 0 5 10

FIGURA 4.2
Densidad y cu distribución de probabilidad emulativa del tratamientoefecto es la
distribución de e la diferencia entre los ingresos si el individuo en si universidad tiende
y los ingresos mino lo hacen. Las líneas verticales son donde el tre efecto de atención
es 0

4.3 Promedio gramo


e Efecto del tratamiento

losefecto promedio del tratamiento (ATE) ocupa un cargo especial en econometría y


estadística. Una posible razón es que mide la diferencia promedio en los resultados
potenciales. Eso es realmente bastante bueno dado que fuera de nuestro
imposible ata no podemos observar la diferencia en ptu potencial llega Cómo
podemos medir tu¿Es el promedio de algo que no podemos observar?

4.3.1 ATE y su derivación


> # media o F la diferencia vs diferencia de las medias ]-y[,1])
> media(y[, 2== media(y[,2]) - media(y[,1])
80 Estimación de límites

[1] VERDADERO

La media de la diferencia es igual a la diferencia de las medias. No podemos observar la


diferencia en los resultados del tratamiento. Pero podemos observar los resultados de cada
tratamiento por separado. Podemos observar los resultados medios para cada tratamiento.
Esta ingeniosa parte de las matemáticas es posible porque los promedios son operadores
lineales.
Podemos escribir la diferencia esperada en los resultados potenciales por la Ley de
Expectativas Totales.
∫ ∫
MI(Y1− Y0) = (y1−y0)F(y1|y0)F(y0)dy1dy0 (4.3)
y0 y1

dóndeYXse refiere al resultado que ocurre si el individuo recibe tratamiento X.


Es el resultado potencial deX.
El resto se deriva de la manipulación de las expectativas condicionales.
∫ (∫ )
MI(Y1− Y0) = y0 y1 sif
1 (yy)1y|-0d1 y0 F(y0)dy0
∫ (∫ ) ∫
= y0 y1 sif 1 ( y 1| 0y∫ ) dy1 F(y)0dy0− y0 y0F(y0)dy0 (4.4)

= y1 sif
1 ( y 1)dy 1−
y 0 y0F(y0 ) dy0
=MI(Y1)−MI(Y0)

Frotar(1974) presenta la derivación en la Ecuación (4.4). Señala que si podemos estimar


cada uno de los resultados potenciales promedio, entonces tenemos una estimación del
efecto promedio del tratamiento.
Pero, ¿podemos estimar el resultado potencial promedio?

4.3.2 Operadores ATE y Do


Para responder a esta pregunta, es más claro cambiar la notación. A riesgo de
molestar a los dioses de las estadísticas, mezclaré notaciones de dos modelos
causales diferentes. El resultado potencial esperado siX=Se supone que 1 es igual al
resultado esperado condicionado a do(X) = 1 (perla y mackenzie,2018).

MI(Y1) =MI(Y |hacer(X) = 1) (4.5)

Por "hacer" queremos decir que este es el resultado esperado si las personas en los datos se
enfrentaran a una política que forzara el tratamiento.X=1. Mantenemos todos los demás efectos
constantes cuando se realiza el cambio de política. Es "hacer" como en "hacer una política".
La notación destaca el hecho de que el resultado potencial esperado de un
tratamiento puede no ser igual a los resultados esperados en un tratamiento en
particular. En general,MI(Y |hacer(X) = 1)6=MI(Y |X=1), donde se observa el segundo
término en los datos. El segundo término es la notación estándar para el resultado
esperado entre los individuos observados en los datos con el tratamiento igual a 1. Esta
es la notación del operador do para "correlación no implica causalidad".
Para ver por qué estos números no son iguales, considere la siguiente derivación.
Efecto de tratamiento promedio 81

Podemos escribir el resultado esperado condicionado al operador do por la Ley de


Expectativas Totales. Podemos escribir el resultado promedio condicionado a la
política como la suma de los resultados promedio de la política condicionada a los
tratamientos observados ponderados por las probabilidades observadas de los
tratamientos.

MI(Y |hacer(X) = 1) =MI(Y |hacer(X) = 1,X=0) Pr(X=0)


(4.6)
+ mi(Y |hacer(X) = 1,X=1) Pr(X=1)

El resultado esperado bajo una política en la que las personas asisten a la universidad es una
suma ponderada del efecto de la política sobre las personas que actualmente asisten a la
universidad y el efecto de la política sobre las personas que actualmente no asisten a la
universidad.
Por lo general, podemos observar tres de los cuatro números en el lado derecho
de la ecuación (4.6). Observamos la probabilidad de que los individuos se asignen a
los tratamientos actuales. Además, suponemos queMI(Y |hacer(X) = 1,X=
1) =MI(Y |X=1). Es decir, asumimos que el resultado esperado para las personas
asignadas a un tratamiento será el mismo que si hubiera una póliza que les
asignara el mismo tratamiento. El número que no observamos en los datos es MI(Y
|hacer(X) = 1,X=0). No podemos observar el resultado esperado condicionado a que
una política asigne a una persona a un tratamiento cuando se observa que recibe el
otro tratamiento. No podemos observar los ingresos esperados por asistir a la
universidad para las personas que no asisten a la universidad.

4.3.3 ATE y no confusión


Podemos estimar el efecto promedio del tratamiento si estamos dispuestos a hacer la
siguiente suposición.

Suposición 1.Inconfundibilidad.MI(Y |hacer(X) =x, x=X) =MI(Y |hacer(X) =


x, x=X′)
Suposición1establece que el resultado esperado de la política no varía con el
tratamiento observado en los datos. Bajo el supuesto, no hay contenido de
información en el hecho de que un grupo asiste a la universidad y el otro no. Esta
suposición puede ser razonable si tenemos datos de un ensayo controlado aleatorio
ideal. Para la mayoría de los demás datos, incluidos muchos ensayos controlados
aleatorios, la suposición puede no ser creíble.
La suposición implica que podemos sustituir el valor esperado desconocido con
el valor esperado conocido.

MI(Y |hacer(X) = 1) =MI(Y |hacer(X) = 1,X=0) Pr(X=0)


+ mi(Y |hacer(X) = 1,X=1) Pr(X=1) =
MI(Y |hacer(X) = 1,X=1) Pr(X=0) (4.7)
+ mi(Y |hacer(X) = 1,X=1) Pr(X=1) =
MI(Y |X=1)

La implicación es que podemos estimar el promedio de los resultados potenciales


82 Estimación de límites

para cada tratamiento. Por lo tanto, podemos estimar la diferencia promedio en los resultados
potenciales. Dicho de otra manera, la ausencia de confusión nos permite estimar el efecto promedio
del tratamiento.

4.3.4 ATE y datos simulados


> X <- runif(N) < 0.3 # asignación de tratamiento
> Y <- (1-X)*y[,1] + X*y[,2] # resultado condicional al tratamiento
Considere un cambio en nuestros datos simulados para que se parezca más a un conjunto
de datos real. En los nuevos datos solo vemos un resultado y un tratamiento para cada
individuo. Sin embargo, si podemos hacer la suposición de que no hay confusión, entonces
podemos estimar el efecto promedio del tratamiento. Nuestros nuevos datos satisfacen la
suposición porque la asignación al tratamiento es aleatoria.

> media(Y[X==1]) - media(Y[X==0])


[1] 2.432335
En los datos, el verdadero efecto promedio del tratamiento es 2. Nuestra estimación
es 2,43. ¿Qué cambios podría hacer a los datos simulados que aumentarían la precisión de
la estimación?2

4.4 Límites de Kolmogorov


Hay preguntas de política en las que la ATE proporciona una respuesta útil, pero a
menudo se proporciona como unestadística de conveniencia. En los datos generados
anteriormente, muchas personas simuladas están mejor bajo tratamientoX=1. Pero no
todos están mejor. Puede ser útil para los formuladores de políticas saber algo sobre la
distribución conjunta de los posibles resultados o la distribución del efecto del
tratamiento.3
No tenemos acceso a los datos imposibles generados anteriormente. No podemos
estimar la distribución conjunta de los posibles resultados o la distribución del efecto del
tratamiento. Sin embargo, podemosvinculadoestas distribuciones.

4.4.1 Conjetura de Kolmogorov


El matemático ruso Andrey Kolmogorov conjeturó que la diferencia de dos
variables aleatorias con marginales conocidas podría acotarse de la siguiente
manera. Tenga en cuenta que he escrito esto de una manera simplificada que
se parecerá más a la forma en que se implementa enr4

2Algunos de estos cambios se analizan enCapítulo 1.


3Este capítulo analiza el segundo, pero los dos están matemáticamente relacionados.
4Verventilador y parque(2010) y las citas que contiene.
Límites de Kolmogorov 83

Teorema 1.Conjetura de Kolmogorov. Sea βi=yi(1)−yi(0)denota el efecto del


tratamiento yFdenota su distribución. DejarF0denote la distribución de los
resultados del tratamiento (X=0) yF1denote la distribución de los resultados del
tratamiento (X=1). DespuésFL(b)≤F(b)≤Ftu(b), dónde

FL(b) = máx.{máximoF1(y)− F0(y − segundo),0} (4.8)


y

y
Ftu(b) = 1 + min{minF1(y)− F0(y − segundo),0} (4.9)
y

Teorema1establece que podemos acotar la distribución del efecto del


tratamiento aunque solo observemos las distribuciones de resultados para cada
uno de los tratamientos. Es posible que se sorprenda al saber lo fácil que es
implementar estos límites y la cantidad de información que brindan sobre la
distribución del efecto del tratamiento.

4.4.2 Límites de Kolmogorov en R


podemos usar el teorema1como pseudocódigo para las funciones que limitan la
distribución del efecto del tratamiento.

> FL <- función(b, y1, y0) {


+ f <- función(x) -(media(y1 < x) - media(y0 < x - b))
+ # observe el signo negativo ya que estamos maximizando
+ # (¡Recuerda volver a ponerlo!)
+ a <- optimizar(f, c(min(y1,y0),max(y1,y0)))
+ retorno(max(-a$objetivo,0))
+}
> FU <- función(b, y1, y0) {
+ f <- función(x) media(y1 < x) - media(y0 < x - b)
+ a <- optimizar(f, c(min(y1,y0), max(y1,y0)))
+ retorno(1 + min(a$objetivo,0))
+}

Figura 4.3presenta la distribución del efecto del tratamiento para los datos
simulados, así como los límites inferior y superior. Recuerda que en datos normales no
podemos observar el efecto del tratamiento pero gracias a las matemáticas podemos
determinar sus límites. Si observa detenidamente, notará que el tratamiento debe dañar
a algunas personas simuladas. En 0, los límites son estrictamente positivos. Por supuesto,
sabemos que en nuestros datos imposibles, algunos individuos simulados están peor.
84 Estimación de límites

> K <- 50
> min_diff <- min(y[,1]) - max(y[,2])
> max_diff <- max(y[,1]) - min(y[,2])
> delta_diff <- (max_diff - min_diff)/K
> y_K <- min_diff + c(1:K)*delta_diff
> plot(ecdf(y[,2] - y[,1]), do.points=FALSE,lwd=3,main="")
> líneas(y_K,sapply(y_K, función(x) FL(x,y[,2],y[,1])),
+ lty=2,lwd=3)
> líneas(y_K,sapply(y_K, función(x) FU(x,y[,2],y[,1])),
+ lty=3,lwd=3)
> abline(v=0,lty=2,lwd=3)
1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

−5 0 5 10

FIGURA 4 . 3
Distribución n del efecto del tratamiento junto con su superior un d límites inferiores.

4.5 Hacer “ Empujones” ¿Aumentar los ahorros?


Investigador s en economía y psicología han encontrado que las los individuos a menudo
empobrecer decisiones. Toman decisiones que están en contra t del individuo
¿Los “empujones” aumentan los ahorros? 85

propio interés. Dado esto, ¿se pueden proporcionar políticas o productos que “empujen” a las
personas a tomar mejores decisiones?
Ashraf et al.(2006) describen un experimento realizado con un banco en Filipinas. En el
experimento se ofreció a algunos clientes cuentas de ahorro “de compromiso”. En estas
cuentas, el cliente decide un objetivo, como una cantidad objetivo o una fecha objetivo, y
puede depositar pero no retirar hasta alcanzar el objetivo. Dichos productos pueden
ayudar a las personas con problemas para controlar sus finanzas personales o interactuar
con los miembros del hogar en asuntos financieros. Las personas a las que se les
ofrecieron cuentas en realidad no tenían que abrir una cuenta y muchas no lo hicieron.
Ashraf et al.(2006) usar un fiexperimento de campopara determinar la eficacia
de una cuenta de ahorros de compromiso.5En el experimento hay tres grupos de
tratamiento; al primer grupo se le ofrece la cuenta de ahorro de compromiso sin
costo extra ni ahorro, al segundo grupo se le brinda información sobre el valor de
los ahorros, y al tercero es un control. Aquí compararemos el grupo de compromiso
con el control.
La sección utiliza los datos para ilustrar el valor de los límites de Kolmogorov.

4.5.1 Datos del experimento de campo

Primero replicamos los hallazgos enAshraf et al.(2006). Los datos están


disponibles enhttps://doi.org/10.7910/DVN/27854o enhttps://sites.google.
com/view/microeconometríaconr/tabla-de-contenido.6

> requerir (readstata13)


> # este conjunto de datos se guardó con la versión 13 de Stata.
> x <- read.dta13("seedanalysis_011204_080404.dta")
> index_na <- is.na(rowSums(cbind(x$tratamiento,
+ x$cambio,x$marketing)))==0
> x1 <- x[índice_na,]
> bal_0 <- x1[x1$tratamiento==0 & x1$marketing==0,]$balcambio
> bal_1 <- x1[x1$tratamiento==1 & x1$marketing==0,]$balchange
> # solo vamos a mirar a las personas que no recibieron
> # la información de marketing.
> # Estas personas se dividen entre las que recibieron
> # la cuenta
> # (tratamiento = 1), y los que no (tratamiento = 0).
> # balchange - mide su saldo cambiado en un año.
> lbal_0 <- log(bal_0 + 2169)
> lbal_1 <- log(bal_1 + 2169)
> # la distribución de saldos es muy sesgada.
> media(bal_1) - media(bal_0)
[1] 411.4664
5Los experimentos de campo son ensayos aleatorios en los que se asignan personas, pueblos o escuelas entre los
brazos del ensayo.
6Tenga en cuenta que la versión en el sitio web original tiene un nombre ligeramente diferente.
86 Estimación de límites

El efecto promedio del tratamiento es un aumento de 411 pesos (alrededor de $200) en ahorros
después de 12 meses para aquellos a los que se les ofrecen las cuentas de compromiso. Este resultado
sugiere que las cuentas de compromiso tienen un impacto significativo en las tasas de ahorro. Sin
embargo, no está claro si todos se benefician y cuánto beneficio brindan estas cuentas.

4.5.2 Límites en la Distribución de Cambios de Saldo


1.0
0. 8
0.6
%

0.4
0.2
0. 0

−2 −1 0 1 2

Diferencia en registro B saldos

FIGURA 4.4
Superior e inferior b sonidos en la distribución tución de dsiferencia e en log saldos 0
entre el tratamiento nt y el control. Mamá rks a 1,0 00, 5,00 y 10,000 usando
la transformación aarriba

Figura 4.4presente es el límites en el


norte distribuye on de th e efecto del tratamiento.
La figura muestra el ahorro aallí mies un pequeño por tion de th mipoblación ción que termina por encima
de una gran cantidad t debido t o el compromiso mi
norte no ahorro s dispositivo, de los 10.000 pesos.
También muestra que f oRa lar e parte de la pags
gramo opulación El co ahorro de compromiso
norte

puede opodría noinc hasta rfacilidad sa festejos hay m ay incluso b mi gente quien en realidad termina
ahorrar menos. Unli debe ky el mi ejemplo de arriba , no podemos no mostrar que la fracción
ser mayor que 0.
norte
Límites de Manski 87

4.5.3 Discusión sobre la intención de tratar

Un problema con el análisis presentado anteriormente, y con los principales resultados de


Ashraf et al.(2006), es que son losintención de tratarestimados. Hemos estimado el efecto
del tratamiento de ser "asignado" a una cuenta de compromiso. Las personas no son
ratas de laboratorio. Tienen libre albedrío. En este caso, las personas asignadas a las
cuentas de compromiso tenían la opción de abrir o no la cuenta. Muchos no lo hicieron.

¿Puede calcular el efecto promedio del tratamiento utilizando el enfoque de


variable instrumental? Pista: es mucho más alto. ¿Calculaste el ATE o el LATE?

En términos más generales, la preocupación es que no sabemos qué sucedería con


los ahorros de las personas a las que se les asignó la cuenta de compromiso pero
optaron por no abrirla. ¿Estas personas sabían algo que nosotros no?

4.6 Límites de Manski


En su artículo seminal,Límites no paramétricos en los efectos del tratamiento, Chuck
Manski introdujo la idea de la estimación de conjuntos en la economía (Manski,1990).
Manski argumenta que muchas de las suposiciones que subyacen a la econometría
estándar sonad hoce injustificado. En lugar de hacer tales suposiciones, Manski sugiere
presentar resultados basados en suposiciones que pueden estar bien justificadas. En
muchos casos, tales supuestos no proporcionan estimaciones precisas.
Manski también señala que el econometrista y el formulador de políticas pueden
tener puntos de vista diferentes sobre la razonabilidad de los supuestos. Por lo
tanto, el econometrista debe presentar los resultados ordenados desde aquellos
basados en los supuestos más razonables hasta aquellos basados en los
supuestos menos razonables. Este enfoque para presentar la investigación le da al
formulador de políticas una mejor comprensión de la relación entre los supuestos y
las predicciones de políticas (manski y pimienta,2013).
La sección presenta el enfoque de límites y lo ilustra con datos
simulados.

4.6.1 Modelo confundido


Considere la siguiente versión confundida del modelo presentado anteriormente.

yi(Xi) =a+biXi+υ1i (4.10)

dóndeyies individualilos ingresos deXi∈ {0,1}es individual o noiasiste a la universidad


yυ1irepresenta alguna característica no observada. El efecto del tratamiento está
representado porbiy esto puede variar entre los individuos.
Esta vez, el valor de la variable de política también está determinado por la
88 Estimación de límites

característica no observada que determina el ingreso.

Xi∗=F+cυ1i+dzi+υ2i
{ (4.11)
1 siX∗i> 0
Xi=
0 de lo contrario

dóndeX∗ies una variable latente (oculta) que determina si el


individuo asiste a la universidad. Si el valor del valor latente es lo suficientemente alto,
entonces el individuo asiste a la universidad. Es importante destacar que el valor de esta
variable latente está determinado por la misma característica no observada que
determina el ingreso. es decir, siυ1ies grande y el parámetroCes positivo, entoncesyi
tenderá a ser mayor cuandoXies 1 y menor cuandoXies 0

4.6.2 Simulación de límites de Manski


Considere los datos simulados de unaturdidoconjunto de datos

> c <- 2
> re <- 4
> f <- -1
> Z <- ronda(runif(N))
> u_2 <- norma(N)
> x_estrella <- f + c*u + d*Z + u_2
> X <- x_star > 0 # asignación de tratamiento
> Y <- (1-X)*y[,1] + X*y[,2] # resultado condicional al tratamiento
> media(Y[X==1]) - media(Y[X==0])

[1] 3.506577

Los datos simulados ilustran el problema. si asumimosdesconcierto, podemos


estimar el efecto promedio del tratamiento. Nuestra estimación no se acerca al
verdadero valor de 2. Intente ejecutar MCO deyenX. ¿Qué sacas?
En economía llamamos a esto unproblema de selección.Una solución es usar
una estimación de variable instrumental para determinarb. Pero, ¿y si no tenemos
un instrumento? ¿Qué pasa si no creemos que las suposiciones del modelo IV sean
creíbles dados nuestros datos? Una alternativa a hacer una suposición irrazonable
es limitar el valor del interés.

4.6.3 Limitación del efecto promedio del tratamiento


El efecto promedio del tratamiento de la universidad es la diferencia en el resultado esperado
dada una política de ir a la universidad y una política de no ir a la universidad.

COMIÓ=MI(Y |hacer(X) = 1)−MI(Y |hacer(X) = 0) (4.12)


Límites de Manski 89

Desde arriba sabemos que se puede escribir como la diferencia en el ingreso esperado
cuando la política obliga a todos a ir a la universidad y el ingreso esperado cuando la
política obliga a todos a no ir a la universidad.
Podemos escribir esto a través de la Ley de Expectativa Total.

COMIÓ =MI(Y |hacer(X) = 1,X=1) Pr(X=1)+ MI(Y


|hacer(X) = 1,X=0) Pr(X=0)
(4.13)
− (MI(Y |hacer(X) = 0,X=1) Pr(X=1)+ MI(
Y |hacer(X) = 0,X=0) Pr(X=0))
Cada expectativa se puede dividir en el grupo que asiste a la universidad y el grupo
que no asiste a la universidad. Observamos el resultado de la política que envía a los
individuos a la universidad para el grupo que realmente va a la universidad. Si
asumimos que su resultado de la política es el mismo que observamos, entonces
podemos sustituir los valores observados en la ecuación.
COMIÓ=pr(X=1) (MI(Y |X=1)−MI(Y |hacer(X) = 0,X=1))
(4.14)
+ pr(X=0) (MI(Y |hacer(X) = 1,X=0)−MI(Y |X=0))
No sabemos el resultado de la política que envía individuos a la universidad para el grupo
que en realidad no va a la universidad. Tenga en cuenta que reorganicé un poco la
ecuación.
No podemos determinar el ATE. Pero nosotros podemosvinculadoel ATE reemplazando los
valores que no podemos observar con valores que podemos observar. Es importante destacar que
nosotros saberestos valores observados deben ser mayores (menores) que los valores que no
podemos observar.

4.6.4 Límites naturales del efecto promedio del tratamiento


¿Cuál es la suposición más débil que podríamos hacer? Una expectativa está limitada por el valor más
pequeño posible y el valor más grande posible. Un promedio no puede ser más pequeño que el valor
más pequeño posible en el conjunto que se está promediando. De manera similar, el promedio no
puede ser mayor que el valor más grande posible en el conjunto que se está promediando.

Los límites se crean reemplazando los valores desconocidos con los valores más
pequeños (más grandes) que podrían ser. DejarY representan el límite inferior (el valor
más bajo posible) yYrepresentan el límite superior (el mayor valor posible). Manski llama a
esto ellímites del peor de los casos,mientras que Pearl usa el términolímites naturales.7

Dados estos valores, podemos calcular los límites del efecto promedio del
tratamiento.
COMIÓ= (MI(Y |X=1)− Y )pr(X=1) + (Y −MI(Y |X=0) Pr(X=0)

COMIÓ = (MI(Y |X=1)− Y)pr(X=1) + (Y −MI(Y |X=0) Pr(X=0)


(4.15)

7Si no conocemos los valores posibles, podemos usar los valores observados. Esta suposición
puede ser menos "natural" de lo que preferimos.
90 Estimación de límites

Observe cómo se calculan los límites del ATE. El máximo en el ATE se denota por la
línea superior. Es cuando el primer resultado esperado es lo más grande posible y el
segundo resultado esperado es lo más pequeño posible. De manera similar, el
mínimo en el ATE es cuando el primer resultado es lo más pequeño posible y el
segundo resultado es lo más grande posible. El mínimo en el ATE se indica con
subrayado.

4.6.5 Límites naturales con datos simulados


En los datos simulados podemos utilizar el mínimo y el máximo observados.

> PX1 = media(X==1)


> PX0 = media(X==0)
> EY_X1 = media(Y[X==1])
> EY_X0 = media(Y[X==0])
> minY = min(Y)
> maxY = max(Y)

Los límites se calculan reemplazando el resultado desconocido con el


valor mínimo posible del resultado y, alternativamente, el valor máximo
posible del resultado.

> # límite superior ATE


> (EY_X1 - minY)*PX1 + (maxY - EY_X0)*PX0

[1] 7.975223

> # ATE límite inferior


> (EY_X1 - maxY)*PX1 + (minY - EY_X0)*PX0

[1] -5.010368

Estos límites son amplios. El efecto promedio del tratamiento deXenYestá entre
- 5.01 y 7.98. El verdadero valor es 2.

4.6.6 ¿Son inútiles los límites naturales?


Los límites presentados arriba son amplios y ni siquiera predicen el signo
correcto para el ATE. ¿Qué podemos sacar de esta información?
Primero, si no estamos dispuestos a hacer suposiciones más sólidas, es posible que
los datos simplemente no nos ayuden a responder la pregunta política de interés. Manski
llama a la voluntad de hacer suposiciones increíbles para obtener resultados más ciertos,
el “atractivo de la certeza increíble” (Manski,2020). Argumenta que esta práctica reduce la
voluntad del público y de los políticos de confiar en la ciencia y aceptar nuevos
conocimientos.
En segundo lugar, no es que no aprendamos nada de los datos. En este caso
Límites de Manski 91

aprendemos que el efecto de una política do(X) = 1 no puede tener un efecto mayor que
8. Hay casos en los que esta información puede ser suficiente para que los responsables
políticos busquen una alternativa. Por ejemplo, un análisis de costo-beneficio puede
haber sugerido que para que una póliza tenga valor, el efecto de la póliza debe ser mayor
en magnitud que 8. En ese caso, los límites brindan suficiente información para decir que
los beneficios de la póliza son superados por sus costos
En tercer lugar, puede haber suposiciones y datos que sean razonables y permitan
límites más estrictos. Esos se discuten más en las siguientes secciones.

4.6.7 Límites con variación exógena


Puede que tengamosmás apretadolímites a través de la variación en los datos. En
particular, necesitamos una variación tal que el efecto de la política no cambie en
diferentes subconjuntos de datos, pero los límites sí.

Suposición 2.

MI(Y |hacer(X) = 1,Z=z)−MI(Y |hacer(X) = 0,Z=z) =MI(


(4.16)
Y |hacer(X) = 1,Z=z′)−MI(Y |hacer(X) = 0,Z=z′)

para todosz, z′.

Suposición2es como un supuesto de variables instrumentales. Manski lo llama ajuste


de nivelsuposición.8Establece que existe alguna característica observable tal que el efecto
promedio del tratamiento no cambia con los cambios en la característica observable.
Dada esta propiedad es posible obtenermás apretado límites mediante la estimación de
los límites en el efecto de tratamiento promedio para varios subconjuntos de datos. Bajo
el supuesto, el efecto promedio del tratamiento debe estar en la intersección de estos
límites. Por lo tanto, los nuevos límites son la intersección de estos límites estimados.

COMIÓ = min{(MI(Y |X=1,Z=1)− Y )pr(X=1|Z=1)


+ (Y −MI(Y |X=0,Z=1) Pr(X=0|Z=1), (MI(Y |X=
1,Z=0)− Y )pr(X=1|Z=0)
+ (Y −MI(Y |X=0,Z=0) Pr(X=0|Z=0)}
(4.17)
COMIÓ = máx.{(MI(Y |X=1,Z=1)− Y)pr(X=1|Z=1)
+ (Y −MI(Y |X=0,Z=1) Pr(X=0|Z=1), (MI(Y |X=
1,Z=0)− Y)pr(X=1|Z=0)
+ (Y −MI(Y |X=0,Z=0) Pr(X=0|Z=0)}

Estos son los límites cuando las variables similares a instrumentos tienen dos valores
(Z∈ {0,1}).

8¿Un estimador IV discutido enCapítulo 3satisfacer la suposición2?


92 Estimación de límites

4.6.8 Variación exógena en datos simulados


Todavía no lo hemos usado, pero hay una variableZen los datos simulados que está
asociado con cambios en la variable de política pero que no afecta directamente el
ingreso.9

> EY_X1Z1 = media(Y[X==1 & Z==1])


> EY_X1Z0 = media(Y[X==1 & Z==0])
> EY_X0Z1 = media(Y[X==0 & Z==1])
> EY_X0Z0 = media(Y[X==0 & Z==0])
> PX1_Z1 = media(X[Z==1]==1)
> PX1_Z0 = media(X[Z==0]==1)
> PX0_Z1 = media(X[Z==1]==0)
> PX0_Z0 = media(X[Z==0]==0)
> # límite superior ATE
> min((EY_X1Z1 - minY)*PX1_Z1 + (maxY - EY_X0Z1)*PX0_Z1,
+ (EY_X1Z0 - minY)*PX1_Z0 + (maxY - EY_X0Z0)*PX0_Z0)
[1] 7.049019

> # ATE límite inferior


> max((EY_X1Z1 - maxY)*PX1_Z1 + (minY - EY_X0Z1)*PX0_Z1,
+ (EY_X1Z0 - maxY)*PX1_Z0 + (minY - EY_X0Z0)*PX0_Z0)
[1] -4.00698

Vemos que usando la restricción de nivel establecido obtenemosmás apretadolímites, pero


el cambio no es muy grande. ¿Qué cambios podría hacer en los datos simulados para obtener
un mayor efecto del uso de larestricción de nivel establecido?

4.6.9 Límites con Monotonicidad


¿Pueden los límites ser más estrechos con algo de economía? Recuerde que
observamos los casos donde do(X) =XyX=Xjuego. No observamos los casos en los
que no coinciden. Sin embargo, podemos usar los casos observados para acotar los
casos no observados. Matemáticamente, hay un par de opciones con respecto a qué
resultados observados se pueden usar para los límites. La opción que elija depende
de la economía.
En los datos simulados, un término no observado más alto se asocia con una mayor
probabilidad de elegir el tratamientoX=1. Es decir, manteniendo todo lo demás constante,
observando a alguien que recibe tratamientoX=1 significa que tendrán resultados más
altos. Esto es unmonotonicidadsuposición. En matemáticas, la suposición es la siguiente.

Suposición 3.Monotonicidad.MI(Y |hacer(X) = 1,X=1)≥MI(Y |hacer(X) = 1,X=


0)yMI(Y |hacer(X) = 0,X=0)≤MI(Y |hacer(X) = 0,X=1)

9Lo haceZsatisfacer los supuestos de una variable instrumental?


Límites de Manski 93

Suposición3afirma que observar a alguien recibir tratamientoX=1 nos habla de su


término no observado. Por ejemplo, si mantenemos el mismo trato para todos, entonces
las personas que eligenX=1 tendrá resultados esperados más altos. Aquellos que son
“seleccionados” para la universidad pueden tener mejores retornos a la educación que la
persona promedio. El tratamiento tiene efectos monótonos sobre los resultados.
Podemos usar esta suposición para ajustar los límites del ATE. En particular, el límite
superior se puede ajustar hacia abajo.

MI(Y |hacer(X) = 1) =MI(Y |X=1)


(4.18)
MI(Y |hacer(X) = 0) =MI(Y |X=0)

La suposición de monotonicidad implica que forzar a todos al tratamiento X=1 no puede


conducir a mejores resultados esperados que los resultados que observamos con el
tratamiento. Del mismo modo, obligar a todos a someterse a un tratamientoX=0 no
puede tener un peor resultado esperado que los resultados que observamos dado el
tratamiento.

COMIÓ= (Y −MI(Y |X=0)) Pr(X=0)


(4.19)
COMIÓ = (MI(Y |X=1)− Y)pr(X=1)

4.6.10 Límites con monotonicidad en datos simulados


> # límite superior ATE
> (máxY - EY_X0)*PX0

[1] 3.76668

> # ATE límite inferior


> (EY_X1 - maxY)*PX1

[1] -3.64774

Asunción imponente3en los datos simulados nos permiteapretarlos límites Se


reducen a [−3.sesenta y cinco,3.77]. Recuerde que el verdadero promedio en los
datos simulados es 2. Disminuye el valor potencial del tratamiento de 8 a 4.
Tenga en cuenta que el impacto de estos supuestos se presenta en el orden en que
manski y pimienta(2013) preferir. Comenzamos con la suposición más creíble, lalímites
naturales.Luego pasamos a hacer una restricción de conjunto de niveles porque teníamos
una variable que satisfacía la suposición. Finalmente, hicimos el supuesto de
monotonicidad.
94 Estimación de límites

4.7 ¿Más armas, menos delincuencia?

Una de las áreas más controvertidas de la microeconometría es la estimación del efecto de varias
leyes sobre armas de fuego en el crimen y las muertes relacionadas con armas de fuego. Para
estudiar estos efectos, los economistas y los científicos sociales observan cómo varían estas leyes en
los Estados Unidos y cómo esos cambios en las leyes están relacionados con los cambios en las
estadísticas delictivas (manski y pimienta,2018).
El juez Louis Brandeis dijo que un “estado puede, si sus ciudadanos así lo deciden, servir
como laboratorio; e intentar nuevos experimentos sociales y económicos sin riesgo para el resto
del país”.10Los estados de EE. UU. son un “laboratorio de la democracia”. Como tal,
potencialmente podemos usar la variación en las leyes estatales para estimar los efectos de esas
leyes. El problema es que los estados de EE. UU. son muy diferentes entre sí. En la terminología
actual, los estados con fuertes leyes a favor de las armas tienden a ser estados “rojos” o al
menos estados “púrpuras”. También tienden a tener grandes poblaciones rurales.

Entre 1980 y 1990, doce estados adoptaron leyes de derecho a portar (RTC). Estamos
interesados en ver cómo le fue a la delincuencia en esos estados en relación con los estados
que no adoptaron esas leyes. Para hacer esto, podemos mirar las tasas de criminalidad de los
años 80 y 90. Un problema potencial es que la epidemia de crack golpeó a los Estados Unidos
exactamente en este momento, aumentando durante los años 80 y 90 antes de disminuir. La
epidemia de crack se asoció con grandes aumentos en las tasas de delincuencia en las zonas
urbanas (Añeja et al.,2011).
Esta sección utiliza datos delictivos disponibles públicamente para ilustrar el valor del
enfoque de límites.

4.7.1 Datos sobre delitos

Los datos se descargan del sitio web de John Donohue.11Si bien existe una gran variación
en las leyes de armas, la definición de RTC es "emitirá" en el conjunto de datos utilizado.
Para el crimen, usamos la tasa por población de agresiones agravadas por estado,
promediada durante los años posteriores a 1990. El código también calcula el tamaño
físico del estado, que es una variable que se usará más adelante.

> biblioteca (extranjera)


> # los datos están en formato Stata estándar, la biblioteca es extranjera
> # permite importar estos datos.
> x <- read.dta("UpdatedStateLevelData-2010.dta")
> Y <- X <- Z <- NULO
> # el ciclo creará variables agregando a los vectores
> for (i en 2:longitud(único(x$estado))) {

10Ver New State Ice Co contra Liebmann 285 US 262 (1932).


11https://works.bepress.com/john_donohue/89/ohttps://sites.google.com/view/
microeconometricswithr/table-of-contents
¿Más armas, menos crimen? 95

+ # longitud mide el número de elementos en el objeto.


+ estado = sort(único(x$estado))[i]
+ # tenga en cuenta que el primer estado es "NA"
+ X <- c(X,sum(x[x$estado==estado,]$debe, na.rm = VERDADERO) > 0)
+ # determina si un estado tiene una ley RTC en
+ # algún punto en el tiempo.
+ # na.rm le dice a la función que ignore los NA
+ Y <- c(Y,mean(x[x$estado==estado & x$año > 1990,]$rataga,
+ na.rm = VERDADERO))
+ # determina la tasa promedio de agresión agravada para el
+ # publicación estatal 1990.
+ Z <- c(Z,mean(x[x$estado==estado & x$año > 1990,]$área,
+ na.rm = VERDADERO) > 53960)
+ # determina el área física del estado
+ # Estado pequeño = 0, escenario grande = 1
+ # imprimir(yo)
+}

Figura 4.5muestra el histograma de la tasa promedio de asalto agravado por estado


en los años posteriores a 1990. Muestra que la tasa por 100.000 está entre 0 y 600 en su
mayor parte.

4.7.2 ATE de Leyes RTC bajo No Confundido


Si asumimos que no hay confusión, entonces las leyes de RTC reducen el asalto agravado. Al
comparar la tasa promedio de agresión con agravantes en los estados con leyes RTC con los
estados sin leyes RTC, vemos que el promedio es más bajo con las leyes RTC.

> EY_X1 <- media(Y[X==1])


> EY_X0 <- media(Y[X==0])
> EY_X1 - EY_X0

[1] -80.65852

inconfundibilidadno es una suposición razonable. Nos interesa estimar el efecto


promedio de implementar una ley de RTC. No estamos interesados en la tasa
promedio de agresiones condicionadas a que el estado tenga una ley RTC.

4.7.3 Límites Naturales en ATE de Leyes RTC


No podemos observar el efecto de las leyes de RTC para los estados que no tienen leyes
de RTC. Podríamos suponer que la tasa de asalto se encuentra entre 0 y 100,000 (lo cual
es así).

> PX0 <- media(X==0)


> PX1 <- media(X==1)
96 Estimación de límites

12
10
8
Frecuencia

6
4
2
0

0 200 400 600 800 1000

Tasa promedio de agresión

FIGURA 4.5
Su tograma de agresión agregada promedio por cada 100,000 por estado.

> metro en Y <- 0


> metro axY <- 100000
> # COMIÓ límite superior
> ( EY_X1 - minY)*PX1 + (maxY - EY_X0)*PX0

[1] 23666.01

> # COMIÓ yo
poder vinculado
> ( EY_X1 - máx. Y)*PX1 + (mín. Y - EY_X0)*PX0

[1] - 763 33.99

Entonces un natural b Los sonidos son muy, muy anchos. Una política de RTC puede dar lugar a
rata
ms diciembre
i mi
asiendo agresiones de 75 000 o un aumento de 24 000 por cada 100 000 personas.
Podemos nortehacer estos límites se hacen más estrictos al suponer que las tasas de ataque están
policía puede no mentir fuera de las tasas observadas en los datos.

> metro en Y < - min(Y)


¿Más armas, menos crimen? 97

> maxY <- max(Y)


> # límite superior ATE
> (EY_X1 - minY)*PX1 + (maxY - EY_X0)*PX0

[1] 334.1969

> # ATE límite inferior


> (EY_X1 - maxY)*PX1 + (minY - EY_X0)*PX0

[1] -624.7655

Estos límites son mucho más estrictos. Una política que introduce RTC para el estado
promedio podría disminuir la tasa de agresiones en 625 o aumentar la tasa de agresiones en
334. Dado ese rango, podría ser que las leyes de RTC reduzcan sustancialmente las agresiones
con agravantes o que tengan poco o ningún efecto. Incluso pueden causar un aumento de las
agresiones con agravantes.

4.7.4 Límites en ATE de Leyes RTC con Variación


Exógena
> PX1_Z1 <- media(X[Z==1]==1)
> PX1_Z0 <- media(X[Z==0]==1)
> PX0_Z1 <- media(X[Z==1]==0)
> PX0_Z0 <- media(X[Z==0]==0)
> EY_X1Z1 <- media(Y[X==1 & Z==1])
> EY_X1Z0 <- media(Y[X==1 & Z==0])
> EY_X0Z1 <- media(Y[X==0 & Z==1])
> EY_X0Z0 <- media(Y[X==0 & Z==0])
> # revisa tu código aquí.
> # un error de NaN a continuación tal vez debido a un error tipográfico arriba.
> El error # NaN puede ocurrir porque el vector es todo NA
> # límite superior ATE
> min((EY_X1Z1 - minY)*PX1_Z1 + (maxY - EY_X0Z1)*PX0_Z1,
+ (EY_X1Z0 - minY)*PX1_Z0 + (maxY - EY_X0Z0)*PX0_Z0)

[1] 323.2504

> # ATE límite inferior


> max((EY_X1Z1 - maxY)*PX1_Z1 + (minY - EY_X0Z1)*PX0_Z1,
+ (EY_X1Z0 - maxY)*PX1_Z0 + (minY - EY_X0Z0)*PX0_Z0)

[1] -613.3812

Podemos hacer una suposición de nivel establecido. Suponga que la variable similar a un
instrumento es el tamaño físico del estado. La suposición es que el efecto de tratamiento
promedio de implementar una ley RTC debe ser el mismo independientemente del tamaño
físico del estado. Tenga en cuenta que los resultados observables como el asalto
98 Estimación de límites

la tasa y la proporción de estados con leyes RTC pueden variar con el tamaño físico.
La suposición es sobre el efecto promedio del tratamiento que no se observa.
Los límites son más estrechos, aunque no mucho. Las leyes de RTC podrían reducir las agresiones
con agravantes en 613 o aumentar las tasas en 323.

4.7.5 Límites en ATE de Leyes RTC con Monotonicidad


¿Sería razonable utilizar el supuesto de monotonicidad anterior (Supuesto 3)?

Supongamos que los estados que actualmente tienen leyes RTC también tenderán a
tener niveles más bajos de asalto agravado. Además, obligar a los estados que
actualmente no tienen leyes RTC no reducirá los asaltos agravados esperados por debajo
de ese nivel. Este es el "negativo" de la suposición de monotonicidad en los datos
simulados.
Podemos resumir esto con Asunción4.

Suposición 4.MI(Y |hacer(X) = 1,X=1)≤MI(Y |hacer(X) = 1,X=0)y MI(Y |hacer(X


) = 0,X=0)≥MI(Y |hacer(X) = 0,X=1)

Suposición4implica el siguiente cambio en los límites de las expectativas no


observadas.
MI(Y |hacer(X) = 1) =MI(Y |X=1)
(4.20)
MI(Y |hacer(X) = 0) =MI(Y |X=0)
Conectándolos a los límites de la ATE, tenemos los siguientes límites sobre el
efecto de las leyes RTC.

> # límite superior ATE


> (EY_X1 - minY)*PX1

[1] 184.2203

> # ATE límite inferior


> (mín. - EY_X0)*PX0

[1] -75.66166

Estos límites son sustancialmentemás apretadoSugieren que la estimación de la ATE


sin confusión se encuentra en realidad en el extremo superior del posible efecto de las
leyes RTC. Esta es una evidencia de que eldesconfianzala suposición no puede sostenerse.
Al menos, es inconsistente con la suposición de monotonicidad más débil.

Los resultados en esta sección sugieren que el eslogan puede expresarse con mayor precisión
como “más armas, más o menos delincuencia”.
Discusión y lecturas adicionales 99

4.8 Discusión y lecturas adicionales


Este capítulo argumenta que puede ser mejor proporcionar estimaciones menos precisas que
predicciones precisas de poco valor para los formuladores de políticas.
Creo firmemente que se le da demasiada importancia al efecto promedio del tratamiento
en economía y econometría. ATE puede ser informativo, pero también puede inducir a error a
los encargados de formular políticas y tomar decisiones. Si conocemos la distribución conjunta
de los resultados potenciales, entonces podremos calibrar mejor la política. Espero que los
límites de Kolmogorov se conviertan en parte del conjunto de herramientas del econometrista
moderno. Un buen lugar para aprender más sobre este enfoque es ventilador y parque(2010).
Mullahy(2018) explora este enfoque en el contexto de los resultados de salud.

Chuck Manski revolucionó la econometría con la introducción de la identificación de


conjuntos. Probablemente no lo crea así, pero Chuck ha cambiado la forma en que muchos
economistas y la mayoría de los econometristas piensan acerca de los problemas. Pensamos
mucho más en las suposiciones que estamos haciendo. ¿Son creíbles las suposiciones? Estamos
mucho más dispuestos a presentar límites en las estimaciones, en lugar de hacer suposiciones
no creíbles para obtener estimaciones puntuales.
Los límites naturales de Manski permiten al investigador estimar el efecto potencial
de la política con suposiciones mínimas. Estos límites pueden no ser informativos, pero
eso en sí mismo es informativo. Las suposiciones más sólidas pueden conducir a
resultados más informativos, pero con el riesgo de que las suposiciones, y no los datos,
determinen los resultados.
Recomiendo encarecidamente cualquier libro de Chuck Manski. Sin embargo,Manski(1995)
es el estándar de los límites no paramétricos. Para comprender más acerca de los posibles
resultados, consulteFrotar(1974). Para entender más sobrehacer operadoresverperla y
mackenzie(2018).
manski y pimienta(2018) utilizan el enfoque de los límites para analizar la relación
entre las leyes del derecho a portar armas y el delito.
Parte II

Estimación Estructural
5
Estimación de la demanda

5.1 Introducción
A principios de la década de 1970, San Francisco estaba completando un enorme proyecto de
infraestructura nueva, el sistema de Tránsito Rápido del Área de la Bahía (BART). El proyecto
inicialmente costó $ 1.6 mil millones e incluyó la construcción de túneles debajo de la Bahía de San
Francisco. Los formuladores de políticas obviamente estaban interesados en determinar cuántas
personas utilizarían el nuevo sistema una vez construido. Pero eso es un problema. ¿Cómo se predice
la demanda de un producto que no existe?
Una solución es preguntarle a la gente. Se realizó una encuesta a las personas
que probablemente utilizarían el nuevo sistema de transporte. La encuesta hizo
preguntas detalladas sobre su modo de transporte actual y les preguntó si
utilizarían el nuevo sistema. La preocupación es que es difícil para las personas
predecir cómo usarían algo que no existe. El econometrista de Berkeley, Dan
McFadden, sugirió un enfoque alternativo. En lugar de pedirle a la gente que
prediga lo que haría, McFadden sugirió usar información sobre lo que la gente
realmente hace y luego usar la teoría económica para predecir lo que haría.

McFadden argumentó que la combinación de datos de encuestas con la teoría económica


produciría estimaciones más precisas que los datos de encuestas solos (McFadden,1974). En el
caso de la encuesta BART, McFadden estaba en lo correcto. Según los datos de la encuesta, el
15% de los encuestados dijo que usaría BART. McFadden estimó que el 6% de los encuestados
usaría BART. De hecho, el 6 % de los encuestados realmente utilizó BART.1Los datos de las
encuestas son valiosos, pero las personas dan respuestas más precisas a algunas preguntas
que a otras.
La primera parte del libro discutía cómoexógenose necesita variación para usar los
datos observados para predecir los resultados de las políticas.Capítulos 1y2suponga que
la variación observada en la exposición a una póliza se determina independientemente de
las características no observadas.Capítulos 3y4relajó este supuesto pero permitió que se
utilizara la teoría económica para estimar el impacto de la política. Esta parte del libro
amplía la idea de utilizar la teoría económica. Este capítulo introduce la idea de utilizar
preferencia revelada.
Hoy en día, las ideas que desarrolló McFadden para analizar el valor de BART se
utilizan en economía, antimonopolio, marketing, estadísticas y máquinas.

1https://www.nobelprize.org/prizes/economic-sciences/2000/mcfadden/lecture/

103
104 Estimación de la demanda

aprendizaje. En la Comisión Federal de Comercio y el Departamento de Justicia, los


economistas utilizan estas técnicas para determinar si una fusión entre fabricantes
de helados, fabricantes de cigarrillos, supermercados u hospitales conducirá a
precios más altos.
Cuando Google cambió la forma en que mostraba los resultados de búsqueda, el tráfico de usuarios se
alejó de los competidores de Google. Tales acciones por parte de una empresa dominante como Google
podrían conducir a acciones antimonopolio a menos que los cambios también mejoraran la situación de los
usuarios. Al combinar la teoría económica y los datos sobre el comportamiento de los usuarios de Google,
podemos determinar si los cambios de Google fueron a favor o en contra de la competencia. De acuerdo con
la declaración de la FTC sobre la investigación de Google, el análisis de los datos de clics de Google por parte
de los economistas del personal mostró que los consumidores se beneficiaron de los cambios que realizó
Google. Esta y otras pruebas llevaron a la FTC a poner fin a su investigación de la práctica de "sesgo de
búsqueda" de Google con una votación de 5-0.2
El capítulo comienza con el supuesto económico básico de la estimación de la
demanda, preferencia revelada.Toma un desvío para discutir elalgoritmo de máxima
verosimilitud.Vuelve con el modelo de demanda de Daniel McFadden. El capítulo
introduce lalogityprobity los utiliza para determinar si los consumidores de las ciudades
pequeñas de EE. UU. valoran el tren tanto como sus vecinos de las grandes ciudades.

5.2 Preferencia Revelada


El análisis de McFadden, y el análisis de la demanda en general, se basa en la
siguiente suposición.

Suposición 5.Preferencia Revelada. Si hay dos opciones,AyB,y observamos a


una persona elegirA,entonces su utilidad deAes mayor que su utilidad deB.

Suposición5establece que si observamos que alguien elige productoAcuando


productoBestaba disponible, entonces que alguien prefiere el productoAProducirB. La
suposición permite al investigador inferir características no observadas de las acciones
observadas. También es un supuesto fundamental de la microeconomía. ¿Crees que es
una suposición razonable hacer sobre el comportamiento económico?
La sección usa datos simulados para ilustrar cómo se usa la preferencia revelada para
estimar las preferencias del consumidor.

5.2.1 Modelado de la demanda

Considere un conjunto de datos donde se observa una gran cantidad de personas que compran
cualquiera de los productosAo productoBa varios precios para los dos productos. Cada

2https://www.ftc.gov/system/files/documents/public_statements/295971/
130103googlesearchstmtofcomm.pdf
Preferencia revelada 105

individuo tendrá alguna característica no observadatu, que podemos llamarutilidad.


Hacemos dos suposiciones importantes acerca de los individuos. Primero, su valor por
comprar uno de los dos productos estuAi−pagsA. Es igual a su utilidad no observada para
el producto.Amenos el precio del productoA. Su utilidad eslineal en dinero.3En segundo
lugar, si observamos a la personaicompraAa preciopagsAentonces sabemos que se
cumple la siguiente desigualdad.

tuAi−pagsA>tuBi−pagsB
o (5.1)
tuAi− tuBi>pagsA−pagsB

Personaicompras bienAsi y solo si su utilidad relativa paraAes mayor que el


precio relativo deA.
Usualmente hacemos una transformación anormalizartodo lo relativo a uno de los
productos disponibles. Es decir, todos los precios y la demanda se hacen en relación con
uno de los productos disponibles. Aquí lo haremosnormalizarProducirB. Asi que pags=
pagsA−pagsBytui=tuAi−tuBi. Los precios y la utilidad son netos de los precios y la utilidad
del producto.B.
Además, a menudo observamos los datos a nivel de mercado en lugar de a
nivel individual. Es decir, vemos la fracción de personas que compranA. Debajo
de esta fracción se denotas. Es la proporción de individuos que compranA.

5.2.2 Simulación de la demanda

Los datos simulados ilustran el poder de la suposición de preferencia revelada.


Considere la siguiente distribución de un término no observado. El término no
observado se extrae de una distribución normal con una media de 1 y una varianza
de 9 (tu∼ norte(1,9)). Supongamos que tenemos datos de 1000 personas y cada una
de ellas está descrita por estetucaracterística.

> set.seed(123456789)
> n <- 1000
> u <- ordenar(rnorma(N, media=1, sd=3))

¿Podemos descubrir esta distribución a partir del comportamiento observado de los


individuos en nuestros datos simulados? ¿Podemos usar elpreferencia reveladasuposición para
descubrir el término no observado (tu)?

> pag <- 2


> media(u - p > 0) # probabilidad estimada

[1] 0,386

> 1 - pnorm(p, media=1, sd=3) # probabilidad verdadera


3Esta es una suposición estándar en economía. Significa que lo inadvertidoutilidadpuede ser
considerado como dinero.
106 Estimación de la demanda

[1] 0.3694413

Sipags=2, entonces la proporción de personas que compranAes 39%, que es


aproximadamente igual a la probabilidad de quetues mayor que 2. La combinación del
supuesto de preferencia revelada con los datos observados nos permite descubrir la
fracción de individuos simulados cuyo valor para la característica no observada es mayor
que 2.

5.2.3 Demanda reveladora


Si somos capaces de observar una gran cantidad de precios, entonces podemos usar la
preferencia revelada para estimar la distribución total de la utilidad no observada. A cada
precio, la proporción de personas que compran el productoAes calculado. Si observamos
suficientes precios, podemos usar las acciones observadas en cada precio para trazar la
curva de demanda.

> p <- runif(9,min=-10,max=10)


> # 9 puntos entre -10, 10.
> s <- matriz(NA,longitud(p),1) # cuota de mercado comprando A.
> para (i en 1:longitud(p)) {
+ s[i,1] <- media(u - p[i] > 0)
+ # imprimir(yo)
+}

Figura 5.1presenta la curva de demanda estimada.

5.3 Elección discreta


La estimación de la demanda a menudo implica resultados con valores discretos. En el
problema original de McFadden, observamos una de tres opciones, automóvil, autobús o tren.
OLS tiende a no funcionar muy bien cuando el resultado de interés es discreto o limitado de
alguna manera. Dado esto, puede ser preferible utilizar un modelo de elección discreta como
logit o probit.4
La sección utiliza datos simulados para ilustrar problemas con la estimación del
modelo de elección discreta.

4En el aprendizaje automático, la elección discreta se conoce como un problema de clasificación.


Elección discreta 107
> plot(1-ecdf(u)(u),u, tipo="l",lwd=3,lty=1,col=1,
+ xlab="s", ylab="p", xlim=c(0,1))
> # ecdf(a)(a) presenta las probabilidades estimadas de a.
> líneas(ordenar(s),p[pedir(s)], tipo="l", lwd=3,lty=2)
> abline(h=0, lty=2)
> leyenda ("abajo a la izquierda", c ("Verdadero", "Est."), lwd = 3, lty = c (1: 2))
10
5
pags

0
−5

Verdadero

Est.
− 10

0.0 0.2 0.4 0.6 0.8 1.0

FIGURA 5.1
Gráfico de función de supervivencia y demanda estimada.

5.3.1 Modelo de elección discreta simple


Considere el siguiente modelo discreto. hay algolatente valor (oculto) de
el resultado (y∗i),donde si este valor es lo suficientemente grande ob atenderyi=1.

yi∗ =a+bxi+υi
{ (5.2)
1 siyi≥∗ 0
yi =
0 siy∗i<0

podemos pensar eny∗ icomo representanteutilidadyyicomo repetición sentiendo observado


pedir.
108 Estimación de la demanda

5.3.2 Simulación de elección discreta


En los datos simulados hay una variable latente (y∗) que está determinada por
un modelo similar al presentado enCapítulo 1.5Aquí, sin embargo, no
observamosy∗. Observamosyque sólo tiene valores 0 o 1.

> set.seed(123456789)
> n <- 100
> un <- 2
> b <--3
> u <- norma(N)
> x <- runif(N)
> y_estrella <- a + b*x + u
> y <- y_estrella > 0
> lm1 <- lm(y ~ x)

Figura 5.2muestra que la relación estimada difiere sustancialmente de la


distribución real. La figura ilustra cómo OLS no logra estimar con precisión los
parámetros del modelo. Para estimar correctamente la relación necesitamos
conocer la distribución del término no observado.

5.3.3 Modelado de elección discreta


Podemos escribir el modelo usando notación matricial.

yi∗=X′ iβ+υi

{ (5.3)
1 siy∗i≥0
yi=
0 siy∗i<0

dóndeXies un vector de características observadas de individuosi,βes un vector


que mapea desde las características observadas hasta elresultado latente,y∗ i,yυi
es el término no observado. El resultado observado,yies igual a 1 si elvariable
latentees mayor que 0 y es 0 si elvariable latentees menor que 0.
La probabilidad de observar uno de los resultados (yi=1) es el siguiente.

pr(yi=1|Xi) = Pr(y∗ i>0)


= PR(X′ iβ+υi>0)
(5.4)
= PR(υi> −X′ iβ)
= 1− F(−X′ iβ)

dóndeFrepresenta la función de distribución de probabilidad de la característica no


observada.
si sabemosβ, podemos determinar la distribución del término no observado con
variación en elXs. Es decir, podemos determinarF. Esto es exactamente lo que

5Este es en realidad un modelo probit que se presenta con más detalle a continuación.
Elección discreta 109
> plot(x,y, ylim=c(-0.2,1))
> abline(a = 2,b = -3, lwd=2)
> abline(a = lm1$coeficientes[1], b=lm1$coeficientes[2],
+ lty=2, lwd=2)
> leyenda("abajo a la izquierda", c("Verdadero", "Est."), lwd=2, lty=1:2)
1.0
0.8
0.6
y

0.4
0.2

Verdadero

Est.
0.0

0.0 0.2 0.4 0.6 0.8 1.0

FIGURA 5.2
Lote deXyycon la relación entrey∗yXr línea continua. La representado por el
relación estimada está representada por la Linea discontinua.

hicimos en la sección anterior. En esa sección,β= 1 un precio d variación en el


(elXs) determina la distribución de probabilidad detu no saber. Sin embargo,
β. En realidad,βes generalmente el parámetro de política que queremos estimar.
no podemos identificar ambosβyFsin hacer unos res los otros.tricción en uno o

La solución estándar es suponer que conocemos el verdadero distribución de la


término no observado d (F). En particular, una suposición estándar F es suponer que
esestándar normal.Por lo tanto, podemos escribir el resultado de de observar el
probabilidadyi=1 condicional a lo observadoXs.

pr(yi=1|Xi) = 1−Φ(−X′ iβ) (5.5)


110 Estimación de la demanda

donde Φ es la notación estándar para la función de distribución normal estándar.

5.4 Probabilidad Máxima


El algoritmo estándar para estimar modelos de elección discreta esmáxima verosimilitud.
El algoritmo de máxima verosimilitud generalmente requiere alguna suposición sobre la
distribución del término de error. Sin embargo, como se vio anteriormente, estamos
haciendo tal suposición de todos modos.
Esta sección se desvía para ilustrar cómo funciona el algoritmo de máxima
verosimilitud.

5.4.1 Verosimilitud binomial


Considere el problema de determinar si una moneda es “justa”. Es decir, si la
moneda tiene la misma probabilidad de cara o cruz al lanzarla. Si la moneda está
ponderada, puede que no sea justa. Puede tener una mayor probabilidad de caer en
Cruz que en Cara. El código simula una moneda injusta. La probabilidad observada
de cara es 34 de 100.

> set.seed(123456789)
> n <- 100
> p <- 0.367 # la verdadera probabilidad de Cabeza.
> Cabeza <- runif(N) < p
> mean(Head) # la frecuencia observada de Head.

[1] 0,34

¿Cuál es la probabilidad de que estos datos hayan sido generados por una moneda justa?
Es la probabilidad de observar 34 caras y 66 cruces dado que la verdadera probabilidad de cara
es 0,5.
¿Cuál es la probabilidad de observar 1 Cara dado que la verdadera probabilidad
es 0.5? Es solo la probabilidad de Cara, que es 0.5.

Pr(Cabeza|pag=0.5) = 0.5 (5.6)

¿Cuál es la probabilidad de observar tres caras y cero cruces? Si los lanzamientos


de monedas son independientes entre sí, entonces es la probabilidad de cada cara,
todos multiplicados juntos.6

pr({Cabeza,Cabeza,Cabeza}|pags=0.5) = 0.5×0.5×0.5 = 0.53 (5.7)

6Independiente significa que si sé que los dos primeros lanzamientos de la moneda resultan cara, la probabilidad de que salga
cara en el tercer lanzamiento de la moneda es la misma que si viera dos cruces o cualquier otra combinación. El lanzamiento de
moneda anterior no proporciona información adicional sobre los resultados del próximo lanzamiento de moneda, si se conoce la
probabilidad real.
Máxima verosimilitud 111

¿Qué tal tres caras y dos cruces?

pr({3 cabezas,2 colas}) = 0.530.52 (5.8)

En realidad, no lo es. Esta es la probabilidad de observar 3 caras ydespués2


colas. Pero podría haber sido 1 cara, 2 cruces, 2 caras o 1 cruz, 1 cara, 1 cruce, 2
caras, etc., etc. Hay varias combinaciones diferentes de resultados que
tiene 3 caras y 2 cruces. En este caso hay5! 3!2!=10 permutaciones diferentes,
donde 5! significa 5 factorial o 5 multiplicado por 4 multiplicado por 3 multiplicado por 2
multiplicado por 1.
EnRnosotros podemos usarfactorial()para hacer el calculo.

> factorial(5)/(factorial(3)*factorial(2))

[1] 10

¿Cuál es la probabilidad de observar 34 caras y 66 cruces? Si la verdadera


probabilidad es 0,5, la probabilidad viene dada por la función binomial.

100!
pr({34H,66T}|p=0.5) = 0.5340.566 (5.9)
34!66!
¿Cuál es la probabilidad de observarpagsCabezas ennortejuicios? Dada una verdadera
probabilidad depags, está dada por la función binomial.

norte!
pagsp̂N(1−pags)(1−p̂)norte
pr(p̂|pag, norte) = (5.10)
(p̂N)!((1− p̂)norte)!

EnRpodemos usar elelegir()para calcular el coeficiente de la función


binomial.

> elegir(100, 34)*(0.5̂ 100)

[1] 0.0004581053

La probabilidad de que la moneda sea justa parece pequeña.


¿Cuál es la probabilidad verdadera más probable? Un método utiliza elprincipio de
analogía.Si queremos saber la verdadera probabilidad, entonces usamos la analogía en la
muestra. La mejor estimación de la probabilidad real es la frecuencia observada de caras
en la muestra (Manski,1990).7Es 34/100. Tenga en cuenta que esto no es igual a la
verdadera probabilidad de 0,367, pero está bastante cerca.
Alternativamente, encuentre la probabilidad que maximiza la probabilidad. ¿Cuál es
la verdadera probabilidadpagsque tiene la mayor probabilidad de generar los datos
observados? Es la probabilidad verdadera la que maximiza el siguiente problema.

p̂N
máximopags∈[0,1]
norte!

(p̂N)!((1−p̂)norte)!pags(1−pags)(1−p̂)norte
(5.11)

No es una gran idea pedirle a una computadora que resuelva el problema tal como está escrito. los

7Véase la discusión del principio de analogía enApéndice A.


112 Estimación de la demanda

El problema es que estos números pueden ser muy, muy pequeños. Las computadoras tienen una tendencia a
convertir números muy pequeños en otros números pequeños, totalmente diferentes. Esto puede conducir a
errores.
Encuentre la probabilidad que maximiza la probabilidad logarítmica.

máximopags∈[0,1] Iniciar sesión(norte!)−Iniciar sesión((p̂N)!)−registro((1− p̂)norte)!)


(5.12)
+ p̂NIniciar sesión(pags) + (1− p̂)norteregistro (1−pags)

La solución a este problema es idéntica a la solución del problema original.8

5.4.2 Verosimilitud binomial en R


ecuación (5.12) proporciona pseudocódigo para un optimizador simple enrPodemos usar
eloptimizar()función para encontrar el valor mínimo en un intervalo.9Tenga en cuenta
también que la función que se está optimizando eliminó el coeficiente de la función
binomial. Nuevamente, esto está bien porque el óptimo no cambia.

> función_binom <- función(p, N, p_sombrero) {


+ return(-((p_sombrero*N)*log(p) + (1 - p_sombrero)*N*log(1-p)))
+ # Tenga en cuenta el signo negativo ya que optimizar es un minimizador.
+}
> optimizar(f = function_binom, intervalo=c(0,1), N = 100,
+ p_sombrero=0.34)

$mínimo
[1] 0.3399919

$objetivo
[1] 64.10355

La estimación de máxima verosimilitud es 0,339, que está bastante cerca de la


estimación analógica de 0,34.Figura 5.3muestra que la función de verosimilitud es
relativamente plana alrededor del valor verdadero. La implicación es que la diferencia en
la probabilidad entre el valor real y el valor estimado es bastante pequeña.

> p <- c(1:1000)/1000


> log_lik <- -function_binom(p, N=100, p_hat=0.34)
> # nota que la función actúa sobre todo el vector.
> # negativo para mostrar la máxima probabilidad.

8Los óptimos no varían con las transformaciones monótonas.


9Lafunciónoptimizar()se utiliza cuando se optimiza sobre una variable, mientras queoptimizar()se utiliza
para optimizar sobre múltiples variables.
Máxima verosimilitud 113

− 100
− 200
probabilidad de registro

− 300
− 400

0.0 0.2 0.4 0.6 0.8 1.0

pags

FIGURA mi 5 .3
Parcela de l ogramo
probabilidad para una muestra con 34 caras de 100. Líneas en el
analógico e S itmate de 0,34 y el valor real de 0,367.

5.4.3 OL S con Máxima Verosimilitud


Podemos a nosotros e máxima verosimilitud para estimar MCO.Capítulor 1presentó el
estándar aalgoritmos para estimar MCO. Señala que con un adicional
asumir yonorte, el algoritmo de máxima verosimilitud también podría utilizarse en su lugar.
Assuyo tener datos generados por el siguiente lineal modelo.

yi=X′ iβ+υi (5.13)

dóndey i is el resultado de interés,Xies un vector repr tics desentiendo observado


personaje res
individuoi, yυirepresenta lo no observadori. Comocaracteristicas
dtusuele ser el caso, estamos interesados i
del individuo n estimandoβ. ers de
a usar la máxima verosimilitud para estimar el parámetro e este modelo. ución
Nosotros C norte

Sin embargo , wdebe suponer queυitiene una distribución particular es que


Un estandar
asumir yoυi∼ norte(0, σ2). Es decir, suponemos que la s se distribuye carácter no observado
acteristici ci normalmente. Tenga en cuenta que no sabemos w el parámetro,
σ.
114 Estimación de la demanda

Podemos determinar la probabilidad de observar los datos reorganizando primero la


ecuación (5.13).
υi=yi− X′ iβ (5.14)
La probabilidad de observar el resultado es la siguiente.
()
F(υi|yi,Xi) =1 σφυi−0 σ
(5.15)
=1 σφ(zi)

dónde
yi - Xi ′β
zi= (5.16)
σ
yφes eldensidad normal estándar.
Nota enR,es necesario usar eldistribución normal estándarfunción.10
Para usar esta función necesitamosnormalizarla variable aleatoria quitando la media
del término no observado, que es cero, y dividiendo por la desviación estándar del
término no observado (σ). La notación estándar para la variable normalizada esz,
pero no confunda esto con nuestra notación para una variable instrumental.
También debemos recordar que esta es la densidad, una derivada de la función de
distribución de probabilidad. Por lo tanto, necesitamos ajustar la fórmula de
densidad dividiéndola por la desviación estándar de la distribución de la
característica no observada (σ).
Por lo tanto, la probabilidad de observar los datos viene dada por la siguiente
producto.
norte(
∏1 ( ))
yi - Xi ′β
L({y,X}|{β, σ}) = φ (5.17)
i=1
σ σ
∏norte
El tamaño de la muestra es i=1es notación para multiplicar todos los elementos denotados
nortey 1 anortejuntos.11
Podemos encontrar las estimaciones de máxima verosimilitud deβyσresolviendo el
siguiente problema.
(( ))

norte
yi - X′β̂ i
máximo Iniciar sesiónφ - norteIniciar sesión(σ̂) (5.18)
β̂,σ̂ yo=1 σ̂

Compare esto con el estimador enCapítulo 1.12

5.4.4 MCO de Máxima Verosimilitud en R


Podemos crear un estimador de máxima verosimilitud del modelo OLS usando la
Ecuación (5.18) como pseudocódigo.

10Esto tiene que ver con la capacidad de esta función para ejecutar rápidamente vectores. Ver
apéndice Bpara una discusión sobre la programación enr
11Esto supone que los resultados son independientes e idénticamente distribuidos.
12Ver la fórmula para normal estándar.
Máxima verosimilitud 115

> f_ols_ml <- función(par, y, X) {


+ X <- cbind(1,X)
+ N <- longitud (y)
+ J <- dim(X)[2]
+ sigma <- exp(par[1])
+ # Tenga en cuenta que sigma debe ser positivo.
+ # Los mapas de funciones exponenciales
+ # de cualquier número real a números positivos.
+ # Permite al optimizador elegir cualquier valor y
+ # transforma ese número en un valor positivo.
+ beta <- par[2:(J+1)]
+ z <- (y - X%*%beta)/sigma
+ log_lik <- -sum(log(dnorm(z)) - log(sigma))
+ retorno (log_lik)
+ # recuerda que estamos minimizando.
+}

El optimizador estándar enRes la funciónóptimo().Esta función por defecto es


Nelder-Mead, que es un algoritmo bastante robusto.

> a <- optim(par=c(0,2,-3),fn=f_ols_ml,y=y_star,X=x)


> # optim toma valores iniciales con par, luego la función
> # used y luego valores que necesita la función.
> # hacemos trampa haciendo que comience en los valores verdaderos.
> #sigma
> exp(a$par[1])

[1] 0.9519634

> #beta
> a$par[2:3]

[1] 1.832333 -2.643751

Nuestra estimaciónσ̂bastante cerca del valor verdadero es 1, yβ̂={1.83,−2.64} en


comparación con los valores reales de 2 y -3. ¿Qué sucede si usa diferentes valores
iniciales?

5.4.5 Probit
Volviendo atrás, considere el problema de elección discreta con el que comenzó el
capítulo. Si tenemos información sobre la distribución del término no observado, que
generalmente se supone, entonces podemos encontrar los parámetros que maximizan la
probabilidad de que el modelo prediga los datos que observamos.
Considere el problema descrito por la Ecuación (5.3). Asumir lo no observado
116 Estimación de la demanda

característica se distribuye estándar normal, entonces la probabilidad de observar


los datos viene dada por la siguiente función.


norte


L({y,X}|β) = Φ(−X′ iβ)1 y(1
i
−Φ(−X′ iβ))yi (5.19)
i=1

ecuación (5.19) muestra la función de probabilidad de observar los datos que


realmente observamos ({y,X}) dado que la probabilidad verdadera que está
determinada porβ. La varianza de la característica no observada (σ2) no está
identificado en los datos. Es decir, hay un número infinito de valores paraσ2que son
consistentes con los datos observados. La solución estándar es igualarlo a 1 (σ2=1).
Tenga en cuenta queyies 0 o 1 y también tenga en cuenta quea0=1, mientrasa1=a.
Esta es la función de verosimilitud binomial (Ecuación (5.11)) escrito de forma
general con las probabilidades determinadas por la función normal estándar.
El parámetro de interés,β, se puede encontrar como la solución al siguiente
problema de maximización.


norte

máximo (1−yi) log(Φ(−X′ iβ̂)) +yilog(Φ(X′ iβ̂))) (5.20)


β̂ i=1

Hice un ligero cambio al pasar de Ecuación (5.19) a la ecuación (5.20).


Aproveché que eldistribución normales simétrico Esta versión es mejor por
razones computacionales.13

5.4.6 Probit en R
> f_probit <- función(beta, y, X) {
+ X <- cbind(1,X)
+ Xb <- X%*%beta
+ log_lik <- (1 - y)*log(pnorm(-Xb)) + y*log(pnorm(Xb))
+ retorno(-suma(log_lik))
+}
> optim(par=lm1$coeficientes,fn=f_probit,y=y,X=x)$par

(Interceptar) X
2.014153 - 2.835234

Podemos usar la Ecuación (5.20) como base para nuestro propio estimador probit. Las
estimaciones probit están más cerca de los valores verdaderos de 2 y -3, aunque no están
particularmente cerca de los valores verdaderos. ¿Por qué las estimaciones no se acercan a los
valores reales?14

13Gracias a Joris Pinkse por señalar este problema.


14Este tema se discute enCapítulo 1.
Modelo de utilidad aleatoria de McFadden 117

5.4.7 Modelo lineal generalizado


El probit es un ejemplo demodelo lineal generalizado.El vector de resultado es,y=F(Xβ),
dóndeFes alguna función. Esta es una generalización del modelo OLS. Tiene uníndice
lineal,Xβ, pero ese índice se encuentra dentro de una función potencialmente no lineal (F).
El probit es un ejemplo, al igual que el modelo logit que se analiza a continuación.

EnRestos tipos de funciones a menudo se pueden estimar con laglm()función.


Como elpelícula()función,glm()crea un objeto que incluye numerosos resultados,
incluidos los coeficientes. Lo bueno de laglm()función es que incluye una variedad de
modelos diferentes. Desafortunadamente, eso hace que sea difícil de usar.

Podemos comparar nuestras estimaciones probit con las de la función integradaRmodelo


probit utilizandoglm().

> glm(y ~ x, family = binomial(link="probit"))$coeficientes

(Interceptar) X
2.014345 - 2.835369

Los resultados son casi los mismos. Los dos modelos se resuelven utilizando diferentes
algoritmos. losglm()utiliza un algoritmo llamado mínimos cuadrados ponderados iterativos en
lugar de máxima verosimilitud.

5.5 Modelo de utilidad aleatoria de McFadden


Para estimar el impacto del sistema ferroviario BART, McFadden necesitaba un modelo
que capturara las opciones actuales y predijera la demanda de un producto que no
existía.
La sección presenta el modelo de McFadden, los estimadores probit y logit y los
resultados de la simulación.

5.5.1 Modelo de Demanda


En el modelo de McFadden, personaila utilidad sobre la elecciónjes la siguiente función
aleatoria.
tuyo=X′ yoβ+υyo (5.21)
PersonaiLa utilidad de es una función de las características observables tanto de la
persona iy la elecciónjrepresentado en la Ecuación (5.21) por la matrizX.En el caso de
la encuesta BART, se trata de cosas como los ingresos de la persona y el costo de
viajar en automóvil. Estas características observadas se asignan a la utilidad por
persona.ipreferencias de , representadas por elβvector. Por último, hay
118 Estimación de la demanda

características no observadas de la personaiy elecciónjque también determinan el valor


de la persona para la elección. Estos están representados porυyo.
Para predecir la demanda de BART a partir de la demanda observada de automóviles y autobuses,
necesitamos dos supuestos. En primer lugar, los pesos de preferencia (β) no puede variar con el producto. En
segundo lugar, la elección puede describirse como una cesta de características. Este estilo de modelo a
menudo se denominamodelo hedónico.El desplazamiento en automóvil está representado por un conjunto de
características como los peajes a pagar, los precios de la gasolina, el estacionamiento, el tiempo que demora y
los costos de mantenimiento del automóvil. Del mismo modo, los desplazamientos en tren o autobús
dependen del precio de los billetes y del tiempo que se tarde. Los individuos ponderan estas características de
la misma manera, independientemente de la elección a la que se refieran.
Nosotros podemos usarpreferencia reveladay elecciones observadas para hacer
inferencias sobre la personaipreferencias de . Del supuesto de preferencia revelada
aprendemos que la utilidad de la persona del productoAes mayor que su utilidad del
productoB. Si observamos a la personaienfrentarse a la elección entre dos productosAy B
, y la vemos elegirA, entonces aprendemos quetuI a>tuiB.

tuI a>tuiB
X′ I aβ+υI a>X′ iBβ+υiB (5.22)
υI a−υiB> −(XI a− XiB)′β
ecuación (5.22) muestra que si hay suficiente variación en las características
observadas de las elecciones (XI a−XiB), potencialmente podemos estimar las
características no observadas (υI a−υiB) y las preferencias (β). El análisis de la primera
sección del capítulo muestra cómo la variación de los precios puede permitir trazar
la distribución de la característica no observada. losXs son como el precio; de hecho,
pueden ser precios. También necesitamos hacer una suposición sobre la
distribución de las características no observadas (υI a− υiB). A continuación,
consideramos dos suposiciones diferentes.

5.5.2 Estimadores Probit y Logit


Si asumimos queυI a−υiBesta distribuidonormal estándarpodemos usar un modelo
probit.15

pr(yi=1|XI a,XiB) = Pr(υI a−υiB> −(XI a− XiB)′β)


= PR(−(υI a−υiB)<(XI a− XiB)′β) = Φ((XI a− (5.23)
XiB)′β)

El artículo original de McFadden estima un logit. Asume que las características


no observadas se distribuyen con valor extremo tipo 1. Esta distribución de boca
llena también se llama Gumbel o log Weibull. La ventaja de esta distribución es que
la diferencia en los términos no observados es una distribución logística y se puede
utilizar un modelo logit.
El logit tiene algunas propiedades muy buenas. En particular, es muy fácil de

15Tenga en cuenta en los datos simulados, elυI ase elimina el término para que se cumpla la suposición.
Modelo de utilidad aleatoria de McFadden 119

calcular. Esto lo convirtió en un modelo valioso en la década de 1970. Incluso hoy en día, el logit se usa
comúnmente en el aprendizaje automático debido a sus propiedades computacionales.dieciséis
El supuesto logit permite que la probabilidad de interés tenga la siguiente
forma.

Exp((XI a− XiB)′β)
pr(yi=1|XI a,XiB) = (5.24)
1 + exp((XI a− XiB)′β)
Esta función es muy útil. Tiene la propiedad de que sea cual sea el parámetro
que le des, devuelve un número entre 0 y 1, una probabilidad.17A menudo se utiliza
en problemas de optimización por este motivo.

5.5.3 Simulación con Estimadores Probit y Logit


Considere una simulación del modelo de McFadden con la suposición probit y
logit sobre las características no observadas.

> set.seed(123456789)
> n <- 5000
> X_A <- cbind(1,matriz(runif(2*N),nrow=N))
> X_B <- cbind(1,matriz(runif(2*N),nrow=N))
> # crea dos matrices de características del producto
> beta <- c(1,-2,3)

En la simulación hay 5.000 individuos eligiendo entre dos productos con dos
características observables. Tenga en cuenta que estas características varían entre
los individuos, pero las preferencias de los individuos no.

> # Probit
> u_A <- norma(N)
> y <- X_A%*%beta - X_B%*%beta + u_A > 0
> glm1 <- glm(y ~ I(X_A - X_B),
+ familia = binomial(link="probit"))
> # nota que I() hace matemáticas dentro de la función glm().
> #g "el" m uno.

El modelo probit supone que la característica no observada (la característica


relativa no observada) se distribuyeestándar normal.El logit asume que las
características no observadas se distribuyen con valor extremo tipo 1. Tenga en
cuenta que la funciónYO()permite operaciones matemáticas dentro delglm()o
película()función. Aquí simplemente toma la diferencia entre las dos matrices de
características observadas.

dieciséisSe utiliza en modelos de estimación de redes neuronales. En el aprendizaje automático, esto se denomina
función "sigmoidea".
17Esesta propiedad la que la hace útil como función de "activación" en modelos de redes
neuronales.

También podría gustarte