Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
70 Variables instrumentales
Suponga que hay cuatro grupos de personas. Estos cuatro grupos se caracterizan por la
probabilidad de que acepten el tratamiento correspondiente al instrumento. Es importante
destacar que no observamos en qué grupo se encuentra una persona en particular.
13Siempre podemos escribir la probabilidad de un evento como una suma ponderada de todas las
probabilidades condicionales del evento. es decir, pr(A) = Pr(A|B) Pr(B) + PR(aire acondicionado) Pr(C), donde
Pr(B) + PR(C) = 1.
72 Variables instrumentales
∑norte
y ∑norte
∑norte
i=11(Xi=1 yzi=1)
pags
1̂1= ∑norte (3.20)
i=11(zi=1)
y ∑norte
i=11(Xi=1 yzi=0)
pags
10= ∑norte (3.21)
i=11(zi=0)
µ̂y1 − µ̂ y0
µ̂TARDE= (3.22)
pags11− p̂10
Para usar el enfoque LATE necesitamos hacer de la educación una variable binaria.
Esto se hace dividiendo la población entre los que van a la universidad y los que no.
Se supone que todas las personas con más de 12 años de educación van a la
universidad.
El estimador LATE obtenido anteriormente se codifica a continuación. Tenga en cuenta que
significar()de una variable binaria da la probabilidad.
[1] 0.3196679
[1] 0.1772967
Podemos comparar la LATE para los dos instrumentos propuestos. La estimación del efecto
anual promedio de asistir a la universidad es 0.32 utilizando la proximidad a la universidad. Es
0,18 utilizando como instrumento la convivencia con ambos padres. Estas estimaciones son
mucho más grandes que las estimaciones de MCO. Tenga en cuenta que no hemos controlado
otras características observadas del individuo, como la edad, la raza, etc.Cuadro 3.3muestra que
aquellos individuos que crecen cerca de las universidades tienen una serie de otras
características observadas asociadas con mayores ingresos.
La variación en las estimaciones de LATE sugiere que los retornos a la educación son
heterogéneos. Aquellos cuya asistencia a la universidad se ve afectada por la distancia a la universidad
obtienen rendimientos muy altos. Mientras que aquellos que se ven afectados por tener a ambos
padres en casa obtienen rendimientos universitarios más bajos. VerKédagni(2017) para una discusión
de este tema.
4.1 Introducción
En los primeros tres capítulos estimamos, o intentamos estimar, un solo valor de
interés. Este capítulo considera situaciones en las que no podemos o no queremos
estimar un valor único para el parámetro de política de interés. En cambio, el
capítulo considera casos en los que estamos limitados a estimar un rango de
valores. Estamos interesados en usar los datos para estimar lalímitesen el
parámetro de política de interés.
Es una práctica estándar en econometría presentar laefecto promedio del tratamiento
(COMIÓ). Esta estimación proporciona al formulador de políticas el impacto promedio de
la política sitodo el mundoiba a recibir la póliza. Es decir, si todos pasan de no asistir a la
universidad a asistir a la universidad, la ATE predice lo que sucedería. Daría un ejemplo,
pero no puedo pensar en uno. En general, las políticas no funcionan así. Considere la
política de hacer que las universidades estatales públicas sean gratuitas. Tal política
alentaría a más personas a asistir a la universidad, pero un montón de gente ya estaba
asistiendo a la universidad y un montón de gente no asistirá a la universidad, incluso si es
gratis. ¿Qué nos dice la ATE que sucederá con aquellos que recién se animan a ir a la
universidad? No mucho.
Si asistir a la universidad tiene el mismo efecto en todos, entonces el ATE brinda
información útil. Si todos tienen el mismo efecto de tratamiento, el promedio debe ser
igual al efecto de tratamiento. La dificultad surge cuando diferentes personas obtienen
un valor diferente de ir a la universidad. Es decir, siempre surge la dificultad.
Este capítulo considera dos implicaciones. En el primer caso, los datos permiten
estimar la ATE, pero preferiríamos conocer la distribución del efecto de política. En
general, no podemos estimar esta distribución. Sin embargo, podemos encuadernarlo.
Estos límites se basan en una conjetura del gran matemático soviético Andrey
Kolmogorov. El capítulo explica cómo elLímites de Kolmogorovtrabajo y cuando
proporcionan información útil al responsable de la formulación de políticas. Estos límites
se ilustran mediante el análisis de un ensayo controlado aleatorio sobre el efecto de los
dispositivos de "ahorro de compromiso".
En el segundo caso, los datos no permiten estimar la ATE. O más exactamente,
no estamos dispuestos a hacer las suposiciones no creíbles necesarias para estimar
la ATE. El econometrista de Northwestern, Charles Manski, argumenta que los
econometristas están demasiado dispuestos a presentar estimaciones basadas en
suposiciones no creíbles. Manski demuestra que es más débil pero más creíble
75
76 Estimación de límites
dóndeyies individualilos ingresos deXi∈ {0,1}es individual o noi asiste a la universidad yυi
representa alguna característica no observada que también afecta a los individuosilos
ingresos de . El efecto del tratamiento está representado porbiy esto puede variar entre
los individuos.
Estamos interesados en determinar el efecto del tratamiento para cada individuo.i.
bi=yi(1)−yi(0) (4.2)
Esta es la diferencia entre los dos resultados posibles para cada individuo.
> set.seed(123456789)
> n <- 200
> un <- 2
> b <- norma(N,media=2,sd=3)
> # esto crea variación en la pendiente con un promedio
> # efecto de 2.
> x0 <- rep(0,N) # crea un vector de ceros
> x1 <- rep(1,N)
> u <- norma(N)
> y <- a + b*cbind(x0,x1) + u
> # y es una matriz, [a + u, a + b + u]
> # rep crea un vector repitiendo el primer número por el
> # cantidad del segundo número.
Figura 4.1presenta las funciones de densidad, las medias y las funciones de distribución
acumulada de los dos posibles resultados de los datos simulados. La figura sugiere que los
individuos generalmente tienen mejores resultados cuandoX=1. Dejay ser ingresos yX=1 ser
asistencia a la universidad. ¿Crees que esto es evidencia de que las personas ganan más dinero
porque asisten a la universidad? La media de la distribución de los ingresos de los que asisten a
la universidad es mucho más alta que la media de la distribución de los ingresos de los que no
asisten a la universidad. Suponiendo que estos datos simulados representaran datos reales,
¿debería AOC 2028 usar estos resultados como evidencia para hacer que la universidad sea
gratuita?
Una preocupación es que las dos distribuciones se superponen. Además, las funciones de
distribución acumulativa se cruzan. Puede haber individuos en los datos que en realidad estén
mejor siX=0. El estudiante promedio que asiste a la universidad gana más que el estudiante
promedio que no asiste a la universidad, pero algunos pueden ganar menos si van a la
universidad. Podemos determinar si esto ocurre observando la distribución conjunta de los
posibles resultados. Veremos que el cruce observado enFigura 4.1implica que algunas
personas están mejor siX=0 mientras que otros están mejor siX=1.
Sin colegio
0.30
Colega
0.20
densidad
0.10
0.00
−2 0 2 4 6 8 10
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
−2 0 2 4 6 8 10
FIGURA 4.1
Densidad y distribución de probabilidad acumulada de resultados potenciales. los
las líneas verticales son los resultados potenciales medios.
Efecto de tratamiento promedio 79
0.12
0.08
Densidad
0.04
0.00
−5 0 5 10
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
−5 0 5 10
FIGURA 4.2
Densidad y cu distribución de probabilidad emulativa del tratamientoefecto es la
distribución de e la diferencia entre los ingresos si el individuo en si universidad tiende
y los ingresos mino lo hacen. Las líneas verticales son donde el tre efecto de atención
es 0
[1] VERDADERO
Por "hacer" queremos decir que este es el resultado esperado si las personas en los datos se
enfrentaran a una política que forzara el tratamiento.X=1. Mantenemos todos los demás efectos
constantes cuando se realiza el cambio de política. Es "hacer" como en "hacer una política".
La notación destaca el hecho de que el resultado potencial esperado de un
tratamiento puede no ser igual a los resultados esperados en un tratamiento en
particular. En general,MI(Y |hacer(X) = 1)6=MI(Y |X=1), donde se observa el segundo
término en los datos. El segundo término es la notación estándar para el resultado
esperado entre los individuos observados en los datos con el tratamiento igual a 1. Esta
es la notación del operador do para "correlación no implica causalidad".
Para ver por qué estos números no son iguales, considere la siguiente derivación.
Efecto de tratamiento promedio 81
El resultado esperado bajo una política en la que las personas asisten a la universidad es una
suma ponderada del efecto de la política sobre las personas que actualmente asisten a la
universidad y el efecto de la política sobre las personas que actualmente no asisten a la
universidad.
Por lo general, podemos observar tres de los cuatro números en el lado derecho
de la ecuación (4.6). Observamos la probabilidad de que los individuos se asignen a
los tratamientos actuales. Además, suponemos queMI(Y |hacer(X) = 1,X=
1) =MI(Y |X=1). Es decir, asumimos que el resultado esperado para las personas
asignadas a un tratamiento será el mismo que si hubiera una póliza que les
asignara el mismo tratamiento. El número que no observamos en los datos es MI(Y
|hacer(X) = 1,X=0). No podemos observar el resultado esperado condicionado a que
una política asigne a una persona a un tratamiento cuando se observa que recibe el
otro tratamiento. No podemos observar los ingresos esperados por asistir a la
universidad para las personas que no asisten a la universidad.
para cada tratamiento. Por lo tanto, podemos estimar la diferencia promedio en los resultados
potenciales. Dicho de otra manera, la ausencia de confusión nos permite estimar el efecto promedio
del tratamiento.
y
Ftu(b) = 1 + min{minF1(y)− F0(y − segundo),0} (4.9)
y
Figura 4.3presenta la distribución del efecto del tratamiento para los datos
simulados, así como los límites inferior y superior. Recuerda que en datos normales no
podemos observar el efecto del tratamiento pero gracias a las matemáticas podemos
determinar sus límites. Si observa detenidamente, notará que el tratamiento debe dañar
a algunas personas simuladas. En 0, los límites son estrictamente positivos. Por supuesto,
sabemos que en nuestros datos imposibles, algunos individuos simulados están peor.
84 Estimación de límites
> K <- 50
> min_diff <- min(y[,1]) - max(y[,2])
> max_diff <- max(y[,1]) - min(y[,2])
> delta_diff <- (max_diff - min_diff)/K
> y_K <- min_diff + c(1:K)*delta_diff
> plot(ecdf(y[,2] - y[,1]), do.points=FALSE,lwd=3,main="")
> líneas(y_K,sapply(y_K, función(x) FL(x,y[,2],y[,1])),
+ lty=2,lwd=3)
> líneas(y_K,sapply(y_K, función(x) FU(x,y[,2],y[,1])),
+ lty=3,lwd=3)
> abline(v=0,lty=2,lwd=3)
1.0
0.8
0.6
Fn(x)
0.4
0.2
0.0
−5 0 5 10
FIGURA 4 . 3
Distribución n del efecto del tratamiento junto con su superior un d límites inferiores.
propio interés. Dado esto, ¿se pueden proporcionar políticas o productos que “empujen” a las
personas a tomar mejores decisiones?
Ashraf et al.(2006) describen un experimento realizado con un banco en Filipinas. En el
experimento se ofreció a algunos clientes cuentas de ahorro “de compromiso”. En estas
cuentas, el cliente decide un objetivo, como una cantidad objetivo o una fecha objetivo, y
puede depositar pero no retirar hasta alcanzar el objetivo. Dichos productos pueden
ayudar a las personas con problemas para controlar sus finanzas personales o interactuar
con los miembros del hogar en asuntos financieros. Las personas a las que se les
ofrecieron cuentas en realidad no tenían que abrir una cuenta y muchas no lo hicieron.
Ashraf et al.(2006) usar un fiexperimento de campopara determinar la eficacia
de una cuenta de ahorros de compromiso.5En el experimento hay tres grupos de
tratamiento; al primer grupo se le ofrece la cuenta de ahorro de compromiso sin
costo extra ni ahorro, al segundo grupo se le brinda información sobre el valor de
los ahorros, y al tercero es un control. Aquí compararemos el grupo de compromiso
con el control.
La sección utiliza los datos para ilustrar el valor de los límites de Kolmogorov.
El efecto promedio del tratamiento es un aumento de 411 pesos (alrededor de $200) en ahorros
después de 12 meses para aquellos a los que se les ofrecen las cuentas de compromiso. Este resultado
sugiere que las cuentas de compromiso tienen un impacto significativo en las tasas de ahorro. Sin
embargo, no está claro si todos se benefician y cuánto beneficio brindan estas cuentas.
0.4
0.2
0. 0
−2 −1 0 1 2
FIGURA 4.4
Superior e inferior b sonidos en la distribución tución de dsiferencia e en log saldos 0
entre el tratamiento nt y el control. Mamá rks a 1,0 00, 5,00 y 10,000 usando
la transformación aarriba
puede opodría noinc hasta rfacilidad sa festejos hay m ay incluso b mi gente quien en realidad termina
ahorrar menos. Unli debe ky el mi ejemplo de arriba , no podemos no mostrar que la fracción
ser mayor que 0.
norte
Límites de Manski 87
Xi∗=F+cυ1i+dzi+υ2i
{ (4.11)
1 siX∗i> 0
Xi=
0 de lo contrario
> c <- 2
> re <- 4
> f <- -1
> Z <- ronda(runif(N))
> u_2 <- norma(N)
> x_estrella <- f + c*u + d*Z + u_2
> X <- x_star > 0 # asignación de tratamiento
> Y <- (1-X)*y[,1] + X*y[,2] # resultado condicional al tratamiento
> media(Y[X==1]) - media(Y[X==0])
[1] 3.506577
Desde arriba sabemos que se puede escribir como la diferencia en el ingreso esperado
cuando la política obliga a todos a ir a la universidad y el ingreso esperado cuando la
política obliga a todos a no ir a la universidad.
Podemos escribir esto a través de la Ley de Expectativa Total.
Los límites se crean reemplazando los valores desconocidos con los valores más
pequeños (más grandes) que podrían ser. DejarY representan el límite inferior (el valor
más bajo posible) yYrepresentan el límite superior (el mayor valor posible). Manski llama a
esto ellímites del peor de los casos,mientras que Pearl usa el términolímites naturales.7
Dados estos valores, podemos calcular los límites del efecto promedio del
tratamiento.
COMIÓ= (MI(Y |X=1)− Y )pr(X=1) + (Y −MI(Y |X=0) Pr(X=0)
7Si no conocemos los valores posibles, podemos usar los valores observados. Esta suposición
puede ser menos "natural" de lo que preferimos.
90 Estimación de límites
Observe cómo se calculan los límites del ATE. El máximo en el ATE se denota por la
línea superior. Es cuando el primer resultado esperado es lo más grande posible y el
segundo resultado esperado es lo más pequeño posible. De manera similar, el
mínimo en el ATE es cuando el primer resultado es lo más pequeño posible y el
segundo resultado es lo más grande posible. El mínimo en el ATE se indica con
subrayado.
[1] 7.975223
[1] -5.010368
Estos límites son amplios. El efecto promedio del tratamiento deXenYestá entre
- 5.01 y 7.98. El verdadero valor es 2.
aprendemos que el efecto de una política do(X) = 1 no puede tener un efecto mayor que
8. Hay casos en los que esta información puede ser suficiente para que los responsables
políticos busquen una alternativa. Por ejemplo, un análisis de costo-beneficio puede
haber sugerido que para que una póliza tenga valor, el efecto de la póliza debe ser mayor
en magnitud que 8. En ese caso, los límites brindan suficiente información para decir que
los beneficios de la póliza son superados por sus costos
En tercer lugar, puede haber suposiciones y datos que sean razonables y permitan
límites más estrictos. Esos se discuten más en las siguientes secciones.
Suposición 2.
Estos son los límites cuando las variables similares a instrumentos tienen dos valores
(Z∈ {0,1}).
[1] 3.76668
[1] -3.64774
Una de las áreas más controvertidas de la microeconometría es la estimación del efecto de varias
leyes sobre armas de fuego en el crimen y las muertes relacionadas con armas de fuego. Para
estudiar estos efectos, los economistas y los científicos sociales observan cómo varían estas leyes en
los Estados Unidos y cómo esos cambios en las leyes están relacionados con los cambios en las
estadísticas delictivas (manski y pimienta,2018).
El juez Louis Brandeis dijo que un “estado puede, si sus ciudadanos así lo deciden, servir
como laboratorio; e intentar nuevos experimentos sociales y económicos sin riesgo para el resto
del país”.10Los estados de EE. UU. son un “laboratorio de la democracia”. Como tal,
potencialmente podemos usar la variación en las leyes estatales para estimar los efectos de esas
leyes. El problema es que los estados de EE. UU. son muy diferentes entre sí. En la terminología
actual, los estados con fuertes leyes a favor de las armas tienden a ser estados “rojos” o al
menos estados “púrpuras”. También tienden a tener grandes poblaciones rurales.
Entre 1980 y 1990, doce estados adoptaron leyes de derecho a portar (RTC). Estamos
interesados en ver cómo le fue a la delincuencia en esos estados en relación con los estados
que no adoptaron esas leyes. Para hacer esto, podemos mirar las tasas de criminalidad de los
años 80 y 90. Un problema potencial es que la epidemia de crack golpeó a los Estados Unidos
exactamente en este momento, aumentando durante los años 80 y 90 antes de disminuir. La
epidemia de crack se asoció con grandes aumentos en las tasas de delincuencia en las zonas
urbanas (Añeja et al.,2011).
Esta sección utiliza datos delictivos disponibles públicamente para ilustrar el valor del
enfoque de límites.
Los datos se descargan del sitio web de John Donohue.11Si bien existe una gran variación
en las leyes de armas, la definición de RTC es "emitirá" en el conjunto de datos utilizado.
Para el crimen, usamos la tasa por población de agresiones agravadas por estado,
promediada durante los años posteriores a 1990. El código también calcula el tamaño
físico del estado, que es una variable que se usará más adelante.
[1] -80.65852
12
10
8
Frecuencia
6
4
2
0
FIGURA 4.5
Su tograma de agresión agregada promedio por cada 100,000 por estado.
[1] 23666.01
> # COMIÓ yo
poder vinculado
> ( EY_X1 - máx. Y)*PX1 + (mín. Y - EY_X0)*PX0
Entonces un natural b Los sonidos son muy, muy anchos. Una política de RTC puede dar lugar a
rata
ms diciembre
i mi
asiendo agresiones de 75 000 o un aumento de 24 000 por cada 100 000 personas.
Podemos nortehacer estos límites se hacen más estrictos al suponer que las tasas de ataque están
policía puede no mentir fuera de las tasas observadas en los datos.
[1] 334.1969
[1] -624.7655
Estos límites son mucho más estrictos. Una política que introduce RTC para el estado
promedio podría disminuir la tasa de agresiones en 625 o aumentar la tasa de agresiones en
334. Dado ese rango, podría ser que las leyes de RTC reduzcan sustancialmente las agresiones
con agravantes o que tengan poco o ningún efecto. Incluso pueden causar un aumento de las
agresiones con agravantes.
[1] 323.2504
[1] -613.3812
Podemos hacer una suposición de nivel establecido. Suponga que la variable similar a un
instrumento es el tamaño físico del estado. La suposición es que el efecto de tratamiento
promedio de implementar una ley RTC debe ser el mismo independientemente del tamaño
físico del estado. Tenga en cuenta que los resultados observables como el asalto
98 Estimación de límites
la tasa y la proporción de estados con leyes RTC pueden variar con el tamaño físico.
La suposición es sobre el efecto promedio del tratamiento que no se observa.
Los límites son más estrechos, aunque no mucho. Las leyes de RTC podrían reducir las agresiones
con agravantes en 613 o aumentar las tasas en 323.
Supongamos que los estados que actualmente tienen leyes RTC también tenderán a
tener niveles más bajos de asalto agravado. Además, obligar a los estados que
actualmente no tienen leyes RTC no reducirá los asaltos agravados esperados por debajo
de ese nivel. Este es el "negativo" de la suposición de monotonicidad en los datos
simulados.
Podemos resumir esto con Asunción4.
[1] 184.2203
[1] -75.66166
Los resultados en esta sección sugieren que el eslogan puede expresarse con mayor precisión
como “más armas, más o menos delincuencia”.
Discusión y lecturas adicionales 99
Estimación Estructural
5
Estimación de la demanda
5.1 Introducción
A principios de la década de 1970, San Francisco estaba completando un enorme proyecto de
infraestructura nueva, el sistema de Tránsito Rápido del Área de la Bahía (BART). El proyecto
inicialmente costó $ 1.6 mil millones e incluyó la construcción de túneles debajo de la Bahía de San
Francisco. Los formuladores de políticas obviamente estaban interesados en determinar cuántas
personas utilizarían el nuevo sistema una vez construido. Pero eso es un problema. ¿Cómo se predice
la demanda de un producto que no existe?
Una solución es preguntarle a la gente. Se realizó una encuesta a las personas
que probablemente utilizarían el nuevo sistema de transporte. La encuesta hizo
preguntas detalladas sobre su modo de transporte actual y les preguntó si
utilizarían el nuevo sistema. La preocupación es que es difícil para las personas
predecir cómo usarían algo que no existe. El econometrista de Berkeley, Dan
McFadden, sugirió un enfoque alternativo. En lugar de pedirle a la gente que
prediga lo que haría, McFadden sugirió usar información sobre lo que la gente
realmente hace y luego usar la teoría económica para predecir lo que haría.
1https://www.nobelprize.org/prizes/economic-sciences/2000/mcfadden/lecture/
103
104 Estimación de la demanda
Considere un conjunto de datos donde se observa una gran cantidad de personas que compran
cualquiera de los productosAo productoBa varios precios para los dos productos. Cada
2https://www.ftc.gov/system/files/documents/public_statements/295971/
130103googlesearchstmtofcomm.pdf
Preferencia revelada 105
tuAi−pagsA>tuBi−pagsB
o (5.1)
tuAi− tuBi>pagsA−pagsB
> set.seed(123456789)
> n <- 1000
> u <- ordenar(rnorma(N, media=1, sd=3))
[1] 0,386
[1] 0.3694413
0
−5
Verdadero
Est.
− 10
FIGURA 5.1
Gráfico de función de supervivencia y demanda estimada.
yi∗ =a+bxi+υi
{ (5.2)
1 siyi≥∗ 0
yi =
0 siy∗i<0
> set.seed(123456789)
> n <- 100
> un <- 2
> b <--3
> u <- norma(N)
> x <- runif(N)
> y_estrella <- a + b*x + u
> y <- y_estrella > 0
> lm1 <- lm(y ~ x)
yi∗=X′ iβ+υi
{ (5.3)
1 siy∗i≥0
yi=
0 siy∗i<0
5Este es en realidad un modelo probit que se presenta con más detalle a continuación.
Elección discreta 109
> plot(x,y, ylim=c(-0.2,1))
> abline(a = 2,b = -3, lwd=2)
> abline(a = lm1$coeficientes[1], b=lm1$coeficientes[2],
+ lty=2, lwd=2)
> leyenda("abajo a la izquierda", c("Verdadero", "Est."), lwd=2, lty=1:2)
1.0
0.8
0.6
y
0.4
0.2
Verdadero
Est.
0.0
FIGURA 5.2
Lote deXyycon la relación entrey∗yXr línea continua. La representado por el
relación estimada está representada por la Linea discontinua.
> set.seed(123456789)
> n <- 100
> p <- 0.367 # la verdadera probabilidad de Cabeza.
> Cabeza <- runif(N) < p
> mean(Head) # la frecuencia observada de Head.
[1] 0,34
¿Cuál es la probabilidad de que estos datos hayan sido generados por una moneda justa?
Es la probabilidad de observar 34 caras y 66 cruces dado que la verdadera probabilidad de cara
es 0,5.
¿Cuál es la probabilidad de observar 1 Cara dado que la verdadera probabilidad
es 0.5? Es solo la probabilidad de Cara, que es 0.5.
6Independiente significa que si sé que los dos primeros lanzamientos de la moneda resultan cara, la probabilidad de que salga
cara en el tercer lanzamiento de la moneda es la misma que si viera dos cruces o cualquier otra combinación. El lanzamiento de
moneda anterior no proporciona información adicional sobre los resultados del próximo lanzamiento de moneda, si se conoce la
probabilidad real.
Máxima verosimilitud 111
> factorial(5)/(factorial(3)*factorial(2))
[1] 10
100!
pr({34H,66T}|p=0.5) = 0.5340.566 (5.9)
34!66!
¿Cuál es la probabilidad de observarpagsCabezas ennortejuicios? Dada una verdadera
probabilidad depags, está dada por la función binomial.
norte!
pagsp̂N(1−pags)(1−p̂)norte
pr(p̂|pag, norte) = (5.10)
(p̂N)!((1− p̂)norte)!
[1] 0.0004581053
p̂N
máximopags∈[0,1]
norte!
(p̂N)!((1−p̂)norte)!pags(1−pags)(1−p̂)norte
(5.11)
No es una gran idea pedirle a una computadora que resuelva el problema tal como está escrito. los
El problema es que estos números pueden ser muy, muy pequeños. Las computadoras tienen una tendencia a
convertir números muy pequeños en otros números pequeños, totalmente diferentes. Esto puede conducir a
errores.
Encuentre la probabilidad que maximiza la probabilidad logarítmica.
$mínimo
[1] 0.3399919
$objetivo
[1] 64.10355
− 100
− 200
probabilidad de registro
− 300
− 400
pags
FIGURA mi 5 .3
Parcela de l ogramo
probabilidad para una muestra con 34 caras de 100. Líneas en el
analógico e S itmate de 0,34 y el valor real de 0,367.
dónde
yi - Xi ′β
zi= (5.16)
σ
yφes eldensidad normal estándar.
Nota enR,es necesario usar eldistribución normal estándarfunción.10
Para usar esta función necesitamosnormalizarla variable aleatoria quitando la media
del término no observado, que es cero, y dividiendo por la desviación estándar del
término no observado (σ). La notación estándar para la variable normalizada esz,
pero no confunda esto con nuestra notación para una variable instrumental.
También debemos recordar que esta es la densidad, una derivada de la función de
distribución de probabilidad. Por lo tanto, necesitamos ajustar la fórmula de
densidad dividiéndola por la desviación estándar de la distribución de la
característica no observada (σ).
Por lo tanto, la probabilidad de observar los datos viene dada por la siguiente
producto.
norte(
∏1 ( ))
yi - Xi ′β
L({y,X}|{β, σ}) = φ (5.17)
i=1
σ σ
∏norte
El tamaño de la muestra es i=1es notación para multiplicar todos los elementos denotados
nortey 1 anortejuntos.11
Podemos encontrar las estimaciones de máxima verosimilitud deβyσresolviendo el
siguiente problema.
(( ))
∑
norte
yi - X′β̂ i
máximo Iniciar sesiónφ - norteIniciar sesión(σ̂) (5.18)
β̂,σ̂ yo=1 σ̂
10Esto tiene que ver con la capacidad de esta función para ejecutar rápidamente vectores. Ver
apéndice Bpara una discusión sobre la programación enr
11Esto supone que los resultados son independientes e idénticamente distribuidos.
12Ver la fórmula para normal estándar.
Máxima verosimilitud 115
[1] 0.9519634
> #beta
> a$par[2:3]
5.4.5 Probit
Volviendo atrás, considere el problema de elección discreta con el que comenzó el
capítulo. Si tenemos información sobre la distribución del término no observado, que
generalmente se supone, entonces podemos encontrar los parámetros que maximizan la
probabilidad de que el modelo prediga los datos que observamos.
Considere el problema descrito por la Ecuación (5.3). Asumir lo no observado
116 Estimación de la demanda
∏
norte
−
L({y,X}|β) = Φ(−X′ iβ)1 y(1
i
−Φ(−X′ iβ))yi (5.19)
i=1
∑
norte
5.4.6 Probit en R
> f_probit <- función(beta, y, X) {
+ X <- cbind(1,X)
+ Xb <- X%*%beta
+ log_lik <- (1 - y)*log(pnorm(-Xb)) + y*log(pnorm(Xb))
+ retorno(-suma(log_lik))
+}
> optim(par=lm1$coeficientes,fn=f_probit,y=y,X=x)$par
(Interceptar) X
2.014153 - 2.835234
Podemos usar la Ecuación (5.20) como base para nuestro propio estimador probit. Las
estimaciones probit están más cerca de los valores verdaderos de 2 y -3, aunque no están
particularmente cerca de los valores verdaderos. ¿Por qué las estimaciones no se acercan a los
valores reales?14
(Interceptar) X
2.014345 - 2.835369
Los resultados son casi los mismos. Los dos modelos se resuelven utilizando diferentes
algoritmos. losglm()utiliza un algoritmo llamado mínimos cuadrados ponderados iterativos en
lugar de máxima verosimilitud.
tuI a>tuiB
X′ I aβ+υI a>X′ iBβ+υiB (5.22)
υI a−υiB> −(XI a− XiB)′β
ecuación (5.22) muestra que si hay suficiente variación en las características
observadas de las elecciones (XI a−XiB), potencialmente podemos estimar las
características no observadas (υI a−υiB) y las preferencias (β). El análisis de la primera
sección del capítulo muestra cómo la variación de los precios puede permitir trazar
la distribución de la característica no observada. losXs son como el precio; de hecho,
pueden ser precios. También necesitamos hacer una suposición sobre la
distribución de las características no observadas (υI a− υiB). A continuación,
consideramos dos suposiciones diferentes.
15Tenga en cuenta en los datos simulados, elυI ase elimina el término para que se cumpla la suposición.
Modelo de utilidad aleatoria de McFadden 119
calcular. Esto lo convirtió en un modelo valioso en la década de 1970. Incluso hoy en día, el logit se usa
comúnmente en el aprendizaje automático debido a sus propiedades computacionales.dieciséis
El supuesto logit permite que la probabilidad de interés tenga la siguiente
forma.
Exp((XI a− XiB)′β)
pr(yi=1|XI a,XiB) = (5.24)
1 + exp((XI a− XiB)′β)
Esta función es muy útil. Tiene la propiedad de que sea cual sea el parámetro
que le des, devuelve un número entre 0 y 1, una probabilidad.17A menudo se utiliza
en problemas de optimización por este motivo.
> set.seed(123456789)
> n <- 5000
> X_A <- cbind(1,matriz(runif(2*N),nrow=N))
> X_B <- cbind(1,matriz(runif(2*N),nrow=N))
> # crea dos matrices de características del producto
> beta <- c(1,-2,3)
En la simulación hay 5.000 individuos eligiendo entre dos productos con dos
características observables. Tenga en cuenta que estas características varían entre
los individuos, pero las preferencias de los individuos no.
> # Probit
> u_A <- norma(N)
> y <- X_A%*%beta - X_B%*%beta + u_A > 0
> glm1 <- glm(y ~ I(X_A - X_B),
+ familia = binomial(link="probit"))
> # nota que I() hace matemáticas dentro de la función glm().
> #g "el" m uno.
dieciséisSe utiliza en modelos de estimación de redes neuronales. En el aprendizaje automático, esto se denomina
función "sigmoidea".
17Esesta propiedad la que la hace útil como función de "activación" en modelos de redes
neuronales.