Documentos de Académico
Documentos de Profesional
Documentos de Cultura
J.N.K. Rao
2
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
δ = h(y1 , . . . , yN ).
ESTIMADOR DE HORVITZ-THOMPSON
1 X yj 1 X
Ȳˆ = = dj y j .
N πj N
j∈s j∈s
N N
1 XX yj yk
Vπ (Ȳˆ ) = 2 (πj,k − πj πk ) ,
N πj πk
j=1 k=1
1 X X πj,k − πj πk yj yk
V̂π (Ȳˆ ) = 2 ,
N πj,k πj πk
j∈s k∈s
6
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
z = 0.6 × Mediana(Ej ).
N
1 X z − Ej α
Fα = I (Ej < z), α ≥ 0.
N z
j=1
• α = 0 ⇒ Tasa/Incidencia de Pobreza
• α = 1 ⇒ Brecha de Pobreza
X Foster, Greer & Thornbecke (1984), Econometrica 7
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADOR DE HORVITZ-THOMPSON
• Indicador de pobreza:
N α
1 X z − Ej
Fα = Fαj , Fαj = I (Ej < z).
N z
j=1
• Estimador HT de Fα :
1 X
F̂α = dj Fαj .
N
j∈s
• Varianza estimada:
1 X 2
V̂π (F̂α ) = dj (dj − 1)Fαj .
N2
j∈s
8
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
• wj = dj gj peso ajustado, j ∈ s.
1 X
Ȳˆ A = wj yj .
N
j∈s
9
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
N
gj = , ∀j ∈ s.
N̂
• Estimador de razón:
Ŷ
Ȳˆ R = ,
X
Ŷ = dj yj .
N̂ j∈s
10
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
EJEMPLO 3: CALIBRACIÓN
EJEMPLO 3: CALIBRACIÓN
Ŷ A = Ŷ + (X − X̂)0 B̂.
ESTIMACIÓN EN DOMINIO/ÁREA
14
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
15
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADORES DIRECTOS
INDICADORES OBJETIVO:
• Aditivos en las observaciones individuales.
REQUERIMIENTOS de DATOS:
• Pesos muestrales dj , j ∈ sd para las unidades muestreadas en
el área.
• Para el estimador de HT de la media y para el estimador de
Hájek del total, el tamaño poblacional del dominio Nd .
16
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADORES DIRECTOS
VENTAJAS:
• Sin supuestos de modelo (no paramétrico).
• Se pueden usar pesos muestrales ⇒ Aproximadamente
insesgados y consistentes bajo el diseño cuando nd ↑.
• Aditividad (propiedad “benchmarking”):
D
X
ŶdDIR = Ŷ DIR .
d=1
DESVENTAJAS:
• Vπ (ȲˆdDIR ) ↑ cuando nd ↓. Muy ineficiente para dominios
pequeños.
• No se pueden calcular para áreas no muestreadas (nd = 0).
17
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
LÍMITES DE DESAGREGACIÓN
RECOMENDACIONES:
ESTIMADORES INDIRECTOS
yd = β0 + β1 xd + ed , d = 1, . . . , 85.
ESTIMADORES SINTÉTICOS
Definición:
A partir de una encuesta, se obtiene un estimador insesgado para
un área grande; cuando esta estimación se utiliza para calcular
estimaciones para subáreas bajo el supuesto de que las áreas
pequeñas tienen las mismas caracterı́sticas que el área grande,
identificamos estas estimaciones como estimaciones sintéticas.
X González (1973)
Ejemplo SIMPLE:
• Objetivo: Ȳd media del dominio d.
• Se asume: Ȳd = Ȳ .
• Estimador sintético de Ȳd :
ȲˆdSYNT = Ȳˆ .
22
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
• Suposición (modelo
implı́cito): stratum 1 stratum 2 stratum 3 stratum 4
ESTIMADOR POST-ESTRATIFICADO
SINTÉTICO
• Estimador post-estratificado sintético:
J
Ndj Ȳˆ+j Ȳˆ+j
X
ŶdSYN = R
, R
= Ŷ+j /N̂+j .
j=1
24
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADOR SINTÉTICO
INDICADORES OBJETIVO:
REQUERIMIENTOS DE DATOS:
ESTIMADOR SINTÉTICO
VENTAJAS:
ESTIMADORES SINTÉTICOS
DESVENTAJAS:
• No tienen en cuenta la posible heterogeneidad entre áreas; por
tanto, pueden estar seriamente sesgados bajo el diseño.
• El modelo debe verificarse cuidadosamente (por ejemplo,
mediante gráficos de residuos y contrastes de significatividad
de la varianza de los efectos aleatorios).
• Si se conoce el modelo, ¡no se usan los datos de la variable de
interés obtenidos de la encuesta!
• No tienden al estimador directo al aumentar el tamaño
muestral del dominio.
• No existen estimadores del ECM estables y distintos para cada
área.
• Es necesario realizar ajustes para que cumplan la propiedad
“benchmarking”.
29
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADORES COMPUESTOS
31
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
BENCHMARKING
Ŷ DIR X
Ỹd∗ = Ỹd XA ⇒ Ỹd∗ = ŶADIR
Ỹd d∈A
d∈A
34
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
ESTIMADORES SSD
INDICADORES OBJETIVO:
• Parámetros aditivos.
REQUERIMIENTOS DE DATOS:
ESTIMADORES SSD
VENTAJAS:
• Tenderán a tener menor varianza bajo el diseño que el
estimador directo y menor sesgo que el sintético.
DESVENTAJAS:
• Si el tamaño muestral del dominio (incluso siendo pequeño) no es
inferior al tamaño esperado, no se comparte información.
• El peso del estimador sintético no depende de lo bien explicada que
esté la variable de interés por las variables auxiliares.
• No se pueden calcular para dominios no muestreados.
• No se dispone de estimadores del ECM bajo el diseño estables y
distintos para cada área.
• Necesitan reajuste para satisfacer la propiedad “benchmarking”.
36
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
MODELO FAY-HERRIOT
(i) Modelo que enlaza las áreas:
δd = x0d β + ud , d = 1, . . . , D
iid
ud ∼ (0, σu2 ), σu2 desconocido
(ii) Modelo del muestreo:
δ̂dDIR = δd + ed , d = 1, . . . , D
ind
ed ∼ (0, ψd ), ψd = Vπ (δ̂dDIR |δd ) conocido ∀d
ud y ed independientes
(iii) Modelo combinado: Modelo lineal mixto
δ̂dDIR = x0d β + ud + ed , d = 1, . . . , D
X Fay & Herriot (1979), JASA
37
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
δ̂DDIR x0D uD eD
Matrices de covarianzas: V (u) = σu2 ID , V (e) = diag(ψd ).
Demostramos que el BLUP de un efectos mixto
µ = `0 β + m0 u,
para vectores ` and m dados de dimensiones p × 1 y D × 1, es
µ̃ = `0 β̃ + m0 ũ, ũ = (ũ1 , . . . , ũD )0 .
39
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
• Entonces, el BLUP de µ es
σu2
δ̃dBLUP = γd δ̂dDIR + (1 − γd )x0d β̃, γd = .
σu2 + ψd
X La distributión de ud es simétrica.
X σ̂u2 par: σ̂u2 (y) = σ̂u2 (−y).
X σ̂u2 invariante por traslaciones: σ̂u2 (y + Xγ) = σ̂u2 (y) para todo
y y γ.
43
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
MÉTODOS DE AJUSTE
MÉTODO DE AJUSTE FH
• Se verifica
n o2
ind
D
X δ̂dDIR − x0d β̃(σu2 )
δ̂dDIR ∼ N(x0d β, σu2 + ψd ) ⇒ 2
∼ XD−p
σu2 + ψd
d=1
• Método Fay-Herriot: Resolver iterativamente para σu2 la
ecuación
2
DIR 0 2
X δ̂d − xd β̃(σu )
D
h(σu2 ) = = D − p.
σu2 + ψd
d=1
45
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
donde
ECM(δ̂dEBLUP ) = E (δ̂dEBLUP − δd )2
= E (δ̂dEBLUP − δ̃dBLUP + δ̃dBLUP − δd )2
= ECM(δ̃dBLUP ) + E (δ̂dEBLUP − δ̃dBLUP )2
+ 2E (δ̂dEBLUP − δ̃dBLUP )(δ̃dBLUP − δd ).
• Por tanto,
• Reemplazamos y = Xβ + v en δ̃dBLUP = α0 y:
δ̃dBLUP = `0 β + b0 v, v = u + e ∼ N(0D , V).
Entonces,
∂ δ̃dBLUP ∂b0
= v.
∂σu2 ∂σu2
50
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
• Por tanto,
0
∂b0 0 ∂b0
E (δ̂dEBLUP − δ̃dBLUP )2 ≈E vv (σ̂u2 − σu2 )2 .
∂σu2 ∂σu2
INDICADORES OBJETIVO:
• Indicadores generales.
REQUERIMIENTOS DE DATOS:
• Valores agregados de p variables auxiliares A nivel de dominio.
• Tamaños poblacionales de los dominios.
54
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
VENTAJAS:
y = Xβ + Zu + e
• Esperanza y varianza marginales:
δ = a0 y = a0s ys + a0r yr
60
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
donde
ỹdjBLUP = x0dj β̃ + ũd , β̃ estimador WLS de β,
ũd = γd (ȳd − x̄0d β̃), γd = σu2 /(σu2 + σe2 /nd ).
• Cuando nd /Nd ≈ 0,
n o
Ȳ˜dBLUP ≈ γd ȳd + (X̄d − x̄d )0 β̃ + (1 − γd )X̄0d β̃
• Composición entre estimadores “survey regression”
ȳd + (X̄d − x̄d )0 β̃ y sintético de regresión X̄0d β̃.
62
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
INDICADORES OBJETIVO:
• Medias de totales de la variable de interés.
REQUERIMIENTOS DE DATOS:
• Microdatos para las p variables auxiliares en la encuesta.
• Indicador del dominio en la encuesta.
• Medias poblacionales de las p variables auxiliares para los
dominios.
64
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
VENTAJAS:
• Usa información auxiliar a nivel unidad, que es más detallada
que la información a nivel de área.
• El tamaño total muestral es tı́picamente grande (n >> D),
ası́ que se comparte mucha información.
• Incorpora heterogeneidad no explicada entre áreas.
• Es necesario diagnosticar el modelo.
• No requiere disponer de las varianzas muestrales de los
estimadores directos.
• Automáticamente comparte información entre áreas (“borrows
strength”) cuando el tamaño muestral del dominio es pequeño
y tiende al estimador “survey-regression” cuando el tamaño
muestral del dominio aumenta.
65
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
VENTAJAS:
• Los estimadores se pueden desagregar para subáreas (sin
efecto de sub-área) o incluso para individuos.
• Estimadores insesgados bajo el modelo (no es necesaria
normalidad pero sı́ simetrı́a).
• Estimadores del ECM con sesgo despreciable bajo el modelo
con normalidad.
• Estimador del ECM bajo el modelo estable para el ECM bajo
el diseño e insesgado bajo el diseño cuando se promedia para
muchos dominios.
• Para estimar en áreas no muestreadas, se puede usasr la parte
sintética.
66
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
DESVENTAJAS:
DESVENTAJAS:
MEJOR PREDICTOR
δ̃ BP = Eyr (δ|ys ).
δ̃ BP = δ̃ BP (β, θ).
70
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
δ = a0 y = a0s ys + a0r yr
donde
−1
ỹrBP = Xr β + Vrs Vss (ys − Xs β).
72
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
Nd α
1 X z − T −1 (ydj )
I T −1 (ydj ) < z = hα (yd ).
Fαd =
Nd z
j=1
0 , y0 )0
• Partición de yd en muestra y no-muestra: yd = (yds dr
• Mejor predictor:
BP
F̃αd = Eydr [Fαd |yds ] .
MÉTODO EB
• Distribución de ydr dado yds bajo el modelo con errores
anidados:
ydr |yds ∼ N(µdr |s , Vdr |s ),
donde
µdr |s = Xdr β + γd (ȳds − x̄0ds β)1Nd −nd ,
Vdr |s = σu2 (1 − γd )1Nd −nd 10Nd −nd + σe2 INd −nd ,
y
γd = σu2 (σu2 + σe2 /nd )−1 .
• La distribución condicionada depende de θ = (β 0 , σu2 , σe2 )0 .
• Mejor predictor empı́rico (EB): Reemplazamos un
estimador consistente θ̂ de θ
EBP BP
F̂αd = F̃αd (θ̂).
X Molina & Rao (2010), CJS 74
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
(`)
(a) Generar L vectores fuera de muestra ydr , ` = 1, . . . , L de la
distribución condicionada (estimada) de ydr |yds .
(b) Unir los elementos de la muestra para formar un vector censal
(`) (`)
yd = (yds , ydr ), ` = 1, . . . , L.
(c) Calcular el indicador de interés con cada vector poblacional
(`) (`)
Fαd = hα (yd ), ` = 1, . . . , L. Después tomar el promedio para
las L simulaciones Monte Carlo:
L
EBP 1 X (`)
F̂αd = Fαd .
L
`=1
INDICADORES OBJETIVO:
• Indicadores generales definidos en términos de una variable
continua (ej. renta) que será modelizada.
REQUERIMIENTOS DE DATOS:
• Microdatos de las p variables auxiliares en la encuesta.
• Indicador de dominio en la encuesta.
• Microdatos de las p variables auxiliares para todas las
unidades de la población (censo o registro administrativo).
77
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
VENTAJAS:
DESVENTAJAS:
DESVENTAJAS:
• Información auxiliar para cada unidad de la población
(censo/registro) no es fácilmente accesible.
• Computacionalmente intensivo.
• No utiliza los pesos de muestreo, por lo que puede ser
sesgado bajo el diseño, especialmente bajo muestreo
informativo.
• Sensible a desviaciones del modelo. Es muy importante
encontrar la transformación correcta de la variable y la
diagnosis del modelo.
• Los estimadores del ECM por bootstrap son
computacionalmente intensivos.
80
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
MÉTODOS DE AJUSTE
• Verosimilitud muestral:
Z Z
f (ys ) = f (ys , u)du = f1 (ys |u)f2 (u)du
IR D IR D
Yd1
Rd = × 100.
Yd1 + Yd2
86
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
Plug
X X Plug
Ŷdk = ydjk + p̂djk , k = 1, 2.
j∈sd j∈rd
INDICADORES OBJETIVO:
• Proporciones o totales de una variable binaria (ej. acceso o no
a cierto servicio o comodidad).
REQUERIMIENTOS DE DATOS:
• Microdatos para las p variables auxiliares en la encuesta.
• Indicador del dominio en la encuesta.
• Microdatos de las p variables auxiliares para todas las
unidades poblacionales (censo o registro administrativo).
89
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
VENTAJAS:
• Utiliza información auxiliar de nivel de unidad, que es más
detallada que la información de nivel de área.
• El tamaño total de la muestra es tı́picamente muy grande
(n >> D), por lo que se comparte mucha información.
• Incorpora heterogeneidad no explicada entre áreas.
• EB es aprox. insesgado y óptimo bajo el modelo.
• Las estimaciones se pueden desagregar para cualquier
subdominio (sin efecto de subdominio), incluso a nivel de
unidad.
• Para estimar en áreas no muestreadas, se puede usar la parte
sintética.
90
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
SOFTWARE
RESUMEN
REFERENCIAS
94
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
REFERENCIAS
• Fay, R.E. and Herriot, R.A. (1979). Estimation of Income for Small
Places: An Application of James-Stein Procedures to Census Data,
J. Amer. Statist. Assoc., 74, 269–277.
• González-Manteiga, W., Lombardı́a, M. J., Molina, I., Morales, D.
and Santamarı́a, L. (2007), Estimation of the mean squared error of
predictors of small area linear parameters under a logistic mixed
model, Computational Statistics and Data Analysis, 51, 2720–2733.
• Hansen, M.H., Hurwitz, W.N. and Madow, W.G. (1953). Sample
Survey Methods and Theory I, New York: Wiley.
• Kackar, R.N. and Harville, D.A. (1984). Approximations for
Standard Errors of Estimators of Fixed Random Effects in Mixed
Linear Models, J. Amer. Statist. Assoc., 79, 853–862.
• Prasad, N.G.N. and Rao, J.N.K. (1990). The Estimation of the
Mean Squared Error of Small-Area Estimators, J. Amer. Statist.
Assoc., 85, 163–171.
95
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
REFERENCIAS
96
INTRODUCCIÓN EST. INDIRECTOS MOD. NIVEL ÁREA M. UNIDAD MÉTODO EB BINARIOS
REFERENCIAS
• Saei, A., Chambers, R., 2003. Small area estimation under linear
and generalized linear mixed models with time and area effects.
S3RI Methodology Working Paper M03/15. Southampton
Statistical Sciences Research Institute, University of Southampton.
• Schall, R. (1991). Estimation in generalized linear models with
random effects. Biometrika 78, 719—727.
• Särndal, C.E., Swenson, B. and Wretman, J.H. (1992). Model
Assisted Survey Sampling, New York: Springer-Verlag.
97