Documentos de Académico
Documentos de Profesional
Documentos de Cultura
X G X
X G
X
t̂yr = ŷk = ŷk = Ng ỹsg (7.6.2)
U Ug
g=1 g=1
1
las variables a observar aumenta la carga del encuestado, que debe te-
nerse en cuenta al planificar la encuesta. La alta carga de encuestados
puede causar una mayor falta de respuesta. Tenga en cuenta también
la importancia de utilizar tamaños de grupo precisos Ng , en la fórmula
del estimador. Los recuentos de grupos obsoletos introducirán sesgos
en el estimador posterior a la estratificación (7.6.1)
Aquı́, los casos (b) y (c) representan postratificación, es decir, los gru-
pos se identifican después del muestreo solo para elementos muestreados. Al
comparar los casos (a) y (b), surge una pregunta interesante. ¿Se pierde pre-
cisión en el caso (b) al renunciar a la información de pertenencia al grupo
en la etapa de diseño y al usarla ”solo”para la postratificación? La respuesta
depende, como se puede sospechar, de la naturaleza exacta del muestreo. Si
el muestreo EST M AS con asignación proporcional se usa en el caso (a), y si
el muestreo M AS (con el mismo tamaño de muestra) se usa en el caso (b),
es un hecho que los dos métodos son casi igualmente eficientes, como se verá
más adelante en esta sección. Pero si se utilizó el muestreo por conglomerados
en el caso (b), se puede perder precisión adicional debido a la homogeneidad
positiva del conglomerado. Holts y Smith (1979), Doss, Hartley y Somayajulu
(1979) y Jagers, Odén y Trulsson (1985) examinan la postratificación desde
varios puntos de vista. La postratificación está relacionada con la pondera-
ción del grupo de ajuste por falta de respuesta, como se discutió en la Sección
15.6; véanse también Jagers (1986) y Belén y Kersten (1985). Apliquemos el
Resultado 7.6.1 a algunos diseños de muestreo especı́ficos. Denotamos el es-
timador (7.6.1) como t̂ypos , donde pos indica postratificación.
El diseño M AS
donde
P ȳsg es la media directa de la muestra del grupo g, es decir, ȳsg =
sg yk /nsg . El recuento de grupos nsg es aleatorio, pero la suma,
G
X
nsg = n
g=1
2
está arreglado. Una simple derivación muestra que
G
21 −f X 0 2
AVM AS (t̂ypos ) = N W S (7.6.4)
n g=1 g yUg
0
con Wg = (Ng − 1)/(N − 1) y SyUg es la varianza del grupo,
2 1 X
SyU = (yk − ȳUg )2
g
Ng − 1 Ug
2
donde Sysg
es la varianza de la muestra del grupo gth,
2 1 X
Sys = (yk − ȳsg )2
g
ns g − 1 sg
3
En esta fórmula, el primer término, de orden n−1 , está muy de acuerdo con
el AV dado por (7.6.4); el término adicional es de orden n−2 .
Para el muestreo M AS, las observaciones de la muestra n se distribuyen al
azar sobre los grupos G, con un recuento esperado en el grupo gth de
Es decir, los recuentos de grupos esperados están de acuerdo con una asigna-
ción proporcional a los grupos. Sabemos por la Sección 3.7 que si los grupos
fueran estratos y se usara el muestreo EST M AS con asignación proporcio-
nal, la varianza del π estimador estarı́a dada por el primer término en el
lado derecho de (7.6.6). El segundo término de (7.6.6) representa el aumento
(al orden n−2 ) causado por recuentos grupales que no son exactamente, sino
solo en promedio, asignados proporcionalmente. Concluimos que el muestreo
M AS con postratificación es esencialmente tan eficiente como el muestreo
EST M AS con asignación proporcional, a menos que la muestra sea muy
pequeña. El muestreo M AS con postratificación es a menudo mucho más
eficiente que el muestreo M AS sin postratificación. Para ver esto, considere
la descomposición ANOVA habitual de la suma total de cuadrados de y:
G
X G
X
2 2
(N − 1)SyU = (Ng − 1)SyUg + Ng (ȳUg − ȳU )2
g=1 g=1
2
Dividir por (N − 1)SyU y establecer
G
X G
X
2
(Ng − 1)SyUg
Ng (ȳUg − ȳU )
g=1 g=1
R2 = 1 − 2
= 2
(N − 1)SyU (N − 1)SyU
4
Cuando la variación entre grupos es grande (es decir, cuando 1 − R2 está
cerca de cero), la postratificación reduce en gran medida la varianza.
El diseño EST M AS
i) Los estratos son idénticos a los grupos del modelo que se muestra en
(7.5.3). Los tamaños de muestra en los grupos (= estratos) son fijos, y
el estimador de regresión (7.6.1) es idéntico al π estimador ya discutido
en la Sección 3.7.
ii) Los estratos atraviesan los grupos de modelos. Por ejemplo, en una po-
blación de individuos, los estratos convenientes (h = 1, . . . , H) pueden
formarse mediante una clasificación geográfica, mientras que los grupos
de intersección G están formados por categorı́as de edad/sexo. Suponga
que los grupos de edad/sexo son un factor importante para explicar y.
Supongamos que los estratos geográficos tienen poco poder explicativo;
su existencia descansa más en razones prácticas o administrativas. En
esta situación, la muestra se estratifica geográficamente y se postratifica
por grupos de edad/sexo. Denotemos Ngh la frecuencia de la población
en la celda gh, y denota las frecuencias marginales por Ng· = H
P
PG h=1 Ngh
y N·h = g=1 Ngh . En el estrato h, los elementos n·h se muestrean de
N·h . El par de la muestra del estrato h que cae en el grupo g es sgh , y
5
su tamaño es denotado ngh . El estimador que se muestra en la ecuación
(7.6.1) ahora se convierte en
H
X
G
N·h ngh ȳsgh /n·h
X
t̂ypos = Ng· h=1H (7.6.7)
g=1
X
N·h ngh /n·h
h=1
6
de hogares, uno puede, por ejemplo, estratificar por tipo de hogar.
Los grupos dentro de un estrato pueden entonces estar formados por
otras caracterı́sticas del hogar con números desiguales de grupos en los
diferentes estratos.
Ek = yk − Bg xk para k ∈ Ug
donde Bg , viene dado por (7.5.9). El estimador de varianza se obtiene de
la ecuación general (7.2.11) estableciendo, para g = 1, ..., G,
7
con X xk
t̂xgπ =
sg
πk
La prueba implica una utilización simple de las ecuaciones (7.5.9) y
(7.5.10) en el Resultado 7.5.1; No es necesario dar detalles aquı́. Estable-
cer xk = 1 para todos los rendimientos k Resultado 7.6.1
El estimador (7.7.1) se llama estimador de relación post estratificado o es-
timador de relación separado. El último término se usa en particular cuando
los grupos se identifican antes del muestreo y se usan para la amplificación
estratificada. Los totales de grupo txg en (7.7.1) deben derivarse del mar-
co o de una fuente externa confiable. Se debe tener cuidado de no permitir
que los grupos sean demasiado pequeños. Si un recuento de muestras gru-
pales nsg es demasiado pequeño, txg B̂g puede
P tener un sesgo no despreciable
como estimador del grupo total tyg = Ug yk . Aunque el sesgo de un so-
lo grupo puede ser modesto, el sesgo acumulado en todos los grupos puede
llegar a considerable. Una regla general es mantener el número de grupos
lo suficientemente pequeño para que ningún recuento de muestras de grupo
sea inferior a 20. Apliquemos el Resultado 7.7.1 a algunos diseños especı́ficos.
El diseño MAS
2 1 X
SEU = (yk − Bg xk )2 (7.7.4)
g
Ng − 1 U
g
P P
Con Bg = Ug yk / Ug xk . Para obtener el estimador de varianza, deja-
P P
mos x̄Ug = Ug xk /Ng , x̄sg = sg xk /nsg , y
2 1 X
Ses = (yk − B̂g xk )2 (7.7.5)
g
ns g − 1 s
g
8
P P
Con B̂g = sg y k / sg xk . Entonces la varianza del estimador es
G
X
V̂M AS (t̂yr ) = (1 − f ) (x̄Ug /x̄sg )2 Ng2 Ses
2
g
/nsg (7.7.6)
g=1
El diseño ESTMAS
ng ∝ Ng SEUg
Para usar esta regla se requiere información sobre las variaciones residua-
les del grupo, algo que puede no estar fácilmente disponible.
9
7.8 Modelos de regresión simple y Estimadores
de regresión simple
En muchas poblaciones donde existe una fuerte relación lineal entre la
variable de estudio y y una sola variable auxiliar x, la lı́nea de regresión
de población interceptará el eje y a cierta distancia del origen. Un modelo
con un término de intercepción dará un mejor estimador de regresión que el
modelo de razón común discutido en la Sección 7.3. Con solo una variable
x, tenemos un modelo de regresión simple, a diferencia de los modelos de
regresión múltiple en la Sección 7.9.
Eξ (yk ) =∝ +βxk
(7.8.1)
Vξ (yk ) = σ 2
donde ∝, β y σ son parámetros desconocidos y x1 , ..., xN son valores co-
nocidos pero no necesariamente positivos de una variable auxiliar x. También
podemos llamar a (7.8.1) un modelo de regresión simple común, ya que se
supone el mismo modelo para todos los elementos de la población. El ajuste
de este modelo a toda la población finita (véanse los Ejemplos 6.4.1, 6.4.2 y
6.5.2) lleva a estimar ∝ y β, respectivamente,
A = ȳU − B x̄U
y P
− x̄U )(yk − ȳU )
U (x
B= Pk 2
(7.8.2)
U (xk − x̄U )
P P
con ȳU = U yk /N ; x̄U = U xk /N. el ajuste de muestra del mismo
modelo da
 = ỹs − B̂ x̃s
P
s (x − x̃s )(yk − ỹs )/π
B= Pk 2
(7.8.3)
s (xk − x̃s ) /π
Donde
X X X
ỹs = y̌k /N̂ x̃s = x̌k /N̂ N̂ = 1/πk (7.8.4)
s s s
10
Ahora tenemos el siguiente resultado
Resultado
P 7.8.1. Bajo el modelo (7.8.1), el estimador de regresión de
ty = U yk es
N
gks = {1 + as (xk − x̃s )} (7.8.8)
N̂
con ỹs , x̃s y N̂ dado por la ecuación (7.8.4), y
x̄U − x̃s
as =
2
S̃xs
donde
x̃s )2 /π
P
2 s (x k −
S̃xs = P
s 1/π
El resultado resume
P las conclusiones de los ejemplos 6.4.2, 6.5.2 y 6.6.2.
Tenga en cuenta que s ěks = 0. Podemos proceder a discutir el estimador
y sus propiedades para varios diseños especı́ficos. Esta vez lo hacemos solo
brevemente, ya que el lector ahora está familiarizado con dichos análisis.
11
Donde
P
s (x − x̄s )(yk − ȳs )
B̂ = Pk 2
s (xk − x̄s )
y x̄s , ȳs son medias de muestra directa. La varianza aproximada es
1−f 2
AVM AS (t̂yreg ) = N 2 SyU (1 − r2 ) (7.8.10)
n
Donde
SxyU
r=
SxU SyU
es el coeficiente de correlación de población finita.
El estimador de la varianza es
1−f 1 X
Vb (t̂yreg ) = N 2 [1 + as (xk − x̄s )]2 e2ks
n n−1 s
Con e2ks = yk − ȳs − B(xb k − x̄s ) y as = n(x̄U − x̄s )/ P (xk − x̄s )2 . Bajo
s
el muestreo M AS, el estimador de regresión dado por (7.8.9)normalmente
tendrá un mejor desempeño que el estimador de expansión N ȳs y el estimador
de razón t̂yra = N x̄U (ȳs /x̄s ). Se tiene de (7.8.10),
AVM AS (t̂yreg )
= 1 − r2
VM AS (N ȳs )
12
Ası́ el estimador de regresión es mejor que el estimador de razón cuando
B 6= ȳU /x̄U . Observemos el significado de ”mejor”: Las conclusiones se basan
en la s expresiones AV , por lo que ciertamente tienen validez en muestra
grandes, pero también en algunos casos se puede contar con tamaños de
muestras medianos o pequeños.
b U − x̄M AS )]
t̂yreg = N [ȳM AS + B(x̄ (7.8.12)
PH
donde ȳM AS = h=1 (Nh /N )ȳsh , x̄M AS es análogo, y
PH P
h=1 (Nh /nh ) sh (xk − x̄M AS )(yk − ȳM AS )
B
b= PH P 2
h=1 (Nh /nh ) sh (xk − x̄M AS )
13
Algunos casos prácticos pueden requerir el ajuste de un modelo de re-
gresión grupal. Es decir, una regresión simple se ajusta por separado en
cada número de grupos de la población con tamaños conocidos a priori,
N1 , ..., Ng , ..., NG . En este caso, el estimador de regresión (7.2.8) toma la for-
ma
G
X
t̂yr = bg (x̄Ug − x̃Sg )]
Ng [ỹsg + B (7.8.13)
g=1
con
P
sg (xk − x̃sg )(yk − ỹsg )/πk
B
bg = P
sg (xk − x̃sg )2 /πk
P
s yk /πk
ỹsg = P g
sg 1/πk
14
explicativos, cada uno con un número de niveles. En las aplicaciones, tra-
bajamos directamente con las formas matricialesgenerales de las ecuaciones
(7.2.8) y (7.2.9); por lo general no hay expresiones simplificadas para el esti-
mador de regresión, en contraste con los modelos tratados anteriormente en
este capı́tulo.
donde
Ek2 2
P P
2 U U Ek
R =1− =1−
(N − 1)Sy2U
P 2
U (yk − ȳU )
Bajo diseños distintos de M AS, las conclusiones son menos obvias, ya que
la varianza calculada no es una simple función de R2 . Entonces se observa
15
una interacción entre el efecto del ajuste del modelo y el efecto del ajuste del
diseño muestral. Un factor a considerar para los estimadores de regresión es
el costo del .experto”que decidirá que variables debe incluir en el modelo en el
modelo ajustado. Otro factor, aunque menor, es el costo del cómputo o soft-
ware, que puede ser mayor cuando los estimadores de regresión son complejos.
16
y Vb (t̂)j denotan los resultados obtenidos para la j-ésima muestra, podemos
calcular
K
¯ 1 X
t̂ = t̂j
K j=1
K
1 X
t̂j − t̂¯
2
St̂2 =
K − 1 j=1
K
¯ 1 Xb
V =
b V (t̂)j
K j=1
t̂ ± 1.96[Vb (t̂)]1/2
y luego contar el númerode intervalos, R, digamos, que contiene el valor
verdadero del total t, entonces R/K es una estimación del nivel de confianza
real. El nivel de confianza real puede diferir del 95 % porque (t̂ − t)/[Vb (t̂)]1/2
sigue aproximadamente una distribución normal.
17
partido conservador en el concejo municipal y x2 es SS82, que es el núme-
ro de escaños del partido socialdemócrata en el concejo municipal. Para el
municipio k, los valores respectivos de las tres variables se denotan yk , x1k y
x2k , k = 1, ..., 281. la tabla muestra muestra los resultados de varios análisis
de regresión basados en 281 puntos de datos. Cada variable x deja aproxi-
madamente el 57 % de la variación y sin explicación, si ambas variables x
son incluidas en la regresión, sólo el 25.3 % de la variación en y permanece
sin explicación. Un estimador de regresión con las dos variables x como auxi-
liares deberı́a por lo tanto superar a uno que utiliza sólo una de las variables x.
a. El π estimador
y
P
X yk
t̂3 = t̂yra (x2 ) = x2k P s (7.9.4)
U s x2k
b1 (x̄1U − x̄1s )]
t̂4 = t̂yreg (x1 ) = N [ȳs + B (7.9.5)
18
b2 (x̄2U − x̄2s )]
t̂5 = t̂yreg (x2 ) = N [ȳs + B (7.9.6)
con
P
s (x − x̄js )(yk − ȳs )
B
bj = Pjk 2
s (xjk − x̄js )
X
t̂6 = t̂yr (x1 , x2 ) = B
b0 + B
b1 x1k + B
b2 x2k
U
b1 (x̄1U − x̄1s ) + B
= N [ȳs + B b2 (x̄2U − x̄2s )] (7.9.7)
donde
X −1 X
0
(B
b0 , B
b1 , B
b2 ) = xk x0k xk y k
s s
con
Para cada una de las 5000 muestras, se calcularon las seis estimaciones que
se muestran en las ecuaciones (7.9.2) a (7.9.7). Para cada estimación, se
calcularon dos estimaciones de varianza diferentes, la fórmula g-ponderada
dada por (7.2.11), es
2 2
1 − f Σs gks eks
V̂g = V̂g (t̂) = N 2 (7.9.8)
n n−1
y la estimación de varianza simplificada obtenida dejando que todos los
gks = 1,
19
1 − f Σs e2ks
V̂sim = V̂sim (t̂) = N 2 (7.9.9)
n n−1
Aquı́, eks y gks son las expresiones apropiadas para cada estimador de
regresión particular, t̂2 a t̂6 . Para el π estimador, se aplica la ecuación (7.9.9),
con eks = yk − ȳs . Para cada una de las 5000 estimaciones obtenidas por
un estimador t̂, dejamos que la computadora calcule los dos intervalos de
confianza
1/2
t̂ ± 1.96V̂g1/2 y t̂ ± 1.96V̂sim (7.9.10)
¯ ¯
Estimador t̂¯ St̂2 V̂g ECRg V̂sim ECRsim AV
t̂1 = t̂x 5.31 0.204 - - 0.203 93.6 0.204
t̂2 = t̂yra (x1 ) 5.31 0.121 0.120 93.1 0.121 93.2 0.121
t̂3 = t̂yra (x2 ) 5.31 0.141 0.141 93.9 0.141 93.8 0.142
t̂4 = t̂yreg (x1 ) 5.30 0.119 0.115 93.1 0.114 92.5 0.116
t̂5 = t̂yreg (x2 ) 5.30 0.119 0.118 93.9 0.116 93.4 0.117
t̂6 = t̂yr (x1 , x2 ) 5.31 0.054 0.052 93.2 0.050 92.5 0.052
21 − f ΣU Ek2
AV (t̂) = N
n N −1
donde Ek son los residuales de la poblacion.
20
Para el π estimador, el valor en la columna AV es igual a la varianza
exacta,
1−f 2
V (t̂π ) = N 2 SyU
n
Las medidas de resumen de simulación sı́ dan una imagen exacta de las
verdaderas caracterı́sticas subyacentes. Por ejemplo, t̂¯ estima el verdadero
valor esperado de t̂, pero solo con el grado de precisión que se puede esperar
que proporcione el número limitado de 5000 repeticiones. La imperfección
causada por el número finito de repeticiones se siente con mayor intensidad
en el caso de una medida de varianza (St̂2 en nuestra simulada) que en el
caso de medidas calculadas como medias (t̂, ¯ V̂¯ ,V̂¯ ). La Tabla 7.2 presenta
g sim
los siguientes comentarios.
2. Se observa que las cuatro cantidades t̂, ¯ V̂¯ , V̂¯ y AV coinciden estre-
g sim
2
chamente para cada estimador. Aquı́, St̂ estima la verdadera varianza,
al grado de precisión obtenido con 5000 repeticiones. Tenga en cuenta
que AV es una varianza aproximada, en el caso de los cinco estimadores
de regresión. cuando St̂2 y AV están cerca indica que AV representa con
precisión la verdadera varianza cuando n = 100. Para un tamaño de
muestra considerablemente más pequeño, es probable que haya alguna
discrepancia entre la varianza exacta y AV .
¯ ¯
3. Que tanto V̂g y V̂sim coinciden estrechamente con St̂2 es una señal de
que los dos estimadores de varianza son insesgados o casi similares.
De nuevo, esto no es sorprendente. cuando n = 100. Para tamaños de
¯ ¯
muestra pequeños, tanto V̂g como en particular V̂sim tienen una tenden-
cia a subestimar la verdadera varianza. Leblond (1990) ha estudiado
la subestimación, teórica y empı́ricamente, en el caso del estimador de
razón.
4. Las tasas de cobertura empı́rica ECRg y ECRsim son muy cercanas
(pero algo menor) la tasa nominal es del 95 % a la que apunta la técnica
del intervalo de confianza. El procedimiento del intervalo de confianza
ponderado en g es ligeramente mejor (más cercano al 95 % nominal)
que el procedimiento simplificado.
21
5. La importancia de incluir la intercepción en el modelo ajustado resulta
más clara al comparar t̂yra (x2 ) con la alternativa claramente mejor
t̂yreg (x2 )). La intersección se ve en la Tabla 7.1 como especialmente
importante para la regresión basada en x2 .
22
xk = (δ1. , ..., δG. , δ.1 , ..., δ.J )0 (7.9.11)
gks = 1 + x0k µ
ΣU xk − Σs xk /πk = (N1. − N̂1. , ..., NG. − N̂G. , N.1 − N̂.1 , ..., N.J − N̂.J )0
En este caso, no hay una solución única para (7.9.12) porque Σs xk x0k /πk
no es de rango completo. El rango es G + J − 1, y el inverso no existe. Para
obtener una solución, arregle arbitrariamente un componente de µ, digamos,
vJ = 0, y resuelva el Sistema (7.9.12) para las incógnitas restantes Puede
23
ser,u1 , ..., uG , v1 , ..., vJ−1 . mostró que x0k µ es invariante bajo la fijación de un
componente de µ. Es decir, el valor de x0k µ es el mismo independientemente
de qué componente sea fijo e independientemente del valor constante asignado
a este componente. Un conjunto único de g-ponderaciones se obtiene gks =
1 + x0k µ. Con estos valores, el estimador de regresión de ty = ΣU Yk está dado
como siempre por
V̂ (t̂yr ) = ΣΣs (∆kl /πkl )(gks eks /πk )(gls els /πl )
donde usamos gks = 1 + x0k µ y los residuos eks obtenidos del ajuste del
modelo. Estos residuos son
para k ∈ Ugj ∩s, donde B̂ = (Â1 , ..., ÂG , B̂1 , ..., B̂J )0 se obtiene resolviendo
el sistema de ecuaciones generales
24
La técnica utilizada en este ejemplo, con pesos que se comparan en dos
marginales conocidos, se remonta a Deming (1943). El estimador que se mues-
tra en La ecuación (7.9.13) está estrechamente relacionada con el estimador
de la relación de inclinación de Deming y Stephan (1940). La teorı́a de la es-
timación de regresión conduce directamente a un estimador de varianza; Este
aspecto se discute en Deville y Sãrndal (1992). Un programa de computado-
ra para calcular los pesos, LINWEIGHT, se describe en Bethlehem y Keller
(1987). Este programa manejará extensiones a tablas de múltiples vı́as.
25
7.10.1 Análisis condicional para muestreo BE
Utilizamos el diseño BE para ilustrar el concepto de un intervalo de con-
fianza condicional. Considere el estimador
P
s yk
t̂yr = N ns
= N ȳs (7.10.1)
V̂c = N 2 ( n1s − 1
N
2
)Sys (7.10.6)
con
26
2 1
− ȳs )2
P
Sys = ns −1 s (yk
Por consiguiente,
EBe (V̂c |ns , A2 ) = N 2 ( n1S − 1
N
2
)SyU = VBE (N ȳs |ns , A2 )
Ahora se puede construir un intervalo de confianza condicional aproximado
en el nivel 1-α, siempre que ns no sea extremadamente pequeño, es decir,
1/2
N ȳs ± z1−α/2 V̂c
27
Esta es una distribución binomial con parámetros N y π, truncado en ns = 0.
Para el estimador que se muestra en la ecuación (7.10.3), tenemos, usando
(7.10.41),
0
EBE (t̂y ) = (1 − PA1 ) ∗ 0 + PA1 EBE (N ȳs |A1 )
= PA1 E1 EBE (N ȳs |A1 )
= PA1 E1 ty = PA1 ty
donde
EBE ([N ȳs − ty ]2 |A1 ) = E1 [EBE ([N ȳs − ty ]2 |ns , A1 )]
= E1 [VBE (N ȳs |ns , A1 )]
con
N
1 X 1 N j
E1 ( ) = ( ) π (1 − π)N −j /PA1
ns j=1
j r
28
EBE ( n1s ) = 1
n
+ 1−π
n2
29
nsg ≥ 1; g = 1, 2, ..., G
G
X X
ESI (t̂ypos |ns , A1 ) = Ng E[( yk /nsg )|nsg ≥ 1]
g=1 sg
G
X
= Ng ȳUg = ty (7.10.11)
g=1
G
X
VSI (t̂ypos |ns , A1 ) = Ng2 (1/nsg − 1/Ng )SyU
2
g
(7.10.12)
g=1
2
donde SyUg
es la varianza de y en Ug . Esto lleva inmediatamente a un esti-
mador de varianza condicional, siempre que nsg ≥ 2 para todo g, es decir
G
X 1 1 2
V̂c (t̂ypos ) = Ng2 ( − )S (7.10.13)
g=1
ns g Ng ysg
Note que
2 1
− ȳsg )2
P
Sysg
= nsg −1 sg (yk
2
es condicionalmente imparcial para SyU g
. Un intervalo de confianza condicio-
nal en el nivel aproximado 1-α es obtenido de (7.10.9) con t̂y = t̂ypos y V̂c (t̂y )
dado por (7.10.13).
30
condicional. Supongamos que el grupo g-ésimo está subrepresentado en la
muestra, para que el nsg observado, es pequeño en comparación con sus ex-
pectativas, nNg /N . Entonces el grupo g-ésimo tenderá a contribuir más a la
estimación de la varianza que si ns fuera mayor de lo esperado. Esta es una
propiedad razonable, como se argumenta en Holt y Smith (1979) y Särndal,
Swensson y Wretman (1989).
G
X 1 1 2
= Ng2 [E1 ( )− ]S (7.10.14)
g=1
ns g Ng yUg
E1 (nsg ) = nWg
N −n
V1 (nsg ) = nWg (1 − Wg )
N −1
31
suponiendo que nsg = 0 tiene una probabilidad insignificante. Ası́,
1 1 (1 − f )(1 − Wg )
E1 =˙ 1+
ns g nWg nWg
y
( G G
)
21 − f 1X
X
2 2
VM AS (t̂ypos ) =
˙ N Wg SyUg + (1 − Wg )SyUg
n g=1
n g=1
32
El termino
XX
C= (πkl − πk πl )Ěk Ěl
U
k6=l
es cero para diseños que satisfacen (7.11.1). Los diseños de tamaño variable
BE y P O son ejemplos de esto. Sucede para ciertos diseños de muestreo de
tamaño fijo y ciertos modelos que
X X 1
2
V = πkl (1 − πk )Ěk = − 1 Ek2 (7.11.3)
U U πk
y los g valores gks viene dado por (7.2.9) Una ventaja computacional de
este estimador de varianza es que la fórmula es una suma simple y no son
necesarios πkl . Veamos casos especı́ficos. Compare los diseños M AS y BE,
suponiendo que la fracción de muestreo fija f = n/N bajo M AS es igual a
la fracción de muestreo esperada E(ns )/N = π bajo BE. Entonces
2
P
21 − f U (Ek − ĒU )
AVM AS (t̂yr ) = N
n N −1
y
2
P
1 − f U Ek
AVBE (t̂yr ) = N 2
n N
P
donde ĒU = U Ek /N es la media de los residuos del ajuste de la población.
Si ignoramos el factor (N − 1)/N , se deduce que AVBE (t̂yr ) ≥ AVM AS (t̂yr )
con igualdad si y solo si ĒU = 0. Una condición suficiente para que ĒU = 0
se mantenga es que la estructura de varianza del modelo subyacente se ajus-
ta a la ecuación (7.2.12). Los modelos que se muestran en (7.3.1), (7.4.1),
(7.5.3), (7.5.6) y (7.8.1) son casos en cuestión. Por lo tanto, el estimador de
regresión correspondiente a cualquiera de estos modelos tendrá aproximada-
mente la misma varianza en el muestreo M AS que en el muestreo BE. Bajo
el diseño M AS, tenemos cuando ĒU = 0 que la relación de los términos V
33
y C en (7.11.2) es C/V = 1/(N − 1), que es un ejemplo de un caso en el
que C es insignificante en comparación con V . Un fenómeno similar ocurre
cuando comparamos EST M AS muestreo con muestreo EST BE (consulte
el Capı́tulo 3 para las definiciones), si, para ambos diseños, πk = fh = nh /Nh
para todos los k en el hth estrato Uh , entonces
H P 2
2 1 − fh Uh (Ek − ĒUh )
X
AVEST M AS (t̂yr ) = Nh
h=1
nh Nh − 1
y
H
Ek2
P
X 1 − fh Uh
AVEST BE (t̂yr ) = Nh2
h=1
nh Nh
34
desempeño. Un criterio que a menudo se impone es que el estimador debe ser
asintóticamente imparcial de diseño (ADU). El sesgo de diseño, E(t̂y ) − ty
debe tender a cero. El requisito de ADUness restringe la elección de rk y qk ,
pero hay más de una elección de estas constantes que conduce a un estimador
de ADU.
Wright (1983) muestra que el estimador (7.12.1) es ADU bajo cualquier elec-
ción de las constantes rk y qk , siempre que sea posible especificar un vector
λ tal que
0
1 − r k π k = πk q k x k λ (7.12.3)
se cumple para k = 1, . . . , N . Aquı́ discutimos dos opciones de la rk , a saber,
(i) rk = 1/πk , y (ii) rk = 1 para todo k.
35
para algún vector constante λ. Entonces la condición (7.12.3) con rk = 1 se
cumple si dejamos qk = [(1/πk ) − 1]/σk2 . Esto conduce al siguiente resultado.
0
donde ŷk = xk β̂ con
X 0 −1
1 xk xk X 1
xk y k
β̂ = −1 −1
s πk σk2 s πk σk2
0
con ŷk = xk B̂ y
X 0 −1 X
xk xk xk yk
B̂ =
s σ 2 πk s σ 2 πk
k k
con
X 1
− 1 yk
s πk
β̂ = X
1
− 1 xk
s πk
36
El estimador (7.12.9), derivado de Brewer (1979), también se puede escribir
como
X X yk − β̂xk
t̂y = ( xk )β̂ +
U s πk
que tiene la forma del estimador de regresión (7.2.8) pero con un estimador
de pendiente diferente. Se puede demostrar que la varianza aproximada viene
dada por la fórmula habitual
XX
AV (t̂y ) = ∆kl Ěk Ěl
U
37
La varianza aproximada de este estimador de ADU es
X
AV (t̂y ) = ∆kl Ěk Ěl
U
con
0
hX 0
i−1 h X i
Balt = (1 − πk )(xk xk /ak ) (1 − πk )(xk yk /ak )
U U
38
con
X 0 −1 X
xk xk xk yk
B̂y = (7.13.2)
s σ 2 πk s σ 2 πk
k k
X 0 −1 X
xk xk xk zk
B̂z = (7.13.5)
s σ 2 πk s σ 2 πk
k k
X 0 −1 X
xk xk xk zk
Bz = (7.13.6)
U σ2 U σ2
k k
t̂yr
R̂ = (7.13.7)
t̂zr
dónde
X X yk − ŷk X gks yk
t̂yr = ŷk + =
U s πk s πk
X X zk − ẑk X gks zk
t̂zr = ẑk + =
U s πk s πk
con ŷk y ẑk dado por (7.13.1) y (7.13.4), respectivamente, y los valores g
dependen sólo de las variables auxiliares,
X X 0 X x x0 −1 x
k k k
gks = 1 + xk − xk /πk (7.13.8)
U s s σ 2 πk σk2
k
39
y z se explica en términos de x a través de un modelo de razón común de la
forma de (7.3.1). El estimador de R es entonces
X
y̌k
tx X s
x̌k
R̂ = Xs
žk
tx X s
x̌k
s
donde y̌k = yk /πk y x̌k y žk se definen de forma análoga. La expresión para
R̂ se simplifica en
X
y̌k
R̂ = Xs
žk
s
y
XX
AC(t̂yr , t̂zr ) = ∆kl Ěyk Ězl
U
con
0 0
Eyk = yk − xk By ; Ezk = zk − xk Bz
40
El estimador de varianza ponderado g es
y el valor gks viene dado por (7.13.8). La clave para hacer que la expre-
sión AV dada por (7.13.10) sea numéricamente pequeña es obtener residuos
diferenciales Eyk − REzk que sean pequeños. Ahora podemos escribir
Dk = yk − Rzk
41