Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Calibration Stimation in Sample Surveys - When and Why, How Much and How - Pedro Silva S - 2
Calibration Stimation in Sample Surveys - When and Why, How Much and How - Pedro Silva S - 2
Rio de Janeiro
2004
Machine Translated by Google
ISBN 85-240-3714-8
© IBGE. 2004
Impresión
Gráfica Digital /Centro de Difusión de Información y Documentación - CDDI/IBGE, en 2000.
Capa
Gestión de Creación/CDDI
Incluye bibliografía.
ISBN 85-240-3714-8
resumen
Presentación
Este tema fue objeto de un estudio realizado por el autor durante el Programa de Posgrado
Doctorado realizado en la Universidad de Southampton, Inglaterra, en 4 meses
entre noviembre de 2002 y febrero de 2003. El informe que ahora se está
disponible se produjo originalmente en inglés. Sin embargo, la importancia de
contenido, que está fuertemente relacionado con las prácticas que se han adoptado en la
proceso de ampliación de las muestras de encuestas realizadas por muestreo en el IBGE,
no solo justifica esta divulgación, sino que también alienta la preparación de una versión en portugués.
Sonia Albieri
1. Introducción
El objetivo principal de este informe es proporcionar una revisión de la literatura sobre los métodos de calibración.
utilizado para la ponderación y estimación de encuestas por muestreo, señalando las referencias más relevantes,
así como para discutir los problemas clave que surgen cuando los métodos de calibración se aplican a levantamientos reales.
situaciones
El informe está estructurado de la siguiente manera. La sección 2 presenta el marco básico y una
definición de calibración que adoptaremos a lo largo. La Sección 3 discute las razones para
calibración y situaciones en las que la calibración vale la pena. La Sección 4 discute prácticas
problemas que uno puede enfrentar al realizar la estimación de la calibración. También incluye un
retos que plantean los problemas prácticos. En el capítulo 5 se analizan algunos criterios que se pueden utilizar
para evaluar el éxito de la calibración en cualquier aplicación topográfica en particular. El capítulo 6 proporciona
Sea {1, … ,k,...,N} sea el conjunto de etiquetas que identifican unívocamente los N elementos distintos de un
población objetivo finita U. Sin pérdida de generalidad, sea U = {1, … ,k,...,N}. Se lleva a cabo una encuesta
= ÿ
YU y ,y[ , 1,y
dada por = 2
L
7
Machine Translated by Google
poblaciones, la gran mayoría de las encuestas son encuestas por muestreo, en las que solo una muestra de los
se investigan los elementos de la población (generalmente una pequeña porción). Suponemos que n distintos
observación en la encuesta.
datos {yk ; k s}.ÿ El estimador “estándar” para totales cuando estos son los únicos datos disponibles
ˆ
T dk yk (2.1)
y
ÿÿ =
Kansas
donde dk = 1/ ÿk es el peso de diseño para la unidad k, y Pik es la probabilidad de inclusión muestral para
unidad k. Denotando por ÿki la probabilidad de inclusión muestral conjunta para los elementos k e i, aquí tenemos
suponga que todas las probabilidades de inclusión de primer y segundo orden son estrictamente positivas, es decir
expresiones para las varianzas de diseño y sus estimadores. Sin embargo, no es crucial
supuesto, ya que para muchos de los diseños para los que no se cumple razonablemente
Sin embargo, en la mayoría de las aplicaciones de encuestas, los datos de la encuesta también pueden incluir información
= ÿ
en algunas variables auxiliares xk ( x , ,1x k k kp ) , que a menudo puede ser útil para estimar
los totales desconocidos de la población de las variables de la encuesta Ty. Suponiendo por ahora una respuesta completa a
la muestra seleccionada, existen dos escenarios de disponibilidad de información sobre los auxiliares
kÿ EN
también se conocerán las variables auxiliares, junto con la “matriz de datos auxiliares de muestra”
X x =skk[ 1
,X
2
,
L
, x
k n ]ÿ , a saber, la submatriz de XU obtenida manteniendo solo las filas
8
Machine Translated by Google
b) Sólo está disponible la “matriz de datos auxiliares de la muestra” Xs , junto con el vector de
En ambos escenarios donde hay información de población auxiliar disponible para algún x
variables, podemos preguntarnos si esta información puede ser utilizada para mejorar la
estimación del parámetro objetivo Ty. La respuesta a esta pregunta es sí: muy a menudo podemos
Una forma de hacerlo es mediante calibración. La idea clave detrás de la estimación de la calibración es como
sigue. Aunque conocemos los totales de la población para las variables x , supongamos que intentaríamos
no habría error de calibración. Esto se puede lograr mediante el uso de un estimador "calibrado"
donde se modifican los pesos de diseño dk , dando paso a nuevos pesos wk para ser utilizados en la
estimador calibrado
ˆ
TxC Xk
semana (2.2)
ÿÿ = Kansas
donde {wk, k s}ÿ son pesos de casos tales que no hay error de calibración, es decir, satisfacen
ˆ
(2.3)
TxCÿ T = ÿ x ÿ Tsemana
X
= 0k X
ÿ
Kansas
Los pesos “calibrados” {wk, k s}ÿ logran reducir o evitar el error al “estimar” la x
totales, también pueden reducir el error al estimar los totales y , usando la calibración
estimador:
ˆ
T
yC y k
semana (2.4)
ÿÿ = Kansas
sobre las variables auxiliares x, pero no sobre las variables de la encuesta y. Si este es el caso, entonces (2.4)
9
Machine Translated by Google
En este informe, nos concentramos en estimadores de “calibración al total” de la forma (2.4), es decir,
ÿ
estimadores lineales definidos por conjuntos de pesos {wk, k s} que satisfacen la "calibración a totales
restricciones” (2.3). Se pueden considerar otras formas de restricciones de calibración, tales como
las variables auxiliares (ver la discusión en la sección 10 de Chambers, 1997). Sin embargo, estos
siguen la denominación simple prevaleciente de los estimadores definidos por (2.4) con pesos
dados los datos muestrales Xs, las ponderaciones de diseño {dk, kÿ s} y los totales poblacionales Tx. De una sola mano
de seleccionar aquellos que conducen a conjuntos de ponderaciones "razonables" que se utilizarán para estimar los totales de
las variables y es pensar en los pesos de calibración wk como modificaciones a los pesos de diseño dk
que los cambia lo mínimo. Esto se justifica porque el uso de los pesos de diseño dk proporciona
diseño-imparcialidad y consistencia (en el sentido de que a medida que aumenta el tamaño de la muestra, la
Deville y Särndal (1992) definieron una familia de estimadores de calibración para Ty donde el
Los pesos wk se eligen de tal manera que las funciones de distancia especificadas miden qué tan lejos están las wk .
ÿ ,d ÿkkk(
EGÿw
PAGS ÿ
ÿ )ÿ
(2.5)
kÿs
ÿ
ÿ (Gw,d
kkk ) (2.6)
kÿs
algunas condiciones de regularidad que se especificarán más adelante, y EP denota la expectativa con respecto
a la distribución de probabilidad inducida por el diseño muestral utilizado para seleccionar la muestra s.
(wdk )2
( )=
ÿ
k
Gw,d
kkk Kansas
ÿ (2.7)
qd
k
10
Machine Translated by Google
para algunas constantes conocidas qk > 0, k s,ÿ por especificar. En este caso, la solución viene dada por
k = rek× gramok
ancho (2.8)
dónde
ÿ
ÿ
1
ˆ
gramo k ( qd
= +1 qkxTT ÿ ÿxxx
ÿ
X ÿ)ÿ iii
ÿ
ÿ
ÿ k
. (2.9)
es
ÿ
ÿ
Con los pesos (2.8), el estimador de calibración resultante para el total de una encuesta
TˆyCj
_ = + ÿ wykjk
( Bˆÿ
Tˆy j T Tˆ X =X ÿ) j (2.10)
ÿ
Kansas
ˆ ˆ
dónde Ty j túa kj es el estimador de Horvitz-Thompson para Ty j ykj _
y Bj _ se define
ÿÿ =Kansas ÿÿ =k tu
en (2.13) a continuación. Tenga en cuenta que (2.10) es un estimador de regresión generalizada (GREG) (ver Särndal,
ykj _
= xÿB + Y
kj kj
(2.11)
()
VE ÿkj q =
2
j
/ k
1
ÿ ÿ ÿ ÿ
B
j = ÿ ÿ ÿq
ÿ xx_ _ ÿ ÿ qykkXkj ÿ (2.12)
kÿU kÿÿ EN
ÿ ÿ ÿ
1
ˆ
Bj ÿ
ÿ qd xx
jajajaja
ÿ
ÿ
ÿ
ÿ qd
kkkx
kj y
ÿ
ÿ
. (2.13)
= ÿÿ ÿ ÿÿ ÿ
Kansas
ÿ ÿ Kansas
ÿ
Si se va a utilizar un solo conjunto de pesos calibrados wk para todas las variables de la encuesta (y) , entonces
(2.9) significa que también se utilizará el mismo conjunto de constantes qk para todas las variables de la encuesta. En
muchas aplicaciones, esto no sería un problema, ya que una opción común es hacer todas estas
Sin embargo, en algunos casos diferentes variables y pueden tener residuos de la población
regresión lineal sobre las variables auxiliares que presentan diferentes patrones de heteroscedasticidad.
11
Machine Translated by Google
En tales casos, los diferentes conjuntos de valores necesarios para que las constantes qk representen tal
patrones adecuadamente podría conducir a diferentes conjuntos de pesas calibradas, cada conjunto específico para
una o más variables de la encuesta. Por un lado, esto podría estar justificado sobre la base de
mejora de la eficiencia para estimar el total de cada variable y . Por otro lado esto sería
conducir a posibles problemas de coherencia. Por ejemplo, estimaciones ponderadas de partes de una suma
podría no coincidir con la estimación ponderada del total para la suma de las partes. Por lo tanto, la idea de usar
Aunque esto de hecho no es un requisito de calibración, asumimos de ahora en adelante que la derivación
pesos calibrados {wk, k s} paraÿ estimación con todas las variables de la encuesta.
Los estimadores de calibración tienen algunas buenas propiedades. En primer lugar, pesas de calibración que satisfagan
(2.3) proporcione "estimaciones" de muestra para los totales de las variables auxiliares que coincidan exactamente
los totales de población conocidos para estas variables. Por lo tanto, si la población total de los auxiliares
las variables se han publicado antes de que se produzcan los resultados de la encuesta, luego la calibración
garantizaría que las estimaciones de la encuesta sean coherentes con las que ya están en el público
dominio. Esta propiedad, aunque no es esencial, es una de las principales razones por las que la calibración
se utiliza con mucha frecuencia en la práctica de las encuestas. Atrae a los practicantes de encuestas en muchos
casos como una forma de hacer cumplir el acuerdo entre su encuesta y algunos totales de dominio público para claves.
variables
La segunda propiedad es su simplicidad, es decir, el hecho de que las estimaciones de calibración son
lineal. Esto significa que cada registro de la encuesta puede tener un peso único que se utilizará para
estimación para todas las variables de la encuesta. Cálculo de las estimaciones para totales, medias, razones y
las funciones de distancia definidas por (2.6) y (2.7), los pesos calibrados se dan en forma cerrada
información auxiliar que puede incluir variables continuas, discretas o ambos tipos de
Mismo tiempo. Si los totales auxiliares representan recuentos del número de unidades de población en
ciertas clases de variables categóricas (discretas), entonces los valores de las variables x correspondientes son
simplemente indicadores de que las unidades son miembros de las clases correspondientes.
La clasificación cruzada de dos o más variables categóricas también se puede acomodar fácilmente definiendo
12
Machine Translated by Google
Los estimadores de calibración también producen cierto grado de integración en el sentido de que algunos
Los estimadores ampliamente utilizados son casos especiales, por ejemplo, razón, regresión y posestratificación.
estimadores (ver capítulo 7 de Särndal, Swensson & Wretman, 1992), así como estimaciones incompletas
Los estimadores de calibración también pueden ofrecer cierta protección contra el sesgo de falta de respuesta.
sesgo de falta de respuesta en las encuestas por muestreo. El estimador de regresión (calibración) será
y el mecanismo de respuesta es ignorable dado el conjunto de x variables para las que auxiliar
se dispone de información sobre la población (p. ej., véase Bethlehem, 1988, Lundström & Särndal, 1999,
Todas estas razones son argumentos poderosos para usar la calibración. Sin embargo, al hacer
por lo tanto, los usuarios también deben ser conscientes de algunos problemas o dificultades que pueden encontrarse.
En primer lugar, observamos que los estimadores de calibración no son exactamente imparciales desde el punto de vista del diseño. De hecho, el diseño
ˆ ˆ
Sesgo de diseño
yC () (
=T E TT E wd y ÿ ÿ )
PyC y ) ( ÿ = ÿ ÿ PAGS
ÿ kÿs
k k k
ÿ
ÿ
ÿ
(3.1)
Si los pesos calibrados están "cerca" de los pesos de diseño para todas las muestras, entonces el
el sesgo de diseño será insignificante o cercano a cero. Esto apoya el criterio utilizado para definir la
pesos de calibración wk, lo que requiere que se minimice su distancia al dk . Sin embargo, por
tamaños de muestra pequeños o moderados hay que ser consciente de la posibilidad de enfrentarse a algunos
Para muestras grandes, el estimador de calibración definido por los pesos de regresión (2.8)
y (2.9) no tiene sesgo de diseño asintótico y tiene una varianza de diseño aproximada (ver Särndal,
(ˆ )=
AVP Tipoj C ( re
( ÿki
mi ÿkÿ re i mi
ÿ
) a kj )( i yo
) (3.2)
ÿ ÿÿ
ley yo ÿ
donde Ekj es el residuo del modelo de regresión poblacional (2.11) para la variable de encuesta yj.
13
Machine Translated by Google
ˆ
Vermont ()
Pyj_ _
= (dydy
(aÿ ÿ ÿk i )
ÿ
a kj
)(
yo
). (3.3)
ÿ ÿÿ
ley yo ÿ
ˆ 1 1
(
POR TN
SRS y jC
)= 2ÿ
ÿ
ÿ
ÿ
pags
2
(3.4)
yN hola j
ÿ ÿÿ
ˆ 1 1
VTN( )= 2ÿ
ÿ
ÿ
ÿ
pags
2
(3.5)
SRS añosj yN yj
ÿ ÿÿ
2 2
respectivamente, donde pags
es la varianza de los residuos Ej y pags es la varianza de la
hola j yj
14
Machine Translated by Google
Además, dos estimadores de varianza relativamente sencillos están disponibles para su uso
con el estimador de regresión. Särndal, Swensson & Wretman (1992, p. 235) recomiendan
usando
(
ˆˆ
ÿ (1ÿ
= Pi a )( donde )( ) (3.6)
Vermont
gy c ) j ÿÿÿ
k ssi
ppk
yo kk kj i yo
ÿ
dónde ey
kj
x Bˆ
=ÿ
dada por
( ) j =ÿÿÿ ÿ(1ÿ ÿ ÿ yo
ˆˆ
Ambos estimadores de varianza son de diseño asintótico de primer orden sin sesgo para el
varianza aproximada del estimador de regresión, pero (3.6) también es aproximadamente modelo
imparcial (Särndal, Swensson & Wretman, 1989). Además, Silva (1996, p. 48)
demostró que bajo muestreo aleatorio simple sin reemplazo y asumiendo que
el modelo de regresión (2.11) se cumple, el sesgo de (3.6) es O(n-5/2), mientras que el sesgo de (3.7) es
En 2). Por lo tanto (3.6) debería preferirse a (3.7). Holmes y Skinner (2000) apoyan esto
vista basada en los resultados de un estudio empírico llevado a cabo para comparar la varianza alternativa
Si bien los estimadores de calibración poseen una serie de propiedades atractivas, no son
sin problemas cuando se trata de aplicaciones prácticas. En esta sección, revisamos algunos de los
problemas que afectan a los estimadores de calibración y algunos de los enfoques que se han
desarrollado para hacerles frente. Sin embargo, antes de una discusión detallada, puede ser útil tener una
lista rápida de los problemas que deben ser motivo de preocupación al realizar la estimación de calibración en
práctica:
E. Falta de respuesta;
15
Machine Translated by Google
F. Error de medición.
El último tema de esta lista (los errores de medición y su efecto en la calibración), a pesar de
Desollador (1999). Todas las demás cuestiones se tratarán en las siguientes secciones.
El problema con los estimadores de calibración cuando los tamaños de muestra son pequeños proviene de la
hecho de que su sesgo de diseño puede llegar a ser importante, en relación con su varianza. Es bien sabido, por ejemplo, que
los estimadores de razón tienen sesgo de diseño y que el sesgo es O(n-1) (ver
Cochran, 1977, pág. 160-162). El estimador de razón es un caso especial del estimador de calibración
cuando el vector x incluye una sola variable continua x, no se incluye ningún término de intersección, y
las constantes qk se establecen en qk = 1/ xk (asumiendo que xk > 0 ÿ k). Se recomienda esa relación
Los estimadores se pueden usar solo para muestras de tamaños lo suficientemente grandes como para que el sesgo sea insignificante.
Särndal, Swensson & Wretman (1992, p. 251) sugieren que las muestras de tamaño 20 o más
debería ser suficiente para que esto suceda. Cochran (1977, p. 162) sugiere que el coeficiente
ser inferior a 0,1 (10 %) antes de que el sesgo del estimador de razón pueda ignorarse o considerarse pequeño en comparación
A pesar de estas conocidas “reglas generales” o limitaciones que deberían evitar que los estimadores de razón se
usen con muestras muy pequeñas, el software moderno facilita la estimación de razones.
y otros estimadores de calibración que se calcularán para muestras de cualquier tamaño, a menudo sin ningún
advertencias de que los tamaños de muestra pueden ser insuficientes para garantizar una utilización segura. Esto deja espacio
para aplicaciones en las que no se toman las mínimas precauciones, como esta de comprobar
si el tamaño de la muestra es adecuado. En los casos en que los tamaños de muestra son demasiado pequeños, la calibración
las estimaciones pueden estar sujetas no solo a una gran variación (como se esperaba debido a la pequeña muestra
tamaño) sino también a un sesgo notable. Se insta a los usuarios de estimadores de calibración a evitar aplicar
la técnica cuando los tamaños de muestra son demasiado pequeños. Hasta el momento, no existen reglas simples de seguridad con respecto a
Sin embargo, al menos se podría sugerir que las mismas reglas aplicables a la estimación de razón simple
dieciséis
Machine Translated by Google
hecho de que estos se aplican a menudo por separado para una serie de "grupos modelo", definidos como
grupos de unidades para los que tanto la pertenencia a la muestra como la información de la población auxiliar son
disponible. Estos grupos modelo pueden coincidir con estratos de muestreo predefinidos, o pueden
Cuando tales grupos de modelos son numerosos, los tamaños de muestra pequeños pueden resultar para algunos (o de hecho
muchos de ellos.
El problema a menudo se ve agravado por el hecho de que el número de variables de la encuesta también puede ser
grande. En este caso, aunque el cálculo de los pesos de calibración se realiza una sola vez (los pesos no dependen de las
modelos que proporcionan las condiciones para que los estimadores de calibración funcionen bien (en el sentido de
proporcionando residuos con una pequeña variación) deben ser verificados. En algunos casos, esta tarea puede
volverse demasiado grande para ser factible dentro de los estrictos programas de producción que las encuestas típicas
hay que adherirse. Por este motivo, se advierte a los usuarios que no intenten realizar
calibración a niveles que son demasiado detallados en el sentido de involucrar demasiados grupos de modelos.
Cuantos más grupos de modelos se consideren para la calibración, más recursos se deben
estimadores. Los estimadores de razón separados son estimadores de calibración donde la calibración es
realizado a los totales conocidos en el nivel de estrato (grupo modelo). Los estimadores de razón combinada involucran la
calibración solo a nivel agregado (para la muestra como un todo o para algunos grupos más amplios formados a partir de
conjuntos de estratos agrupados). Cochran (1977, p. 167) argumenta que “el uso de un
Es probable que la estimación de la razón por separado en cada estrato sea más precisa si la muestra en cada estrato
estrato es lo suficientemente grande como para que la fórmula aproximada para la varianza de los
el estimador de razón es válido, y el sesgo acumulativo que puede afectar al estimador de razón separado es
despreciable. Con solo una pequeña muestra en cada estrato, la estimación de la razón combinada debe ser
recomendado a menos que haya buena evidencia empírica de lo contrario.” no pude encontrar
mejores palabras para decirlo yo mismo, y sugeriría que este consejo también debería aplicarse a
El tercer grupo de problemas comprende aquellas situaciones que surgen cuando los pesos de calibración se
17
Machine Translated by Google
ocurre cuando la calibración resulta en pesos negativos, es decir, en tener algunos pesos wk < 0
(o gk < 0). Esta situación no representa ningún problema desde un punto de vista estrictamente teórico, pero
conduce a dos dificultades desde una perspectiva práctica. En primer lugar, la interpretación habitual del caso
pesos como el número de unidades de población representadas por la unidad de muestra correspondiente es
perdidos para estos casos, y la liberación de tales pesos sería una decisión muy incómoda para
muchos organismos de estadística. El segundo problema es que los pesos negativos eventualmente podrían
producir estimaciones negativas para algunos dominios con tamaños de muestra pequeños, lo cual no es un
resultado aceptable para la mayoría de las aplicaciones de encuestas prácticas cuando las variables de la encuesta son
intrínsecamente no negativo. También notamos que los pesos negativos pueden proporcionar una indicación de
algún problema con el intento de calibración que necesita la atención del estadístico en
cobrar.
Para abordar este problema de la posibilidad de pesos negativos, una serie de enfoques
por algunas agencias estadísticas es calcular los pesos de ajuste de calibración gk que
minimizar
2
( ÿ
) =
( ÿ wk dk qkdk ÿ dgdqd ÿd (g k
ÿ
k )2 k
=
k
ÿ
2
1) / q k
(4.1)
ÿ
Kansas ÿ
Kansas ÿ
Kansas
ˆ (4.2)
xC kkk
X X
T ÿ T = ÿ X ÿ T = 0 gramo
ÿ
Kansas
ÿ ks
LgU ÿ para ÿ (4.3)
k
minimización de una función cuadrática (4.1) bajo límite lineal (4.2) y (no lineal) (4.3)
restricciones GES intenta resolver este problema usando un algoritmo eficiente, pero la solución es
pesos, estimación eficiente de totales, medias y razones para poblaciones y por dominios,
junto con las varianzas correspondientes para el elemento estratificado o el muestreo por conglomerados de una sola etapa
diseños Los estadísticos que buscan una herramienta computacional para implementar la calibración deben dar
18
Machine Translated by Google
software, lo que hace que esta sea una opción razonablemente costosa. Si SAS ya está disponible, sitio
la concesión de licencias de GES de Statistics Canada no es prohibitiva para la mayoría de las estadísticas a gran escala.
algoritmo utilizado para calcular los pesos de calibración. BASCULA adopta un algoritmo propuesto
por Huang & Fuller (1978) para calcular pesos calibrados que satisfacen las restricciones de contorno.
Como es el caso de GES, BASCULA tampoco siempre garantiza encontrar una solución
satisfaciendo todas las restricciones especificadas. BASCULA es un programa independiente y, por lo tanto, puede ser
Otro enfoque que se propuso para resolver el problema de los pesos negativos se debe
a Deville & Särndal (1992), quienes definieron la familia de estimadores de calibración. En el anterior
enfoque, la función de distancia estándar que conduce a los pesos de regresión se mantuvo y
pesas calibradas, de tal manera que se evite la posibilidad de pesos negativos del
ÿ (Gw,d
k k ) (4.4)
kÿs
para cada muestra s, sujeto a las restricciones de calibración (4.2), donde las funciones de distancia
Gk puede ser una de las opciones en la Tabla 1. Tenga en cuenta que la función de distancia estándar (caso 1) es
también se incluye para completar, porque es un miembro de la familia, pero puede producir
pesos negativos. Todas las funciones de distancia consideradas satisfacen algunas condiciones de regularidad,
a) G (k () w,d) ÿ 0 y G d,d = k0 ;
Moda.
19
Machine Translated by Google
Tabla 1 – Funciones de distancia para estimación de calibración propuestas en Deville & Särndal (1992)
jajajaja ( ,d )
Caso Funciones de distancia q ×G w
2
1 ( d) ksemana
2dk
ÿ
2 sesión
k wd [
( )ÿ1
]k wÿIniciar
rek k
3
(
2 semanas ÿ ns )2
4 wdk ÿ [ registro(
k
wdk k )+1 ]
2
5 ÿ
( )semana
semana2dsemanas
6 ÿ g kL
ÿ
ÿ tu g
ÿ
k
en
k
g kL
()ÿ
ÿ
Iniciar sesión U ÿg ÿ k
ÿ( ÿ + ) ÿregistro ÿ ÿ = kÿ
gramo , 0 1< <
LU<
ÿ 1 L EN 1 dk
ÿ ÿ
Multiplicadores de Lagrange. Usando este método, las wk que minimizan (4.4) sujetas a (2.3) son
obtenido como solución de
ÿG
ÿ kkk
( ) w ,d / w k ÿ Xÿ kÿ = 0 ÿ ÿKansas
. (4.5)
Si existe una solución, considerando los supuestos de regularidad adoptados, será única,
y dado por
)w ( xÿ
k = rek F q k ÿ = re k (4.6)
)ÿ1 =] ÿ k
ÿ
ÿ [ ( dk
xk Fÿ qk
x T Tˆ X X (4.7)
ÿ
Kansas
ˆ
T
yC gk dk k y (4.8)
ÿÿ =Kansas
20
Machine Translated by Google
con los factores de ajuste de calibración gk definidos por una de las funciones de calibración F(·) en
Tabla 2.
1 1q +k
2
( ) q exp Reino Unido
3
( )2
ÿ
1 / 2 ÿ q reino unido
4
( )1
ÿ
1
- q reino unido
5 1/ 2
(1 2unido
ÿ
ÿ q reino )
6 ÿ +1)
PERLA ÿ (1 ) exp(
Leelo UL ÿ
,A =
k
, 0 L< 1< U
<
( (EN ÿ +)ÿ1) (1 L ) exp( Aquí (1 LU)( 1)
k )
ÿ ÿ
7 L si en < (1)
L-/ q k
1 + qu k si (1)L-
ÿ ÿ/ quk U- / q (1) k
(1) Tenga en cuenta que la función de calibración 7 corresponde a la función de distancia número 1 de la tabla 1, pero
con límites especificados para los pesos de calibración.
Por lo tanto, un algoritmo para calcular los pesos de calibración se puede especificar como el
siguiente secuencia de pasos.
Paso 1: Calcule el error de calibración para el estimador de Horvitz-Thompson de los totales de los
ˆ
variables auxiliares: Tx Tx ÿ .
Paso 2: Para la función de calibración elegida F(·), resuelva las ecuaciones de calibración necesarias para
determinar ÿ, a saber
[ ]
ÿ
rekF q (
x ÿk x T Tˆ)ÿ1
ÿ = ÿk X X
(4.9)
ÿ
Kansas
21
Machine Translated by Google
H sÿ ÿd F q X ÿ [
k ) (() k=
ÿ1 . X ] k (4.10)
ÿ
Kansas
1
yo = ÿ ÿ qd xx T Tˆ ÿ
[ ÿ
]
1
ÿ
ÿ ÿ ÿ jajajaja X X
(4.11)
ÿ
Kansas ÿ
Luego realice iteraciones del cálculo del método de Newton, en cada iteración r=1,2,…,
el valor actualizado
ˆ ÿ
yo
r +1 ÿ ÿ( r Hs ( )]r (4.12)
dónde
ÿ
H ÿs (H) ÿ= ÿ
r ÿ ( ) / ÿ s yo=yo
. (4.13)
r
Las iteraciones proceden hasta la convergencia (dados los límites de tolerancia especificados) o hasta que el
Paso 3: Una vez obtenida la solución para ÿ, calcule los pesos de calibración
( wk = re Fk q ) xl . (4.14)
k
algoritmo conserva todas las propiedades deseables que discutimos en relación con la regresión
estimadores (secciones 2 y 3). Además, los estimadores de razón de clasificación, como los que se utilizan para ponderar
personas en el UK-LFS también pueden verse como casos especiales de la clase general de calibración
estimadores. Deville y Särndal (1992) demostraron que los miembros de esta clase tienen
propiedades asintóticas idénticas a las de los estimadores GREG basados en el mismo conjunto de
variables auxiliares. Por lo tanto, los estimadores de calibración generales definidos por uno de los anteriores
Las funciones de distancia son asintóticamente no sesgadas por diseño, con una varianza aproximada dada por
22
Machine Translated by Google
(Sautory, 1993). Este programa solo realiza cálculos de peso, pero existe una variante denominada
CALJACK fue desarrollado en Statistics Canada (Bernier & Lavallée, 1994) que incluye
Estimación de varianza Jackknife para totales, medias, razones y diferencias de estos. CALMAR
también requiere SAS, pero está disponible una implementación más reciente (pero limitada) del método:
La estimación de la calibración, como ahora se ha ampliado, proporciona las herramientas para tratar de
resolver el problema de los pesos negativos, que se pueden evitar eligiendo las funciones de calibración 2 a 7 en la
Tabla 2. También brinda cierto control sobre el problema de los pesos extremos o pesos menores.
=
L 1/min{d , k especificando
s} k ÿ y alguna U adecuada. Sin embargo, varios de los problemas
discutidos antes quedan sin resolver.
Primero, para muestras pequeñas y moderadas, el sesgo puede ser un problema y ahora, la elección de
La función de distancia puede volverse importante a este respecto. En segundo lugar, aunque el método es
orientada a evitar pesos negativos o extremos, no se garantiza una solución. Deville & Särndal (1992) demostraron que
tiende a uno a medida que n aumenta. Sin embargo, no es uno con muestras finitas. De ahí que en algunos
Cuando este sea el caso, los usuarios del método deben tratar de investigar las causas detrás de la
fracaso en encontrar una solución. Puede deberse a muestras pequeñas o “extremas”, en el sentido de que la
los pesos de calibración resultantes pueden necesitar ser más extremos de lo que estamos preparados para permitir
cuando especificamos las restricciones de contorno L y U. También puede suceder porque grandes
Un problema que los enfoques discutidos anteriormente no abordan es qué hacer cuando
una gran cantidad de variables x potenciales están disponibles para ser consideradas para la calibración. Una opción
simplista es considerar cada una de las posibles variables x en la calibración. Esto puede parecer deseable desde un
para todos los totales de población conocidos. Sin embargo, esta opción también puede causar una serie de problemas.
Primero, puede ser más difícil resolver el sistema de ecuaciones de calibración requerido para
variables, y el cálculo puede ser exigente. En segundo lugar, un mayor número de x variables puede
23
Machine Translated by Google
conducen a problemas de colinealidad que afectan la solución de las ecuaciones de calibración. Banquero (1990)
intentando la solución de las ecuaciones de calibración en el paso 2 del algoritmo. Esta solución es
bastante fácil de implementar y no conduce a la pérdida de calibración para cualquier variable x , ya que
las variables descartadas son combinaciones lineales exactas de variables retenidas en la calibración
problema, y los estimadores de calibración resultantes son lineales. Una solución alternativa usando
2001).
Bankier (1990) y Bankier, Rathwell & Majkowski (1992) también propusieron descartar
variables auxiliares para controlar la variación de peso manteniendo la función de distancia estándar
1. Esta solución conduce a la pérdida de calibración de las variables x descartadas , así como a la pérdida de
estimador de calibración. Silva (1996, capítulo 4) y Silva y Skinner (1997) demostraron que
estimador de calibración (regresión) para tamaños de muestra pequeños a moderados. Por ejemplo, bajo
Muestreo Aleatorio Simple sin reemplazo (SRS) y asumiendo el modelo (2.11) para
2
ˆ
1
(1 n/ n )
pags
(1 On/+p+) ( /
ÿ ÿ
MSE SRS
(NT) y
=ÿ
norte
)52 (4.15)
norte
variables consideradas. Esta expresión revela que el MSE de un estimador de regresión puede
en realidad aumentan a medida que aumenta el número de variables x , si el aumento en el segundo orden
problema si la muestra es grande, pero para muestras pequeñas a moderadas, el número de auxiliares
las variables pueden tener algún efecto notable en el MSE del estimador de regresión.
Como ilustración del problema, la Figura 2 traza el MSE del estimador de regresión
para conjuntos crecientes de variables auxiliares, asumiendo un muestreo aleatorio simple con n=100 de
una población de jefes de hogar para los cuales se recopilaron datos como parte de la prueba
24
Machine Translated by Google
400
300
200
100
0
1 2 3 4 5 6 7 8 9 10 11 12
Número de x variables
la estimación después de la selección de subconjuntos puede ser más eficiente que la estimación de regresión saturada,
para tamaños de muestra moderados (n = 100; J = 5; 10). Clark (2002) informa resultados similares.
para n = 100; 250 y J = 24; 40. Ambas fuentes informaron también que la incidencia de
los pesos fueron menores después de la selección del subconjunto que cuando la calibración utilizó el conjunto saturado de x
variables. Esto sugiere que parte del problema con los pesos negativos proviene de
Calibración “excesiva”.
Aunque la idea de aplicar algún tipo de procedimiento de selección de variables para seleccionar x
variables para la calibración puede conducir a estimadores más eficientes para algunas variables y especificadas,
este enfoque no está libre de problemas. Primero, conduce a la pérdida de calibración para x descartados
variables En segundo lugar, el enfoque es intrínsecamente univariante, en el sentido de que la selección de subconjuntos
es específico de la variable y, lo que implicaría diferentes conjuntos de ponderaciones para diferentes variables y .
Además, la estimación de la varianza se vuelve más difícil después de la selección de subconjuntos, como se señaló en Silva y
Desollador (1997). Sin embargo, el mensaje que surge de estos estudios es que realizar
calibración o estimación de regresión “automáticamente” con todas las variables auxiliares disponibles
puede no ser una estrategia eficiente, particularmente para muestras con tamaños pequeños a moderados o
cuando el número de variables auxiliares es grande en relación con el tamaño de la muestra. En tales casos, se recomienda
prestar cierta atención a la selección de subconjuntos adecuados de las variables disponibles, incluso si uno no está preparado
para utilizar procedimientos formales de selección de modelos como los descritos por Silva y Skinner (1997). En encuestas
dedicar esfuerzos en las primeras rondas de la encuesta para establecer un conjunto adecuado de variables para
25
Machine Translated by Google
calibrar y luego usar el subconjunto fijo para la calibración en rondas posteriores del
encuesta.
Se han propuesto algunos otros enfoques para manejar el caso de resultados negativos o
pesos extremos. Chambers (1997) propuso los llamados estimadores de "calibración de cresta",
donde la idea básica es minimizar la función de distancia modificada
ÿ ÿwddq
( )k / k
2
k
1+k
C
(T Tˆ ÿxCT Tˆ
X
ÿ
)( X
ÿ
xC ) (4.16)
ÿ
Kansas
donde ÿ es una matriz diagonal de costos de error de calibración, y ÿ es un parámetro de cresta escalar para
se especifico. En este enfoque, no hay restricciones que satisfacer. Los pesos resultantes
ÿ ˆ
ÿ ÿ
1 ÿ
ÿ
wdq
k
=
TT ÿk ÿ 1+ÿ
kx
( ÿ
X
) ÿ
ÿ C -1 + ÿ ÿ ÿqdiii xxx k
ÿ (4.17)
ÿ ÿ es
ÿ ÿ ÿ
ÿ
Tenga en cuenta que en este enfoque una medida de la cantidad de error de calibración es
incorporado como el segundo término de la función de distancia. Sin embargo, dado que no existen
para evitar errores de calibración por completo. Alguna elección de ÿ tal que todos los pesos “calibrados por crestas”
(4.17) son positivos siempre es posible. Una idea puede ser elegir el ÿ más pequeño que satisfaga
esta condición. Chambers (1997) analiza otros enfoques para elegir ÿ. Cuidadoso
especificación de la “matriz de costos de error de calibración” ÿ permite una selección flexible de subconjuntos de
variables auxiliares para las que se debe eliminar el error de calibración. Para ello basta con
use elementos diagonales muy grandes en esta matriz correspondientes a las variables auxiliares para
cuyo error de calibración debe ser cero. El enfoque es una mejora sobre los procedimientos que
descartar las variables auxiliares por completo, en el sentido de que algún control sobre la cantidad de
el error de calibración se puede mantener para todas las variables x . Chambers (1997) consideró otros
Versiones de calibración de crestas que tienen como punto de partida pesos derivados bajo un
enfoque basado en modelos o basado en modelos no paramétricos. También consideró atípicos robustos
modificaciones de este enfoque que pueden ser de ayuda en los casos en que los valores atípicos en las variables y
son motivo de preocupación. Sin embargo, estos son específicos de la variable y y, por lo tanto, no se considerarán
más aquí.
llamada estimación de "calibración de contracción de cresta". Una vez más, la idea se basa en minimizar un modificado
función de distancia, pero esta vez, bajo restricciones de rango (restricciones de límite). los
26
Machine Translated by Google
itera entre la modificación adaptativa de la matriz de costos del error de calibración y el rango deseado
Hedlin et al (2001) también discutieron el problema de los pesos de calibración extremos. Este
El artículo exploró el comportamiento de los estimadores de calibración (GREG) cuando los modelos subyacentes
estaban mal especificados y propuso algunas medidas de diagnóstico para evaluar la idoneidad del modelo para una
situación de encuesta determinada. Parte del diagnóstico consideró la idea de que los pesos g definidos por (2.9) son
en el ajuste de modelos de regresión lineal. Los diagnósticos sirvieron para localizar los más
muestra y usando estimación de regresión o calibración solo para aquellas unidades de muestra para las cuales
los pesos g no son extremos, y usando el estimador de expansión simple para los postestratos
no es una buena práctica, y se debe dedicar cierta atención a analizar los pesos resultantes para
Una forma sencilla de hacerlo es realizar un análisis de datos de los pesos g y tratar de marcar
aquellos que son extremos en algún sentido. Los casos más obvios son los pesos g negativos o pequeños (aquellos
que conducen a pesos calibrados finales menores que 1) o los pesos g muy grandes (digamos, con gk > U). El punto
de corte U puede determinarse arbitrariamente (digamos, hacer U = 5 o 10), o por métodos dependientes de datos (U
observación de la muestra seleccionada. Sin embargo, la falta de respuesta es un problema generalizado. La mayoría
encuestas de la vida real experimentarán una cierta cantidad de falta de respuesta, a pesar de incorporar bien
métodos y procedimientos diseñados para prevenir la falta de respuesta. Un nuevo tema importante trajo
Pi
acerca de la falta de respuesta es la del sesgo. Estándar Horvitz-Thompson (-inverso ponderado)
estimadores estarán sesgados a menos que la falta de respuesta sea completamente al azar, e incluso en este
situación poco probable, la estimación de los totales requiere al menos algún ajuste simple para compensar la pérdida
27
Machine Translated by Google
La calibración es un enfoque útil para tratar de reducir el sesgo debido a la falta de respuesta.
Lundström (1997) y Lundström & Särndal (1999) incluso sugieren "la calibración como estándar
método para el tratamiento de la falta de respuesta”. Los estimadores de calibración tienen un diseño aproximado
imparcial si hay una respuesta completa, para cualquier elección fija de variables auxiliares. Por debajo
sin respuesta, sin embargo, los estimadores de calibración pueden estar sesgados incluso en muestras grandes. Desollador
(1999) examinó el impacto de la falta de respuesta en los estimadores de calibración. algunos de sus
• “Se puede esperar que la presencia de falta de respuesta conduzca a ponderaciones negativas mucho
más frecuentemente";
aumenta”;
Sin embargo, la reducción del sesgo prevista mediante la calibración solo se logrará si el
Los mecanismos combinados de no respuesta y muestreo son ignorables dadas las variables x
considerado para la calibración. Esto sugiere que la elección de las x variables a considerar
para la calibración debe tener en cuenta los efectos probables de la falta de respuesta y, en particular,
debe apuntar a incorporar todas las variables x para las cuales se dispone de datos auxiliares de población que
modelo simplificado donde d k denota la probabilidad de que una unidad responda a la encuesta dada
que se selecciona en la muestra, y la respuesta es independiente para distintas unidades, una condición
para que el estimador de calibración sea aproximadamente imparcial bajo el muestreo conjunto y
1 ÿ
d k 1 = + qk x ÿ para todo k y algún vector de constantes ÿ (Ver
ÿ
Lundström, 1997, pág. 46). Sin embargo, debido a que los pesos de calibración wk son siempre de la forma
ÿ
(w
k = rek F q k ) x ÿ (ver 4.14), es fácil ver que la calibración conducirá a aproximadamente
pesos de calibración.
realizado para UK-LFS (ver ONS, 2001, sección 9). En esta encuesta, la ponderación tiene en cuenta
distribución regional de la cuenta (17 Regiones o 454 Autoridades Locales), edad (11 o 17 años)
grupos) y el sexo de los individuos muestreados. Estas son variables para las cuales auxiliares
28
Machine Translated by Google
variables utilizadas para la calibración es bastante grande (1.002) y la función de distancia elegida es
Sin embargo, un estudio de la incidencia de falta de respuesta en esta encuesta mostró que la falta de respuesta es
no completamente al azar, como se indica en la tabla de la página 43 de la Guía del usuario de UK-LFS
• Estado de Empleo;
• Estatus socioeconómico;
• Región de residencia;
• Región de origen; mi
Claramente, entonces, uno puede ver que la calibración solo en edad, sexo y región como es actualmente
el caso no puede aspirar a eliminar todo sesgo debido a la falta de respuesta. no es el numero de x
variable que importa, ¡sino tener las x variables correctas! Por supuesto, esto es más fácil dicho
que hecho, y en el caso de UK-LFS, claramente hay dificultades. Por ejemplo, si la falta de respuesta depende del
estado laboral, uno podría verse tentado a intentar calibrar con información externa proporcionada por fuentes basadas
en registros, como el recuento de solicitantes. Sin embargo, para muchas de las otras variables, la información auxiliar
El mensaje aquí es que no es suficiente calibrar en "todo lo que está disponible" para ser
libre de prejuicios. Aún más, Gambino (1999) sugiere que en algunos casos la calibración puede
incluso empeorar las cosas, y argumenta que “es bien sabido que en muchas encuestas, los jóvenes
los hombres tienden a perderse de manera desproporcionada. Dado que las estimaciones demográficas por edad-sexo son
normalmente utilizado en la calibración, el efecto es aumentar el peso de los machos jóvenes que
por casualidad respondiendo a la encuesta. Si, para algunas variables de interés, los machos jóvenes que
tienden a convertirse en encuestados difieren sustancialmente de los hombres jóvenes que tienden a ser extrañados
29
Machine Translated by Google
componente representativo de la muestra”. Supongamos que supiéramos que los machos jóvenes que entonces
Los que se pueden perder con más frecuencia son los que viven solos y los que tienen más probabilidades de
responden son los que están viviendo con sus padres o familiares. Por lo tanto, la ponderación debe apuntar
aumentar el peso de los del primer grupo (varones jóvenes que viven solos) pero no de los
en el segundo grupo (viviendo con la familia). La parte crucial de información que tendríamos que hacer
que serían los totales de población por edad y sexo y composición del hogar (hogares de una sola persona frente a
otros hogares). Si esta información no está disponible, todavía hay algún remedio limitado para probar. La ponderación
nivel individual. Por lo tanto, los machos jóvenes que viven solos tendrían pesos que dependen de qué
tipo de hogar en el que viven, pero esta no sería la corrección de sesgo que estaríamos
El ejemplo anterior ilustra los problemas que uno tiene que abordar en relación con el uso de
características del hogar (aparte de la ubicación regional), como su tamaño y composición, así como
así como las del cabeza de familia, entonces tal vez el hogar debería ser la unidad para la cual los pesos
se calculan, y los miembros individuales del mismo hogar reciben luego el hogar
peso.
Gambino (1999) advierte que para el ajuste por falta de respuesta, “la mala elección del ajuste
variables o clases pueden empeorar las cosas”, y concluye que “es nuestro deber como estadísticos trabajar con los
usuarios para garantizar que las herramientas de calibración se utilicen con prudencia”. Una de las razones por las
que la calibración puede empeorar las cosas es porque puede enmascarar los efectos de
falta de respuesta Por ejemplo, usar pesos de muestreo no ajustados para estimar la población
conteos por edad y sexo, uno podría ubicar las celdas para las cuales las estimaciones están bajo el
nivel esperado por una cantidad que es demasiado grande para ser debido a un error de muestreo. Estos son los
celdas para las cuales es más probable que la encuesta pase por alto elementos. Tales estimaciones podrían
luego se puede usar para detectar las celdas para las cuales los efectos probables de la falta de respuesta son mayores. Pero si
las estimaciones se calculan solo con pesos calibrados, tales desviaciones de lo esperado o
los recuentos conocidos no aparecerán. Los usuarios necesitarían un esfuerzo adicional para calcular la precalibración
estimaciones requeridas para analizar los efectos probables de la falta de respuesta, si el pi-inverso pondera dk
evaluación de qué tan bien se desempeñaron los procedimientos adoptados en la aplicación en cuestión. Con
30
Machine Translated by Google
ser realizado de forma rutinaria, sugerimos que también es importante evaluar una serie de otros
aspectos del resultado. Esto es importante para verificar que algunas de las metas previstas de
se ha alcanzado la calibración y para verificar los problemas potenciales que pueden afectar el
Salir.
para el conjunto completo de x variables que se seleccionaron inicialmente para la calibración. Esto debería
idealmente ser cero, si el error de calibración se eliminó por completo, pero puede ser distinto de cero si algunos de los
se adoptan algunos de los enfoques que no conducen a una calibración exacta. La media
el error de calibración absoluto relativo para los totales de población estimados de las variables x es
dada por
1
pags
ˆ
M1 Tx j C ÿ
j
TxT _/ X
j . (5.1)
ÿ= = j 1
pags
Una segunda medida, que es importante para permitir comprobar si necesitamos ser
1/ 2
pags
1
()j] /T
ˆˆ
M2 V Tx X
j (5.2)
[ ÿ= = j 1
pags
ˆˆ
ˆˆ
(
VermontX = ( a )(
/ ÿk ÿ ÿi dxdx 1ÿ a kj
)( yo
). (5.3)
) j ÿÿÿ kÿ ssi
pesos Dos de estos son las proporciones de pesos g extremos (pequeños o grandes) , donde algunos
1
M3 = ÿ (Yo) gk<L (5.4)
norte ÿ
Kansas
1
M4 = ÿ (te)pido> _ . (5.5)
norte ÿ
Kansas
31
Machine Translated by Google
1 2
M5 = ( ) kggg / (5.6)
n ks 1 ÿÿ ÿ
ÿ
1
donde g kg _ es el peso g promedio.
ÿÿ =
norte
Kansas
La distancia entre los pesos g y los pesos d también es una medida importante,
1 2 1 2
M6 = ÿ
= ÿ
1 ) /q (5.7)
ÿ ( ) wdqd
k k k ÿ re (gk k
norte norte
ÿ
Kansas ÿ
Kansas
Tenga en cuenta que normalizamos esta distancia dividiendo la función de distancia de calibración por
el tamaño de la muestra, para que sea más fácil comparar entre muestras de diferentes tamaños. Aún
otra posibilidad sería dividir por el tamaño de la muestra menos el número de x variables
que la función de distancia chi-cuadrado se use incluso cuando la función de distancia real que
se minimizó para obtener los pesos de calibración es una de las otras funciones en la Tabla 1.
Por último, pero no menos importante, los usuarios deben probar y acceder a las ganancias de la calibración en
comparación con los estimadores estándar de Horvitz-Thompson. Esto se puede lograr por
j
1
( )()/
ˆˆ ˆˆ
M7 Vermont (5.8)
Vg Ty C
ÿ= j= j 1
j yo allí
los denominadores se estiman usando (5.3) con los valores de x reemplazados por los valores de y .
Usando este conjunto de siete medidas y cualquier otra que pueda estar proporcionando información
sobre los mismos aspectos se recomienda enfáticamente para los usuarios de estimación de calibración.
6. OBSERVACIONES FINALES
Estimacion. Al mismo tiempo, señalamos algunas de las dificultades que los usuarios de la
32
Machine Translated by Google
técnica puede enfrentar en aplicaciones prácticas, así como también proporcionó alguna orientación sobre cómo
así como el número de encuestas importantes en varios países que dependen de la calibración para su
ponderación y estimación. En países como Canadá, Estados Unidos, Reino Unido y Francia, se utiliza la estimación de
calibración para las encuestas de población activa. En Brasil y Canadá, también se utiliza para las muestras recolectadas
Si bien se reconoce este valor, animamos a los usuarios a ser críticos con el
pesos y estimaciones resultantes, para ver que cumplan con los criterios de desempeño y altos
La calibración no debe usarse para “disfrazar” resultados de encuestas sesgados, donde la cobertura y
el sesgo de falta de respuesta se “cubre” mediante una simple calibración con los totales de población conocidos.
Los usuarios de la técnica deben, ante todo, buscar ser transparentes sobre la metodología.
Finalmente, alentaríamos a los productores de datos que opten por adoptar la ponderación de calibración en
encuestas en las que se publicarán archivos de microdatos, a proporcionar a los usuarios secundarios la información
necesaria para que puedan hacer un uso adecuado de los datos, en el sentido de ser
capaz de calcular estimaciones puntuales y de varianza correctamente. Esto es mucho más desafiante que
cuando se utilizan los estimadores habituales de Horvitz-Thompson, porque la información sobre el conjunto completo de x
Las variables utilizadas para la calibración también deben publicarse junto con los pesos d originales y
los pesos w finales para cada registro de encuesta. Todavía se necesita investigación sobre la mejor manera de
lograr este objetivo sin sacrificar las restricciones necesarias requeridas para la protección
de confidencialidad.
7. REFERENCIAS
BANKIER, MD, Rathwell, S. & Majkowski, M. (1992, Statistics Canada, Methodology Branch Working Paper Series SSMD
92-007E) – Estimación de mínimos cuadrados generalizados en dos pasos en el censo canadiense de 1991.
33
Machine Translated by Google
BERGER, YG (2002). Un estimador de varianza simple para muestreo de probabilidad desigual sin reemplazo.
Manuscrito no publicado.
BERNIER, N. y Lavallée, P. (1994). La macro SAS: CALJACK. Ottawa: Estadísticas de Canadá, División de
Métodos de Encuestas Sociales.
BETHLEHEM, JG (1988) Reducción del sesgo de falta de respuesta a través de la estimación de regresión.
Diario de Estadísticas Oficiales, 4, 251-260.
BELÉN, JG y Keller, WJ (1987). Ponderación lineal de los datos de la encuesta por muestreo.
Diario de Estadísticas Oficiales 3, 141-153.
CLARK, RG (2002). Diseño y estimación de muestras para encuestas de hogares. Wollongong: Universidad de
Wollongong, Escuela de Matemáticas y Estadística Aplicada, Ph.D. inédito. disertación.
COCHRAN, WG (1977). Técnicas de muestreo, 3ª edición. Nueva York: John Wiley & Sons.
ESTEVAO, V., Hidiroglou, MA & Särndal, CE (1995). Principios metodológicos para un sistema de estimación
generalizado en Statistics Canada. Diario de Estadísticas Oficiales, 11, 181-204.
GAMBINO, J. (1999). Problemas en la ponderación de las encuestas de hogares y empresas: comentarios de los
comentaristas. Actas del Instituto Internacional de Estadística.
HEDLIN, D. et al. (2001). ¿Importa el modelo para la estimación de GREG? Un ejemplo de encuesta empresarial.
Diario de Estadísticas Oficiales, 17, 527-544.
HOLMES, DJ y Skinner, CJ (2000). Estimación de varianza para las estimaciones de nivel y cambio de la
Encuesta de población activa. Serie Metodología GSS no. 21
HUANG, ET y Fuller, WA (1978). Estimación de regresión no negativa para datos de encuestas por muestreo.
Actas de la Sección de Estadísticas Sociales, Asociación Estadounidense de Estadística, 300-305.
LUNDSTRÖM, S. (1997). La calibración como método estándar para el tratamiento de la falta de respuesta. Tesis
doctoral, Departamento de Estadística, Universidad de Estocolmo.
LUNDSTRÖM, S. & Särndal, CE (1999). La calibración como método estándar para el tratamiento de la falta de
respuesta. Diario de Estadísticas Oficiales, 15, 305-327.
NIEUWENBROEK, N. & Boonstra, HJ (2002) – Bascula 4.0 para ponderar datos de encuestas por muestreo con
estimación de varianzas. Survey Statistician, julio de 2002.
ONS (2001). Encuesta de población activa – Guía del usuario – Volumen 1 – LFS Antecedentes y metodología
2001. Londres: Oficina Nacional de Estadística.
RAO, JNK & Singh, AC (1997) – Calibración de peso de rango restringido para datos de encuestas.
Manuscrito no publicado.
34
Machine Translated by Google
SÄRNDAL, CE, Swensson, B. y Wretman, JH (1992). Muestreo de encuesta asistido por modelo.
Nueva York: Springer-Verlag.
SAUTORY, O. (1993) – La macro CALMAR: ajuste de una muestra por calibración en los márgenes,
INSEE.
35