100% encontró este documento útil (2 votos)
634 vistas49 páginas

Ejercicios Resueltos de Muestras Complejas

El documento presenta una introducción a las muestras complejas, que incorporan elementos de muestreo estratificado y por conglomerados. Luego, describe métodos para derivar estimadores y sus varianzas en este contexto, incluyendo métodos clásicos y de remuestreo. Finalmente, ilustra estos conceptos a través de ejemplos como la Encuesta Nacional de Empleo, CASEN y pruebas internacionales como PISA y TIMSS.

Cargado por

Joselyn Rojas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (2 votos)
634 vistas49 páginas

Ejercicios Resueltos de Muestras Complejas

El documento presenta una introducción a las muestras complejas, que incorporan elementos de muestreo estratificado y por conglomerados. Luego, describe métodos para derivar estimadores y sus varianzas en este contexto, incluyendo métodos clásicos y de remuestreo. Finalmente, ilustra estos conceptos a través de ejemplos como la Encuesta Nacional de Empleo, CASEN y pruebas internacionales como PISA y TIMSS.

Cargado por

Joselyn Rojas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Muestras Complejas

Temario
• Introducción
Definiciones
Diseños comunes
Ejemplos
• Derivación de Estimadores y sus varianzas
Métodos clásicos
Métodos de remuestreo
Efectos de Diseño
Introducción
• Las muestras complejas son la se que se obtienen de
diseños que incorporan distintos elementos de los
diseños muestrales básicos (muestreo estratificado,
muestreo por conglomerados, multi-etapas). Lo que
trae como consecuencia que la estimación de las
varianzas de los estimadores sea bastante compleja.
Eso hace que se trate de simplificar el tratamiento
llevando los estimadores a su forma con “pesos”
también llamados “ponderadores” o “factores de
expansión” de las unidades muestrales. Estos pesos
son el inverso de la probabilidad de que la unidad sea
seleccionada en la muestra.
• Las unidades de estudio (personas/alumnos)
se agrupan en conglomerados ( viven en
viviendas/estudian en colegios) los que a su
vez pueden constituir estratos (nivel socio
económico/ comunas ) o conglomerados más
grandes (regiones)
Diseño multi-etapa de estratos y
conglomerados.
Muestreo Bi-etápico
• Unidades (colegios/manzanas) se seleccionan
y dentro de ellas se escogen unidades
primarias o las de estudio (estudiante/hogar).
Así por ejemplo para determinar el valor
medio de una variable de interes se usa el
estimador usual si ambas muestras se
obtienen bajo MAS.
Ejemplos
• Encuesta Nacional del Empleo (ENE)
• Encuesta de Caracterización Socio-Económica
(CASEN)
• PISA
• TIMSS
• PIACC
Encuesta Nacional Empleo (ENE)
• Variable de interés medir número de
ocupados/desocupados/fuerza de trabajo
• Población Objetivo personas de 15 años o
más.
• Se separa el área rural y urbana se consideran
estratos.
ENE : Probabilidades
ENE Estimadores
ENE Factores de Expansión o Pesos
• Factor Teórico
ENE Factores de Expansión
• Factor Ajustado
ENE Estimadores
• Totales
Casen 2011
• Las variables de interés son la pobreza e
indigencia. La población objetivo son las personas
y hogares que residen en viviendas particulares.
Dominios (o subpoblaciones) son el área rural y
urbana. Se distinguen 584 estratos
(combinaciones de comuna/condición de
ruralidad) 312 urbanos y 273 rurales. Existen dos
marcos muestrales, cada uno con distintas
unidades seleccionables (conglomerados).
Casen 2011 Macro Estratos
• Rural: Marco tiene 7505 secciones se que se
seleccionan en forma con probabilidad proporcional a
su tamaño (número de viviendas), sin repetición
siguiendo el procedimiento estándar:
Si n es el número de secciones requeridas
Se escoge un número aleatorio entre 1 y
K= SUMA(Mi, i=1, Num estrato)/n. Sea este número A,
se seleccionan las secciones sistemáticamente. La
probabilidad para cada sección (unidad primaria) es
nMi/SUMA(Mi,i=1,Num estrato).
CASEN Método para secciones (rural)
CASEN Método para Manzanas
(urbano)
• El marco urbano contiene manzanas (unidaen des
secundarias) de variado número de viviendas.
Estas se agruparon en grupos de tamaño
(unidades primarias). La selección de manzanas
se realiza en dos etapas:
1° se escoge un grupo de tamaño con probabilidad
proporcional al número de manzanas y viviendas
del grupo.
2° se escoge una manzana aleatoriamente dentro
del grupo seleccionado.
CASEN Método de selección del grupo
de tamaño
CASEN Selección de manzanas (cont.)
Una vez identificada la manzana seleccionada,
se actualizan los totales de manzanas y
viviendas para proceder a una nueva
selección.
El procedimiento se repite hasta completar en
número de manzanas requerido.
CASEN Selección de viviendas
• Tanto para las secciones como manzanas el
procedimiento de selección de viviendas es el
mismo:
Las unidades se enumeran o empadronan (se
registran las viviendas elegibles siguiendo
protocolos establecidos) y una muestra
sistemática de las elegibles se escoge de manera
a seleccionar el 25 % en las manzanas (mínimo 2
y máximo 30) y de entre 20 y 25 en las secciones.
CASEN Probabilidades de selección
secciones
CASEN: Probabilidades de selección de
Manzanas
PISA
• Variable de interés: Competencias
demostrables en Lectura, Matemática,
Ciencias, Lectura Digital, Resolución de
Problemas para comparaciones
internacionales
• Población objetivo: Estudiantes de 15 años
desde 7° grado en adelante en educación
regular.
• Existen conglomerados naturales:
establecimientos educacionales.
PISA Diseño Muestral
• Bietápico estratificado.
Los establecimientos (unidades primarias) se
agrupan en estratos (18 en el caso chileno)
relacionados con v.i. (solo básica rural, media HC
urbana, etc). Se seleccionan sin repetición con
probabilidad proporcional al número de
estudiantes de 15 años matriculados. Dentro de
cada unidad primaria seleccionada se escogen
aleatoriamente dentro de la lista de estudiantes
elegibles 35 aproximadamente (todos si hay
menos)
PISA:Estratificación
TIMSS
• Variable de Interés logro educacional en
contenidos curriculares en Matemáticas y
Ciencias para ser comparaciones entre países.
• Poblaciones objetivos: Alumnos matriculados
en establecimientos educacionales de cuarto
y/u octavo grado (según preferencia del país)
en educación regular (niños/jovenes)
Diseño Muestral TIMSS
• Se seleccionan establecimientos según
probabilidad proporcional a su matricula en
grado objetivo. Existen estratos explícitos e
implícitos para mejorara precisión.
• Dentro de los establecimientos se selecciona
con misma probabilidad un grupo-clase.
PIACC
• Variable de interés: Competencia en Lectura,
Matemáticas y Resolución de Problemas en
contexto internacional.
• Población Objetivo: Personas sin
discapacidades que les impidan responder
entre 15 y 65 años (en edad de trabajar)
• Se identifica dos Estratos: población urbana y
población rural.
PIACC Diseño Muestral
• Etapa1: Comunas (PSU) se escogen con probabilidad
proporcional a su población urbana/rural.
• Etapa 2: Dentro de las comunas seleccionadas Se escogen
(SSU):
Urbano: manzanas usando afijación proporcional dentro de
los estratos de “tamaño de manzana”.
Rural: Secciones con probabilidad proporcional a su número
de viviendas.
• Etapa 3: Dentro de las SSU se escogen usando muestreo
sistemático viviendas (DU)
• Etapa 4: De cada DU se escoge usando una tabla Kish una
persona elegible y se aplica el test.
PIACC Probabilidades de Selección PSU
Grupos de tamaño
• Las manzanas se encuentran repartidas en los
siguientes grupos
PIACC Probabilidades de selección SSU
• Urbano (comuna es el estrato)
PIACC Probabilidades de Selección SSU
• Rural (la comuna es el estrato)
Consideraciones con Pesos/Factores
de Expansión
• En general los Marcos Muestrales no están
actualizados totalmente. Contienen unidades
no-elegibles, ni contienen a todas las
elegibles.
• Los ponderadores de diseño (teóricos) se
ajustan por: Elegibilidad/No respuesta
Cálculo de estimadores y Varianzas
• Para los estimadores basta determinar
adecuadamente los pesos sin embargo las
estimaciones de su varianza suelen ser
complejas (cada etapa de selección aporta con
una cuota de incertidumbre). Existen distinto
métodos que permiten estimar dichas
varianzas.
Métodos
Clásico
1. Linearización
Métodos de re-muestreo
1. Métodos de grupos aleatorios
2. Jack-Knife
3. Bootstrap
Linearización
• Consiste sencillamente en desarrollar serie de
Taylor de funciones de los estimadores.
Métodos de re-muestreo
• Este método se basa en la extracción de R
muestras de la población bajo el mismo
diseño muestral.
• Jack-knife
• Bootstrap.
PISA

• Estratos de interés
• Dos etapas (escuelas /alumnos)
G
Variante 1 Var (ˆ) JK 1   (ˆ(i )  ˆ) 2
I 1

BRR 1 G ˆ
Var (ˆ) BRR   ( (i )  ˆ) 2
G i 1
BRR con Fay
G G
1 1
Var (ˆ) BRR _ F 
G (1  k ) 2
 (ˆ(i )  ˆ) 2 
i 1

80(1  0,5) 2 i 1
(ˆ  ˆ) 2
(i )
Ejemplo PISA
• School base weight
• School weight trimming factor (to avoid
extremely large or small school weights)
• Student base weight
• School non-response adjustment
• Student non-response adjustment
• Final student weight trimming factor (to avoid
final student weights more than four times
the median)
Tipología de métodos
• Jackknife
– JK1 (sin información de diseño)
– JK2 (TIMSS 1995, 1999,2003,2007, PIRLS, CivEd
1999)
• Balanced Repeated Replication (BRR)
– BRR
– Fay’s Method (PISA)
Jackknife (JK1)
Replicate R1 R2 R3 R4 R5 R6 R7 R8 R9 R10

School 1 0.00 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11
School 2 1.11 0.00 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11
School 3 1.11 1.11 0.00 1.11 1.11 1.11 1.11 1.11 1.11 1.11
School 4 1.11 1.11 1.11 0.00 1.11 1.11 1.11 1.11 1.11 1.11
School 5 1.11 1.11 1.11 1.11 0.00 1.11 1.11 1.11 1.11 1.11
School 6 1.11 1.11 1.11 1.11 1.11 0.00 1.11 1.11 1.11 1.11
School 7 1.11 1.11 1.11 1.11 1.11 1.11 0.00 1.11 1.11 1.11
School 8 1.11 1.11 1.11 1.11 1.11 1.11 1.11 0.00 1.11 1.11
School 9 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11 0.00 1.11
School 10 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11 1.11 0.00
Jackknife con estratificación (JK2)
Pseudo- School R1 R2 R3 R4 R5 R6 R7 R8 R9 R10
stratum

1 1 2 1 1 1 1 1 1 1 1 1
1 2 0 1 1 1 1 1 1 1 1 1
2 3 1 0 1 1 1 1 1 1 1 1
2 4 1 2 1 1 1 1 1 1 1 1
3 5 1 1 2 1 1 1 1 1 1 1
3 6 1 1 0 1 1 1 1 1 1 1
4 7 1 1 1 0 1 1 1 1 1 1
4 8 1 1 1 2 1 1 1 1 1 1
5 9 1 1 1 1 2 1 1 1 1 1
5 10 1 1 1 1 0 1 1 1 1 1
6 11 1 1 1 1 1 2 1 1 1 1
6 12 1 1 1 1 1 0 1 1 1 1
7 13 1 1 1 1 1 1 0 1 1 1
7 14 1 1 1 1 1 1 2 1 1 1
8 15 1 1 1 1 1 1 1 0 1 1
8 16 1 1 1 1 1 1 1 2 1 1
9 17 1 1 1 1 1 1 1 1 0 1
9 18 1 1 1 1 1 1 1 1 2 1
10 19 1 1 1 1 1 1 1 1 1 2
10 20 1 1 1 1 1 1 1 1 1 0
Balanced Replicated Replication (BRR) en inglés
Estrato colegio R1 R2 R3 R4 R5 R6 R7 R8 R9 R R R
10 11 12

1 1 2 0 0 2 0 0 0 2 2 2 0 2
1 2 0 2 2 0 2 2 2 0 0 0 2 0
2 3 2 2 0 0 2 0 0 0 2 2 2 0
2 4 0 0 2 2 0 2 2 2 0 0 0 2
3 5 2 0 2 0 0 2 0 0 0 2 2 2
3 6 0 2 0 2 2 0 2 2 2 0 0 0
4 7 2 2 0 2 0 0 2 0 0 0 2 2
4 8 0 0 2 0 2 2 0 2 2 2 0 0
5 9 2 2 2 0 2 0 0 2 0 0 0 2
5 10 0 0 0 2 0 2 2 0 2 2 2 0
6 11 2 2 2 2 0 2 0 0 2 0 0 0
6 12 0 0 0 0 2 0 2 2 0 2 2 2
7 13 2 0 2 2 2 0 2 0 0 2 0 0
7 14 0 2 0 0 0 2 0 2 2 0 2 2
8 15 2 0 0 2 2 2 0 2 0 0 2 0
8 16 0 2 2 0 0 0 2 0 2 2 0 2
9 17 2 0 0 0 2 2 2 0 2 0 0 2
9 18 0 2 2 2 0 0 0 2 0 2 2 0
10 19 2 2 0 0 0 2 2 2 0 2 0 0
10 20 0 0 2 2 2 0 0 0 2 0 2 2
Fay’s variant of BRR
Pseudo- School R1 R2 R3 R4 R5 R6 R7 R8 R9 R R R
strat 10 11 12
um

1 1 1.5 0.5 0.5 1.5 0.5 0.5 0.5 1.5 1.5 1.5 0.5 1.5
1 2 0.5 1.5 1.5 0.5 1.5 1.5 1.5 0.5 0.5 0.5 1.5 0.5
2 3 1.5 1.5 0.5 0.5 1.5 0.5 0.5 0.5 1.5 1.5 1.5 0.5
2 4 0.5 0.5 1.5 1.5 0.5 1.5 1.5 1.5 0.5 0.5 0.5 1.5
3 5 1.5 0.5 1.5 0.5 0.5 1.5 0.5 0.5 0.5 1.5 1.5 1.5
3 6 0.5 1.5 0.5 1.5 1.5 0.5 1.5 1.5 1.5 0.5 0.5 0.5
4 7 1.5 1.5 0.5 1.5 0.5 0.5 1.5 0.5 0.5 0.5 1.5 1.5
4 8 0.5 0.5 1.5 0.5 1.5 1.5 0.5 1.5 1.5 1.5 0.5 0.5
5 9 1.5 1.5 1.5 0.5 1.5 0.5 0.5 1.5 0.5 0.5 0.5 1.5
5 10 0.5 0.5 0.5 1.5 0.5 1.5 1.5 0.5 1.5 1.5 1.5 0.5
6 11 1.5 1.5 1.5 1.5 0.5 1.5 0.5 0.5 1.5 0.5 0.5 0.5
6 12 0.5 0.5 0.5 0.5 1.5 0.5 1.5 1.5 0.5 1.5 1.5 1.5
7 13 1.5 0.5 1.5 1.5 1.5 0.5 1.5 0.5 0.5 1.5 0.5 0.5
7 14 0.5 1.5 0.5 0.5 0.5 1.5 0.5 1.5 1.5 0.5 1.5 1.5
8 15 1.5 0.5 0.5 1.5 1.5 1.5 0.5 1.5 0.5 0.5 1.5 0.5
8 16 0.5 1.5 1.5 0.5 0.5 0.5 1.5 0.5 1.5 1.5 0.5 1.5
9 17 1.5 0.5 0.5 0.5 1.5 1.5 1.5 0.5 1.5 0.5 0.5 1.5
9 18 0.5 1.5 1.5 1.5 0.5 0.5 0.5 1.5 0.5 1.5 1.5 0.5
10 19 1.5 1.5 0.5 0.5 0.5 1.5 1.5 1.5 0.5 1.5 0.5 0.5
10 20 0.5 0.5 1.5 1.5 1.5 0.5 0.5 0.5 1.5 0.5 1.5 1.5
General
• Varianza de estimadores toma forma :
 
G 2

Varrep    c   k  ˆ
k 1

•  parámetro que interesa


• G es el número total de replicas
• c es una constante que depende del método
– JK1, c = (G-1)/G
– JK2, c = 1
– BRR, c = 1/G
– Fay’s BRR, c = 1/(G(1-k²))
Para PISA

• En Pisa
– Método de Fay
– 80 pesos replicados ebn archivo data file
– Con factor de perturbación k = 0.5
– c = 1/(80(1-0.5)2) = 0.05

G 80
1 1 1 80 ˆ
 2ˆ
( )

G (1  k ) 2  (ˆ
(i )  ˆ) 2 
80(1  0.5) 2  (ˆ
(i )
ˆ
 ) 
2

20 i 1
( (i )  ˆ) 2
i 1 i 1
Bootstrap
• La idea principal es tomar una muestra madre
y re-muestrearla con reposición para obtener
réplicas del estimador y con ellas calcular una
aproximación a su distribución empírica.
Bootstrap y encuestas complejas
Muestra Estratificada
1. Para cada estrato se extrae una muestra de
tamaño nh-1 con reemplazo .
2. Para cada re-muestra se crea una nueva
variable de re-ponderación
3. Se calcula el estimador con los nuevos pesos
4. Se repite R (miles) veces
Bootstrap
• Se puede generar pseudo-valores

• Se puede generar re-ponderadores

También podría gustarte