Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MUESTREO
NOCIONES BÁSICAS
BIBLIOGRAFÍA
Material preparado por el docente
Técnicas de Muestreo
William Cochran (CECSA)
Muestreo: Diseño y Análisis
Sharon Lohr (Thomson)
Model Assisted Survey Sampling
Särndal, Swensson, Wretman (Springer-Verlag)
Técnicas de Muestreo Estadístico
César Pérez (Alfaomega)
Teoría y Práctica del Muestreo
Curso organizado por el Programa MECOVI en
1999, del cual se tomaron prestadas algunas de
las transparencias que aquí se presentan.
Primeras definiciones
Población Muestra
¿Qué es una muestra?
POBLACIÓN O
UNIVERSO
Distribución de variables
Parámetros
Técnicas de
Inferencia
inductiva
muestreo
Resumen de datos
Muestra
Muestra
¿Porqué una muestra y no un censo?
Menor costo
Menos recursos humanos calificados
Información más oportuna
Mayor calidad ¿por qué?
¿Qué es una Encuesta por Muestreo?
Probabilístico
No Probabilístico
Motivos del Muestreo Probabilístico
El muestreo probabilístico es el fundamento
de la teoría estadística.
Permite expandir los resultados de la
muestra a la población.
La teoría le dice al muestrista cuántas
unidades son necesarias para representar a
la población.
También, cuánta confianza se puede poner
en la representatividad de la muestra.
Métodos de Muestreo Probabilístico
identificación
ubicación
información auxiliar.
¿Qué es un Marco Muestral?
De él depende:
Que todas las unidades de la población
tengan chance de ser incluidas en la muestra.
Las alternativas para la selección de la
muestra (el diseño muestral a emplear).
El tipo de unidad que se va a muestrear.
Cómo se llega a contactar a las unidades de
la muestra.
El método de estimación para aproximar los
parámetros de la población.
Posibles problemas de los Marcos
Cobertura deficiente
Sobre cobertura (unidades extrañas)
Duplicación de unidades
Desactualización
Información auxiliar incorrecta
Información de acceso incorrecta
Propiedades deseables de un Marco
• Variable • Teoría de
• Parámetro probabilidades
• Estimador • Probabilidades de
• Estimación inclusión
• Mecanismos
• Error muestral
aleatorios
• Errores ajenos
al muestreo
¿Qué es una variable?
tY yi = Total de la variable Y
i 1
1 N
. y i = Media de la variable Y
N i 1
1 N
. ( y i ) 2 = Varianza poblacional
2
N i 1
1 N
2
' . ( y i ) 2 = Cuasi-varianza poblacional
N 1 i 1
1 N 0
P . y i con y i = Proporción de los yi=1 en la población
N i 1 1
t
R Y Y = Razón entre la variable Y, y la variable auxiliar X
X tX
Yp : P (Y Yp ) p0 = Percentil p0 de la variable Y
0 0
¿Qué es un estadístico o estimador?
Parámetro:
Estimador: ˆ = g(X1, X2,…..,Xn)
¿Qué es una estimación?
Parámetro:
Estimador: ˆ = g(X1, X2,…..,Xn)
Estimación: ˆ0 = g(x1, x2,…..,xn)
¿Qué es el error muestral?
P [ ˆ - < ] = 0,95
Qué es el error muestral?
•Muestra 1
•Muestra 3 •Muestra ..
•Muestra 2
•. . .
.
Estimación
de
Parámetro
¿Qué son los errores no muestrales?
Error
de
Cobertura
Error
Muestral Error
no
Muestral
N = Tamaño de la población
𝜎 2 = Varianza
Fórmula práctica
• Cuando no se conoce el tamaño de la población:
Cuando se conoce el tamaño de la población
Valor de Z para un nivel de confianza dado:
Es fácil de seleccionar.
Es adecuada cuando la población es bien
homogénea.
A más grande su tamaño, la muestra
proporciona una imagen más parecida a
la población.
Desventajas de una MAS
Estimaciones muy pobres cuando la población es muy
asimétrica respecto del valor de la variable principal.
N
Estimador del total poblacional: t y N y
n s
yi
n(C ) 1 0
Estimador de una proporción: pˆ yi si yi
n n u S i
1
Donde n(C) es el número de elementos en la
muestra que tienen el atributo C.
Como en general la
S 2
cuasi-varianza
poblacional se D ˆ
E 1 f
desconoce, se la estima n
con S 2 :
¿Cuándo tendremos buena precisión
al estimar una media poblacional?
dispersión
débil
2
s
1 f n
tamaño de
fracción de muestra
muestreo alta grande
¿Qué es el Coeficiente de Variación?
Márgenes de Error
s
ˆ 1.96
n
¿Cómo se estima la precisión relativa
para una muestra con tamaño dado?
S
estimación 1.96
n
Interpretación de un Intervalo de Confianza
k = 60/12 = 5
N1 n1 1 nh Nh
H
N2 n h =n
n2 h 1
N3
n3
NH nH
¿Cómo es una muestra por MAE?
Estrato 1
Estrato 2
Estrato 3
Estrato H
¿Por qué se estratifica?
Para lograr homogeneidad en los estratos y
con ello disminuir la dispersión general de la
variable en estudio.
Para lograr mayor precisión en los
estimadores.
Para disminuir el tamaño de la muestra.
Para brindar estimaciones en las sub
poblaciones o estratos más importantes.
Cuando se requiere incrementar la eficiencia
de la muestra por unidad de costo operativo.
¿Cómo se selecciona una muestra MAE?
H = Número de estratos
H
N = N h = Tamaño total de la población
h 1
H
n= n = Tamaño total de la muestra
h 1
h
Notación en el MAE
1 Nh
h . y hi = Media de la variable Y en el estrato h
N h i 1
1 H Nh
Y . y hi = Media de la variable Y en la población
N h 1 i 1
Nh
1
2
'
h . ( y hi h ) 2 = Cuasi-varianza poblacional en el estrato h
N h 1 i 1
1 H Nh
2
' . ( y hi ) 2 = Cuasi-varianza poblacional
N 1 h 1 i 1
Estimadores en el MAE
H Nh H
ˆ Y .ˆ h Wh .ˆ h
h 1 N h 1
Pˆ ˆ Y
tˆY N .ˆ Y
y ty
R
x tx
2
1 n 2
h
h Y Y S '2
h
nh 1 i 1
hi h
1 E ˆ Y Y
2
N h 'h nh
2
H
2 V ˆ Y . .1
h 1
N nh N h
2
H N S ' 2
nh
2' V ˆ Y . .1
ˆ h h
h 1
N nh N h
1 f H
3 V ˆ PROP . N h . ' 2h
n.N h 1
Propiedades de los Estimadores en
MAE
H
Nh 1 2 H Nh
4 '
2
. ' h . h
2
h 1 N 1 h 1 N 1
1 f H H
Nh 2
5 V ˆ MAS V ˆ PROP
. N h . h 1
2
. ' h
n.N 1 h 1 h 1 N
1 nh N h
H n n
h 1
h
n
UNIFORME nh 8
H
Nh
PROPORCIONAL nh n. 9
N
N h . 'h
ÓPTIMA (NEYMAN) nh n. 10
N h . 'h
h
N h . 'h / ch
ÓPTIMA CON COSTOS nh n. 11
N h . 'h / ch
h
Ventajas y desventajas de los
criterios de afijación
H
ˆ POST Wh .ˆ h
h 1
1 f H 1 H
Vˆ ˆ POST . Wh .S h 2 . 1 Wh .S h2
2
n h 1 n h 1
n
Total de unidades elementales en la muestra = M
j 1
j
Mj
Mj
y ij
Promedio de la variable Y en el conglomerado j = yj i 1
Mj
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R
1 n 1 n M
̂ cong . y j . yij
n j1 n.M j1 i1
n 1
Vˆ ˆ cong 1 . . y j ˆ cong
n 2
N n.( n 1) j 1
y
Y yij y j y j Y
N M 2 N M N M
2 2
j 1 i 1
ij
j 1 i 1 j 1 i 1
y y 2
N M
M j 1 i1 ij j
1 . N M
M 1 yij Y 2
j 1 i1
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R
y y 2
n M
M j 1 i1 ij j
ˆ 1 . n M
M 1 yij ˆY 2
j 1 i1
Conglomerados de igual tamaño (Mj=M) seleccionados
por MAS S/R
Se verifica que:
N
V ˆ cong V ˆ MAS . 1 .M 1 V ˆ MAS .1 .M 1
N 1
Se deduce que para estimar Y:
- Si > 0 El MAS S/R es más eficiente que el MCong.
- Si = 0 Ambos estimadores son = de eficientes.
- Si < 0 El estimador por MCong es preferible.
¿Cómo se mide la ganancia o pérdida de eficiencia del
MCong respecto al MAS?
V ˆ cong
Deff 1 .M 1
V ˆ MAS
¿Qué ocurre si los conglomerados
son de distinto tamaño?
ˆ j 1 i k j 1
M M 1. y ˆ
n n Mj
2
j j ij cong
j 1 j 1 i 1
V ˆ cong
Deff 1 .M 1
V ˆ MAS
Donde M es el tamaño medio de los conglomerados.
¿Cómo solucionar la posible “ineficiencia” de la
correlación intra-clase positiva?
PARÁMETRO y y
n Mj
1 n
y ij
. y j
j 1 i 1
̂ cong ̂ cong n
ESTIMADOR n j 1
M
j 1
j
ESTIMADOR n 1 n 2
ESTIMADOR
DEL ECM ( ̂ cong ) ~ n 1 n 2
OBSERVACIONES MJ N
y ij M
j 1
j
i 1
yj M
MJ N
Variantes en la selección de los
conglomerados
PARÁMETRO y y
ESTIMADOR 1 n 1 n
̂ cong . y j ̂ cong . y j
n j 1 n j 1
ESTIMADOR 1 n 2
V ˆ cong
ˆ . y j ˆ cong
DE LA V( ̂ cong ) n.(n 1) j 1
¿En qué casos es preferible uno u otro diseño?
ˆ j 1 ik j 1
m m 1. y ˆ
n n m
2
j j ij cong
j 1 j 1 i 1
Diseño MAS S/R - MAS S/R
Estimador insesgado de la media
PARÁMETRO:
N n
ESTIMADOR INSESGADO: X
nM 0
M
1
j Xj
~
ECM DEL ESTIMADOR :
~ 1 N 2
1 f 1 N n 2 1 f2 j ' 2
2
V X 2
n n
1
j M j x j j M j x j j M j S2 j
M0 n n 1 n n mj
2
1 n i xij x j
mj
N
' 2
OBSERVACIONES: Mo M j y S2 j
j n j mj 1
Diseño MAS S/R - MAS S/R
Estimador de razón para la media
PARÁMETRO:
n
M
j
j Xj
ESTIMADOR DE RAZÓN: X n
M j
j
~
EC M DEL ESTIMADOR :
~ 1 N 2 1 f1 n 2 N n 2 1 f2 j ' 2
j M j x j j M j
2
EC M ( X ) 2 ~ S2 j
M 0 n n 1 n mj
OBSERVACIONES:
N n
Si f 2 j f 2 constante ~ autoponderante. Si M o se desconoce Mˆ 0 M j
n j
Variabilidad Variabilidad
entre las UPM dentro de UPM
Diseño PPT y C/R - MAS S/R
Estimador insesgado para la media
PARÁMETRO:
1 n
ESTIMADOR: X Xj
n j
2
~ ~ 1 n
ECM DEL ESTIMADOR: V X x j ~
nn 1 j
OBSERVACIONES:
xj 1 xij
mj Gran simplificación
en la estimación
de la varianza
¿Qué es el Muestreo PPT?
Consiste en seleccionar unidades con
probabilidad proporcional a alguna medida de
tamaño de las unidades.
Por ejemplo: escuelas según la cantidad de
grupos escolares o según la cantidad de alumnos.
Se obtienen estimadores más eficientes si el
tamaño de las unidades y la variable en estudio
están correlacionadas.
¿El rendimiento escolar es más alto en las
escuelas más grandes?
Para que el PPT sea eficiente, los datos sobre los
tamaños deben ser “buenos” (actualizados).
Selección con reemplazo (C/R)
En la selección con reemplazo se simplifican
las fórmulas de la variabilidad de los
estimadores.
La selección (el sorteo) se realiza de manera
más fácil.
Si el muestreo es PPT con reposición, se
puede simplificar el sorteo de las unidades
elementales utilizando el muestreo
sistemático.
Método simplificado para obtener una muestra PPT C/R
utilizando MSis