Documentos de Académico
Documentos de Profesional
Documentos de Cultura
provienen de
encuestas complejas
Poblacin objetivo
Muestra
La muestra es un subconjunto de n
unidades de la poblacin de tamao N.
Poblacin
Muestra
Muestra
adecuada
Muestreo
El muestreo no es una simple sustitucin
de una cobertura total por una parcial. El
muestreo es la ciencia y arte de controlar y
medir la confiabilidad de la informacin
estadstica til a travs de la teora de la
probabilidad. (Lohr,1999)
Muestreo
Conjunto de tcnicas que se utilizan cuando se
quiere conocer cules son las caractersticas
de inters de una poblacin, estudiando solo
una parte de sta (llamada muestra), es decir,
sin la necesidad de estudiar su totalidad.
(Mndez, 2003)
A Juicio
Conveniencia o accidentales
Casos tpicos
Casos crticos
Bola de nieve
Por Cuotas
Rutas aleatorias
Poblacin
N
Muestra
n
(Mndez,2003)
Muestreo Estratificado
Todos los estratos estn representados
Los objetos de estudio al interior de cada
(Mndez,2003)
Muestreo Estratificado
N1
N3
Poblacin
N = N1 + N2 + N3
N2
N1:{n11, n12,, n1k}
N2 :{n21, n22,, n2l}
N3 :{n31, n32,, n3j}
Muestra
n = n 1 + n 2 + n3
n1
n2
n3
(Mndez,2003)
Muestreo Estratificado
Para qu estratificar?
Por conglomerado
Agrupaciones, generalmente naturales
(Localidades, municipios, AGEBs, colonias, entre otras)
procurar:
Por conglomerado
Primera etapa:{M1, M2, M3, M4, M5, M6, M7}
M1
M3
M2
M4
M6
M5
M7
M5
M2
M3
(Mndez,2003)
Muestreo Bietpico
M1
M3
Muestra:
n UPM y mi unidades ltimas
en cada una
M2
M4
M6
M5
m5
m2
M7
m3
(Mndez,2003)
Muestreo Trietpico
M2
M2
M5
M1
M3
M3
M4
M6
M5
M7
m51
m22
m23
m52
m21
m31
N Unidades
Primarias de
Muestreo, (UPM)
con Mi Unidades
Secundarias de
Muestreo (USM) en
cada UPMi, y con Bij
unidades ltimas
(UUM) en cada
USMij.
(Mndez,2003)
Muestreos Complejos
Polietpicos estratificados
M2
M1
M3
M4
M6
M5
M7
(Mndez,2003)
N Unidades Primarias de
Muestreo (UPM), con Mi
Unidades Secundarias de
Muestreo (USM) en cada UPM,
y con Bij unidades ltimas (UUM)
en cada USMi. Las UPM en
estratos y/o las USM
estratificadas dentro de cada
UPMi
Factores de Expansin
Factor expansin, factores de ponderacin o peso de
whi = Nh / nh
La suma de los factores de expansin de una muestra,
10
Impacto en la eficiencia
Para estimar adecuadamente el error, se usan
VD ( )
DEF
Vmas ( )
Marco muestral
Es el conjunto (una lista) que contiene a todas y cada
una de las unidades de muestreo a ser seleccionadas
{x1, x2, x3, .... xN; donde N = total de elementos}
Ejemplo: lista de todos los hogares de una localidad, lista de todas las
localidades del pais, lista de todas las escuelas del pas, lista de todos los
pacientes de un hospital
11
poblacin
marco
(Mndez,2003)
poblacin
(Mndez,2003)
12
Poblacin
marco
(Mndez,2003)
Marcos complementarios
poblacin
marcos
(Mndez,2003)
13
Marcos traslapados
poblacin
marcos
(Mndez,2003)
Poblacin de estudio
Poblacin General
Poblacin objetivo
No
incluidas
en el
marco de
muestreo
No
localizable
Rehusa
responder
No puede
responder
Poblacin no
elegible
Para la
encuesta
(Lohr,1999)
14
Sesgos de seleccin
Cuando la forma de seleccin esta asociada
al fenmeno de inters
Muestra de juicio
Error en la definicin de poblacin objetivo
Subcobertura
Remplazo de las unidades de muestreo
seleccionadas
Ausencia de respuesta (No respuesta)
Muestra de voluntarios
(Lohr,1999)
15
Encuestas en Mxico
ENNViH I
ENNViH II
ENSANUT
2005 2006
ENNViH I
ENNViH II
ENSANUT
16
Generales
Realizada en la Repblica Mexicana por el
17
Sur
Centro
Norte
Ciudad de
Mxico
Campeche
Aguascalientes
Baja California
Chiapas
DF
Colima
Baja California
Sur
Guerrero
Municipios
conurbados
del Estado de
Guanajuato
Chihuahua
Hidalgo
MxicoJalisco
Coahuila
Oaxaca
Mxico
DurangoPuebla
Michoacn
Nuevo Len
Quintana Roo
Morelos
Sonora Tabasco
Nayarit
Tamaulipas
Tlaxcala
Quertaro
Veracruz
San Luis Potos
Yucatn
Sinaloa
Zacatecas
18
Cobertura temtica
a) Para la muestra total: Caractersticas del hogar,
Morbilidad, Antropometra, Hb, Lactancia y
alimentacin complementaria del menor de dos aos
b) Para 1 de cada 5 hogares seleccionados: Muestra
de Dieta y en el caso de la mujer, adems Historia
obsttrica, actividad fsica, consumo de tabaco y
alcohol
c) Para 1 de cada 3 hogares seleccionados para
dieta: Determinacin del estado de micronutrientes
Diseo de la Muestra
Marco Nacional de Hogares del INEGI1
Muestreo polietpico
Estratificado por tamao de localidad y nivel
19
Diseo de la Muestra
Zonas (primera estratificacin)
I.
II.
III.
IV.
V.
VI.
Diseo de la Muestra
Unidades de Muestreo
20
Diseo de la Muestra
Segunda etapa de la estratificacin.
Para cada Entidad y Zona se realiz una estratificacin
socioeconmica, respetando las UPM, segn los siguientes
criterios:
% de poblacin de 6 a 14 aos que sabe leer y
escribir
% de poblacin alfabeta de 15 aos y mas
% viviendas con drenaje a red pblica
% viviendas con agua entubada dentro de la
vivienda
% viviendas con electricidad (solos para zona VI)
Fuente: Rivera et al, 2001.
Diseo de la Muestra
Unidad Secundaria de Muestreo (USM)
(UTM)
21
Generales
Realizada en la Repblica Mexicana por el
estatal
22
Sur
Centro
Norte
Ciudad de
Mxico
Campeche
Aguascalientes
Baja California
Chiapas
DF
Colima
Baja California
Sur
Guerrero
Municipios
conurbados
del Estado de
Guanajuato
Chihuahua
Hidalgo
MxicoJalisco
Coahuila
Oaxaca
Mxico
DurangoPuebla
Michoacn
Nuevo Len
Quintana Roo
Morelos
Sonora Tabasco
Nayarit
Tamaulipas
Tlaxcala
Quertaro
Veracruz
San Luis Potos
Yucatn
Sinaloa
Zacatecas
(12 a 19 aos)
23
Cobertura temtica
24
Diseo de la Muestra
Estratificacin
Diseo de la Muestra
Estratos I y II
UPM: AGEBs con probabilidad proporcional al
tamao (PPT) definido por el nmero de viviendas
particulares habitadas.
USM: Seis manzanas por AGEB seleccionado se
eligieron seis manzanas con PPT a su nmero de
viviendas
UTM: Seis viviendas por manzana usando muestreo
sistemtico con arranque aleatorio.
En cada una de las viviendas seleccionadas, se
seleccionaron: un adulto, un adolescente, un nio y
un utilizador de servicios de salud, mediante MAS.
Fuente: Olaiz-Fernndez et al, 2006.
25
Diseo de la Muestra
Estratos III
UPM: AGEBs con PPT definido por el nmero de
viviendas particulares habitadas.
USM: localidades o conjuntos de localidades que
agrupaban un mnimo de 120 viviendas, con PPT al
nmero de viviendas particulares habitadas.
UTM: Para cada localidad o grupo de localidades se
extrajo una muestra aleatoria sistemtica de tres
segmentos de 12 viviendas cada uno.
En cada una de las viviendas seleccionadas, se
seleccionaron: un adulto, un adolescente, un nio y
un utilizador de servicios de salud, mediante MAS.
26
Generales
Realizada en la Repblica Mexicana por el
INSP.
Periodo: Septiembre 1999 a marzo 2000
mbito Nacional y Dominio a nivel estatal
Baja California
Baja California
Sur
Chihuahua
Coahuila
Durango
Nuevo Len
Sonora
Tamaulipas
Aguascalientes
Colima
Guanajuato
Jalisco
Mxico
Michoacn
Morelos
Nayarit
Quertaro
San Luis Potos
Sinaloa
Zacatecas
DF
Municipios
conurbados del
Estado de
Mxico
Campeche
Chiapas
Guerrero
Hidalgo
Oaxaca
Puebla
Quintana Roo
Tabasco
Tlaxcala
Veracruz
Yucatn
27
Temticas
a) Caractersticas de los hogares y de la poblacin.
b) Necesidades de salud
c) Utilizacin de los servicios de salud
d) Factores habilitadores y predisponentes para la
utilizacin de servicios de salud
e) Tiempos de espera y traslado, gasto de bolsillo y
percepcin de la calidad.
28
Diseo de la Muestra
Marco muestral: Bases de Datos del INEGI, IIG y
UNAM.
Muestreo polietpico ()
Estratificado por tamao de localidad para cada
entidad federativa
Diseo de la Muestra
Dominio
Asig. proporcional al nmero de viviendas
(pnv). por estrato U/R
1.
Selecc. 14 municipio, pnv
2.
Seleccin 5 AGEBS por
municipio con pnv
3.
Seleccin 3 manzanas por
AGEB
4.
Seleccin 7 viviendas por
manzana
5.
Seleccin un individuo por
vivienda
29
Anlisis de encuestas
complejas caso prctico usando
STATA
30
Comandos en STATA
Versin 8
svyivreg
svylogit
svymean
svymlogit
svynbreg
svyologit
svyoprobit
svypoisson
svyprobit
svyprop
svyratio
svyregress
svytab
svytotal
Versin 9 +
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
svy:
ivreg
logit
mean
mlogit
nbreg
ologit
oprobit
poisson
probit
proportion
ratio
regress
tabulate
total
Variables a analizar:
31
pweight is fac_antr
strata is nvo_estrat
psu is conglome
svydes
pweight:
fac_antr
Strata:
nvo_estrat
PSU:
conglome
---------------------------#PSUs
#Obs
min
mean
max
--------
--------
--------
--------
--------
--------
25
12
12.5
13
10
2.0
25
12.5
22
40
12
13.3
14
26
13.0
20
12
29
11
14.5
18
15
3.0
16
18
3.6
18
33
11.0
28
19
52
21
26.0
31
32
svyprop region
-----------------------------------------------------------------------------pweight: fac_antr
Number of obs
=
8008
Strata:
nvo_estrat
Number of strata
=
278
PSU:
conglome
Number of PSUs
=
1452
Population size
= 10611449
-----------------------------------------------------------------------------Survey proportions estimation
+------------------------------------------+
|
region
Obs
Est. Prop.
Std. Err. |
|------------------------------------------|
|
norte
2314
0.186938
0.006953 |
|
centro
2533
0.343833
0.011048 |
| metropol
571
0.140681
0.007469 |
|
sur
2590
0.328549
0.011303 |
+------------------------------------------+
tab area
0 = urbano, |
1 = rural |
Freq.
Percent
Cum.
------------+----------------------------------0 |
4,697
58.65
58.65
1 |
3,311
41.35
100.00
------------+----------------------------------Total |
8,008
100.00
svyprop area2
svy : tab area2
----------------------------------------------------------------------------pweight: fac_antr
Number of obs
=
8008
Strata:
nvo_estrat
Number of strata
=
278
PSU:
conglome
Number of PSUs
=
1452
Population size
= 10611449
-----------------------------------------------------------------------------Survey proportions estimation
+---------------------------------------+
| area2
Obs
Est. Prop.
Std. Err. |
|---------------------------------------|
|
0
4697
0.702087
0.011052 |
|
1
3311
0.297913
0.011052 |
+---------------------------------------+
33
area2=0
-> area2=1
+------------------------------------------+ +------------------------------------------+
| desmedro
Obs
Est. Prop.
Std. Err. | | desmedro
Obs
Est. Prop.
Std. Err. |
|------------------------------------------| |------------------------------------------|
|
no
3882
0.882732
0.007043 | |
no
2319
0.678045
0.017600 |
|
si
550
0.117268
0.007043 | |
si
835
0.321955
0.017600 |
+------------------------------------------+ +------------------------------------------+
xi: logistic
i.area2
i.area2*hogind
_Iarea2_0-1
_IareXhogin_#
fac1_3
Logistic regression
Number of obs
=
7381
LR chi2(6)
=
971.75
Prob > chi2
=
0.0000
Log likelihood = -3004.7057
Pseudo R2
=
0.1392
-----------------------------------------------------------------------------desmedro | Odds Ratio
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Iarea2_1 |
1.192532
.097396
2.16
0.031
1.016134
1.399552
hogind |
2.486159
.352521
6.42
0.000
1.88293
3.282643
_IareXhogi~1 |
.749599
.129423
-1.67
0.095
.5343966
1.051464
edad |
1.079273
.0092678
8.88
0.000
1.061261
1.097591
edad2 |
.9990084
.0001337
-7.41
0.000
.9987464
.9992705
fac1_3 |
.478418
.019188
-18.38
0.000
.4422503
.5175435
------------------------------------------------------------------------------
_Iarea2_0-1
_IareXhogin_#
Number of obs
=
7381
Number of strata =
278
Number of PSUs
=
1430
Population size =
9914531
F(
6,
1147) =
84.64
Prob > F
=
0.0000
-----------------------------------------------------------------------------desmedro | Odds Ratio
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Iarea2_1 |
1.39148
.1751897
2.62
0.009
1.086918
1.781384
hogind |
2.396281
.4747601
4.41
0.000
1.62449
3.534747
_IareXhogi~1 |
.7646081
.1845192
-1.11
0.266
.4762188
1.227641
edad |
1.083811
.0108173
8.06
0.000
1.062794
1.105244
edad2 |
.9989429
.0001507
-7.01
0.000
.9986472
.9992386
fac1_3 |
.4718983
.0278591
-12.72
0.000
.4202848
.5298501
------------------------------------------------------------------------------
34
Presentacin de
datos
Mtodos de ajuste
Anlisis univariados y bivariados:
Estadsticos de Neyman, Wald, prueba de
Pearson, ajuste de Rao-Scott.
Anlisis con mltiples variables:
Mtodos de remuestreo (bootstrap),
aproximaciones mediante mtodos de
linealizacin (Taylor).
35
Conclusiones
El ajuste en el anlisis por el diseo del
muestreo, es fundamental para evitar sesgos
en la obtencin de los estimadores, incluyendo
la varianza.
Permite que las inferencias obtenidas en el
anlisis de una muestra, sean
representativa de la poblacin de
inters al ajustar por los ponderadores
Bibliografa
1.
2.
3.
4.
5.
36
Preguntas?
37