Está en la página 1de 76

MUESTREO POR CONGLOMERADOS

TÉCNICAS DE MUESTREO II
EMAIL:cgonzales@lamolina.edu.pe

1
MUESTREO DE CONGLOMERADOS CON SUBMUESTREO - DOS
ETAPAS

USM seleccionada
UPM seleccionada
USM no seleccionada

2
UPM no seleccionada
MUESTREO POR ETAPAS

• Selección de unidades de muestreo


• Unidades Primarias
– Listados y mapas con estadísticas de manzaneo
– Selección con PPT simple o PPT sistemático
• Unidades intermedias y finales
– Selección sistemática con conteo rápido
– Rutas aleatorias
– Tablas de Kish (selección de personas)

3
MUESTREO POR ETAPAS
Mapa temático de Pueblo Libre

4
MUESTREO POR ETAPAS
Datos de manzaneo - Pueblo Libre

5
Dominios de estudio y estratificación

• Dominios de estudio (subpoblaciones)


– Diseño muestral independiente en cada dominio
– Dominios típicos: Urbano y Rural
• Estratificación
– Estratificación de UPM´s
– Estratos por tamaños de UPM´s
– Estratos geográficos

6
EFECTO DEL DISEÑO MUESTRAL
COMPLEJO

 El “efecto del diseño” de Kish, abreviado por Deff


es:
V DIS (ˆ )
Deff 
V (ˆ )
M AS

Donde:
◦ VDis = Varianza en base al diseño
◦ VMAS = Varianza en base al MAS

7
• Tamaños de muestra en muestreo complejo
 Para estimar una media poblacional:
 2 2
E
n0  D eff D 
D Z
 Para estimar una proporción poblacional:
P (1  P )
2
E
n0  Deff D 
D Z
 Ajuste por tamaño de población
n0
n
n0
1
N
8
I. Muestreo de conglomerados(UPM) con enumeración total de
las unidades de análisis que integran solo a los
conglomerados elegidos en la muestra(una sola etapa).
• Igual tamaño seleccionados con igual probabilidad, sin
submuestreo.
• Tamaño diferentes seleccionados con igual probabilidad, sin
submuestreo.
• Tamaño diferentes seleccionados con probabilidad proporcional a
su tamaño, sin submuestreo.

9
II. Muestreo de conglomerados(UPM) con submuestreo de las
unidades secundarias (USM) que integran solo a los
conglomerados elegidos (dos etapas).
• Igual tamaño seleccionados con igual probabilidad.
• Tamaño diferentes seleccionados con igual probabilidad.
• Tamaño diferentes seleccionados con probabilidad proporcional a
su tamaño.

10
Ventajas • No necesita un marco de muestreo muy
especfico.
• Puede utilizar como marco de muestreo
divisiones territoriales ya establecidas
• Igual tamaño, estimaciones insesgadas
• Costo y tiempo.
Desventajas
• Conglomerados muy homogéneos, se
pierde eficiencia
• Conglomerados muy grandes, valores
(M) altos incrementan EFD( disminuye
la eficiencia)

11
MUESTREO DE CONGLOMERADOS SIN SUB-MUESTREO
CONGLOMERADOS DE IGUAL TAMAÑO
SELECCIONADOS CON IGUAL PROBABILIDAD

Obs. 1 2 … i … N
1 Y11 Y21 Yi1 YN1
2 Y12 Y22 Yi2 YN2
..
j Y1j Y2j Yij YNj
..
M Y1M Y2M YiM YNM

12
Información disponible: Muestra simple aleatoria de “n”

Obs. 1 2 … i … n

1 Y11 Y21 Yi1 Yn1

2 Y12 Y22 Yi2 Yn2

..

j Y1j Y2j Yij Ynj

..

M Y1M Y2M YiM YnM

13
ESTIMACION DE PARAMETROS

n
Media
y i
y i 1

Varianza

 y 
n 2

i y
v( y )  1  f1  i 1

n(n  1)

S 2 1  c  M  1 
v( y)  1  f1 
nM

14
ESTIMACION DE PARAMETROS

Total
ˆ  Yˆ  M o y

Varianza

v(Yˆ )  M o2v( y)

Error estándar

EE (Yˆ )  v(Yˆ )

15
EJERCICIO
Se desea estimar el contenido neto de líquido promedio en los 40
sixpac de gaseosa. Para lo cual se toma una muestra aleatoria
simpIe de 6 sixpac y se registra el contenido de todas las botellas
de estos sixpac. Asi mismo calcule el error estándar y coeficiente
de variación.

Sixpack Botella 1 Botella 2 Botella 3 Botella 4 Botella 5 Botella 6


1 993 985 955 966 989 1004
2 965 1007 973 1012 1018 1016
3 1017 970 977 1005 1015 985
4 1018 982 1005 953 995 982
5 955 1020 981 996 1011 997
6 971 951 984 1004 985 1014

16
TAMAÑO DE MUESTRA

2
 Z    xScong 
 1 2  
no   
 E 
 

n0
n
 n0 
1  N 

Donde:

 y  y
n 2

i
2
s cong  i 1

n 1

17
Número de conglomerados necesario

z 2 scong
*2

2 2
n d M
1  z scong 
2 *2

1  2 2 
N  d M 

18
EJERCICIO
Suponga que la muestra piloto es la que se adjunta y corresponde
a una muestra aleatoria simpIe de una población de 2000 sixpac .
Se desea determinar el número de sixpac adicionales que se
deben seleccionar para estimar el contenido medio por botella con
un nivel de confianza del 90 % y error máximo absoluto de 2 cm3.

Sixpack Botella 1 Botella 2 Botella 3 Botella 4 Botella 5 Botella 6


1 993 985 955 966 989 1004
2 965 1007 973 1012 1018 1016
3 1017 970 977 1005 1015 985
4 1018 982 1005 953 995 982
5 955 1020 981 996 1011 997
6 971 951 984 1004 985 1014

19
COEFICIENTE DE CORRELACION
INTRACONGLOMERADO

Cov(YijYiz ) Mide la homogeneidad en el interior de



y y
ij iz
los conglomerados

Para expresar la varianza de

S 2 ( NM  1) S2
2
v( y )  1  f  1  ( M  1)    1  f  1  (M  1)  
n( N  1) M nM

20
COMPARACIÓN CON EL MUESTREO ALEATORIO
SIMPLE

v( y)Cong  v( y)mas 1  (M  1) c 

 aumento de v( y )cong

c  0 v( y )cong  v( y ) mas

 dis min ucion de v( y )cong  1 
c    , 0
 M 1 
Eficiencia del diseño

EFD  1  c  M  1

21
ESTIMACION DE LOS COMPONENTES DE VARIANZA

Grados de Suma de Cuadrado


Fuente libertad Cuadrados Medio
2

  y  y 
n M
Entre conglomerados n-1 i
M Sˆn2
i 1 j 1
2

  y 
n M

Dentro de conglomerados n( M  1) ij  yi SˆM2


i 1 j 1
2

  
n M

nM  1 yij  y Ŝ 2
Total i 1 j 1

Nota:

22
TAMAÑO DE LA MUESTRA:
Estrategias de Combinación (n, M)

C  co n  c1n  c2nM

• Mínimo Costo con una precisión


preestablecida
• Mínima varianza para un presupuesto
disponible

23
Mínimo Costo con una precisión preestablecida


Min C  Min co n  c1n  c2nM 

S2
v( y )  1  f  1   M  1 c 
nM

24
Mínima varianza para un presupuesto disponible

 S2 
Min v( y )  Min 1  f  1   M  1  
 nM 

C  co n  c1n  c2nM

25
En cierta región existen 800 manzanales, divididos en 160 bloques en donde
cada uno tiene 5 manzanales, se quiere estimar la altura media (en pulgadas),
para lo cual se seleccionó una muestra aleatoria simple de 6 bloques, y se
midió la altura de cada uno de los cinco manzanales. Los resultados
obtenidos fueron:

Bloques 1 2 3 4 5 6
Número de
manzanales 5 5 5 5 5 5
Altura de los
manzanales 4 2 6 6 5 3
6 7 5 5 6 5
8 1 5 3 6 7
7 5 6 5 7 4
5 6 7 7 9 5
Altura promedio
(pulg) 6 4.2 5.8 5.2 6.6 4.8
26
a) ¿Cuál es la altura media de los manzanales en la región, su error estándar y
coeficiente de variabilidad?.
b) Descomponga la variación total en cada una de sus fuentes obtenga el
estimador insesgado de S2, calcule el coeficiente de variabilidad intragrupo,
y el efecto del diseño. Haga un comentario.
c) Obtener el número de conglomerados (n) y el número de observaciones
dentro de cada conglomerado (M) óptimo a seleccionar, si se sabe que la

función:   0,1M y se dispone de un presupuesto de 600 soles además de
la función de costos: C= 4n+nM
d) Si se considera en buenas condiciones a aquellos manzanales con alturas
mayores a 4 plg, estime el total de manzanales en buenas condiciones y su
error estándar.

27
RESULTADOS:

One-way ANOVA: Altura versus Conglomerados

Source DF SS MS F P
Conglomerados 5 18.97 3.79 1.37 0.270
Error 24 66.40 2.77
Total 29 85.37
S2(estimador
insesgado) 2.974

S2 2.9438
Prom 5.43
S2M 2.77
v(y) 0.1217
rho 0.0590
CV 6.42
EFD 1.2361
n 24

Si : deseamos reducir el CV 1 %, entonces el numero de conglomerados es:

V0 0.00295211
28
M rho n nM v( y )
2 0.08122524 100 200 0.016078
600
n 3 0.07192231 86 257 0.013229
4 M
4 0.0659754 75 300 0.011875
5 0.06170339 67 333 0.011124
2.9741   ( M  1)
v( y )  6 0.05841907 60 360 0.010674
nM
7 0.05577898 55 382 0.010396
8 0.05358867 50 400 0.010224
9 0.05172819 46 415 0.010122
10 0.05011872 43 429 0.010069
11 0.04870597 40 440 0.010051
12 0.04745103 38 450 0.010058
13 0.04632517 35 459 0.010085
14 0.04530661 33 467 0.010126
15 0.0443785 32 474 0.010179
16 0.04352753 30 480 0.010241
17 0.04274303 29 486 0.010310
18 0.04201634 27 491 0.010385
19 0.04134033 26 496 0.010465
20 0.04070905 25 500 0.010549
29
MUESTREO DE CONGLOMERADOS SIN SUB-MUESTREO
CONGLOMERADOS DE TAMAÑO DIFERENTE
SELECCIONADOS CON IGUAL PROBABILIDAD

Obs. 1 2 … i … N
1 Y11 Y21 Yi1 YN1
2 Y12 Y22 Yi2 YN2
..
j Y1j Y2j Yij YNj
..
Mi Y1Mi Y2Mi YiMi YNMi

30
Información disponible: Muestra simple aleatoria de “n”

Obs. 1 2 … i … n
1 Y11 Y21 Yi1 Yn1
2 Y12 Y22 Yi2 Yn2
..
j Y1j Y2j Yij Ynj
..
Mi Y1M1 Y2M2 YiMi YnMi

31
ESTIMACION DE PARAMETROS

1.Promedio de promedios
n

y i
y i 1
n
Varianza

 y 
n 2
i y
v( y )  1  f1  i 1
n(n  1)

S 2 1    M  1
v( y)  1  f1 
nM

32
2.Estimador de razón
n n

M i yi Y i
yr  i 1
 i 1

Mˆ o
n

M
i 1
i

Varianza

M y 
n 2
i
2
i y
v( yr )  (1  f1 ) i 1
2
nM (n  1)

33
3.Promedio Ponderado de Promedios

n
N  M i yi N

y i 1 Mo   Mi
i 1
nM o
Varianza

n
Yi 2

2
2  ny
v( y )  1  f1  i 1 M
n(n  1)

34
Se quiere estimar el ingreso medio por persona en una ciudad en la
que no hay una lista disponible de residentes. Para ello divide la
ciudad en 415 bloques rectangulares. Se dispone de tiempo y dinero
para muestrear 25 bloques y entrevistar todos los hogares del mismo,
obteniendo los siguientes resultados:

Bloque 1 2 3 4 5 6 7 8 9 10 11 12 13
N° de
residentes 8 12 4 5 6 6 7 5 8 3 2 6 5
Ingreso Total 96 121 42 65 52 40 75 65 45 50 85 43 54

Bloque 14 15 16 17 18 19 20 21 22 23 24 25
N° de
residentes 10 9 3 6 5 5 4 6 8 7 3 8
Ingreso Total 49 53 50 32 22 45 37 51 30 39 47 41

Estima el ingreso medio por persona, la varianza del estimador utilizado y


el coeficiente de variación.
35
PROPORCIONES

ESTIMACION DE LOS COMPONENTES DE VARIANZA

Grados de Suma de Cuadrado


Fuente libertad Cuadrados Medio
2
n M
Entre conglomerados n-1   p  p  i
M Sˆn2
i 1 j 1
n

 M pi 1  pi 
2
Dentro de conglomerados n( M  1) SˆM2
i 1

nM  1 N M p(1  p) Ŝ 2
Total

Nota:

36
MUESTREO DE CONGLOMERADOS CON SUB-
MUESTREO CONGLOMERADOS DE IGUAL TAMAÑO
SELECCIONADOS CON IGUAL PROBABILIDAD

La muestra puede hacerse auto-ponderada


– En la primera etapa( UPMs ): se eligen con Probabilidad
Proporcional al tamaño UPMs
– En la segunda etapa(USM): se elige una cantidad fija de unidades
secundarias en cada UPM

37
Ventajas • No es necesario utilizar todas las u.e de los
conglomerados seleccionados en la primera
etapa.
• No es necesario de un marco de muestreo
de unidades elementales completo.
• Se necesita menos recursos y el costo es
menor.

Desventajas
• Precisión es menor.
• Los submarcos dentro de cada
conglomerado pueden originar
complicaciones al aumentar el n° de
etapas de submuestreo.
• Aparecen fuentes de variación que
complican los cálculos algebraicos.

38
Obs. 1 2 … i … N

1 Y11 Y21 Yi1 YN1

2 Y12 Y22 Yi2 YN2

..

j Y1j Y2j Yij YNj

..

M Y1M Y2M YiM YNM

39
MUESTREO DE CONGLOMERADOS CON SUB-MUESTREO
CONGLOMERADOS DE TAMAÑO IGUALES SELECCIONADOS CON
IGUAL PROBABILIDAD

Obs. 1 2 … i … n

1 Y11 Y21 Yi1 Yn1

2 Y12 Y22 Yi2 Yn2

..

j Y1j Y2j Yij Ynj

..

m Y1m Y2m Yim Ynm

40
ESTIMACION DE PARAMETROS

1.Promedio
n

y i
y i 1
n
Varianza

Sˆn2 Sm2
v( y)  1  f1   f1 1  f 2 
n nm

Sˆ 2 1    m  1 
v( y)  1  f1 
nm

41
ESTIMACION DE LOS COMPONENTES DE VARIANZA

Grados de Suma de Cuadrado


Fuente libertad Cuadrados Medio
2

  
n m
Entre conglomerados n-1 yi  y mSˆn2
i 1 j 1
2

  y 
n m

Dentro de conglomerados n(m  1) ij  yi Sˆm2


i 1 j 1
2

  y 
n m

nm  1 ij  y Ŝ 2
Total i 1 j 1

42
El estimador insesgado de S2 es:

ˆ 2   m  1 Sˆ 2
mS
Sˆ 2  n m

m
El estimador del coeficiente de correlación:
Sˆm2
ˆ  1  2

EFD  1  ˆ  m  1

43
Tamaño de muestra efectivo

nm
n
EFD

Número de USM y el número UPM

C  c1  c2 nm

c1  4c2

n
C
m
1  ˆ   c1   Sˆm2  c1 
c1  c2 m ˆ
   
Sˆ 2  c2 
 c2  u

44
Un inspector toma una muestra de un camión que transporta maíz
enlatado para estimar el número promedio de fragmentos de gusanos
por lata. El camión tiene 580 cajas; cada caja contiene 24 latas. El
inspector elige 4 cajas al azar y extrae 3 latas al azar de cada caja
seleccionada.

Cajas
1 2 3 4
Lata 1 1 5 0 3
Lata 2 5 2 1 6
Lata 3 7 4 2 6

Estime el número medio de fragmentos de gusanos por lata, junto con el


error estándar de la estimación y coeficiente de variación.

45
Considere el ejercicio anterior, suponga que además se registró si la
etiqueta estaba correctamente colocada en la lata siendo: 1,
correctamente colocada y 0 incorrectamente colocada. Los datos fueron:

Cajas
1 2 3 4
Lata 1 1 0 1 1
Lata 2 1 1 1 1
Lata 3 0 0 1 1

• Estime la proporción de latas con etiquetas correctamente colocadas en


el camión, su error estándar y coeficiente de variación.

• Construya el ANVA, halle el coeficiente de correlación intragrupos y el


efecto del diseño

46
• Si el coeficiente da variabilidad disminuye a 5%, ¿cuántas cajas
se debe seleccionar?
• Suponga que debe revisarse otro camión y se cree que sea
similar al anterior. La función del tiempo invertido es T = t1n+
t2nm, donde se necesita 10 minutos (t1)para ubicar y abrir una
caja y 8 minutos (t2) para ubicar y examinar cada lata específica
dentro de la caja. ¿Cuántas latas deben examinarse por caja (m)
y cuántas cajas (n), si se dispone de 100 minutos?

47
MUESTREO DE CONGLOMERADOS CON SUB-MUESTREO
CONGLOMERADOS DE TAMAÑO DIFERENTES SELECCIONADOS
CON IGUAL PROBABILIDAD

Obs. 1 2 … i … N

1 Y11 Y21 Yi1 YN1

2 Y12 Y22 Yi2 YN2

..

j Y1j Y2j Yij YNj

..
Mi Y1M1 Y2M2 YiMi YNMi

48
Obs. 1 2 … i … n

1 Y11 Y21 Yi1 Yn1

2 Y12 Y22 Yi2 Yn2

..

j Y1j Y2j Yij Ynj

..

mi Y1m1 Y2m2 Yimi Ynmi


n

m i
f  i 1
M0 49
ESTIMACION DE PARAMETROS

1.Promedio simple de promedios


n

y i
y i 1

n
Varianza

Sˆn2 f1 n
Sˆi2
v( y )  1  f1   2
n n

i 1
1  f 2i 
mi

Sˆ 2 1  ˆ  m  1
v( y )  1  f1 
nm

50
2.Estimador de razón
n

M i yi
y i 1
n

M
i 1
i

Varianza

Sˆn2 f1 n
Sˆi2
2 
v( y)  1  f1   M i 1  f 2i 
2

n (nM ) i 1 mi

51
3.Promedio Ponderado de Promedios

n
N  M i yi
y i 1

nM o
Varianza

Sˆn2 f1 n
Sˆi2
v( y )  1  f1  
n (nM )2

i 1
M (1  f 2i )
i
2

mi

52
Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo
EE.UU. y quiere estimar el número promedio de horas que las máquinas de
coser estuvieron sin funcionar por reparación en los meses pasados. Debido
a que las plantas están ampliamente dispersas, el fabricante decide utilizar
un muestreo por conglomerados, especificando cada planta como un
conglomerado de máquinas. Cada planta contiene muchas máquinas, y el
verificar los registros de reparación de cada máquina implicaría consumir
tiempo. Por lo tanto el fabricante usa un muestreo en dos etapas con
probabilidades iguales y sin reposición. Se dispone de tiempo y dinero
suficientes para muestrear n=10 plantas y aproximadamente un 20% de la
máquinas de cada planta. Se obtiene la siguiente tabla de datos:

53
Mi mi Tiempo sin funcionar( en horas) Xi Si2
50 10 5 7 9 0 11 2 8 4 3 5 5.4 11.4
65 13 4 3 7 2 11 0 1 9 4 3 2 1 5 4 10.7
45 9 5 6 4 11 12 0 1 8 4 5.7 16.8
48 10 6 4 0 1 0 9 8 4 6 10 4.8 13.3
52 10 11 4 3 1 0 2 8 6 5 3 4.3 11.1
58 12 12 11 3 4 2 0 0 1 4 3 2 4 3.8 14.9
42 8 3 7 6 7 8 4 3 2 5 5.14
66 13 3 6 4 3 2 2 8 4 0 4 5 6 3 3.9 4.31
40 8 6 4 7 3 9 1 4 5 4.9 6.13
56 11 6 7 5 10 11 2 1 4 0 5 4 5 11.8

54
a. Estimar el tiempo sin funcionar promedio por máquina y
establecer un límite para el error de estimación, sabiendo que el
fabricante tiene un total de 4500 máquinas en todas las plantas.

b. Estimar la cantidad total de tiempo sin funcionar durante el mes


pasado para todas las máquinas propiedad del fabricante y el
error de estimación.

c. Estimar el promedio por máquina sin funcionar y el error de


estimación, suponiendo que el fabricante no sabe cuántas
máquinas hay en todas las plantas.

55
PROPORCIONES Y PORCENTAJES
1.Estimador-Razón

n n

M y n i i i
p i 1 i 1

M m i
n

i
i 1

Sˆn2 f1 n
Sˆi2
v( p)  1  f1  
n (nM )2

i 1
M (1  f 2i )
i
2

mi

 M  p  p
n 2
2
i i
f1 (1  f 2 ) n M i mi pi qi
v( p)  1  f1  i 1
 2 
 n  1 n (mM ) i1 mi  1
2
nM

56
PROPORCIONES Y PORCENTAJES
2.Estimador: Promedio Ponderado de Promedios
n

N
 M p i i
p  i 1

n Mo

Sˆn2 f1 n
Sˆi2
2 
v( p)  1  f1   M i (1  f 2i )
2

n (nM ) i1 mi
Donde:
2
 mi pi 
 
n n

 
2
  p  n  n
 m 
i
ˆ mi pi qi
Sn 
2 i 1
 2
i 1
Si 
2
 n  1 m  n  1 mi  1

57
3. Estimador: Promedio de promedios

n n

y p i i
p i 1
 i 1
n n

 p  p
n 2
i
f1 1  f 2  n pi qi
v( p)  1  f1  i 1
n  n  1

( n) 2
i 1 mi

mi m
f 2i  
Mi M

58
El gerente de una cadena de supermercados que tiene tiendas en
32 ciudades quiere conocer la proporción de tiendas en la cadena
que no satisfacen un criterio de limpieza determinado. Para ello
extrae una muestra con probabilidades iguales y sin reposición de
4 ciudades y en cada una de ellas estudia el 50% de la tiendas.
Los datos obtenidos son los siguientes:

59
N° de
tiendas N° de tiendas en N° de tiendas que no satisfacen en el
Ciudad (Mi) la muestra (mi) criterio de limpieza
1 25 13 0 1 0 1 1 0 0 0 0 0 0 0 0
2 10 5 0 0 1 0 0
3 18 9 1 0 0 1 0 1 0 0 1
4 16 8 0 0 1 0 0 0 0 1

• Estimar la proporción de tiendas de la cadena que no


satisfacen el criterio de limpieza y el error de estimación.
• Lo mismo sabiendo que el número total de tiendas que
posee la cadena es 450.

60
MUESTREO POR CONGLOMERADO PROPORCIONAL AL
TAMAÑO
• Conglomerados más grandes una mayor posibilidad de
selección que a los más pequeños.
• Disponibilidad de un marco de muestreo por conglomerados
con medidas del tamaño o su creación antes de seleccionar las
muestras. Estimación de una variable que tiene posibilidades
de correlacionarse con el número de los sujetos de la encuesta
de interés en cierto conglomerado
• Ejemplo: población total de una ciudad como el número total
de familias puede tener una estrecha correlación con el número
de lactantes/niños en el conglomerado.
• No se necesita un recuento exacto; bastará con cálculos o
estimaciones aproximados. Cualquier inexactitud se corregirá
en la segunda etapa de selección de la muestra, cuando se
escogerá el número específico de familias.

61
Pasos para seleccionar una muestra aleatoria sistemática de
conglomerados con PPS

(1) Lista de unidades de muestreo para la primera etapa.


(2) Calcular la medida acumulativa del tamaño.
(3) Calcular el intervalo de muestreo (k) dividiendo la medida
acumulativa total del tamaño correspondiente al dominio o estrato
(M) por el número planeado de unidades que deben seleccionarse
(a), es decir, k = M/n.
(4) Seleccionar un número aleatorio entre 1 y k. La unidad que tenga
una medida acumulativa del tamaño dentro de la cual esté el
número k es la primera unidad de muestra .
(5) Las unidades subsiguientes se escogen agregando el intervalo de
muestreo k al número identificado en el paso (4);
(6) Se sigue este procedimiento hasta acabar con la lista.

62
SELECCIÓN DE UNA MUESTRA ALEATORIA SISTEMÁTICA
DE CONGLOMERADOS CON PPS

Conglomerado Tamaño- N° de Medida Acum. Muestreo Conglomerado


N° familias Del tamaño N° seleccionado
1 120 120 73 X
2 105 225
3 132 357
4 96 453
5 110 563 503 X
6 102 665
7 165 830
8 98 928
9 115 1043 934 X
. . .
. . .
. . .
170 196 17219

63
N° de conglomerado a seleccionar (n) 40

Medida acumulativa total del tamaño(M) 17219


Intervalo de muestreo (k) 430.475
N° aleatorio 73
Conglomerados seleccionados 001, 005, 009,…

64
Siempre que sea posible, se deben seleccionar los conglomerados con
probabilidad proporcional al tamaño en las encuestas de muestra.
En primer lugar, porque este procedimiento es relativamente eficiente en lo
que respecta a la precisión del muestreo.
En segundo lugar, porque si se escoge un número igual de elementos en
cada conglomerado en la segunda etapa de selección de la muestra, el
resultado final será una muestra en que cada familia tiene la misma
probabilidad general de selección, es decir, una muestra con un mecanismo
de autoponderación.
Cuando no se dispone de medidas del tamaño de los conglomerados. Se
debe usar un procedimiento ligeramente diferente cuando no se dispone de
medidas del tamaño de los conglomerados antes de la selección de la
muestra.
En este método, todos los conglomerados tendrán la misma probabilidad de
selección, o igualdad de probabilidades, en lugar de una probabilidad
relacionada con su tamaño.

65
PASOS PARA SELECCIONAR UNA MUESTRA
ALEATORIA SISTEMÁTICA DE CONGLOMERADOS CON
IGUALDAD DE PROBABILIDADES

• Listado de conglomerados
• Calcular el intervalo de muestreo: k = A/a
• Seleccionar un número aleatorio entre 1 y k
• Escoger las unidades subsiguientes agregando el intervalo
de muestreo

66
SELECCIONAR UNA MUESTRA ALEATORIA SISTEMÁTICA DE
CONGLOMERADOS CON IGUALDAD PROBABILIDAD

Conglomerado Conglomerado
N° seleccionado
1 N° de conglomerado a
seleccionar (a) 40
2 X
Medida acumulativa total del
3 tamaño (A) 170
4 Intervalo de muestreo (k) 4.25
5 N° aleatorio 2
6 X 002, 006,
Conglomerados seleccionados 011
7
8
9
10
11 X
.
.
.
170
67
Población: U  1,...., N  Y  Y1 ,...., YMo 

Población de Conglomerados:
Mi: N° de elementos en la UPM Donde:

Mo : N° de elementos en la población
Bi A
pi  Mo
Mo tˆ  
a k 1
Qi y i Mo  255077536

Muestreo por conglomerados en una etapa

A
Mo
tˆ  
a k 1
Qi y i

2
 ti 
 t ˆ
 
2
1 A
 pi  M 2 A yi  y
v(t )   Qi
ˆ  o
 Qi
a i 1 a 1 a i 1 a 1
68
Estimación del promedio

1 A
y   Qi y i
a k 1

 
2
1 A yi  y
v( y )   Qi
a i 1 a 1

ti
 M 0 yi
pi

69
Ejemplo

Los siguientes datos corresponde a una muestra con probabilidades


diferentes de 100 ciudades de los Estados Unidos. Las ciudades fueron
elegidos mediante el método del tamaño acumulativo, con probabilidades
proporcionales a sus poblaciones. Una de las cantidades registradas para
cada ciudad fue el número de médicos.

Bi
pi 
Mo

Mo: 255077536

70
Condados en la muestra

No de
T.Población( Medicos(
Estado Ciudad Mi) pi ti) ti/pi
AL Wilcox 13672 5.3599E-05 4 74627.72
AZ Maricopa 2209567 8.6623E-03 4320 498710.81
AZ Maricopa 2209567 8.6623E-03 4320 498710.81
AZ Pinal 120786 4.7353E-04 61 128820.64
AR Garland 76100 2.9834E-04 131 439095.36
AR Mississippi 55060 2.1586E-04 48 222370.54
CA Contra_Costa 840585 3.2954E-03 1761 534379.68
. . . . . .
. . . . . .
. . . . . .
VA Chesterfield 225225 8.8297E-04 181 204990.72
WA King 1557537 6.1061E-03 5280 864704.59
WI Lincoln 27822 1.0907E-04 28 256709.47
WI Waukesha 320306 1.2557E-03 687 547096.42

71
Grafica de ti contra pi

25000

20000
Medicos en el condado

15000

10000

5000

0
0.00E+00 5.00E-03 1.00E-02 1.50E-02 2.00E-02 2.50E-02 3.00E-02 3.50E-02 4.00E-02

pi

Histogram of N°de Medicos

50

40
Frequency

30

20

10

0
0 4000 8000 12000 16000 20000 24000
N°de Medicos
72
MUESTREO DE DOS ETAPAS

Procedimiento:
1. Extraer una muestra UPM con reemplazo, con probabilidades pi
2. Extraer una muestra de probabilidad de mi subunidades en la UPM i

Diferencia con el muestreo de dos etapas y una etapa

Requisitos:
1. Utilizar el mismo diseño de submuestreo para seleccionar USM a
partir de UPM
2. La j-ésima submuestra extraída de la UPM i ( j= 1,…,Qi) se elige de
modo que:
E (Yˆij )  Yi
73
EJEMPLO
Los siguientes datos que se muestra en la tabla corresponden a
diferentes grupos del curso de Estadística que se imparten en
cierta Universidad. La universidad tiene 15 grupos que toman ese
curso; el grupo i tiene Mi estudiantes, para un total de 647
estudiantes de ese curso. Se decide extraer una muestra de cinco
grupos con reemplazo, con probabilidades proporcional al tamaño
y, luego se aplicó un cuestionario a cada alumno de los grupos de
la muestra.

74
N° de Tamaño Muestra
grupo Mi pi Acumulativo Rango Sistematica UPM
1 44 0.06801 44 1 44
2 33 0.05100 77 45 77
3 26 0.04019 103 78 103
4 22 0.03400 125 104 125 112 x
5 76 0.11747 201 126 201
6 63 0.09737 264 202 264 241 x
7 20 0.03091 284 265 284
8 44 0.06801 328 285 328
9 54 0.08346 382 329 382 370 x
10 34 0.05255 416 383 416
11 46 0.07110 462 417 462
12 24 0.03709 486 463 486
13 46 0.07110 532 487 532 499 x
14 100 0.15456 632 533 632 638 x
15 15 0.02318 647 633 647

647 1.00000 k 129

75
Yij: Número de horas que el alumno j del grupo i ocupó para
estudiar el curso de estadística

Grupo Mi pi Yij yi ti ti/pi


12 24 0.03709 2 3 2.5 3 1.5 2.4 57.6 1552.8
14 100 0.15456 2.5 2 3 0 0.5 1.6 160 1035.2
14 100 0.15456 3 0.5 1.5 2 3 2 200 1294
5 76 0.11747 1 2.5 3 5 2.5 2.8 212.8 1811.6
1 44 0.06801 4 4.5 3 2 5 3.7 162.8 2393.9

suma 8087.5

Yppt 1617.5

D.Est 233.25

76

También podría gustarte