Está en la página 1de 27

6/1/2016

7. CONGLOMERADOS
DESIGUALES Y PPT

Profesor: Johnny Madrigal Pana. M.Sc.

INTRODUCCIN

En la prctica, lo ms frecuente son los conglomerados


desiguales. Pedir ejemplos

Recordar que una muestra diseada con conglomerados


iguales puede terminar en conglomerados desiguales por
No respuesta
Estudio de sub-clases
Problemas de marco
Medidas de tamao que se planearon iguales terminan desiguales

Se requieren ahora nuevas estrategias de seleccin por el


efecto de la desigualdad de los tamaos de las UPMs

Se le suma a esto el mia, sistemtico, replicado y estratificado 2

1
6/1/2016

NOTACIN

Nmero de elementos en la
N=X poblacin agrupados en A
conglomerados
Nmero de elementos en el
N=X= ==
conglomerado -simo,
El valor de la variable y para el
Y
elemento B del conglomerado

= = = Total Yi de la poblacin



Media por elemento en la
== = = =
poblacin


Para la muestra 1
= == = =

X en vez de N en la poblacin
x en vez de n en la muestra
La variancia de r=y/x no es var(y)/x2, sino una estadstica ms
compleja
Detalles de X y de X (x y de x)

X=1 para cada elemento de la poblacin


X=1 cuenta el nmero de miembros de cualquier sub-clase
X=0 cuenta el nmero que no est en la sub-clase
X puede ser una variable auxiliar para mejorar la estimacin
X es el nmero de elementos en el conglomerado
4

2
6/1/2016

PROBLEMAS DE LOS
CONGLOMERADOS DESIGUALES

1. Tamao de muestra no es fijo y se convierte en una variable


aleatoria que depende de la seleccin al azar de
conglomerados mayores o menores

2. Lo anterior origina un problema de costo y de precisin


(variancia)

3. r es un estimador sesgado de la media de la poblacin

4. var(r) tambin es sesgada, aunque da buenas


aproximaciones en muestras bien diseadas

5. Las frmulas para el clculo de variancias son ms complejas


5

SELECCIN ALEATORIA DE
CONGLOMERADOS DESIGUALES

Sin sub-muestreo
Se seleccionan a UPMs al azar sin reemplazo de A
conglomerados en la poblacin

La fraccin de muestreo f=a/A es tambin la probabilidad de


seleccin de cualquiera de los N elementos en la poblacin

Lo anterior es como aplicar sub-muestreo con fb=1

En otras palabras f=fa*fb= a/A * B/B = n/N

3
6/1/2016

Con sub-muestreo

1ra etapa
Seleccionar al azar a UPMs de A
fa=a/A
Puede hacerse con o sin reemplazo
Si se hace con reemplazo algunas UPMs caen dos o ms veces, o ms
de dos veces rara vez.
En la UPM que caiga dos veces el sub-muestreo se considera una
muestra separada
2da etapa
En cada UPM seleccionada se sub-muestrea con igual probabilidad (fb)
Esto implica que f = fa * fb es una probabilidad fija para todos los
elementos, por lo que es un procedimiento mesip
Los clculos de variancia se basan en las a selecciones primarias
Cada UPM tiene x elementos del total x* en la UPM -sima
El tamao aproximado del sub-muestreo es de x = fb * x* 7

En los conglomerados iguales fb produce sub-muestras


iguales, que se denotan con b
En los conglomerados desiguales fb produce sub-muestras de
tamao diferente, donde b=x, lo que resulta en una muestra
total que depender del azar
Si fb=1/5 y un conglomerado tiene X=100 elementos, la sub-
muestra ser de x=20 elementos. Pero si otro conglomerado
tiene X=40, la sub-muestra ser de 8 elementos
Eso hace atractiva la idea de seleccionar o sub-muestrear un
nmero fijo de elementos de cada UPM seleccionada
Se debe sacrificar algo. Analicemos esto con un ejemplo
8

4
6/1/2016

Ejemplo
ELEMENTOS DADOS SUB-MUESTREO CON fb constante SUB-MUESTREO CON b=x=10

1ra Con
Supon- 2da Enton- Se
etapa tamao 2da etapa
UPM X= ga que etapa. Si ces escoge f=fa*fb
(hipo- x= fb=
fa= fb=1/5 f=fa*fb b=10
ttico)

1 80 * 1/20 1/5 1/100 16 10 1/8 1/160

2 40

3 60 * 1/20 1/5 1/100 12 10 1/6 1/120

4 20 * 1/20 1/5 1/100 4 10 1/40

5 30

6 40 * 1/20 1/5 1/100 8 10 1/80

7 100

8 120 * 1/20 1/5 1/100 24 10 1/12 1/240

El primer caso es mesip porque f = fa*fb = 1/100


El segundo caso no es mesip porque f = fa*fb = 1/20*1/x, es variable
Cmo hacer que el segundo caso sea mesip? 9

MEDIA Y VARIANCIA

La media 1
= = =

(x , y) ahora son variables aleatorias. Si la seleccin es mesip, entonces y es


insegado y x tambin, cada una por aparte. Sin embargo, como x no es fija,
sino aleatoria, r no es un estimador insesgado de R

Observe que ahora la media () es una razn, pues es el resultado de un


cociente de dos variables aleatorias

r tambin puede verse como una media ponderada de las a medias,


donde las medias se ponderan por sus tamaos relativos x/(x/a) y donde
x/a es el tamao promedio. Si el tamao es constante, entonces
x/(x/a)=n/a=b 1
= = , =

10

5
6/1/2016

Variancia general de razn


1
var(r)= 2
[var(y)+ r 2 var(x)- 2rcov(y,x)]
x
Se recomienda usar si el coeficiente de variacin del tamao de
muestra es menor o igual a 0,2: cv(x) = s(x)/ 0,2

Variancia asumiendo un mia de a conglomerados


De la variancia general se obtiene
2 2
= 2 = (1 ) 2 = 2 = (1 ) 2
1 1

2

, = = (1 )
1
11

Sustituyendo los trminos se obtiene


( 1- f) ( 1- f) a y2 x2 yx
var( r)= [ s 2y + r 2 s 2x - 2r s yx] = [( y2 - ) + r 2 ( x2 - ) - 2r( y x - )]
x 2
x 2 a -1 a a a

Dado que r=y/x, entonces la frmula anterior puede


simplificarse porque y2+r2x2-2ryx=0
1- f a
var(r)= 2
[ y2 + r 2 x2 - 2r y x ]
x a -1

Una simplificacin de esta frmula es la siguiente


1 1
= ( )2 = 2
2 1 2 1

Si z=y-rx
12

6
6/1/2016

Nmero
de
Nmero
de auto-
Ejercicio
UGM
viviendas= mviles=
x y
1 5 3
2 3 1
3 4 2
4 2 1 1. Cul es la proporcin de vehculos en las
5 6 3 viviendas? R/0,5
6 5 1
7 3 1 2. Calcule la variancia de esa estimacin
8 4 2 usando las tres frmulas anteriores.
9 4 3 R/0,00208
10 5 4
11 2 1 3. Calcule el efecto del diseo. R/0,499
12 6 3
13 5 2
14 3 1
15 3 2
Total 60 30
13

MUESTREO ESTRATIFICADO DE
CONGLOMERADOS DESIGUALES

Es muy usado porque es eficiente y sencillo


En general, los conglomerados se seleccionan estratificados
porque disminuye la variancia
La estratificacin y el sub-muestreo de conglomerados puede
usarse de muchas maneras H a H

y y
h

H ah h h
y 1
x x y h =
La media r= = h
H ah
= h
H
h
x
h
h x
h
h

Se asumen restricciones semejantes al caso no estratificado


Tambin se asume que yh y xh han sido ponderadas
convenientemente.
Se busca, en el mejor de los casos, una muestra auto-
ponderada
14

7
6/1/2016

La variancia de r
1
= ( ) + 2 ( ) 2 ( , )
2
Para clculo, asumiendo un mia dentro de cada estrato
1 1
var(r) [ var(y h )+ r 2 var(xh ) - 2rcov( y h , xh )] = [ d 2 y h + r 2 d 2 xh - 2r dyh d xh ]
2 2
x x
Donde
1- f h ah 1- f h ah
2
d yh = ( a h y 2h - y 2h ) 2
d xh = ( a h x2h - x2h )
ah - 1 ah - 1

1- f h ah
d y h dxh = ( a h y h x h - y h x h )
ah - 1
15

Seleccin pareada de conglomerados


Es un buen diseo para seleccionar conglomerados
Es eficiente y forma H=a/2 estratos implcitos
Es sencillo

1. Muestreo de conglomerados completos


Se forman estratos implcitos de 2F conglomerados cada
uno
Se seleccionan dos conglomerados al azar de cada estrato
implcito
La razn de muestreo uniforme es f=2/2Fa=fa

16

8
6/1/2016

Ejemplo

A=3.000 grupos de estudiantes


12 B 35; = 24
Se requiere n=1.440 estudiantes
Si n=a*B, entonces 1.440=a*24 y a=60
Entonces se forman 30 estratos implcitos de 100 grupos cada
uno porque 72.000
2 = 2 =2 = 2 50 = 100
1.440

Se seleccionan dos grupos de cada estrato implcito y la


fraccin de muestreo es
2 2 2 1
= = = = =
2 2 3.000 100 50
60
17

2. Sub-muestreo con razn uniforme (dos etapas)

En dos etapas se tiene que f= fa*fb = 1/Fa*/1/Fb


Se forman estratos implcitos de tamao 2Fa
Se seleccionan dos conglomerados al azar de cada estrato
implcito
La fraccin de muestreo para la 1ra etapa es 2/2Fa=1/Fa=fa
En la segunda etapa se sub-muestrea con una fraccin
uniforme fb de cada conglomerado seleccionado

18

9
6/1/2016

Ejemplo

A=3.000 grupos de estudiantes


12 B 35; = 24
Se requiere n=1.440 estudiantes
Asumiendo que fb=1/5, entonces se van a seleccionar 4,8
estudiantes por grupo (b=24/5)
Si n=a*b, entonces 1.440=a*4,8 y a=300
Entonces se forman 150 estratos implcitos de 20 grupos cada
uno porque 3.000
2 = 2 =2 = 2 10 = 20
300
Se seleccionan dos grupos de cada estrato implcito y la
fraccin de muestreo es
2 1 1 300 1 1
= = = = = =
2 5 3.000 5 50
19

MEDIA Y VARIANCIA

La media es
y yh ( yha + yhb )
r= = =
x xh ( xha + xhb )

La variancia de la razn es
1- f
var(r)= 2
[ D2 y h + r 2 D2 xh - 2r Dy h D xh ]
x
donde- - Dyh = ( yha - yhb )

Dxh = ( xha - xhb )


= ( )

20

10
6/1/2016

DIFERENCIA DE DOS MEDIAS DE RAZN

La diferencia se calcula como




= =

La variancia de la diferencia es
var(r- r ) = var(r)+ var(r ) - 2cov(r,r )
Donde
1
cov(r,r ) = [ d y h dy h + rrd xh dx h - rdy h d xh - rd y h dx h ]
xx

Si se trata de dos muestras independientes cov=0


Si son dos dominios de una misma muestra cov=0
Si son dos estratos de una misma muestra cov=0
21

VARIANCIA PARA SELECCIONES


SISTEMTICAS DE CONGLOMERADOS

Un procedimiento es usar pareadas (ya se vio)


Otra forma es usar a-1 diferencias sucesivas
En este caso, la variancia de la razn es
a -1 a -1 a -1
1- f a
var(r)= 2
[ D2 y g + r 2 D2 x g - 2r Dy g Dx g ]
x 2(a - 1) g g g

Donde Dy g = ( y g - y g+1 )

Dx g = ( x g - x g+1 )

22

11
6/1/2016

EXPANSIONES CON
ESTIMACIONES DE RAZN

Antes Y=Fy, donde F=1/f


Y=Fhyh

Ahora la alternativa es usar X


Para estimar totales
X X 2
Y r = Xr = y = Fy con variancia var(Xr)= X var(r)
x Fx
Para el promedio
y y X con variancia var( X r) = X 2 var(r)
Y r = Xr = X = X = y
x x Fx

Ejemplo:
y=nmero de viviendas alquiladas en 1995 en la muestra
x=nmero de viviendas alquiladas en 1985 en la muestra anterior
X=informacin auxiliar de viviendas con base en las proyecciones para23
1995

SELECCIN CON PROBABILIDADES


PROPORCIONALES A LAS MEDIDAS DE TAMAO (PPT)

Hasta ahora, para seleccionar las unidades o elementos stos


eran numerados desde 1 hasta N y, posteriormente, por
medio del azar o con sistemtico, se seleccionaba la muestra
En ocasiones los marcos contienen informacin auxiliar que
puede contribuir a desarrollar mejores procedimientos de
seleccin
Un ejemplo de informacin auxiliar es la construccin de los
estratos para mejorar la seleccin y aumentar la precisin
Sin embargo, y particularmente cuando los conglomerados
son desiguales, su tamao puede contribuir positivamente
con los procedimientos de seleccin
Tratar de controlar el tamao de la muestra (que no sea
aleatorio) con informacin auxiliar del marco es lo que trata
esta parte 24

12
6/1/2016

Controlar el tamao de la muestra?

x (tamao de muestra) vara mucho si los conglomerados tambin


lo hacen. Por lo tanto, x no es fijo y el tamao de la muestra se
convierte en una variable aleatoria
Si se controla x con fb fija, entonces x=X*fb es proporcional al
tamao de los conglomerados, por lo que, si bien es un
procedimiento mesip, eso no soluciona el problema
Por otra parte, si de cada conglomerado desigual se obtiene una
sub-muestra de igual tamao (b), entonces f=fa*fb=fa*b/X es
variable y no es un procedimiento mesip, aunque puede ponderarse
para tratar de solucionar el problema

Es posible controlar x en la prctica? No, pues tambin existe la no


respuesta y el anlisis de sub-clases, pero un control aproximado es
factible y deseable 25

Razones para controlar


el tamao de muestra

1. Para una muestra especfica, existe un lmite superior


soportable de recursos y un mnimo deseado para mantener
una precisin dada

2. Diferencias grandes en X pueden causar ineficiencia


administrativa durante el trabajo de campo

3. Eficiencia estadstica tiende a disminuir por la gran


desigualdad de X

4. Uso adecuado de r requiere de un control apropiado del


coeficiente de variacin del tamao de muestra
26

13
6/1/2016

Formas de controlar el tamao de muestra

La estratificacin por tamao puede disminuir la variacin de la


muestra

Dividir los conglomerados grandes y fusionar los conglomerados


pequeos para hacerlos ms homogneos. El caso del INEC y el
marco muestral de viviendas

Aplicar procedimientos de sub-muestreo estratificado por tamao


para disminuir la variabilidad
Recorrido del
tamao del 0-6 7-12 13-20 21-30 31-40 41-80
conglomerado

fa*fb=1/60 1/60*1 1/30*1/2 1/20*1/3 1/12*1/5 1/10*1/6 1/6*1/10

Recorrido del
tamao del sub - 0-6 3-6 4-7 4-6 5-7 4-8
muestreo 27

Control del tamao de


muestra con PPT
Nmero
Seleccin Seleccin
UPM de Mt Rango
mia sistemtica
viviendas

1 30 30 1-30
2 10 40 31-40 39
3 110 150 41-150 58, 113 139
4 60 210 151-210
5 40 250 211-250 239
6 20 270 251-270
7 30 300 271-300 293

1. Supongamos que se desea una muestra de 15 viviendas, seleccionando a=3 y b=5


2. Antes se numeraban las UPMs de 1 hasta 7 y se seleccionaban tres
3. Ahora se har con PPT, usando seleccin mia o sistemtica
4. Explicar el acumulado y el rango
5. Seleccionar una muestra mia
6. Seleccionar una muestra sistemtica 28

14
6/1/2016

Nmero
Seleccin Seleccin
UPM de Mt Rango
mia sistemtica
viviendas

1 30 30 1-30
2
3
10
110
40
150
31-40
41-150 58, 113
39
139
El procedimiento es mesip?
4 60 210 151-210
5 40 250 211-250 239
6 20 270 251-270
7 30 300 271-300 293

Probabilidad
UPMs 2da
1ra etapa f=
etapa

2 10/300 5/10 5/300


3 110/300 5/110 5/300
7 40/300 5/40 5/300
Para la muestra
la probabilidad 3*(5/300)=15/300=1/20
es...
Para la muestra
la probabilidad 3Mt/300=Mt /(300/3) 5/Mt 15/300=1/20
es...
Generalizando... Mt/(Mt /a) b/Mt f

29

Ms formalmente,
1
= = = = = = =


La frmula de seleccin y la fraccin de muestreo. Explicar en


qu consiste cada una
La frmula de seleccin enuncia al menos 10 caractersticas
del diseo muestral a utilizar. Cules son esas 10
caractersticas? Guese con el siguiente ejemplo
5 1
= = =
300 20
3
30

15
6/1/2016

Ejercicio 7.1

Se desea seleccionar una muestra de viviendas en dos etapas, en una zona


de Alajuela (marco adjunto), para hacer una encuesta a adultos de 18 aos
y ms sobre la opinin que tienen de la situacin actual del pas. Se espera
que las variables de inters tengan una gran variacin (entre 20 y 80%).
Adems, se estableci para la muestra un nivel de confianza del 95% y un
error mximo de 0.05. Para efectos del trabajo de campo se desean
cargas diarias en cada UPM seleccionada de alrededor de 20 entrevistas,
una entrevista por vivienda. Se sabe, tambin, que el 7% de las viviendas
particulares anotadas en el marco estaban desocupadas y que por lo
general en este tipo de encuestas se obtiene un 10% de no respuesta.
Encuestas similares indican que valores de rho cercanos a 0.01 son
bastante probables.

a) Calcule el tamao de muestra asumiendo un mia (sin ajustes).


b) Ajuste el tamao de muestra obtenido en a), dada la informacin
proporcionada en el texto (desocupadas y no respuesta). 31

c) Calcule el tamao de muestra usando un diseo complejo (dos


etapas, usando las UPMs en la primera etapa)
d) Calcule el nmero de UPMs que tendran que seleccionarse para la
muestra
e) Determine para las viviendas la frmula de seleccin y la fraccin
global de muestreo que empleara en el estudio si se usara un diseo
PPT en dos etapas
f) Dados sus clculos, seleccione las UPMs requeridas para hacer la
encuesta con un diseo PPT. Seale con claridad los segmentos
seleccionados anotando una X en la columna del acumulado.
Adems, utilice el muestreo sistemtico, especifique el nmero
aleatorio de arranque y el intervalo de seleccin
g) Determine la fraccin global de muestreo para las personas e
indique si habra que realizar algn ajuste antes de analizar los datos
y cul sera ese ajuste

32

16
6/1/2016

1=U,2=R Provincia
Cantn Distrito #Segmento
CodFus CodDiv #Viviendas
ACUMUL
1 2 1 4 1 0 0 45
1 2 1 4 2 0 0 62
1 2 1 4 3 0 0 57
1 2 1 4 4 0 0 47
1 2 1 4 5 0 0 65
1 2 1 4 6 0 0 71
1 2 1 4 7 0 0 53
1 2 1 4 8 0 0 86
1 2 1 4 9 0 0 52
1 2 1 4 10 0 0 57
1 2 1 4 11 0 0 55
1 2 1 4 12 0 0 45
1 2 1 4 13 0 0 54
1 2 1 4 14 0 0 43
1 2 1 4 15 0 0 68
1 2 1 4 16 0 0 60
1 2 1 4 17 0 0 64
1 2 1 9 1 1 0 50
1 2 1 9 1 2 0 50
1 2 1 9 2 0 0 58
1 2 1 9 3 0 0 57
1 2 1 9 4 0 0 56
1 2 1 9 5 0 0 61
1 2 1 9 6 0 0 53
1 2 1 9 7 1 0 56
1 2 1 9 7 2 0 75
1 2 1 9 8 0 0 60
1 2 1 9 9 0 0 58
1 2 1 9 10 0 0 85
1 2 1 9 11 0 0 46
1 2 1 10 1 0 0 68
1 2 1 10 2 0 0 49
1 2 1 10 3 0 0 48
1 2 1 10 4 0 0 67
1 2 1 10 5 0 0 43
1 2 1 10 6 0 0 41
1 2 1 10 7 1 0 56
1 2 1 10 7 2 0 58
1 2 1 10 7 3 0 54
1 2 1 10 7 4 0 54
1 2 1 10 7 5 0 42
1 2 1 10 8 * 0 129
1 2 1 10 9 1 0 51
1 2 1 10 9 2 0 40
1 2 1 10 9 3 0 62
1 2 1 10 9 4 0 71
1 2 1 10 9 5 0 40
33
1 2 1 10 10 0 0 73

Algunas observaciones

Sobre las medidas de tamao


N es el tamao real o exacto del conglomerado -simo.
Generalmente se conoce cuando se va al campo
En la notacin del libro se usa primero N y posteriormente
Mt
Mt es la medida de tamao de la UPM en el marco muestral
y no es exacta
Mt puede ser:
N en una poca anterior (Censo 2000)
N en una poca anterior y ajustada
Valor asignado por una persona experta en el tema

34

17
6/1/2016

Lo anterior es importante porque si N/Mt tienden a ser


constantes, existir una tendencia a obtener sub-muestras de
igual tamao
Si se asume que se van a sub-muestrear 12 viviendas de cada
conglomerado seleccionado (UPM), Qu sucede si el marco
muestral dice que una UPM tiene Mt=80 viviendas y cuando
se llega al campo existen en realidad N=140 viviendas? Y si
Mt=60 viviendas pero en realidad N =40 viviendas?
Qu sucede en la segunda etapa de seleccin?
Antes En el campo
12 1 12 1
Primer caso = = = =
80 6,6666 140 11,666

12 1 12 1
Segundo caso = = = =
60 5 40 3,333 35

Eso significa que tengo que aumentar o disminuir la sub-


muestra para compensar la probabilidad de seleccin con la
que fue seleccionada la UPM. Cmo?
Qu sucede en la segunda etapa de seleccin?
Antes En el campo Ajuste
12 1 12 1 21 1
Primer caso = = = = = =
80 6,666 140 11,666 140 6,666

12 1 12 1 8 1
Segundo caso = = = = = =
60 5 40 3,333 40 5

Se obtiene un nuevo tamao de sub-muestra para que


conserva la probabilidad de seleccin con que fue
seleccionada la UPM en el marco muestral
Opciones para no variar el tamao de las sub-muestras:
ponderar o sub-muestrar mediante una etapa adicional de
seleccin 36

18
6/1/2016

DE DOS A TRES, CUATRO O MS ETAPAS


DE SELECCIN CON PPT
Dos etapas de seleccin (ya se vio) (solicitar ms ejemplos con base en la
frmula)
=


Tres etapas de seleccin (Distritos en 1ra etapa, UPMs en 2da etapa y
viviendas en 3ra etapa)
Dt es la medida de tamao del distrito (nmero de viviendas)
Mt es la medida de tamao de la UPM (nmero de viviendas)

=


Cuatro etapas de seleccin (Cantones en 1ra etapa, distritos en 2da etapa,
UPMs en 3ra etapa y viviendas en 4ta etapa)
Ct es la medida de tamao del cantn (nmero de viviendas)


=

37

SELECCIONES PAREADAS DE
UPMs CON PPT EN DOS O MS ETAPAS

Ejemplo con dos etapas


Si N=77,200 viviendas
n=400
f= n/N = 1/193
Para b=5, entonces a=n/b=80
Por lo anterior, se requiere seleccionar 2 conglomerados de cada uno
de los 40 estratos

2 2 2 5 2 5 1
= = = = = =
77.200 1.930 193
40
2 2

38

19
6/1/2016

SELECCIONES SISTEMTICAS DE UPMs


CON PPT EN DOS O MS ETAPAS
Procedimiento

Decidir n
Decidir a
Decidir b
Calcular Mt
Calcular tamao de zona K=Mt/a
Hacer el acumulado de Mt
Seleccionar arranque aleatorio de R=1-K
Los conglomerados seleccionados sern R, R+2K, R+3K, etc,
aplicando el intervalo al acumulado Mt
La frmula de seleccin es similar a la de dos, tres o cuatro etapas,
segn sea el diseo muestral
39

MEDIA Y VARIANCIA

Ver frmulas de clculo para la razn, variancia


de la razn y expansiones con estimaciones de
razn en la parte de conglomerados iguales o
desiguales, segn corresponda

40

20
6/1/2016

Ejercicio 7.2

Se va a realizar una encuesta nacional de 2.000 entrevistas para


indagar sobre el consumo excesivo de licor en personas de 18 aos
y ms. El tamao de muestra ya incluye correcciones por viviendas
desocupadas y por no respuesta. Dado el presupuesto disponible se
decidi construir cinco estratos geogrficos y asignar la muestra en
forma proporcional. Adems, para disminuir los costos, se decidi
que en las zonas urbanas del pas se van a seleccionar UPMs y de
cada se va a obtener una sub-muestra de 15 viviendas para hacer
una entrevista por hogar. En las zonas rurales, en cambio, se van a
seleccionar distritos, de cada distrito en la muestra se van a
seleccionar 3 UPMs y de cada UPM se van a seleccionar 15
viviendas, para hacer una entrevista por hogar. El objetivo de este
diseo es concentrar ms la muestra en la zona rural para disminuir
los gastos de viticos y transporte.
41

Nmero de
Estrato Wh nh ah
viviendas

rea
Metropolitana de 182.144
San Jos (AMSJ)
Resto Valle Central
83.650
urbano (RVCU)
Resto del pas
63.651
urbano (RPU)
Resto del Valle
Central rural 96.925
(RVCR)
Resto del pas
162.295
rural (RPR)
TOTAL 588.665

1. Calcule la probabilidad de seleccin de una vivienda (fraccin de


muestreo total)
2. Asigne la muestra proporcionalmente a los estratos
3. Calcule cuntas UPMs debe seleccionar en cada uno de los estratos
4. Proporcione la frmula de seleccin de viviendas para cada uno de los
estratos
5. Corrobore que fh sea la misma para todos los estratos
42

21
6/1/2016

Ejercicio 7.3

Se desea seleccionar una muestra de viviendas en Alajuela, Cantn


Primero (marco en Excel y en SPSS), para hacer una encuesta de opinin a
personas adultas de 18 aos y ms. Se estableci para la muestra un nivel
de confianza del 95% y un error mximo de 0.03. Para efectos del trabajo
de campo se desean cargas diarias en cada UPM seleccionada de
alrededor de 15 entrevistas. Se sabe, tambin, que el 7% de las viviendas
particulares anotadas en el marco estaban desocupadas y que por lo
general en este tipo de encuestas se obtiene un 10% de no respuesta.
Encuestas similares indican que valores de rho cercanos a 0.03 son
bastante probables.
Otra informacin es la siguiente:
Ser seleccionada una persona por vivienda utilizando un mtodo aleatorio; el
cumpleaos ms prximo
En la zona urbana sern seleccionadas UPMs. Una vez seleccionadas se
dividirn en compactos de 15 viviendas y ser seleccionado uno al azar
43

En la zona rural, para reducir los costos, se decidi seleccionar distritos una
muestra de distritos y dentro de los distritos 2 UPMs. Cada UPM ser dividida
en compactos de 15 viviendas y se escoger uno al azar

Se solicita especificar un diseo de muestra de reas que cumpla los requisitos


antes indicados, considerando tambin otros elementos como practicidad,
eficiencia, etc. Tambin se pide realizar la seleccin concreta de las UPMs que
deben incluirse en la muestra. No olvide aclarar todos los detalles
relacionados con la seleccin: intervalo de seleccin, fraccin de muestreo de
viviendas en marco, frmulas de seleccin PPT, etc.

Sugerencias:
a) Revise cuidadosamente los ejercicios anteriores
b) Verifique los siguientes datos para que se apoye en sus clculos

44

22
6/1/2016

URBANO RURAL TOTAL


CDIGO DISTRITOS
# UPMs # VIV # UPMs # VIV # UPMs # VIV
1 Alajuela 159 10.090 0 0 159 10.090
2 San Jos 37 2.361 34 2.016 71 4.377
3 Carrizal 0 0 15 694 15 694
4 San Antonio 17 984 30 1.721 47 2.705
5 Gucima 0 0 21 1.245 21 1.245
6 San Isidro 0 0 47 2.294 47 2.294
7 Sabanilla 0 0 23 1.107 23 1.107
8 San Rafael 0 0 25 1.359 25 1.359
9 Ro Segundo 13 765 21 1.135 34 1.900
10 Desamparados 18 1.046 18 1.052 36 2.098
11 Turrucares 0 0 17 890 17 890
12 Tambor 0 0 22 1.180 22 1.180
13 Garita 0 0 20 1.079 20 1.079
14 Sarapiqu 0 0 10 444 10 444
TOTAL 244 15.246 303 16.216 547 31.462

45

CASO ESPECIAL:
PPT CON UNA ETAPA DE SELECCIN

Se le conoce como seleccin con probabilidades variables


En qu consiste el procedimiento de seleccin?
Seleccin al yi=
Mt=
UPM= azar (puede Gasto en
nmero de Acumulado
Empresas ser alimentacin
empleados
sistemtica) por mes
1 3 3
2 1 4
3 11 15 r=8 1.200
4 6 21 r=18 500
5 4 25
6 2 27
7 3 30 r=28 400
Total 30

Cmo se calcula la media y la variancia de este diseo muestral?

46

23
6/1/2016

Seleccin al yi=
Mt=
UPM= azar (puede Gasto en
nmero de Acumulado
Empresas ser alimentacin
empleados
sistemtica) por mes
3 11 15 r=12 1.200
4 6 21 r=20 500
7 3 30 r=28 400
Total 30
Dado que la seleccin tom en cuenta el tamao de las empresas, no
todas tuvieron igual probabilidad de salir en la muestra
La Empresa 3 tuvo una probabilidad de p3=11/30, la Empresa 4 de p4=6/30
y la Empresa 7 una de p7=3/30. El procedimiento no es mesip
Cmo puede corregirse esa situacin para estimar el gasto en
alimentacin?
Recuerde que Y=y/f, en la poblacin general y que Yh=yh/fh
Por analoga, si en la Empresa 3 se calcula y3/p3=y3/(11/30)=30y3/11, se
obtiene la estimacin de lo que gastan en alimentacin los 30 empleados
de la poblacin, bajo el patrn de los 11 empleados en la muestra de la
Empresa 3, por lo que Y3=y3/p3
Si se procede igual para la Empresa 4, entonces Y4=y4/p4 y para la Empresa
6 sera Y6=y6/p6.
Dado que se tienen tres estimaciones diferentes del gasto en alimentacin
para los 30 empleados, el resultado se promedia por el nmero de
empresas en la muestra. Esto lleva a las siguientes frmulas de estimacin
47

Estimacin para el total


1 y 1 y 1
Y ppt = = = Y
a Mt / Mt a p a
Con variancia
1 ( Y - Y ppt )
2

var(Y ppt ) =
a a -1

Para estimar la media 1 1 y


y ppt = y =
a a Mt
Con variancia
s ppt 1 ( y - y ppt )
2
2
var( y ppt ) = =
a a a -1

48

24
6/1/2016

Ejercicio 7.4

Sukhatme, pgina 50-51 (adaptado)

En una comunidad agrcola se requiere estimar las siembra de


arroz. Se posee un marco muestral en el que vienen
registradas 892 fincas. Adems, cada finca tambin registra el
total de tierra cultivada, la que suma para toda la comunidad
un total de 568.565 acres. Para cumplir el objetivo se
seleccion una muestra aleatoria de 25 fincas con base en el
rea total de tierra cultivada (acres) para hacer una
estimacin de la siembra de arroz (cuadro siguiente)

Calcule el intervalo de confianza para la estimacin de la


siembra de arroz (95% de confianza) 49

Nmero de Total de rea rea cultivada


finca cultivada de arroz
1 1.232 688
2 327 231
3 1.346 768
4 1.283 898
5 428 417
6 871 697
7 1.042 785
8 1.262 1.190
9 497 338 Recordar entregar la hoja en Excel para
10 1.016 745
11 651 392 que realicen los clculos
12 1.170 1.055
13
14
2.630
515
2.400
330
RESPUESTAS
15 895 810 El total es 444.579 acres de arroz
16 1.055 1.026 El error estndar de la estimacin es
17 2.110 1.666
18 979 929
de 15.882 acres
19 671 565
20 120 101 Con tn-1 gl al 95% se obtiene 2,064
21 541 516
22 1.331 1.036
23 842 568 Li=411.799
24 162 137
25 206 107
Ls=477.360

TOTAL 23.182 18.395 50

25
6/1/2016

TAREA 7

Para realizar la Encuesta Nacional de Cultura se utilizar el archivo


MMV_2011_finaln.sav. Se requiere una muestra con cobertura
nacional de 1.200 hogares, asignados proporcionalmente a la zona del
pas (urbano y rural). Para seleccionarla, en cada estrato se usar PPT
(en proporcin al nmero de viviendas). La seleccin de segmentos o
distritos dentro de los estratos debe hacerse con seleccin sistemtica
y tambin la de viviendas dentro de los segmentos. Se solicita lo
siguiente:

Con base en el marco muestral calcule, para todo el pas y para cada
zona (urbano y rural), el porcentaje de hogares que posee
computadora de escritorio (compu_portatil) y carro (carro).
Tambin calcule para todo el pas, y para cada zona, la razn de
hombres (tot_hombres) a mujeres (tot_mujeres) y el nmero de
personas (num_miembros) por dormitorio (num_dormitorios) en el
hogar. Confeccione un cuadro o grfico con los resultados
obtenidos.
51

Diseo 1. Seleccione la muestra en dos etapas usando los


segmentos censales como UPM y haciendo un sub-muestreo de 5
viviendas (b=5) en cada segmento censal seleccionado. Para ello,
especifique el nmero de UPMs a seleccionar, el tamao del
conglomerado, obtenga la frmula de seleccin del diseo y la
fraccin de muestreo (o probabilidad de seleccin). Con base en la
muestra seleccionada estime, para todo el pas y para cada zona, lo
solicitado en el punto 1, agregando los errores estndar de las
estimaciones, los intervalos de confianza, los coeficientes de
variacin y los efectos del diseo. Incluya la muestra seleccionada
en el anexo del informe y confeccione un cuadro o grfico en el que
se compare la informacin obtenida en 1 con los resultados de esta
muestra.

52

26
6/1/2016

Diseo 2. Seleccione la muestra de la siguiente manera. En la parte urbana


del pas utilice los segmentos censales como UPM y de cada uno de ellos
haga un sub-muestreo de 5 viviendas. En la parte rural del pas, para
disminuir los costos, utilice los distritos como UPM y de cada distrito
seleccionado (primera etapa) seleccione dos segmentos censales (segunda
etapa), luego haga un sub-muestreo de 5 viviendas en cada uno de ellos
(tercera etapa). Especifique para cada zona el nmero de UPMs a
seleccionar, el nmero de segmentos en cada UPM y el tamao del
conglomerado final. Para cada zona obtenga la frmula de seleccin y la
fraccin de muestreo (o probabilidad de seleccin). Con base en la
muestra seleccionada estime, para todo el pas y para cada zona, lo
solicitado en el punto 1, agregando los errores estndar de las
estimaciones, los intervalos de confianza, los coeficientes de variacin y
los efectos del diseo. Incluya la muestra seleccionada en el anexo del
informe y confeccione un cuadro o grfico en el que se compare la
informacin obtenida en 1 con los resultados de esta muestra.

53

Diseo 3: Seleccione la muestra en una etapa usando los


segmentos censales como UPM y conglomerados completos
(siempre con PPT). Para ello, especifique el nmero de UPMs a
seleccionar, el tamao del conglomerado y obtenga la fraccin de
muestreo (o probabilidad de seleccin) con ese diseo. Con base en
la muestra seleccionada estime, para todo el pas y para cada zona,
lo solicitado en el punto 1, agregando los errores estndar de las
estimaciones, los intervalos de confianza, los coeficientes de
variacin y los efectos del diseo. Incluya la muestra seleccionada
en el anexo del informe y confeccione un cuadro o grfico en el que
compare la informacin obtenida en 1 con los resultados de esta
muestra.

Cul fue el mejor diseo y por qu?

54

27

También podría gustarte