Está en la página 1de 12

Tema: Muestreo por etapas.

1.- Introduccin:
En el tema dedicado a muestreo por conglomerados, la forma de actuar consista en
investigar (encuestar) a todos los individuos de los clusters o conglomerados seleccionados:
Se hizo notar que aunque el muestreo por conglomerados es econmico tambin es,
habitualmente, menos eficiente que muestrear el mismo nmero de individuos directamente
de la poblacin.
Conclusin, para mejorar el muestreo por conglomerados, se ganar en precisin si, fijado
un nmero de unidades que conformen la muestra:
i) Las unidades estn localizadas sobre un gran nmero de conglomerados.
ii) En lugar de tomar todos los individuos del conglomerado, tomar slo una muestra.
A esta forma de proceder se la denomina actuar por submuestreo y conduce a la siguiente
definicin;
Definicin:
El muestreo consistente en tomar en una primera etapa conglomerados (unidades
primarias, psu) y a continuacin tomar un nmero especfico de unidades de cada
conglomerado seleccionado (unidades secundarias, ssu), se denomomina muestreo
bietpico o en dos etapas.
Conceptos propios de este diseo:
i) Conglomerado ltimo, introducido por Hansen, Hurwitz y Madow (1953),
corresponde al conjunto de individuos de la muestra que pertenecen a una misma
unidad primaria.
Este concepto permite obtener un posible estimador de la varianza del estimador del
parmero de inters considerando el muestreo Multietpico o Polietpico como un caso
especial de muestreo por conglomerados con una sola etapa.
Bietpico: Unidades primarias y secundarias
ii) Muestreo
Multietpico o Polietpico: Unidades primarias, secundarias, .........
Ejemplo Multietpico: Produccin de un cierto cereal; Unidades Primarias: Provincias;
Unidades secundarias: Pueblos; Unidades terciarias: Campos de los pueblos dedicados al
cultivo de ese cereal; Unidades de cuarto orden: Pequeas parcelas del mismo tamao
dentro de esos campos.
Evolucin Histrica; Los pioneros en esta tcnica de muestreo fueron Cochran (1939),
Mahalanobis (1940) y Lahiri (1954).
Notacin: (Caso bietpico)
psu: Unidades primarias
ssu: Unidades secundarias;
N I : Nmero de unidades primarias (psu) que conforman la poblacin;
n I : Nmero de unidades primarias (psu) seleccionadas en la muestra;
N i : Nmero de unidades secundarias (ssu) de la i-sima psu. (Alternativa polietpica
N IIi )
n i : Nmero de unidades secundarias (ssu) de la i-sima psu tomadas en la muestra.
(Alternativa polietpica n IIi );
NI

N N i : Nmero total de unidades secundarias (ssu) en la poblacin; (Alternativa


i1

polietpica N II );
M

N
NI

: Nmero medio de ssu por psu;

y ij : Valor de la variable de inters medida en la j-sima ssu de la i-sima psu


y ij i1,...,N I
j1,...,N i
Ni

i y ij : Total de la variable de inters en la i-sima psu.


j1
NI

NI Ni

i1

i1 j1

i y ij : Total de la variable de inters en la poblacin.


Ni

y ij
i

j1

1
N
ni

Ni
NI

i
Ni

: Media de la variable de inters en la i-sima psu.

N i i : Media poblacional de la variable de inters.


i1

y i y ij : Total muestral de la i-sima psu.


j1
nI

y y i : Total muestral.
i1
y

y i nii : Media muestral de la i-sima psu.


Ii y Iij : probabilidades de inclusin de las unidades psu con diseo p I ;
Iij Iij Ii Ij .

k/i y kl/i : probabilidades de inclusin de las unidades ssu con diseo p i


kl/i kl/i k/i l/i
Conclusin: La poblacin U 1, . . . , N es particionada en subpoblaciones, unidades psu,
NI
U 1 , . . . , U N I , U U i ; Cada conglomerado U i est compuesto por N i unidades ssu /
NI

i1

N N i ; Por tanto, la poblacin de psu se denomina U I 1, . . . , N I .


i1

2.- Caso Bietpico General.


Situacin:
1 Etapa: Se toma una muestra s I de psu de acuerdo a un diseo p I ; s I n I
2 Etapa: Para cada i s I se toma una muestra de s i elementos utilizando un diseo
p i /s I ; s i n i
La muestra final de individuos est compuesta por s s i ; s n.
is I

Observaciones:
i) La formulacin del diseo permite utilizar cualquier diseo en la 1 etapa y cualquier
diseo de submuestreo en la 2 etapa i s I .
ii) El submuestreo en cada U i is I podra depender de la muestra s I obtenida en la primera
etapa.
iii) El submuestreo en U i no es necesariamente independiente del submuestreo en U j
i j.
Los apartados ii) y iii) van a conducir a la necesidad de exigir de ahora en adelante dos
propiedades en nuestro diseo, invarianza e independencia.
Conceptos:
i) Invarianza:
p i /s I p i s I y i s I Siempre que la i-sima psu se incluya en s I se debe usar el
mismo diseo p i .
Ejemplo: Prerequerir que siempre que se incluya la i-sima psu en s I , se tome una m.a.s. de

n i unidades de U i sin atender que otras psu conforman s I .


ii) Independencia:
s i /s I

pi

p i s i /s I ;

is I

s i U 1 . . . s i . . . U N I ; s j si j s I , es

is I

is I

iU I

decir, submuestrear en una psu dada es independiente de submuestrear en otra cualquiera


psu.

2.1 Caso General: Muestreo bietpico sin reemplazamiento


El problema que se plantea es obtener, ante las mltiples posibilidades de opcin de diseo
en las distintas etapas, las probabilidades de inclusin;
k Ii k/i si k U i
Ii k/i si k l U i
kl

Ii kl/i si k y l U i

Iij k/i l/j si k U i y l U j i j


-Estimador y Varianza: (Srndal)
Con cada una de las muestras s i , i 1, . . . , n I , se estima i para cada i-sima PSU
seleccionada en primera etapa (unidad primaria) con el -estimador insesgado:
y
yk

i s i k/ik s i y k/i ;
i 1, . . . , n I
y k/i k/i ,
V i Var i

U i kl/i

V i Var i

si

kl/i
kl/i

kl/i

kl/i k/i l /i
kl/i

y k/i y l/i ,

kl/i y k/i y l/i

i 1, . . . , n I
estimador

insesgado

de

Var i

para i 1, . . . , n I
El -estimador insesgado de i ser:
UI

i
Ii

sI

V 2 Var

V psu V ssu U I Iij

V 2 Var

V psu V ssu s I

i j
Ii Ij

i j
Iij Ii Ij

UI

Vi
Ii

sI

1
Ii

1
Ii

V i s I

Vi
2Ii

s I Iij iIi jIj s I VIii permite estudiar la contribucin a la variacin en cada


etapa;
Existe una expresin computacional alternativa de la estimacin de la variacin que es
2

sI

i j
Iij Ii Ij

que comete un sesgo

U I V i , es decir, subestima la

varianza de . Esta subestimacin en muchos casos es poco importante.

2.2 Caso: Muestreo Aleatorio Simple en las dos etapas:


i) Estimador del total con tamao poblacional conocido:
Supongamos N conocido, que las unidades de la primera etapa son de tamao desigual y las
unidades se seleccionan usando probabilidades iguales y m.a.s. en ambas etapas;
m.a.s.en la 1 y 2 etapa

nI
k Ii k/i

Nn ii
NI
Utilizando la definicin bsica de -estimador:
y
1 kk Nn II y k Nn ii Nn II N i y i
is I ks i

is I ks i

sI

Utilizando el estimador 1 : 1

i
Ii

sI

Teniendo en cuenta que:

yk
k/i

si

y k Nn ii

N i y i

NI
nI

sI si

ni
Ni

si

nI
NI

Ii
NI
nI

yk

NI
nI

sI

yk

ni
Ni

si

que observamos que coincide con el obtenido a

sI

partir de la expresin bsica del -estimador del total.

Con respecto al estimador de la media poblacional: 1

Var 1

1f I
nI

S 2
1b

nI

NI nI

N 2i
N
NI

i1

1f i
ni

y i N i

1 NI
N nI

sI

nI

S 2
1b

1
N

1
n I 1

S 2
i ;

N
NI

i1
ni

S 2
i

1
n i 1

N i y i

y ij y i
j1

nI

Var 1

N 2I

1f I
nI

N 2i 1fn S 2
i ;

NI
nI

S 2
tb

S 2
tb

nI

nI

1
n I 1

i1

nI

i1

i1

S 2
i

ni

1
n i 1

y ij y i
j1

ii) Supongamos N desconocido:


Para estimar el total no se precisa conocer N 2 1

NI
nI

N i y i
sI

Para estimar la media poblacional se precisa estimar previamente N :

N i N total de individuos en la muestra s I


is I

N medio de individuos por conglomerado en la muestra s I .

is I

nI

NI

is I

estimador del n total de individuos en la poblacinN

nI

Por tanto 2

2
N

NI
nI

sI

NI

N i y i

Ni

is I
nI

N i y i .

N i

is I

is I

Sesgo de

2 :

NI

S 2
m
1f I
nI

1
N
NI

1
N I 1

Ni

N
NI

N
NI

i1
NI

S 2
m S my ;

S my

1
N I 1

Ni

N i y i NNI

i1

Estimador sesgado de la varianza (ECM):

AVar 2

1f I
nI

S 2
2b

S 2
2b

nI

1
N
NI

nI

1
n I 1

N 2i 1fn S 2
i ;

i1
ni

nI NI

i1

S 2
i

1
n i 1

N
NI

y i 2

y ij y i
j1

N 2i

Se observa que tambin es preciso estimar

N
NI

1
NI

is I

NI

nI

is I

nI

iii) Conglomerados ltimos:


Se entiende por conglomerado ltimo las unidades muestrales de ltima etapa que
pertenecen a una misma unidad primaria (psu); La teora del tema de conglomerados
resuelve el problema de estimacin.
Suponiendo n i n j i j, i, j s I , el diseo pasa a consistir en tomar una m.a. de n I
conglomerados de los N I (Utilizando las frmulas vistas para, conglomerados del
mismo tamao n i )

Para : Dado que i y i

y ij

; P.

is I

nI

ni

j1

ni

y i

1
nI

is I

Si n I se toma sin reposicin:

1f
Var 3 n I I

1
n I 1

y i 3

is I

Si n I se toma con reposicin:

Var 3

1
NI nI

1f i
ni

S 2
i

is I

i 3 2
is I

n I n I 1

Notas:

a) Siempre que n I sea grande y Corr N i y i , N i 0, el 2 es ms eficiente que

3 .

b) Para utilizar 3 tampoco se precisa conocer N.


iv) Obtencin del tamao de muestra n I fijados B y k :
2

1f
1f
1
B2
Var 3 n I I
y

N 1n I n i i S 2

i k2
i
1
n I 1
I

is I

Habitualmente se tendr que suponer f I 0 y f i 0;


Con

la

V 2

muestra
1
ni

piloto

se

estimarn

V 1

is I

1
n I 1

y i 1

is I

S 2
i ;

is I

Ecuacin:

1
nI

V 1

1
NI nI

V 2

B2
k2

V 1

1
nI

1
NI

V 2

B2
k2

nI

V 1 N1 V 2
I

B2
k2

2.3 Caso: Diseos con pesos.


Se caracterizan por disponer de una informacin auxiliar medida por una v. X en cada psu
x i iU I .
i) Muestreo pps con reemplazamiento en 1 etapa y ma.s. en 2 etapa:
Se dispone de la informacin de una v. auxiliar, x 1 , . . . , x N I para las unidades psu;
p i x ix , i U I .
1 Etapa: Se toma una m.a. pps de n I unidades primarias con reemplazamiento;
cong

1
nI

sI

k
pk

2 Etapa: Se estiman k ks I tomando en cada conglomerado una m.a.s. de n k unidades


de las N k ;
nk

y kj
nk
Nk

j1

Por

tanto

1pm

1
nI

nk

1
pk

nk
Nk

j1

ks I

insesgado de .

y kj

Nk
pk

y k

estimador

lineal

ks I
2

Var 1pm

1
nI

N k y k
pk

pm

ks I

1
nI

n I 1

ii) Conglomerados ltimos:


En general, si en 1 etapa tomamos una m.a. pps de n I unidades primarias con

reemplazamiento y si i es un estimador insesgado del parmetro i en el conglomerado


ltimo de la i-sima unidad psu, se
puede utilizar:

k
1
2pm n I p k ; estimador insesgado de , A
ks I

k
pk

2
n I 2pm

ks I
Var 2pm n1I
n I 1
Nota: Si una unidad psu se selecciona ms de una vez, se submuestrear, de manera
independiente, tantas veces como salga.

3.- Muestreo Polietpico.


3.1 Muestreo sin reemplazamiento:
Supongamos r etapas con r 2, los estimadores propuestos sern:
mp

k
Ik

ks I

Var mp

U I Iij

i j
Ii Ij

UI

Vi
Ii

donde el primer trmino representa la

contribucin a la varianza en la primera etapa y el segundo combina la contribucin a


la varianza en las siguientes etapas del muestreo.
Var mp

V psu V ssu s I

i j
Iij Ii Ij

sI

Vi
Ii

Una simplificacin de la estimacin de la varianza ser V s I


menudo conducir a una importante subestimacin.

Otra alternativa ser (1) V

1
1
n I n I 1

sI

i
p Ii

mp

i j
Iij Ii Ij

que, a

donde p Ik se determina

considerando Ik n I p Ik ; Este estimador puede sub o sobre estimar dependiendo del

sobreestima la seleccin de n I conglomerados sin


diseo muestral. V
reemplazamiento es ms eficiente para estimar el total que tomar n I con
reemplazamiento.

3.2 Muestreo Trietpico:


Notacin:
i. Los N elementos de U se particionan en N I unidades psu, U 1 , . . . , U N I representados
por U I
Sea N i el tamao de U i , N U I N i

ii. Los N i elementos de U i i 1, . . . , N I se particionan en N IIi unidades secundarias


(ssu) U i1 ,U i2 , . . . , U iN IIi
El conjunto de N IIi unidades secundarias que particionan U i se representa
simblicamente por U IIi 1, . . . , q, . . . , N IIi
Considerando N iq el tamao de U iq N i U IIi N iq
iii. Las unidades muestrales terciarias son los elementos de la poblacin.
Procedimiento:
Etapa 1: Se toma una muestra s I de psu con un diseo p I .
Etapa 2: Para cada i s I se toma una muestra de s IIi unidades de entre U IIi segn un
diseo p IIi
Etapa 3: Para q s IIi se toma una muestra de entre U iq segn un diseo p iq.
Por tanto s s iq
is I qs IIi

Probabilidades de inclusin: (Notacin)


Iij ;
Iij Iij Ii Ij ;
Iii Ii
Ii ;
IIq/i ;
IIqr/i ;
IIqr/i IIqr/i IIq/i IIr/i ;
IIqq/i IIq/i
k/iq
kl/iq ;
kl/iq kl/iq k/iq l/iq ;
kk/iq k/iq

IIqr/i
kl/iq
Iij
Iij Iij ; IIqr/i IIqr/i ; kl/iq kl/iq
iq U iq y k ; i U IIi iq ; U I i
Estimaciones:
yk
iq s iq k/iq
iq
IIq/i

i s IIi
sI

i
Ii

V 3st

V PSU V SSU V TSU

V 3st

s I Iij

V i s IIi IIqr/i

V iq s iq kl/iq

i j
Ii Ij

iq ir
IIq/i IIr/i

sI

s IIi

Vi
Ii

donde:

V iq
IIq/i

yl
yk
k/iq l/iq

3.3 Conglomerados ltimos:


i) Si en 1 etapa tomamos una muestra pps de n I unidades primarias con reemplazamiento y
si i es un estimador insesgado del parmetro i en el conglomerado ltimo de la i-sima
unidad psu:
2pm

1
nI

k
pk

; estimador insesgado de

ks I

Var 2pm

1
nI

k
pk

n I 2pm

ks I

n I 1

Nota: Si una unidad psu se selecciona ms de una vez, se submuestrear, de manera


independiente, tantas veces como salga.
ii) Si en 1 etapa tomamos una m.a.s de n I unidades primarias y si i es el estimador
insesgado del parmetro i de la i-sima unidad psu, entonces
c
ks I

k
Ik

V
Var c

N 2I

sI

nI

ks I

1
nI

(1) sobrestima

n I 1

V 1

nI
NI

subestima

Nota: Se puede mejorar la eficiencia en diseo polietpico del siguiente modo;


Estratificar los conglomerados por alguna medida de tamao para que los
conglomerados de tamao comparable se agrupen juntos.
Utilizar m.a.s. en las dos etapas en cada uno de los estratos.
Obtencin del tamao de muestra n I fijado B y k :

Var c

N 2I

sI

nI

ks I

1
nI

B2
k2

n I 1

s
I

nI

ks I

Con la muestra piloto se estimar

n I 1

y se despeja n I

4.- Estimadores de Regresin en Muestreo


Bietpico.
Las posibilidades de diseo son amplsimas en funcin de:
i) La clase y la extensin de la informacin de la v. auxiliar.
ii) El diseo utilizado para tomar las unidades psu y ssu.
iii) La forma de la poblacin.
Del anlisis del punto i) surgen, al menos, las siguientes alternativas:
A.- Se dispone de informacin auxiliar i U I (todas las psu).
B.- Se dispone de informacin auxiliar x i i U (todos los individuos de la
poblacin).
C.- Se dispone de informacin auxiliar x i tan slo para los individuos de las psu
seleccionadas en 1 etapa.
Ejemplos:
Supongamos un experimento a nivel nacional sobre hospitales:
Unidades psu: las provincias; Desde un punto de vista administrativo tenemos
mucha informacin de tipo A.-, caract. demogrficas, censo, poblacin trabajadora,
....
Seleccionar una primera muestra de provincias y listar todos los listados de las
provincias; ser fcil disponer de informacin tipo C.- de estos hospitales tomados
en la muestra.
Tambin resulta factible informacin tipo B.- conocer datos de todos los hospitales
nacionales.

Consideremos un experimento en una gran ciudad consitente en evaluar el espacio


habitable de los edificios; unidades psu las manzanas y unidades ssu los edificios:
Inf. tipo B.-: El ayuntamiento proporcionar informacin auxiliar de todos los
edificos de la ciudad.
Inf. tipo A.-: Informacin del nmero de habitantes por manzana o rea o nmero
de edificios,....

4.1 Caso A.-:


Se dispone de informacin auxiliar de cada uno de los cluster, C i i1, ..., N I .
El objetivo es estimar y y k estimando los totales de una muestra de psu yi i1, ..., n I .
kU

4.1.1 Si se puede suponer tericamente que el modelo para


yi , C i
es yi I C i i con las siguientes propiedades:
i1, ..., N

los

puntos

E yi I C i ; Var yi 2I C i ,

se utilizar el modelo comn de razn,

Ar

I Ci ;
UI

yi
Ii

is I

Ci
Ii

is I

yi

yk
k/i

ks i

En la prctica esta situacin se manifiesta cuando el total del conglomerado es proporcional


a la medida auxiliar tomada. Esto sucede habitualmente al tomar como informacin auxiliar
una medida del tamao del conglomerado, como por ejemplo area del conglomerado,
nmero de lementos en el conglomerado, ...
4.1.2 Supongamos que, tericamente, el modelo para los puntos
yi , C i
es
i1, ..., N
I

yi I C i i con las siguientes propiedades:


E yi I C i ; Var yi 2Ii .

Lo primero ser estimar yi en cada conglomerado, yi

yk
k/i

si

s
I I

sI

C i yi
2
Ii Ii

Tema de estimadores indirectos

C2
i
2
Ii Ii

Ar yip

yi yip
Ii

; yip I C i

sI

UI

yi , C i

4.1.3 Supongamos que, tericamente, el modelo para los puntos


yi I C i i con las siguientes propiedades:

i1, ..., N I

es

E yi I C i ; Var yi 2Ii .

En este caso Ar yip .


UI

4.2

Caso
yk, xk

B.-: Supongamos que el modelo que describe


, x k kU , verifica:
ks
EY k X k ; VarY k 2k

Br y k

yk y k
k

y k xk

kU

, s

4.3

Caso
yk, xk

C.-: Supongamos que


, x k kU i , verifica:
ks
is I

el

modelo

que

EY k X k ; VarY k 2k

describe

las

observaciones

ykxk
2
k k
xk
2
k k

las

observaciones

Cr
sI

yir
Ii

yir

y k
Ui

si

yk y k
k/i

, i s I

sI

y k
Ui

Ii

yk y k
k

Nota: Desde un punto de vista experimental existen multitud de posibles variaciones de


modelos, algunos de los cuales pueden consultarse en el Tema 8 del texto de Srndal.

10

5.- Ejemplo.
Con objeto de estimar la produccin total de trigo de una regin, se seleccionan 5 de
los 110 pueblos que la constituyen. La seleccin se realiza con diseo pps con
reemplazamiento utilizando como informacin auxiliar el rea, en hectreas, dedicado a la
agricultura, v.a. X. El rea total dedicado a agricultura es de x 140576 hectreas.
Los pueblos a su vez estn divididos en campos y se toma una m.a.s. de aproximadamente
el 10% de stos. Por ltimo de cada campo seleccionado se toma una m.a.s. de
aproximadamente el 10% de las parcelas que componen cada uno de estos campos.
Atendiendo a la siguiente notacin,
X i : Area del pueblo dedicado a la agricultura
N II : N de campos en el pueblo
n II : N de campos en el pueblo tomados en la muestra
N ij : N de parcelas en el campo j del pueblo i
n ij : N de parcelas en el campo j del pueblo i tomados en la muestra.
Y k : Area dedicada al trigo en la parcela seleccionada.
Los resultados observados fueron los siguientes:
Pueblo

Xi
1410

935

601

1905

904

N II n II
31

18

23

36

22

N ij

n ij

Yk

27

138, 166, 190

32

142, 185, 215

18

110, 133

25

160, 164, 210

37

100, 162, 85, 124

33

107, 140, 163, 116

22

105, 98

55

200, 140, 173, 160, 101, 128

19

120, 135

43

149, 113, 161, 131

37

110, 124, 90

26

190, 105, 166

48

136, 170, 100, 156, 140

Solucin:
Estimacin del nmero de parcelas total de los 110 pueblos:
N

1
5

N1
p1

. . . Np 55

Opcin 1:
Puesto que el diseo es trietpico, se resolver utilizando conglomerados ltimos buscando
un estimador insegado del parmetro total del rea dedicada al trigo en cada pueblo.
Parmetros que se precisa estimar:
Nmero de parcelas que tiene cada uno de los pueblos seleccionados:
N1

11

273218
3

31

........

Estimacin insesgada de la produccin total en cada uno de los pueblos:


138166190
3

27

142185215
3

32

110133
2

18

31

.............

Produccinntotal de trigo en los 110 pueblos, estimacin puntual y por I.C.:

1
nI

k
pk

1410
904
p 1 140576
,...,p 5 140576

k1

Var

1
nI

nI

1
5

1
p1

. . . p 55

2
k
pk

n I

k1

n I 1

Opcin 2:
Estimacin de la produccin total en cada uno de los pueblos:
1

138166190142185215110133
8

N1

.............

Produccinntotal de trigo en los 110 pueblos, estimacin puntual y por I.C.:

1
nI

k
pi

1410
904
p 1 140576
,...,p 5 140576

k1

Var

1
ni

ni

1
5

1
p1

. . . p 55

2
k
pi

n i

k1

n i 1

Ejercicio: Comprobar con que opcin se comete menor error

12

También podría gustarte