Está en la página 1de 11

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Departamento de Estadística e Informática


Técnicas de Muestreo II

Capítulo V
MUESTRAS COMPLEJAS

“Las muestras no están dada, las muestras deben ser seleccionadas,


asignadas o capturadas. El tamaño de la muestra no siempre es fijo. En
estudios por muestreo, el tamaño de muestra es casi siempre una variable
aleatoria. Los datos no siempre son independientes o idénticamente
distribuidos y usualmente no son seleccionados de una sola población, sino de
sub-poblaciones compuestas o complementarias. Más aún no se produce una
sola estimación, se produce un conjunto de estimaciones, asi que la historia
que siempre nos han contado está equivocada”
Leslie Kish

Introducción
Hasta el momento se han desarrollado los diseños muestrales simples, es decir
solo se aplica el MAS, el MAE (con MAS dentro de cada estrato) o el de
conglomerados (utilizando MAS o sistemático para la selección de las UPMs o
USMs).
La mayoría de estudios de gran magnitud, comprenden el uso de varios
diseños muestrales a la vez o a combinación de estos. Así mismo, para estimar
la variable de interés se puede hacer uso de variables auxiliares, lo que implica
el uso de estimadores como de regresión, razón o diferencia. Este tipo de
situaciones, se refiere al análisis de Muestras o Encuestas Complejas.
En este capítulo se analizará los aspectos teóricos de datos provenientes de
muestras complejas.

1. Definición
Se acostumbra llamar muestra o encuesta compleja cuando se tiene la
combinación de estratos, estimadores de razón, regresión o diferencia y varias
etapas de muestreo. Con tener dos de estas características se le llama
encuesta compleja.
Una encuesta compleja resulta cuando ya no es posible utilizar el muestreo
aleatorio simple debido al alto costo de obtención del marco muestral, así como
el tiempo que cuesta obtenerlos. En estos casos es necesario realizar otros
diseños como conglomerados multietápico, probabilidades desiguales y otras
formas de estratificación.
El muestreo simple exige tener un listado muy detallado de las unidades de
análisis. Por lo general este marco rara vez se dispone, y su acceso no es
inmediato, además que sería muy costoso obtenerlo. Para reducir el costo se
definen muestras complejas aumentando el número de etapas en el diseño, lo
que conlleva a la disminución de la precisión pero una ganancia en el acceso
y demora en la recogida de los datos.

Mg Sc Jaime Carlos Porras Cerrón 132


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

2. Uso de Métodos indirectos de Estimación en el muestreo Estratificado


En el muestreo estratificado también se puede considerar estimaciones de la
razón, regresión y por diferencia. Sin embargo, para el caso del estimador por
regresión debe existir información suficiente tanto para la variable dependiente
como para la independiente en cada estrato.
Existen dos técnicas distintas de obtención de estimadores.
La primera de ellas denominada estimación simple o separada, consiste en
obtener estimadores de la razón para la característica en estudio dentro de
cada estrato y formar posteriormente el estimador estratificado que aglutina las
estimaciones en cada estrato mediante el método habitual en muestreo
estratificado.
La segunda técnica denominada estimación combinada consiste en realizar
estimaciones para los parámetros poblacionales directamente mediante
razones de estimadores estratificados de la variable en estudio y la variable
auxiliar.
En esta sección sólo se presentarán las expresiones de los estimadores para la
media poblacional ya que para el total y la proporción se pueden deducir a
partir de esos resultados.

2.1 Estimador de Razón


a) Estimador Simple (o Separado)
Se consideran estimaciones para la media basada en la razón en cada estrato
definida como:
y
y r h  h  xh  rh  xh h  1, 2, , L
xh
Como en muestreo estratificado la estimación del total se forma sumando las
estimaciones de las medias en cada estrato ponderadas por los Wh  Nh N
 L

 st

y  
h 1
Wh y h  , podemos definir el estimador simple o separado de la media

como:
L L
y st rs  Wh y rh  Wh rh  xh
h 1 h 1

La varianza de este estimador es:

 nh 2 
 
1  f h   i 1  yi  rh xi   L
1  f h  S 2
 
^ L
V y st  Wh2   Wh2
nh  1
rs rsh
h 1 nh   h 1 nh
 
 

Se pueden estimar intervalos con cierto nivel de confianza de la siguiente forma

 
^
IC     y st rs  Z 1 2 V y st rs

Mg Sc Jaime Carlos Porras Cerrón 133


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

b) Estimador Combinado
y st
Se considera inicialmente la razón de los estimadores estratificados rc  y se
x st
forma el estimador de la media
y st r c  rc  x

La varianza de este estimador es:

 nh 2 
 
1  f h   i 1  yi  rc xi   L
1  f h  S 2
 
^ L
V y st  Wh2   Wh2
nh  1
rc rch
h 1 nh   h 1 nh
 
 

Se pueden estimar intervalos con cierto nivel de confianza de la siguiente forma

 
^
IC     y st rc  Z 1 2 V y st rc

En muchas situaciones el estimador de razón combinado ofrece una varianza


estimada mayor. Eso suele ser generalmente así, por lo que casi siempre se
utiliza el estimador de razón separado. No obstante, el estimador de razón
separado puede tener un sesgo mayor porque cada estimador de razón del
estrato contribuye a ese sesgo. En resumen, si los tamaños de muestra de los
estratos son lo suficientemente grandes (mayor a 20 o más) para que las
razones separadas no tengan sesgos grandes y para que las aproximaciones
de la varianza funcionen correctamente, entonces utilice el estimador de razón
separado. Si los tamaños de muestra de los estratos son muy pequeños, o si
las razones dentro de los estratos son aproximadamente iguales, entonces el
estimador de razón combinado puede funcionar mejor.

2.2 Estimador de Regresión


Al igual que en la estimación por razón, se presentan dos casos; el estimador
simple o separado obtenido a partir de estimaciones de regresión en cada
estrato y el estimador combinado obtenido directamente de las medias
estratificadas.
a) Estimador Simple
El estimador estratificado de la media mediante el estimador de regresión es:

L
y st ls  Wh y lh
h 1

Donde:

y l h  y h  b1h  xh  x h 
La varianza de este estimador es:

Mg Sc Jaime Carlos Porras Cerrón 134


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

1  f h  1  f h 
   s2yh  b12h sxh2  2b1h sxyh   Wh2 s 
^ L L
V y st ls  Wh2 2
yh  b12h sxh
2

h 1 nh h 1 nh

Se pueden estimar intervalos con cierto nivel de confianza de la siguiente forma

 
^
IC     y st ls  Z 1 2  V y st ls

b) Estimador Combinado
El estimador combinado para la media es:


y st l c  y st  b1  x  x st 
L L L
Con y st  Wh y h , x st  Wh x h y  x  Wh xh
h 1 h 1 h 1

La varianza de este estimador es:

1  f h  1  f h 
   W   s 
^ L L
 2b1sxyh  Wh2
2 2
V y st lc h
2
s 2yh  b1 sxh
2 2
yh  b1 sxh
2

h 1 nh h 1 nh

Donde:
L

 b h 1h
Wh2 1  f h  2 sxyh
b1  h 1
L
h  sxh b1h  2


nh sxh
h
h 1

En el caso del estimador por diferencia se reemplaza b1=1 en las expresiones


para el estimador de regresión.

Se pueden estimar intervalos con cierto nivel de confianza de la siguiente forma

 
^
IC     y st lc  Z 1 2  V y st lc

Vale la pena recalcar nuevamente que para la construcción de los intervalos de


confianza, se está asumiendo que la distribución del estadístico de interés en
este caso la media se ajusta a una distribución Normal.

Ejemplo
En la sierra central de Lima existen 3 comunidades campesinas dedicadas a la
agricultura y ganadería. Un investigador desea realizar un muestreo en esa
zona con la finalidad de estimar el área de terreno cultivado; para lo cual
coordina con el encargado de estadística en el Ministerio de Agricultura, quien
le brinda una muestra de familias que viven en las 3 comunidades campesinas.

Mg Sc Jaime Carlos Porras Cerrón 135


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

Algunas de las variables de interés del investigador fueron:


Y: Área del terreno cultivado (en Ha.) en la última campaña agrícola.
X: Gasto por la compra (en miles de soles) de fertilizantes.
Se tiene conocimiento que en la comunidad A, B y C hay 80, 60 y 100 familias
respectivamente dedicas a los quehaceres agropecuarios y según el Censo
Agropecuario del año anterior los gastos promedios por compra de fertilizantes
en las 3 comunidades fueron respectivamente: S/.2.4, S/2.2 y S/2.0 (miles de
soles). Los datos se presentan a continuación:

Comunidad A Comunidad B Comunidad C


N° Y1 X1 Y2 X2 Y3 X3
1 0,9 1,9 1,5 1,3 2,8 3,1
2 0,8 1,9 2,0 2,1 1,3 1,0
3 2,3 3,4 2,8 3,4 2,3 3
4 0,7 1,8 0,6 0,8 1,9 2,3
5 1,1 1,9 3 3,7 1,1 0,8
6 1,7 2,5 1,7 1,8 2,7 3,1
7 1,8 2,6 2,7 2,8 1,9 2,5
8 1,1 1,9 2,3 2,5 1,1 0,8
9 1,6 2,5 1,3 1,2 0,8 0,6
10 1,5 2,3 1,8 1,6
11 2,4 3,5 2,2 2,9
12 1,5 2,1 1,6 1,6
13 1,8 2,3
14 1,5 1,5
15 2,9 3,3

Algunas resultados obtenidos con Minitab se presentan a continuación:


Estadísticas descriptivas: Y; X
Variable Comunidad N Media Desv.Est. Varianza
Y A 12 1,450 0,554 0,306
B 9 1,989 0,791 0,626
C 15 1,847 0,642 0,413

X A 12 2,358 0,581 0,337


B 9 2,178 1,005 1,009
C 15 2,027 0,954 0,911
Análisis de regresión: Y vs. X
La ecuación de regresión es
Y = 0.290 + 0.671 X

Análisis de regresión: Y1 vs. X1


La ecuación de regresión es
Y1 = - 0.702 + 0.913 X1

Análisis de regresión: Y2 vs. X2


La ecuación de regresión es
Y2 = 0.318 + 0.767 X2

Análisis de regresión: Y3 vs. X3


La ecuación de regresión es
Y3 = 0.535 + 0.647 X3

Mg Sc Jaime Carlos Porras Cerrón 136


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

a) Estime un intervalo del 95% de confianza para el área de terreno cultivada


promedio en la zona en estudio, mediante el estimador simple de razón.
Solución:

Nh Wh nh  xh fh
rh yrh S rh2
Comunidad
A 80 0,33 12 2.4 0.15 1.45/2.358=0.61 1,48 0.056
B 60 0,25 9 2.2 0.15 1.989/2.178=0.91 2,01 0.052
C 100 0,42 15 2.0 0.15 1.847/2.027=0.91 1,82 0.094
Total 240 1.00 36

L
y st rs  Wh y rh  0.33 1.48  0.25  2.01  0.42 1.82   1.75
h 1

1  f h  S 2 1  0.15 1  0.15
   W
^ L
V y st rs h
2
rsh  0.332  0.056  ...  0.422  0.094   0.0017
h 1 nh 12 9
IC     y st rs  Z1 2 V y st  rs   IC     1.75  1.96 0.0017  1.67;1.83

b) Estime un intervalo del 95% de confianza para el área de terreno cultivada


promedio en la zona en estudio, mediante el estimador combinado de razón.
Solución:
Nh Wh nh  xh fh
yh xh
Comunidad
A 80 0,33 12 2.4 0.15 1.45 2.36
B 60 0,25 9 2.2 0.15 1.98 2.18
C 100 0,42 15 2.0 0.15 1.85 2.03
Total 240 1.00 36

2.4 80   2.2  60   2.0 100 


x   2.18
80  60  100
y st  0.33 1.45  ...  0.42 1.85  1.75
x st  0.33  2.36   ...  0.42  2.03  2.18
y st 1.75
rc    0.80
x st 2.18
y st r c  rc x  0.80  2.18  1.76
1  f h  S 2 1  0.15 1  0.15
 
^ L
V y st rc  Wh2 rch  0.332  0.238  ...  0.422  0.107   0.0035
h 1 nh 12 9

IC     y st rc  Z1 2 V y st  rc   IC     1.76  1.96 0.0035  1.64;1.88

c) Estime un intervalo del 95% de confianza para el área de terreno cultivada


promedio en la zona en estudio, mediante el estimador simple de regresión.

Mg Sc Jaime Carlos Porras Cerrón 137


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

Solución:

Nh Wh nh  xh fh
b1h yh
2
s yh 2
sxh
Comunidad xh
A 80 0,33 12 2.4 0.15 0.913 1.45 2.36 0.306 0.337
B 60 0,25 9 2.2 0.15 0.767 1.98 2.18 0.626 1.009
C 100 0,42 15 2.0 0.15 0.647 1.85 2.03 0.413 0.911
Total 240 1.00 36

y l h  y h  b1h  xh  x h  
L
y st ls  Wh y lh  0.33 1.49   0.25 1.99   0.42 1.83  1.76
h 1

1  f h  1  0.15 1  0.15
  s   0.332
^ L
V y st ls  Wh2 2
yh  b12h sxh
2
 0.025  ...  0.422  0.032   0.0007
h 1 nh 12 9
IC     y st ls  Z1 2 V y st  rs   IC     1.76  1.96 0.0007  1.71;1.81

d) Estime un intervalo del 95% de confianza para el área de terreno cultivada


promedio en la zona en estudio, mediante el estimador combinado de
regresión.
Solución:
 
y st l c  y st  b1  x  x st  y st l c  1.75  0.671 2.18  2.18  1.75

Wh nh fh 2
sxh h b1h
Comunidad
A 0,33 12 0.15 0.337 0.003 0.913
B 0,25 9 0.15 1.009 0.006 0.767
C 0,42 15 0.15 0.911 0.009 0.647
Total 1.00 36 0.018

Wh2 1  f h  2
h  sxh
nh
L

 b h 1h
0.003  0.913  0.006  0.767   0.009  0.647 
b1  h 1
L
  0.727

0.018
h
h 1

1  f h  1  0.15 1  0.15
  s 
^ L
 Wh2  0.025  ...  0.422  0.032   0.0008
2
V y st lc
2
yh  b1 sxh
2
 0.332
h 1 nh 12 9
IC     y st lc  Z1 2 V y st  rs   IC     1.75  1.96 0.0008  1.69;1.81

Mg Sc Jaime Carlos Porras Cerrón 138


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

3. Muestreo por conglomerados monoetápico combinado con estratificación


El muestreo por conglomerados puede combinarse con muestreo estratificado,
con el fin de que la población pueda dividirse en L estratos y se pueda
seleccionar entonces una muestra por conglomerados en cada estrato.
El estimador de razón puede considerarse como la razón entre el estimador de
la media de los totales de conglomerados y el estimador del tamaño medio de
los conglomerados. Entonces, pensando en términos de un estimador de
razón, tenemos dos modos para formar el estimador de una media poblacional
a través de los estratos: el estimador separado (simple) y el estimador
combinado. Una breve reflexión muestra que si se emplea el estimador
separado, se debe conocer el número total de elementos en cada estrato para
poder asignar ponderaciones adecuadas por estrato. Como estas cantidades
se desconocen por regla general, únicamente analizaremos la forma
combinada del estimador de razón en el contexto de muestreo por
conglomerados.
Esquema para conglomerado monoetapico con conglomerados de igual
tamaño

Número de Unidades
Estrato Conglomerados
1 2 3 … M
1 y11 y12 y13 … y1M
2 y21 y22 y23 … y2M
1
N1 yN11 yN1 2 yN1 3 … yN M
1

1 y11 y12 y13 … y1M


2 y21 y22 y23 … y2M
L
NL yN L 1 yN L 2 yN L 3 … yN M
L

La idea es seleccionar una muestra n1 de conglomerados del estrato 1 así


sucesivamente hasta el estrato L y analizar todas las unidades que presenta
ese conglomerado con lo cual tendríamos:

Conglomerados Número de Unidades


Estrato
Muestreados 1 2 3 … M
1 y11 y12 y13 … y1M
1
n1 yn1 yn 2 yn 3 … yn M

1 y11 y12 y13 … y1M


L
nL ynL 1 ynL 2 ynL 3 … yn
LM

Mg Sc Jaime Carlos Porras Cerrón 139


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

El estimador del tamaño medio del conglomerado es


1 L L
Mt Nh M h Wh M h
N h 1 h 1
nh
Mi
i 1
Mh h 1,..., L
nh

Para la media
El estimador de la media poblacional del total por conglomerado es:
1 L L
yt N h y th Wh y th
N h 1 h 1
nh
yi
i 1
y th h 1,..., L
nh
L
N h y th
h 1
yc L
Nh M h
h 1
Esta expresión tiene la forma de un estimador de razón combinada. La
varianza de y c puede estimarse por:
L
1 Nh Nh nh
V yc Sch2
M2 h 1 nh
2
S : Es la varianza de los términos yih
ch y c M ih h 1,..., L
M: Es el tamaño de la población y puede ser estimado por:
L
M Nh M h
h 1

Por lo tanto un intervalo de confianza para  es:


IC yc Z1 2
V yc
Para la proporción
El estimador de la media poblacional del total por conglomerado es:
1 L L
At N h ath Wh ath
N h 1 h 1
nh
ai
i 1
a th h 1,..., L
nh
L
N h a th
h 1
pc L
Nh M h
h 1

Mg Sc Jaime Carlos Porras Cerrón 140


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

Esta expresión tiene la forma de un estimador de razón combinada. La


varianza de y c puede estimarse por:
L
1 Nh Nh nh
V pc Sch2
M2 h 1 nh
Sch2 : Es la varianza de los términos aih pc M ih h 1,..., L
Por lo tanto un intervalo de confianza para  es:
IC pc Z1 2
V pc
Ejemplo
En la ciudad A, se realizan entrevistas a cada uno de los residentes de 25
bloques de viviendas seleccionados al azar de un total de 415 bloques
existentes. Los datos sobre sus ingresos anuales (en nuevos soles) y la
cantidad de arrendatarios se presentan en la siguiente tabla:

Cantidad Cantidad
Total de Cantidad de Total de Cantidad de
de de
Bloque ingresos arrendatarios Bloque ingresos arrendatarios
Residentes Residentes
(yi) (ai) (yi) (ai)
(Mi) (Mi)
1 8 96000 4 14 10 49000 5
2 12 121000 7 15 9 53000 4
3 4 42000 1 16 3 50000 1
4 5 65000 3 17 6 32000 4
5 6 52000 3 18 5 22000 2
6 6 40000 4 19 5 45000 3
7 7 75000 4 20 4 37000 1
8 5 65000 2 21 6 51000 3
9 8 45000 3 22 8 30000 3
10 3 50000 2 23 7 39000 4
11 2 85000 1 24 3 47000 0
12 6 43000 3 25 8 41000 3
13 5 54000 2 Total 151 1329000 72

La ciudad B es más pequeña y es considerada como el estrato 2.


Para este estrato, se seleccionan al azar n2=10 bloques, de un total de N2=168
bloques y se entrevistan a todos los residentes de los bloques seleccionados,
obteniéndose los siguientes datos sobre sus ingresos anuales (en nuevos
soles) y la cantidad de arrendatarios:

Cantidad de
Cantidad de Total de ingresos
Bloque arrendatarios
Residentes (Mi) (yi)
(ai)
1 2 18000 1
2 5 52000 2
3 7 68000 3
4 4 36000 1
5 3 45000 2

Mg Sc Jaime Carlos Porras Cerrón 141


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento de Estadística e Informática
Técnicas de Muestreo II

6 8 96000 3
7 6 64000 2
8 10 115000 5
9 3 41000 1
10 1 12000 0
Total 49 547000 20

a) Estime un intervalo del 95% de confianza para el ingreso promedio de los


residentes.
Solución
Estrato Nh nh
A 415 25
B 168 10

Cálculo del total promedio por conglomerado en cada estrato


1329000 547000
y t1 53160 yt 2 54700
25 10
151 49
M1 =6.04 M2 =4.9
25 10
L
N h y th
h 1
415 53160 168 54700
yc L
9385
415 6.04 168 4.9
Nh M h
h 1

Para cada uno de los estratos, se calculan las diferencias


yih y c M ih h 1,..., L
Por ejemplo para el segundo estrato se tiene:
 18000  93852    12000  93851
A esas diferencias se le calcula la varianza, obteniéndose
2 2
Sc21 25998 Sc22 8657

L
M Nh M h 415 6.04 168 4.9 3329.8
h 1
L
1 Nh Nh nh 1 415 415 25 2 168 168 10 2
V yc Sch2 25998 8657 412563
M2 h 1 nh 3329.82
25 25
IC 9385 1.96 412563.8 8126.07;10643.93

Estime un intervalo del 95% de confianza para los residentes que arriendan
vivienda

Mg Sc Jaime Carlos Porras Cerrón 142

También podría gustarte