Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 2
2.1. Introducción.
Por ejemplo, en una encuesta que se quiera realizar sobre las personas del Distrito de
Castilla – Piura, dividido en numerosas zonas geográficas (o secciones censales),
determinadas por manzanas, calles, etc., se seleccionará primero una muestra de tales
zonas geográficas, y a continuación se estudiarán las personas de las zonas
geográficas de dicha muestra. Este estudio se puede realizar tanto estudiando las
zonas de forma exhaustiva (muestreo por conglomerado en una etapa), como
haciendo el estudio de dichas zonas mediante nuevos muestreos (muestreo por
conglomerados en dos o más etapas).
Es muy frecuente que los conglomerados estén definidos como “áreas” o partes bien
delimitadas de terreno, de modo que todas las unidades últimas correspondientes al
área sean las que constituyen el conglomerado. De aquí que esté generalizada la
denominación de muestreo por áreas para designar estos procedimientos de
muestreo.
Para ilustrar la aplicación de muestreo por conglomerado, por ejemplo suponga que
se cuenta con una lista de hogares de la ciudad. Podríamos seleccionar una muestra
aleatoria simple de hogares, la cual probablemente estará dispersa en toda la ciudad.
El costo por realizar entrevistas en los hogares dispersos va a ser grande debido al
tiempo de transporte de los entrevistadores y otros gastos relacionados. El muestreo
aleatorio estratificado podría reducir estos gastos, pero el uso de muestreo por
conglomerados es un método más efectivo para reducir los gastos de transporte. Los
elementos dentro de un conglomerado deben estar geográficamente cerca uno de
otro, y entonces los gastos de transporte se reducen.
El marco para una encuesta ha de estar constituido por todas las listas y material
cartográfico disponible. Es muy probable que cuando nos interese tomar una muestra
de los habitantes de una ciudad no dispongamos de la lista de dichos habitantes, pero
sí de un plano que nos permita dividirla en áreas a seleccionar. Previamente hay que
formar la lista de unidades componentes de cada conglomerado, pero ello resulta más
económico que confeccionar la lista de todas las unidades en la población completa.
Se extrae una muestra aleatoria simple Se extrae una muestra aleatoria simple de
de cada estrato. conglomerados; observe que todos los elementos
dentro de los conglomerados están en la muestra.
Figura 2.1. Analogías y deferencias entre el muestreo por conglomerados y el muestreo estratificado.
Para una mayor precisión, los elementos individuales dentro de cada estrato deben
tener valores similares, pero las medias por estrato deben diferir entre sí lo más
posible.
Para una mayor precisión, los elementos individuales dentro de cada conglomerado
deben ser heterogéneos y las medias por conglomerado deben ser similares entre sí.
Una vez analizadas las características del muestreo por conglomerados en una etapa
y su comparación con otros tipos de muestreo, podríamos citar a manera de resumen
algunas de las ventajas y desventajas que presenta este tipo de muestreo.
Ventajas.
pueden utilizar como marco áreas geográficas cuyas características están ya muy
delimitadas.
Desventajas
Menor precisión en las estimaciones, debido a que aunque lo ideal es que haya
heterogeneidad dentro, siempre va a existir un cierto grado de homogeneidad
inevitable dentro de los conglomerados.
Por ejemplo supóngase que los conglomerados están formados por cajas de
componentes que van saliendo de una línea de producción, un conglomerado de
componentes por línea. Si todas las líneas tienen aproximadamente la misma tasa de
componentes defectuosos, entonces cada conglomerado (caja) es aproximadamente
tan variable con respecto a calidad como la población completa. En este caso se
puede obtener un buen estimador de la proporción de productos defectuosos con base
en uno o dos conglomerados.
El problema de elegir un tamaño apropiado del conglomerado puede ser aún más
complicado cuando se dispone de un número infinito de posibles tamaños de
conglomerados, como en la selección de parcelas forestales para la estimación de la
proporción de árboles enfermos. Si existe variabilidad en la densidad de árboles
enfermos a lo largo y ancho del bosque, entonces muchas parcelas (conglomerados)
pequeñas, localizadas aleatorias o sistemáticamente, pueden ser lo deseable. Sin
embargo, localizar aleatoriamente una parcela en el bosque consume mucho tiempo,
y una vez localizada, el muestreo de muchos árboles es económicamente
conveniente. Entonces muchas parcelas pequeñas son ventajosas para controlar la
variabilidad, pero pocas parcelas grandes son económicamente recomendables. Se
debe encontrar un equilibrio entre el número y tamaño de las parcelas. No existen
buenas reglas que funcionen siempre para tomar esta decisión. Cada problema debe
ser estudiado separadamente; pero las encuestas piloto pueden ayudar al
experimentador a encontrar la dirección correcta.
Una vez que los conglomerados han sido especificados se debe conformar un marco
de muestreo que liste todos los conglomerados de la población. Entonces se
selecciona una muestra irrestricta aleatoria de conglomerados o mediante una
muestra sistemática de este marco.
Solución. El muestreo por conglomerados parece ser la elección lógica para el diseño
de la encuesta porque no se encuentra disponible una lista de elementos. La ciudad es
dividida en bloques rectangulares, excepto las dos áreas industriales y los tres
parques que contienen pocas casas. El estadístico decide que cada bloque de la
ciudad va a ser considerado como un conglomerado, las dos áreas industriales van a
ser consideradas como otro, y, finalmente, los tres parques van a considerarse un
conglomerado más. Los conglomerados son numerados sobre un mapa de la ciudad,
con los números del 1 al 415. El estadístico decide seleccionar una muestra aleatoria
simple y sin reposición de n = 25 conglomerados y entrevistar a cada hogar dentro de
cada uno. Entonces se seleccionan 25 números aleatorios entre 001 y 415 de la tabla
de números aleatorios (o de la ayuda de un software estadístico), y los
conglomerados con esos números son marcados en el mapa. Después se asignan los
entrevistadores a cada uno de los conglomerados seleccionados.
En este caso vamos a suponer que todos los conglomerados son del mismo tamaño
M i M , en cuyo caso utilizaremos la siguiente notación:
N N M
θ X i X i j (2.1)
i 1 i 1 j 1
X n n X ij
N n M
θ i X ij
j 1
(2.2)
i 1 π i i 1
n n i 1 j 1
N
~
1 si u i Y con probabilidad π i n / N
Eei π i π i
n
ei ~
0 si u i Y con probabilidad 1 π i 1 n / N N
N M
Total θ Y Yij X ij Yij
i 1 j 1
N n M NM n 1 M 1 n
Y
n i 1 j 1
Yij
n i 1 M j 1
Yij NM Y i NM y
n i 1
1 N M Yij
Media θY Yij
N M i 1 j 1
X ij
NM
N n M Yij 1 n M Yij 1 n
Y Yi y
n i 1 j 1 NM n i 1 j 1 M n i 1
N M
Total de clase θ A A ij X ij A ij
i 1 j 1
N n M NM n 1 M 1 n
A ij n
n i 1 j 1
A ij
i 1 M j 1
A N M i
n i 1
P N M P
1 N M A ij
Proporción θP A ij
N M i 1 j 1
X ij
NM
N n M A ij 1 n M A ij 1 n
P Pi P
n i 1 j 1 NM n i 1 j 1 M n i 1
Estimador de la media.
Y i Y MY Y
N N
2 2
i
1 n
V( Y) V( y ) V Y i 1 f i 1 1 f i 1
n i 1 n (N 1) n M(N 1)
Y Y
N M
2
i
S2b
1 f
i 1 j1
(1 f)
n M(N 1) nM
Y Y
N M
2
i
i 1 j 1
S2b = cuasivarianza entre conglomerados.
N 1
Estimador de la proporción.
Yi Y 2 MY i Y 2
N M N N
M Pi P
2
N
Pi P
i 1 j 1 M
S2b i 1
i 1
2
N 1 N 1 N 1 N 1 i 1
M N N
P P 2
Pi P 2
N 1 i 1
2 i
1 f 1 f i 1
S
V( P) (1 f) b
(2.5)
nM nM n (N 1)
P P
2
i
V( A) V(N M P) N 2 M V( P) N 2 M (1 f) i 1
2 2
(2.6)
n (N 1)
Sea (Yij , Yiz ) un par de valores cualesquiera de la variable en estudio medido sobre
unidades del conglomerado i-ésimo con j < z.
M
En cada conglomerado de M elementos se forman pares de valores.
2
M
Para los N conglomerados tendremos N pares posibles.
2
Se tiene que:
Y i j Y Y Y
N M N M
2 2
ij
i 1 j 1 i 1 j 1 NM 1 2
S2 y σ2 σ2 S
NM 1 NM NM
2
M
Y Y
N
i
2
1 f N
1 f N j 1
Yi j
MY
V( Y) V( y ) 1 f Y i Y
i 1 2
n (N 1) n (N 1) i 1 n (N 1) i 1 M M
1 f 1 f N M Y Y
2 2
M N M
2 ij n (N 1) M 2 i j
Y Y
n (N 1) M i 1 j 1 j 1 i 1 j 1
1 f N M
N M
2
Yi j Y 2 Yi j Y Yi z Y
n (N 1) M i1 j 1
2
i 1 j z
1 f
(NM 1) S2 (M 1) (NM 1) S2 δ
n (N 1) M
2
1 f (NM 1) S2 1 (M 1) δ 1 f (NM 1) S2 1 (M 1) δ
n (N 1) M
2
n (NM M) M
1 (M 1) δ
S2
Si N 1 f
nM
1 (M 1) δ
S2
V( Y) V( y ) 1 f (2.9)
nM
A partir de la expresión:
1 (M 1) δ Vmas ( y) 1 (M 1) δ
S2
V( y ) 1 f (2.10)
nM
1
M 1
1
, 0
M 1
1 (M 1) δ n c n a 1 (M 1) δ
2
S2
1 f S 1 f
na nc
Ejemplo 2.2. Supongamos que tenemos una población de 9 elementos, con valores
{1, 2, 3, 1, 2, 3, 1, 2, 3}. La media poblacional es Y 2 y la cuasivarianza
poblacional es S2 0.75 .
b) Si por el contrario, se utiliza la configuración: {1, 1, 1}, {2, 2, 2}, {3, 3, 3}. Se
pide calcular el coeficiente de correlación intraconglomerados. Interprete el
valor obtenido de
Solución.
a) En este caso N = 3, M 3
N M0
2 (Yi j Y)(Yi z Y)
i 1 j z 2(1 2)(2 2) (1 2)(3 2) (2 2)(3 2)
δ
(M 1) (NM 1) S 2
(3 1) (3 3 1) 0.75
2(1 2)(2 2) (1 2)(3 2) (2 2)(3 2) 2(1 2)(2 2) (1 2)(3 2) (2 2)(3 2)
(3 1) (3 3 1) 0.75 (3 1) (3 3 1) 0.75
2 (1) 6
3 0.5
2 8 0.75 12
1 1
Además, 0.5 , con lo cual la configuración escogida es la
M 1 3 1
mejor posible.
b) Para de caso de la configuración: {1, 1, 1}, {2, 2, 2}, {3, 3, 3}. Tenemos:
N M
2 (Yi j Y)(Yi z Y)
i 1 j z 23 (1 2)(1 2) 3 (2 2)(2 2) 3 (3 2)(3 2)
δ
(M 1) (NM 1) S 2
(3 1) (3 3 1) 0.75
61 0 1 12
1
2 8 0.75 12
Para realizar la estimación de varianzas vamos a construir las tablas del análisis de la
varianza (ANVA) que muestren la descomposición de la varianza, tanto para la
población como para la muestra.
Y Y
N M
Entre conglomerados N 1 i
2
S 2b
i 1 j 1
Y Yi
N M
N (M 1)
2
Dentro de conglomerados ij S2w
i 1 j 1
Y Y
N M
N M 1
2
Total ij S2
i 1 j 1
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
i 1 j 1
i 1 j 1 i 1 j 1
Y i j Y Y Y Y Y
N M N M N M
2 2 2
ij i
i 1 j 1 i 1 j 1 i 1 j 1
S2 , Sw
2
, S2b
N M 1 N (M 1) N 1
Y i j Y Yi j Y Y i Y
N M N M N M
2 2 2
i 1 j 1 i 1 j 1 i 1 j 1
(N M 1)S2 N ( M 1)S2w (N 1)S2b
N (M 1) S2w (N 1) S2b
S 2
(2.12)
N M 1 N M 1
Y
n M
Entre conglomerados n 1 i y 2
S 2b
i 1 j 1
S 2b
Y Yi 2
n M
Dentro de conglomerados n (M 1)
S2w
i 1 j 1
ij S 2w
Y
n M
Total n M 1 ij y 2
S2
i 1 j 1
Y Y
Yi j Y i Y i y
n M 2 n M 2 n M n M 2
ij y i j Yi Yi y
2
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
2 Yi j Y i )(Y i y Yi j Y i Y i y
n M n M n M 2
2
i 1 j 1
i 1 j 1 i 1 j 1
Y y Y Yi Y
n M 2 n M n M 2
ij ij
2
i y
i 1 j 1 i 1 j 1 i 1 j 1
S2 , S 2w , S 2b
nM 1 n (M 1) n 1
(n M 1) S 2 n (M 1) S 2w (n 1) S 2b
n (M 1) S 2w (n 1) S 2b
S 2
(2.13)
n M 1 nM 1
2
2 2
Se cumple que S b es un estimador insesgado para S b y S w es un estimador
2
insesgado para S . En efecto tenemos:
w
n M
Y i y 2 n
M Y i y
2
n
Yi y
2
i 1 j 1
E S 2b E E i 1 M E i 1
n 1 n 1 n 1
Cuasivarianza muestral
S 2Y i de los Yi
Y
N 2
N
Yi Y
2 N
M Yi Y
2
i Y
i 1 j 1
M i 1
i 1
S2b
N -1 N -1 N -1
Cuasivarianza poblacional
de los Y
n M 2 N M
Yi j Y i Yi j Y i
2
i 1 j 1 i 1 j 1
Yi j Yi 2 E(e i )
N M
1
E S 2w E
n (M 1) E n (M 1)
e i
n (M 1) i 1 j 1
Y Yi
N M
2
ij
Yi j Yi 2 n
N M
1
n (M 1) i 1 j 1 N
i 1 j 1
N (M 1)
S2w
N (M 1) S2w (N 1) S2b
S2
NM 1 NM 1
2
y como ya sabemos que S 2b es un estimador insesgado para S 2b y S w es un estimador
insesgado para S2w , el estimador insesgado para S2 será:
N (M 1) S 2w (N 1) S 2b
S 02 (2.14)
N M 1 N M 1
N (M 1) S 2w (N 1) S 2b 2 n (M 1) S 2w (n 1) S 2b
Note que: S 2
S
NM 1 NM 1 n M 1 n M 1
0
Para n > 50 puede considerarse S 02 como un estimador insesgado de S2 .
1 (M 1) δ
S2
V( y ) 1 f
S2
V( Y) V( y ) (1 f) b ,
nM nM
S2b S2
S S 1 (M 1) δ
2 2
δ
(M 1)S2
b
Una vez realizado todo tipo estimaciones ya podemos hallar los estimadores para
las varianzas. Así tenemos:
S 2b
V( y ) 1 f
S2
V( Y) V( y ) (1 f) b (2.16)
nM nM
1 (M 1) δ
S2
V( y ) 1 f
nM
S2
V( y ) 1 f 0 1 (M 1) δ (2.17)
nM
V( Y) V(N M y) N 2 M V( y) V(Y) N 2 M V( y)
2 2
(2.18)
n 1
N n
Dentro de N (M 1) B M Pi (1 Pi ) B M P (1 P ) i i
conglomerados S
2
i 1 w
N (M 1) S 2 i 1
n (M 1)
w
Total N M 1 C N M P (1 P) C
S2 S 02
N M 1
A Y i Y MY i Y MPi P
N M N N
2 2 2
(2.19)
i 1 j 1 i 1 i 1
N M N
B Yi j Y i Yi2j M Y i 2Y i Yi j MPi MPi2 2Pi MPi
N M M
2 2
i 1 j 1 i 1 j 1 j1 i 1
N
M Pi (1 Pi ) (2.20)
i 1
N M
C Yi j Y Yi2j M Y 2Y Yi j
N M M
2 2
i 1 j 1 i 1 j 1 j1
N M N M
A i2j N MP 2 2P A i j N MP N MP 2 2 P N MP N MP(1- P)
i 1 j1
i 1 j1
A ij
NMP
(2.21)
2 2
n M
1 n n
M n
1 n
2
Y i y Y i Y i M Y i MY i
i 1 j 1 n i1
i 1
i 1 j 1 n i1
S 2b
n 1 n 1 n 1
2 2
n
1 n n
1 n n
2
M Pi M Pi M P i P i M P i P
i 1 i 1 i 1
n i1 n i1
n 1 n 1 n 1
M 2 2
Y Yi
n M n M
i j
n
Yi j M Y i M Pi (1 Pi )
2
ij
Y 2 Y i
i 1 j 1 i 1 j 1 j 1
S 2w i 1
n (M 1) n (M 1) n (M 1)
Ahora ya podemos establecer las fórmulas dadas en la expresión 2.22, para las
estimaciones de las varianzas:
S2
V(P ) 1 f 0 1 (M 1) δ
nM
S2
V(P ) 1 f b
nM
V ( A) N 2 M V ( P)
2
S 2b S 02 N (M 1) S 2w (N 1) S 2b
δ
, S 02
(M 1) S 2 N M 1 N M 1
0
(2.22)
Solución.
S2b S2 M
t S2b
M
t
log S 2
/ S
2
t
log M t
log S2b / S2 log13.8
log M
a)
log 100
b
S2
N (M 1) S2w (N 1) S2b
De la expresión S2 , tenemos que:
NM 1 NM 1
S2b S2 1173 85
δ 0.129
(M 1)S 2
(100 1) (85)
0.57
S2b n S2b n S2 M n S2
V( Y) V( y ) (1 f) (1 ) (1 ) (1 )
nM N nM N nM N n M 0.43
Ejemplo 2.4. En una región hay 300 granjas de 50 animales diversos cada una. Se
obtiene una muestra de n = 5 granjas sin reposición y con probabilidades iguales. Las
proporciones de animales enfermos en cada una de las granjas son: 0.14, 0.20, 0.18,
0.12, 0.16. Se pide:
Solución.
a) N = 300 granjas, M 50 , n = 5 granjas, P 1 0.14 , P 2 0.20 , P 3 0.18 ,
P 4 0.12 , P 5 0.16
2 2
n n
2
M
i 1
P i P
Pi P
i 1 =
V(P) 1 f
Sb
b) (1 f) (1 f)
nM n M(n 1) n (n 1)
5 (0.14 0.16) 2 (0.20 0.16) 2 (0.18 0.16) 2 (0.12 0.16) 2 (0.16 0.16) 2
1
300 5 (5 1)
5 0.004
1 0.00019667
300 5 (5 1)
Error absoluto: (P) V(P) 0.00019667 0.014
V( P) 0.014
Error relativo: CV(P)
0.088 (8.8%)
P 0.16
V(A) N 2 M V(P) 3002 502 0.00019667 44 250.75
2
Error absoluto: σ (A) V(A) 44 250.75 210.3586
V(A) 44250.75
Error relativo: CV(A)
0.088 (8.8%)
A 2400
1988, 2812
La estimación por intervalos sin normalidad en la población es:
σ ( A) 44250.75
A 2400 2400 940.75
α 0.05
1459, 3341
d) Para estimar el coeficiente de correlación intraconglomerados, debemos
previamente calcular los estimadores de S2b y S2 . Se tiene que P 0.16 . Las
operaciones a realizar son:
2
n
M Pi P
i 1
2
50 (0.14 0.16) (0.20 0.16) (0.18 0.16) (0.16 0.16)
2 2 2
Sb
2
n 1 5 1
50 0.004
0.05
4
n
M P (1 P ) i i
50 0.14 0.86 0.2 0.8 0.18 0.82 0.12 0.88 0.16 0.84
S 2 i 1
n (M 1) 5 49
w
50 0.14 0.86 0.2 0.8 0.18 0.82 0.12 0.88 0.16 0.84 50 (0.668)
=
5 49 245
0.1363
N (M 1) S 2w (N 1) S 2b 300 (50 1) 0.1363 (300 1) 0.05 2018.56
S 2
N M 1 300 50 1
0
14999
0.1346
, 0 0.02, 0
1
Como: δ
M 1
Estimador de la media.
1 n
1 N
σ2 N
Y i Y 2 1 N
M Y i Y
2
V( Y) V( y ) V Y i
NM i 1
i 1
n i 1 n n n
1 N
M Y i Y 2 1 N M
Y i Y 2 2
N N i 1 j1 σ
i 1 b
nM nM nM
Y Y
N M
2
i
i 1 j 1
σ 2b es la cuasivarianza entre conglomerados y la expresión de la
N
varianza de la media:
σ 2b
V( y ) (2.23)
nM
Estimador de la proporción.
Y Y
N M
MY i Y
N N
M Pi P
2 2 2
i
M N
Pi P
i 1 j 1
σ 2b i 1
i 1
2
N N N N i 1
M N N
i P P 2
Pi P 2
σ 2b N i 1
V( P) i 1 (2.25)
nM nM nN
P P
i
2
V( A) V(N M P) N 2 M V( P) N 2 M
2 2 i 1
(2.26)
nN
1 N M
(Yi j Y)(Yi z Y)
M i1 j z N M
N 2 (Yi j Y)(Yi z Y)
Cov(Yij , Yiz ) 2
δ i1 j z
σ(Yij ) σ(Yiz ) σ 2
N M(M 1) σ 2
Y Y
N M
2
ij
i 1 j 1
σ2
NM
N M
2 (Yi j Y)(Yi z Y) NM(M 1) σ 2
i 1 j z
2
M N M
Yi j Y Yi j Y 2 Yi j Y Yi z Y
N N M
1 1
2
2
nNM i 1 j 1 nNM 2
i1 j 1 i 1 j z
1
2
NM σ (M 1) NM σ δ
2 2
NM σ 2
2
1 (M 1) δ
n NM n NM
σ2
1 (M 1) δ
nM
σ2
V( y ) 1 (M 1) δ (2.27)
nM
De la expresión:
σ2
V( y ) 1 (M 1) δ VMAS ( y ) 1 (M 1) δ (2.28)
nM
1
M 1
1
, 0
M 1
σ2
1 N M
Yij Y 2
1 N M
Yij Y i Y i Y 2
1 N M
Yi j Yi 2
NM i 1 j 1 NM i 1 j 1 NM i 1 j 1
1 N M
Yi Y 2 1 2 Yi j Yi )(Yi Y
N M
N M i 1 j 1 NM i 1 j 1
0
1 N M
Yij Y i 2
1 N M
Yi Y 2
NM i 1 j 1 NM i 1 j 1
1 N M
Yi j Y i MYi Y2
2 1 N
NM i 1 j 1 NM i 1
Dr. César Haro Díaz
91
Unidad 2. Muestreo por Conglomerados en una etapa o monoetápico.
b2
Yi j Y i N Y i Y σ w
1 N M 1 N
2 2 2
NM i 1 j 1 i 1 M
Y Y Y Yi
N M N M
2 2
ij ij
i 1 j 1 i 1 j 1
σ2 , σ 2w ,
NM NM
Y Y
N M
M Y i Y
N
2 2
i
i 1 j 1
σ 2b i 1
N N
b2
σ 2 σ 2w (2.29)
M
S 2b
n
Yi y 2
i 1
estima insesgadamente a
M n 1
b2
1 N
Y i Y 2
(2.30)
N i 1 M
Lo que es lo mismo decir que: S 2b es un estimador insesgado para b2 .
Y Yi 2
N M
ij
σ 2w
i 1 j 1
1 N 1 M
ij Y Y i 2
1 N 2
σi
NM N i 1 M j 1 N i1
σ i2
con lo que tenemos σ 2w como la media poblacional de las varianzas dentro de los
conglomerados σ i2 i = 1, 2, … , N. Como un estimador insesgado para la media
poblacional es la media muestral, podemos afirmar que:
1 n 2 1 n 1 M 1 n M
i n
n i1
σ
i 1 M
j 1
Yij Y i
2
n M
i 1 j 1
Yij Y i
2
S 2
1 ,w (2.31)
σ i2
1 N 2
es un estimador insesgado para:
N i1
σ i σ 2w
Por lo tanto y de forma más sencilla, podemos asegurar que: S 1,2 w es un estimador
insesgado para w2 .
σ2
1 (M 1) δ
σ2
V( y ) b , V( y )
nM nM
σ 2b σ 2
σ 2b σ 2 1 (M 1) δ δ
(M 1) σ 2
2
S S 1 ,w b
2 2 S
b
M
S 2b σ 2
δ (2.33)
(M 1) σ 2 S 2b
(M 1) S 1 ,w
2
M
Una vez realizado todo tipo estimaciones ya podemos hallar los estimadores para
las varianzas. Así tenemos:
S2
σ2
V( Y) V( y ) b V( y ) b (2.34)
nM nM
σ2 σ 2
V( y ) 1 (M 1) δ V( y ) 1 (M 1) δ (2.35)
nM nM
V( Y) V(N M y) N 2 M V( y) V(Y) N 2 M V( y)
2 2
(2.36)
NM 1 2 NM 1 NMP(1 P) NMP(1 P)
σ2 S P(1 P) (2.37)
NM NM NM 1 NM
Y Yi
N M N N
MP i P P P
2 2 2
ij i
i 1 j 1
σ 2w i 1
i 1
(2.38)
NM NM N
Y Y
N M
M Y i Y
N N
M Pi P
2 2 2
i
i 1 j 1
σ 2b i 1
i 1
(2.39)
N N N
2
n
M Pi P
i 1
σb Sb
2 2
n 1
n
P i 1 P i
Yi j Yi 2
M P i 1 P i i 1
1 n M 1 n
σ 2w S 1,2 w
n M i 1 j 1
n M i 1 n
2
n n
S 2b
Pi 1 P i P i P
σ S 1, w
2 2
i 1 i 1
M n n 1
Ahora ya podemos establecer las fórmulas (dadas en la expresión 2.40) para las
estimaciones de las varianzas:
σ 2
σ2 S2
V(P ) 1 (M 1) δ , V(P ) b b
nM nM nM
S 2b σ 2
V ( A) N M V ( P) , δ
2 2
(M 1) σ 2
(2.40)
Ejemplo 2.5. Considerando la información del ejemplo 2.4, realice las mismas
estimaciones para muestreo con reposición. Comentarios.
Solución.
Del ejemplo 2.4, se conoce: N = 300 granjas, M 50 , n = 5 granjas, P 1 0.14 ,
P 2 0.20 , P 3 0.18 , P 4 0.12 , P 5 0.16
(0.14 0.16) 2 (0.20 0.16) 2 (0.18 0.16) 2 (0.12 0.16) 2 (0.16 0.16) 2
5 (5 1)
0.004
0.0002
20
Error absoluto: σ(P) V(P) 0.0002 0.01414
V ( P) 0.01414
Error relativo: CV(P)
0.088375 (8.83%)
P 0.16
V(A) N 2 M V(P) 300 2 50 2 0.0002 45000
2
Error absoluto: (A) V(A) 45000 212.1320
V(A) 45000
CV(A)
0.088388 (8.83%)
A 2400
2
n
M P i P
i 1
2 2
50 (0.14 0.16) (0.20 0.16) (0.18 0.16) (0.16 0.16)
2 2
σb Sb
2 2
n 1 5 1
50 0.004
0.05
4
P 1 P 0.14 0.86 0.2 0.8 0.18 0.82 0.12 0.88 0.16 0.84
n
i i
σ 2w S 1,2 w i 1
n 5
0.668
0.1336
5
S2 0.05
σ S
2 2
1, w b 0.1336 0.1346
M 50
S 2b σ 2 0.05 0.1346
Por lo tanto, resulta que: δ
0.012827
(M 1) σ 2 (50 1) 0.1346
Este valor estimado de δ , nos indica que el muestreo por conglomerado sigue siendo
muy bueno (mayor precisión), que el muestreo aleatorio simple.
N
Mi
Consideramos M como la media de los tamaños M i de los conglomerados
i 1 N
y utilizamos todas las fórmulas estudiadas hasta ahora, tanto para muestreo sin
reposición como para muestreo con reposición. No obstante, suelen considerarse las
siguientes expresiones alternativas para los estimadores:
1 n 1 n Yi 1 n
y n
n i1
Y i
i 1 M
Yi
n M i1
(2.41)
1 n 1 n
1 N 1 N n 1 N
E ( y) E ( i nM
nM i 1
Y ) E (
i 1
Yi ) i i nM
nM i 1
Y E ( e )
i 1
Yi Yi Y
N NM i 1
1 N N
1 n
1 1 1 n
N 1 i 1
(Yi Y) 2
1 f i 1
(Yi Y) 2
V ( y ) V Yi 2 V Yi 2 (1 f)
n M i1 M n i1 M n
nM
2
N 1
(2.42)
1 f (Y y) i
2
V ( y) i 1
(2.43)
nM
2
n 1
1 n N n
Y NM y NM
n M i1
Yi Yi
n i1
(2.44)
1 f (Y Y) i
2
1 f (Y Y)
i
2
V(Y) V( N M y) N M V( y) N M i 1
N i 1
2 2 2 2 2
nM
2
N 1 n N 1
(2.45)
1 f (Y y) i
2
V( Y) N 2 i 1
(2.46)
n n 1
1 N N
1 N
(Y Y ) 2
(Yi Y) 2
1 n 1 1 n i
1
V( y) V
n M
i 1
Yi 2 V Yi 2 i1
M i1 M
n n
nM
2
i1
N
2.47)
1 (Y y) i
2
V ( y) i 1
(2.48)
nM
2
n 1
1 (Yi Y) 2 N2
(Yi Y) 2
V(Y) V( N M y) N 2 M V( y) N 2 M i 1
i1
2 2
nM
2
N 1 n N
(2.49)
n
N2
(Yi y) 2
V(Y) i1 (2.50)
n n 1
Y i
YyR i 1
n
(2.51)
M
i 1
i
N 2 (1 f) N 2 N N
(1 f) N
2 Yi R Mi 2R Yi Mi 2 (Yi RM i ) 2
2 2
M n (N 1) i 1 i 1 i 1 M n (N 1) i 1
(2.52)
N
M Y i i
Y
y como Yi M i Y i , R i 1
N
Y .
M
M
i
i 1
tenemos:
N
(1 f) N
(1 f) M 2
i ( Y i Y) 2
V( y) V( R ) (M i Y i YM i ) 2 i 1
(2.53)
M n (N 1)
2
i 1 M n
2
N 1
(1 f) M 2
i ( Y i y) 2
V ( y) V ( R ) i 1
(2.54)
M n
2
n 1
Y i
Y M y M i 1
n
(2.55)
M
i 1
i
(1 f) M i2 (Y i Y) 2 N 2 (1 f)
M i2 (Y i Y) 2
V( Y) V(M y) M 2 V( y) M 2 i 1
i1
M n
2
N 1 n N 1
(2.56)
N (1 f)
2 M 2
i ( Y i y) 2
V(Y) i 1
(2.57)
n n 1
podemos usar el estimador Y M y , pero podemos formar otro estimador del total
poblacional que no depende de M. La cantidad y t dada por:
1 n
yt Yi
n i1
(2.58)
N n
Y N yt Yi
n i1
(2.59)
(1 f) (Yi Y) 2
V( Y) V(N y t ) N 2 V( y t ) N 2 i1 (2.60)
n N 1
N (1 f)
2 (Y y ) i t
2
V(Y) V(N y t ) i 1
(2.61)
n n 1
A i
P i 1
n
(2.62)
M
i 1
i
con varianza:
N
(1 f) M 2
i (Pi P) 2
V( P) i 1
(2.63)
M n
2
N 1
n
(1 f) M i2 (P i P) 2
V( P) i 1
(2.64)
M n
2
n 1
A i
A M P M i 1
n
(2.65)
Mi 1
i
N 2
(1
f) M i2 (Pi P) 2
V( A) V(M P) M 2 V( P) i1 (2.66)
n N 1
N 2 (1 f) M 2
i ( P i P) 2
V(A) i 1
(2.67)
n n 1
(1 f) (A i A) 2
V( A) V(N A t ) N 2 i 1
n N 1
N (1 f)
2 (A i A t )2
V(A) V(N A t ) i 1
(2.68)
n n 1
N 2 1 N N
V( Y) V( y) V( R ) 2 Yi R X i 2R X i Yi
2 2
X n N i 1 i 1 i 1
1 N 2 N N
1 N
2
M n N i1
Yi R 2
i 1
M 2
i 2R
i 1
Yi M i 2
M n N i1
(Yi RM i ) 2 (2.69)
M Y i i
Y
y como Yi M i Y i , R i 1
N Y
M
i 1
i
M
tenemos:
N
1 N
1 M 2
i (Y i Y) 2
V( y) V( R ) 2
(M i Y i YM i ) 2 2
i 1
(2.70)
M nN i 1 M n N
La varianza V( Y) se estima mediante:
1 M 2
i ( Y i y) 2
V ( y) V ( R ) i 1
(2.71)
M n
2
n 1
1 Mi2 (Yi Y) 2 N2
M i2 (Y i Y) 2
V( Y) V(M R ) M 2 V( R ) M 2 2
i 1
i1
M n N n N
(2.72)
N 2 M 2
i ( Y i y) 2
V(Y) i 1
(2.73)
n n 1
1 M 2
i (Pi P) 2
V( P) 2
i 1
(2.74)
M n N
1 M i2 (P i P) 2
V( P) i 1
(2.75)
M n
2
n 1
N2
M i2 (Pi P) 2
V( A) V(M P) M 2 V( P) i1 (2.76)
n N
N2 M 2
i ( P i P) 2
V(A) i 1
(2.77)
n n 1
Ejemplo 2.6. Con respecto al ejemplo 2.1, se realizan entrevistas en cada uno de los
25 bloques muestreados, que fueron elegidos mediante un muestreo aleatorio simple
con probabilidades iguales y sin reposición. Los datos sobre ingresos se presentan en
la tabla 2.2.
Tabla 2.2. Ingreso por persona
Solución.
25
Y i
$ 1329000
Yy i 1
25
$ 8801.3
M
151
i
i 1
n
n 2 n 2 n
(1 f) M 2
i ( Y i y) 2 Yi 2 y Yi M i y M i2
N n 1 i1
V ( y) V ( R ) i 1
2 i 1 i 1
n 1 nN M n 1
2
M n
Para calcular V( y) , necesitamos las siguientes cantidades:
25
Y
i 1
i
2
(96000) 2 (121000) 2 (41000) 2 82,039´000,000
25
M
i 1
2
i (8) 2 (12) 2 (8) 2 1,047
25
YM
i 1
i i (96000)(8) (121000)(12) (41000)(8) 8´403,000
1 n 151
M
n i1
Mi
25
6.04
Como nos da N = 415 bloques o conglomerados. Entonces el valor de V( y) resulta:
390 15227989330
653783.49
378496.6 24
Z 0.025 V( y) 1.96 653783.49 1584.8
El error de estimación debe ser menor que $ 1584.8 con una probabilidad cercana a
0.95. Este límite para el error de estimación es bastante grande; podría ser reducido
mediante el muestreo de más conglomerados y, consecuentemente, incrementando el
tamaño de muestra.
7216.5 Y 10386.1
b) En este caso se pide estimar el ingreso total de todos los residentes de la ciudad,
cuando el total de residentes en la cuidad (M) no es conocido.
N n 1329000
Y N yt
n i1
Yi 415
25
$ 22061400
n
( Yi ) 2
n n
(1329000) 2
(Y y )
i 1
i t
2
Y
i 1
i
2 i 1
n
(96000) (121000) (41000)
2 2
25
2
Luego la varianza estimada de Y N y t es:
Nn
(Y y ) i t
2
415 25 11389360000
V(Y) V(N y t ) N 2 i 1
(415) 2
nN n 1 (25)(415) 24
3072279860000
Entonces el límite para el error de estimación del estimador Y N y t es:
Z0.025 V(N y t ) 1.96 3072279860000 3435472.356
De nuevo este límite para el error de estimación es grande, y podría ser reducido
incrementando el tamaño de muestra.
n 2 n 2 n
N n 1 i1
Yi 2 y Y i M i y M i2
V( Y) V(M y) M 2 2 i 1 i 1
nN M n 1
415 25 15227989330
(2500) 2
2
(25)(415)(6.02) 24
Z / 2 V(M y) (1.96) 4113341649000 (1.96)(2028137.483) 3975149.47
El límite para el error de estimación es levemente más grande que el límite para el
estimador Y N y t (inciso b), debido parcialmente a que los tamaños de los
conglomerados están altamente correlacionados con los totales de los
conglomerados en este inciso. En otras palabras, los tamaños de los conglomerados
proporcionan información referente a los totales de conglomerados: por lo que el
estimador insesgado M y parece no ser mejor que el estimador N y t .
Solución.
A i
72
P i 1
25
0.4768 0.48
M
151
i
i 1
M i 151
i 1
A i 72
i 1
M i2 1047
i 1
A i2 262
i 1
A Mi 1
i i 511
0.426 P 0.534
( A i ) 2
n n
(72) 2
(Ai A t ) 2 A i2
i 1 i 1
i 1
n
262
25
54.64
Luego la varianza estimada de A es:
n
Nn
(Ai A t ) 2 415 25 54.64
V(A) N 2 i 1
(415) 2 14739.14
nN n 1 (25)(415) 24
Entonces el límite para el error de estimación del estimador A N A t es:
Z0.025 V(N A t ) 1.96 14739.14 237.95
n
Yi n
M Yi
YHT i (2.78)
i 1 π i i 1 π i
π ij π i π j
2
Yi N N N
Y Yj
V( Y HT ) (1 π i ) 2 i
i 1 πi i 1 j i πi π j
Yi Yj π ij π i π j
n 2 n n
Yi
V(Y HT ) (1 π i ) 2
i 1 j i πi π j π ij
2
i 1 πi
Pero los métodos más interesantes eran los que producían probabilidades π i
proporcionales a los tamaños M i . Para estos métodos se tiene:
N N
n n M
πi k Mi πi k Mi n k M k πi Mi n i
i 1 i 1 M M M
n
Yi n
M Yi n
M Yi 1 n
YHT i i M Yi M y (2.79)
i 1 π i i 1 π i i 1
M
n i n i1
M
Y HT M y 1 n
YHT y Yi (2.80)
M M n i1
Se observa que las expresiones de los estimadores lineales insesgados para la media
y total en el caso de probabilidades desiguales proporcionales a los tamaños de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Los valores de las varianzas y sus estimadores dependerán del valor de π ij en cada
método de selección sin reposición.
n
Yi n
M Yi
YHH i (2.81)
i 1 n Pi i 1 n Pi
De la unidad 2 del texto Muestreo Estadístico I (ver expresión 2.28), se sabe que la
varianza de este estimador es:
2
1 N Y
V(Y HH ) i Y P i
n i 1 P i
YHH YHH 1 1
YHH V Y H H V V Y H H V Y H H V Y H H
M M M
2 2
M
Pero los métodos más interesantes eran los que producían probabilidades Pi
proporcionales a los tamaños M i . Para estos métodos se tiene:
N N
1 1 M
P i k M i pi k M i 1 k M k Pi Mi i
i 1 i 1 M M M
n
Yi n
M Yi n
M Yi 1 n
YHH i i M Yi M y (2.82)
i 1 n Pi i 1 n Pi i 1 M n i 1
n i
M
Se observa que las expresiones de los estimadores para media y totales en el caso de
probabilidades proporcionales a los tamaños coinciden con y sin reposición
M2
Y Y M i Y i Y
N
Mi M N
2 2
i
n i 1 M n i 1
M i Y i Y
M N
V(Y HH )
2
(2.84)
n i 1
2
M2 n 1 n M2 n
i n
n(n - 1) i 1
Y
i 1
Y i
Yi y
n (n - 1) i 1
2
V(Y HH )
M2 n
Yi y
n (n - 1) i 1
2
(2.85)
M M M n i 1 n M i 1
(2.86)
(2.87)
Ejemplo 2.8. Un auditor desea muestrear los registros de ausencias por enfermedad
de una gran empresa, para determinar el número promedio de días de ausencia por
enfermedad por empleado en el cuatrimestre pasado. La empresa tiene ocho
divisiones, con diferentes números de empleados por división. Ya que el número de
días de ausencia por enfermedad dentro de cada división debe estar altamente
correlacionado con el número de empleados, el auditor decide muestrear n = 3
divisiones con probabilidad proporcional al número de empleados y con reposición.
Solución.
a) Primero listamos el número de empleados y el intervalo acumulado para cada
división, como sigue:
División Número de empleados Intervalo acumulado
1 1200 1 - 1200
2 450 1201 - 1650
3 2100 1651 - 3750
4 860 3751 - 4610
5 2840 4611 - 7450
6 1910 7451 - 9360
7 390 9360 - 9750
8 3200 9751 - 12950
Total 12950
una división puede ser seleccionada más de una vez. En este caso el dato resultante
se trata como dos valores muestrales separados pero iguales).
De la expresión (2.87):
n
1 1
V(Y HH ) Yi y
n (n - 1) i 1
2
3(2)
(2.77 2.21) 2 (2.06 2.21) 2 (1.81 2.21) 2
0.4961
0.0827
6
Z0025 V(Y HH ) 1.96 0.0827 0.564
Ejemplo 2.9. Una gran empresa tiene sus inventarios de equipo listados
separadamente en 15 departamentos. Se selecciona una muestra de tres
departamentos con probabilidades proporcionales al número de artículos de equipo
en cada departamento y con reposición. La tabla siguiente presenta el número de
artículos de equipo (NA) en cada departamento (D).
D 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
NA 12 9 27 40 35 15 18 10 31 22 22 19 16 33 6
a) Suponiendo que los tres departamentos seleccionados (que serán los de mayor
probabilidad) tiene cada uno 2 artículos impropiamente identificados, estimar el
número total de artículos impropiamente identificados en la empresa y su error
relativo de muestreo.
b) Estimar por intervalos al 95% de confianza, la media de artículos propiamente
identificados, sabiendo que los tres departamentos seleccionados tienen
respectivamente 4, 5 y 6 artículos impropiamente identificados.
Solución.
Mi 40 35 33
Pi P1 , P2 y P3
M 315 315 315
1 n 315 2 2 2
AHH M
n i1
Pi 17.6136 18
3 40 35 33
18
En este ejercicio p HH
315
3152 2 18 2 2 18 2 2 18 2
V(A HH ) ( ) ( ) ( ) 1.04209
3 2 40 315 35 315 33 315
2
M2 n
V(A HH ) n (n 1) i 1
Pi p HH
1 n
2
V(P HH )
M2
M2
Pi p HH
n (n 1) i 1
1 36 30 27
( 0.858) 2 ( 0.858) 2 ( 0.858) 2 0.0005584
3 2 40 35 33
P H H Z / 2 V(P HH ) 0.858 1.96 0.0005584 0.858 0.046
0.812 , 0.904
n 1 n 1 N n n2
π i Pi (1 Pi ) y π ij (Pi Pj )
N 1 N 1 N 2 N 2
Se pide:
Solución.
Ahora como los Pi son proporcionales a las superficies de las zonas se tiene:
Y1 Y Y
0.25 , 2 0.35 , 3 0.40
M1 M2 M3
N
M1 M M M M
P
i 1
i 1
M
N 1
M M
M
1 N 1 NM M
M
M 25000
M 250
N 100
Y1
0.25 Y1 62.5
250
Y2
0.35 Y2 87.5
250
Y3
0.40 Y3 100
250
M 250
Entonces: P i 0.01 (i = 1, 2, 3 j = 1, 2, 3)
M 25000
n 1 2
π i Pi (1 Pi ) 0.01 0.99 0.03
N 1 99
n 1 N n n2 3 1 100 3 3 2
π ij (Pi Pj ) (0.01 0.01) 0.0006
N 1 N 2 N 2 100 1 100 2 100 2
n
Yi 1
Muestreo sin reposición Y H T (62.5 87.5 100) 8333.3
i 1 π i 0.03
Yi Yj π ij π i π j
n 2 n n
Yi
V(Y HT ) (1 π i ) 2
i 1 j i πi π j π ij
2
i 1 πi
496528.0033
CV(Y HT ) 0.0845 (8.45 %)
8333.3
Y H T Z 0.025 V(Y HT ) 8928.6 1.96 18726615.65 446.8 , 17410.4
1 2Pi N Pi 1 1
π i Pi y π ij Pi Pj
1 P 1 P
1 Pi i 1 1 Pi i j
Respuesta. π i 0.0102 , π ij 0.0002 , Y H T 24509.8 , V(Y HT ) 393929017.7
n c n m.a.s 1 (M 1) δ
M n c S2
V( y ) 1 (M 1) δ y Vm.a.s ( y )
M n m.a.s S2
M nc M n m.a.s
M n c S2 M n m.a.s S2
1 (M 1) δ
M nc M n m.a.s
1 (M 1) δ
1 1
nc n m.a.s
y por lo tanto
n c n m.a.s 1 (M 1) δ
2.7.1.1. Tamaño de la muestra para un error de muestreo e σ( θ) prefijado.
M n c S2
1 (M 1) δ e 2 y despejando, se obtiene:
M nc
M 1 (M 1) δS2
nc
Me2 1 (M 1) δS2
M
Como n c n M n , siendo n el número de conglomerados seleccionados, se
N
obtiene:
n N
1 (M 1) δS 2
Me 1 (M 1) δS
2 2
(2.88)
S2 1 (M 1) δ
1 (M 1) δ e 2
S2
nc
nc e2
Como n c n M
S2 1 (M 1) δ
nc n M , con lo que resulta:
e2
1 S2 1 (M 1) δ
n (2.89)
M e2
En este caso es necesario expresar C en función de los diferentes costos que surgen
en este tipo de muestreo. Una función de costo sencilla es:
C c0 c1n c 2 n M (2.90)
C c0
n (2.91)
c1 M c 2
Por lo que si el tamaño de los conglomerados está prefijado, fijar el costo lleva a un
valor de n concreto.
_____________________
Para ilustrar esta idea, considérese la figura 2.2, donde los conglomerados se reparten
a la misma distancia en un área rectangular A.
Si se trata de recorrer todos los conglomerados por el camino más corto, la distancia
recorrida será aproximadamente d (n 1) , que es el número de caminos entre los
conglomerados dos a dos (en el ejemplo, d 11 ). Aproximando d (n 1) d n , y
A
como d , entonces la distancia recorrida en total será:
n
A
n nA
n
C c0 n c1n c2 n M (2.92)
Podemos determinar los pares (n, M) óptimos que, para C prefijado, minimizan la
varianza del estimador de la media V( y ) . Esto conduce al planteamiento del
problema de Lagrange con una restricción:
1 (M 1) δ
S2
Min V( y ) Min1 f
nM (2.93)
C c0 n c1 n c2 n M
Min C Min c 0 n c1 n c 2 n M
2
V( y ) 1 f S 1 (M 1) δ (2.94)
n M
S2b
V( Y) V( y ) (1 f)
n M0
S2b
M in V( y ) M in (1 f)
nM
(2.95)
C c0 n c1 n c2 n M
Min C Min c 0 n c1 n c 2 n M
2
V( y ) (1f) Sb (2.96)
nM
C c0
n (2.97)
c1 M c 2
c 02 4C (c1 Mc 2 ) c 0
n (2.98)
2(c1 Mc 2 )
M n c S2 N n S2
V( y ) 1 (M 1) δ 1 (M 1) δ
M nc N nM
50 n 20
0.252 1 (10 1) (0.05)
50 10n
Despejando, se obtiene:
n 50
1 (10 1) (0.05) 20 50
11
13.017
50 10 0.25 1 (10 1) (0.05) 20
2
42.25
Ejemplo 2.12. Supóngase que los datos de la tabla 2.2 (ver ejemplo 2.6, página 102)
representan una muestra preliminar de ingresos en la ciudad. ¿Qué tan grande debe
tomarse la muestra en una encuesta futura para estimar el ingreso promedio μ por
persona con un error absoluto de muestreo de $ 250.
(1 f) M 2
i (Y i Y) 2
V( y) V( R ) i 1
M n
2
N 1
M
i 1
2
i (Y i Y) 2
El término se aproxima por el término obtenido en la muestra
N 1
n
M 2
i ( Y i y) 2
15227989330
i 1
634499555.4 (calculada en el ejemplo 2.6)
n 1 24
1 n 151
La cantidad M puede ser estimada por M
n i1
Mi
25
6.04 calculada también
Así tenemos:
(1 f) Nn
V( y) 250 2 2
634499555.4 2
634499555.4
M n M Nn
415 n 415 n
634499555.4 250 2 634499555.4
(6.04) 415 n
2
(6.04) 2 415 n
Así como en el caso de todos los demás métodos de muestreo, el muestreo por
conglomerados puede ser combinado con muestreo estratificado, con el objeto de que
la población pueda ser dividida en L estratos y se pueda seleccionar entonces una
muestra por conglomerados en cada estrato.
Supongamos que tenemos dos estratos, esto es, L = 2, con tamaños de estrato N1 y
N2 respectivamente.
N1 y t 1 N 2 y t 2
(2.99)
N
n1 n2
Yi1 Y i2
donde y t1 i 1
y y t2 i 1
representan los promedios de los totales de
n1 n2
los conglomerados en las respectivas muestras.
Por otro lado, el estimador del promedio del tamaño de conglomerados es:
1
(N1 M1 N 2 M 2 )
N
N1 y t 1 N 2 y t 2
Y
(2.100)
N1 M1 N 2 M 2
n1 n2
M i1 M i2
donde M1 i 1
y M2 i 1
representan los respectivos promedios de los
n1 n2
tamaños de los conglomerados en las muestras.
1 N1 (N1 n1 ) n
V(Y ) 2 (Yi y t1 ) Y (M i M1 ) 2
M n1 (n1 1) i 1
N 2 (N 2 n 2 ) n
2
(Yi y t2 ) Y (M i M 2 )
n 2 (n 2 1) i 1
(2.101)
Ejemplo 2.13. Consideremos los datos de la tabla 2.2 del ejemplo 2.6, como la
muestra del estrato 1, con N 1 = 415 y n 1 = 25. Se toma una ciudad vecina más
pequeña como el estrato 2. Para el estrato 2, n 2 = 10 bloques se van a muestrear de
N 2 = 168.
1 2 $ 18000
2 5 52000
3 7 68000
4 4 36000
5 3 45000
6 8 96000
7 6 64000
8 10 115000
9 3 41000
10 1 12000
Solución.
25 10
Yi1 1329000 Y i2
547000
y t1 i 1
53160 , y t2 i 1
54700
25 25 10 10
25 10
M i1 151 M i2
49
M 1 i 1
6.04 , M2 i 1
4.9
25 25 10 10
Luego el ingreso promedio estimado por persona en las ciudades combinadas es:
N1 y t 1 N 2 y t 2 415(53160) 168(54700) 31251000
Y
$ 9385.25
415(6.04) 168(4.9) 3329.8
N1 M11 N 2 M12
b) Para el estrato 1:
25
i
(Y y t1 ) Y (M i M 1 )
2
16222325900
i 1
Para el estrato 2:
2
10
i
i 1
(Y y t2 ) Y (M i M 2 ) 674411840.3
Ya que el número total de residentes adultos en las dos ciudades combinadas (M)
se desconoce, este valor puede ser estimado a partir de:
N1 M1 N 2 M 2 415(6.04) 168(4.9) 3329.8
Por lo que:
1 415(415 - 25) 168(168 - 10)
V(Y ) 2
16222325900 674411840.3
(3329.8) 25(24) 10(9)
412613.3817
Entonces el intervalo con coeficiente de confianza del 95% para ingreso promedio
por persona adulta para las dos ciudades combinadas es:
Y Z0.025 V(Y ) 9885.25 1.96 412613.3817 9885.25 1259
el ingreso promedio por persona para las dos ciudades combinadas se encuentra
en el intervalo:
$ 8626.25 Y $ 11144.25
Vemos que el límite para el error de estimación es un poco más pequeño que el
límite para el estrato 1, como se encontró en el ejemplo 2.6.