Unidad 2 - 2022

66
Unidad 2. Muestreo por Conglomerados en una etapa o monoetápico.
Unidad 2
MUESTREO POR CONGLOMERADOS EN UNA ETAPA O

MONOETÁPICO.
2.1. Introducción.
Los diseños muestrales estudiados anteriormente presuponían la existencia de un

marco, bien conocido y disponible, donde se recogen las unidades poblacionales
finales. No obstante, en muchas situaciones prácticas, este marco no está disponible,
y su elaboración puede ser muy costosa, e incluso imposible. En tales casos, se puede
dividir la población en grupos o agregados de unidades finales, y aplicar el muestreo
sobre estos. Dichos grupos o agregados se denominan conglomerados.
Por ejemplo, en una encuesta que se quiera realizar sobre las personas del Distrito de
Castilla – Piura, dividido en numerosas zonas geográficas (o secciones censales),
determinadas por manzanas, calles, etc., se seleccionará primero una muestra de tales
zonas geográficas, y a continuación se estudiarán las personas de las zonas
geográficas de dicha muestra. Este estudio se puede realizar tanto estudiando las
zonas de forma exhaustiva (muestreo por conglomerado en una etapa), como
haciendo el estudio de dichas zonas mediante nuevos muestreos (muestreo por
conglomerados en dos o más etapas).
Definición 1. Un conglomerado es un conjunto de unidades, que a su vez es una

clase o parte de una partición de la población.
Como puede verse, en el muestreo por conglomerados se parte de una estructura de

la población en clases o subpoblaciones que forman una partición, como ocurre
también en el muestreo estratificado, pero la similitud termina aquí. En el muestreo
estratificado se obtiene una muestra en todos y cada uno de los estratos. En el
muestreo por conglomerado se obtiene una muestra de conglomerados (dejando otros
sin examinar) y luego se estudiará a dichos conglomerados de forma exhaustiva o
efectuar en cada uno de ellos una segunda selección de unidades últimas o
submuestreo. En el muestreo estratificado, para ser eficiente, requería cierta
diferencia entre los estratos respecto a la variable de estudio, y de cierta
homogeneidad interna. En el muestreo por conglomerados, como se van a
seleccionar sólo algunos, conviene que cada uno de ellos esté en cierto modo
representado por los demás (homogeneidad entre conglomerados), y, además, que
cada uno de ellos sea en sí mismo una buena representación de la población
(heterogeneidad intra conglomerados).
Consideremos una población finita con M unidades elementales o últimas agrupadas

en N unidades mayores llamadas conglomerados o cluster o unidades primarias, de
tal forma que no existan solapamientos entre los conglomerados y que éstos
contengan en todo caso a la población en estudio. Consideramos como unidad de
muestreo el conglomerado y extraemos de la población una muestra de n
conglomerados a partir de la cual estimaremos los parámetros poblacionales.
El número de unidades elementales de un conglomerado se denomina tamaño del

conglomerado. Los conglomerados pueden ser de igual tamaño o de distinto tamaño
Dr. César Haro Díaz

67
y han de ser lo más heterogéneos posible dentro de ellos y lo más homogéneos

posibles entre ellos, de tal forma que la situación ideal sería que un único
conglomerado pudiese representar fielmente a la población (muestra de tamaño uno
con mínimo costo).
Casos típicos de muestreo por conglomerados son la selección aleatoria de familias

de una población para efectuar un estudio de individuos dentro de ellas, la selección
aleatoria de hospitales (que forman conglomerados convenientes) para realizar
estudios del tiempo promedio de hospitalización de pacientes con ciertas
enfermedades, etc. Otros elementos diferentes de personas son frecuentemente
muestreados en conglomerados. La selección de granjas de una comarca para una
investigación en que las unidades últimas fuesen cabezas de ganado, la selección de
árboles de una plantación cuando las unidades últimas fuesen los frutos, la selección
de árboles en una parcela en el bosque para realizar la estimación de volúmenes de
madera o proporción de árboles enfermos, un automóvil forma un buen
conglomerado de cuatro llantas para estudios de uso y seguridad de llantas, un
tablero de circuitos fabricados para computadora forma un conglomerado de
semiconductores para prueba, Como se puede ver, la lista de posibles
conglomerados, que son unidades convenientes de muestreo, es infinita.
Es muy frecuente que los conglomerados estén definidos como “áreas” o partes bien
delimitadas de terreno, de modo que todas las unidades últimas correspondientes al
área sean las que constituyen el conglomerado. De aquí que esté generalizada la
denominación de muestreo por áreas para designar estos procedimientos de
muestreo.
El empleo de conglomerados o áreas como unidades de muestreo se justifica por

razones de economía en costo, en tiempo, en recursos, etc., y en ciertos casos por la
disminución de sesgos al facilitarse la supervisión. A su vez, la concentración de
unidades disminuye la necesidad de desplazamiento. Pero lo más importante es que
para efectuar un muestreo aleatorio simple o muestreo irrestrictamente aleatorio es
necesario disponer de una lista de todos los elementos de la población (marco), y si
se trata de muestreo aleatorio estratificado son necesarias listas de cada estrato o
subpoblación. En la práctica no suele disponerse de tales listas, salvo en casos
particulares (por ejemplo, en el llamado muestreo de archivos), y además resultaría
muy costosa, difícil o excesivamente prolongada la confección del listado. Es
preferible la división previa de la población en conglomerados o áreas, de los cuales
se selecciona cierto número, para lo cual sólo necesitamos disponer de la lista de los
conglomerados (marco más fácil).
Para ilustrar la aplicación de muestreo por conglomerado, por ejemplo suponga que
se cuenta con una lista de hogares de la ciudad. Podríamos seleccionar una muestra
aleatoria simple de hogares, la cual probablemente estará dispersa en toda la ciudad.
El costo por realizar entrevistas en los hogares dispersos va a ser grande debido al
tiempo de transporte de los entrevistadores y otros gastos relacionados. El muestreo
aleatorio estratificado podría reducir estos gastos, pero el uso de muestreo por
conglomerados es un método más efectivo para reducir los gastos de transporte. Los
elementos dentro de un conglomerado deben estar geográficamente cerca uno de
otro, y entonces los gastos de transporte se reducen.

68
Otro ejemplo, supongamos que queremos determinar cuántas bicicletas son

propiedad de los residentes de una comunidad de 10000 familias. Podríamos extraer
una muestra aleatoria simple de 400 familias o dividir a la comunidad en 500 bloques
que tuviesen, aproximadamente, 20 familias cada uno y analizar a cada familia en
cada uno de los 20 bloques elegidos al azar. El último plan es un ejemplo de
muestreo por conglomerados. Los bloques son los conglomerados o unidades de
muestreo primario. Las familias son las unidades elementales o unidades de
muestreo secundario; con frecuencia, las unidades de muestreo secundario son los
elementos de la población.
Definición 2. El método de muestreo por conglomerados en una etapa o

monoetápico consiste en seleccionar por algún método de muestreo una muestra de
conglomerados, y dentro de cada uno de los seleccionados examinar todas las
unidades elementales.
Tabla 2.1. Algunos ejemplos de conglomerados en muestreo monoetápico.

Variables de interés Y Conglomerados Unidades elementales
(Unidades primarias) ( secundarias)
Gasto mensual Familias Individuos
Consumo eléctrico Edificios Hogares
Presencia de enfermedad Granjas Gallinas
Producción Parcelas de terreno Árboles frutales
Consumo de gas Mancomunidades Municipios
Tiempo internado Hospitales Pacientes internos
Promedio ponderado en una facultad. Grupos (por asignaturas) Estudiantes
El marco para una encuesta ha de estar constituido por todas las listas y material
cartográfico disponible. Es muy probable que cuando nos interese tomar una muestra
de los habitantes de una ciudad no dispongamos de la lista de dichos habitantes, pero
sí de un plano que nos permita dividirla en áreas a seleccionar. Previamente hay que
formar la lista de unidades componentes de cada conglomerado, pero ello resulta más
económico que confeccionar la lista de todas las unidades en la población completa.
En el muestreo estratificado figuran en la muestra algunas unidades de cada uno de

los grupos (estratos). En el muestreo sistemático las unidades elementales de la
muestra están dispersas por toda la población. En el muestreo monoetápico de
conglomerados las unidades muestrales son grupos completos de unidades
elementales.
Los tres tipos de muestreo mencionados pueden combinarse en un diseño muestral

complejo. Así, por ejemplo, se pueden estratificar los conglomerados, obtener una
muestra de ellos, y dentro de los conglomerados muestrales obtener una muestra
sistemática de unidades elementales. También es posible cualquier otro tipo de
combinación entre estos tipos de muestreo.
2.2. Analogías y diferencias entre el muestreo por conglomerados de una etapa

y el muestreo estratificado.
Los conglomerados recuerdan a los estratos, pero sólo de manera superficial: un

conglomerado, al igual que un estrato, es una agrupación de los miembros de la

69
población. Sin embargo, el proceso de selección es un poco distinto en ambos

métodos. Las analogías y diferencias entre las muestras por conglomerados y las
muestras estratificadas se ilustran en la figura 2.1.
Muestreo estratificado Muestreo por conglomerados

Cada elemento de la población Cada elemento de la población está en un sólo
está exactamente en un estrato. conglomerado.
Población de L estratos; el estrato h Muestreo por conglomerados en una

tiene n h elementos. etapa: Población de N conglomerados.
Se extrae una muestra aleatoria simple Se extrae una muestra aleatoria simple de
de cada estrato. conglomerados; observe que todos los elementos
dentro de los conglomerados están en la muestra.
Figura 2.1. Analogías y deferencias entre el muestreo por conglomerados y el muestreo estratificado.

70
Mientras que, por lo general, la estratificación aumenta la precisión en relación con

el muestreo aleatorio simple, el muestreo por conglomerados, con frecuencia, la
disminuye. Los miembros de un mismo conglomerado tienden a ser similares que los
elementos seleccionados al azar de entre toda la población: los miembros de la
misma familia tienden a tener opiniones políticas similares; los peces del mismo lago
tienden a presentar concentraciones similares de mercurio; los residentes del mismo
asilo tienden a dar opiniones similares sobre la calidad de la atención. Por lo general,
estas analogías surgen debido a ciertos factores subyacentes que podrían medirse o
no; los residentes del mismo asilo podrían tener opiniones similares debido a que la
atención es pésima y la concentración de mercurio en los peces reflejaría la
concentración de mercurio que existe en el lago. Por tanto, si extraemos una muestra
de dos residentes del mismo asilo, no conseguimos tanta información acerca de los
residentes de asilos en el país como la que obtendríamos al extraer una muestra de
dos residentes de asilos distintos, debido a que es probable que los residentes del
mismo asilo posean opiniones más similares. Al obtener una muestra de todos los
individuos que pertenecen al conglomerado, repetimos parcialmente la misma
información en vez de conseguir información nueva y esto implica una menor
precisión para las estimaciones de las cantidades de la población. El muestreo por
conglomerados se utiliza en la práctica debido a que es más barato y conveniente
obtener muestras por conglomerados que al azar entre la población. Casi todas las
grandes encuestas familiares realizadas por el gobierno de Estados Unidos, o por
instituciones comerciales o académicas utilizan el muestreo por conglomerados
debido al ahorro en los costos.
Para una mayor precisión, los elementos individuales dentro de cada estrato deben
tener valores similares, pero las medias por estrato deben diferir entre sí lo más
posible.
Para una mayor precisión, los elementos individuales dentro de cada conglomerado
deben ser heterogéneos y las medias por conglomerado deben ser similares entre sí.
2.3. Ventajas y desventajas del muestreo por conglomerados
Una vez analizadas las características del muestreo por conglomerados en una etapa
y su comparación con otros tipos de muestreo, podríamos citar a manera de resumen
algunas de las ventajas y desventajas que presenta este tipo de muestreo.
Ventajas.
 No se necesita un marco muy específico como en el caso del muestreo aleatorio

simple en el que era necesario disponer de un listado de unidades de la población,
o como en el muestreo estratificado, donde era necesario disponer de listados de
unidades por estratos.
 Se divide previamente al muestreo la población en conglomerados o áreas

convenientes de las cuales se selecciona un cierto número para la muestra, con lo
que sólo es necesario un marco de conglomerados que será más fácil de
conseguir y más barato.
 Se pueden utilizar como marco divisiones territoriales ya establecidas por

necesidades administrativas para las cuales existe ya información. También se

71
pueden utilizar como marco áreas geográficas cuyas características están ya muy
delimitadas.
 Se ahorra costo y tiempo al efectuar visitas a las unidades seleccionadas. La

concentración de unidades disminuye la necesidad de desplazamientos.
Desventajas
 Menor precisión en las estimaciones, debido a que aunque lo ideal es que haya
heterogeneidad dentro, siempre va a existir un cierto grado de homogeneidad
inevitable dentro de los conglomerados.
 La eficiencia de este tipo de muestreo disminuye al aumentar el tamaño de los

conglomerados, cuando en realidad este tipo de muestreo es más útil en caso de
poblaciones muy numerosas en las que se puedan construir conglomerados
grandes.
2.4. Cómo Seleccionar una muestra por conglomerados.
La primera tarea en muestreo por conglomerados es especificar los conglomerados

apropiados. Los elementos dentro de un conglomerado están frecuentemente juntos
físicamente, por lo que tienden a presentar características similares. Dicho de otra
manera, la medición de un elemento en un conglomerado puede estar altamente
correlacionada con la de otro elemento. Entonces la cantidad de información acerca
de un parámetro poblacional puede no incrementarse sustancialmente al tomar
nuevas mediciones dentro de un conglomerado. Ya que las mediciones cuestan
dinero, se podría desperdiciar presupuesto si es que se selecciona un conglomerado
de gran tamaño. Sin embargo pueden ocurrir situaciones en las cuales los elementos
dentro de un conglomerado son muy diferentes entre sí. En tales casos una muestra
que contenga pocos conglomerados grandes puede producir una estimación muy
buena de un parámetro poblacional, tal como la media.
Por ejemplo supóngase que los conglomerados están formados por cajas de
componentes que van saliendo de una línea de producción, un conglomerado de
componentes por línea. Si todas las líneas tienen aproximadamente la misma tasa de
componentes defectuosos, entonces cada conglomerado (caja) es aproximadamente
tan variable con respecto a calidad como la población completa. En este caso se
puede obtener un buen estimador de la proporción de productos defectuosos con base
en uno o dos conglomerados.
En contraste, supóngase que los distritos escolares se especifican como

conglomerados de hogares para estimar la proporción de familias que apoyan un plan
de rezonificación. Ya que los conglomerados contienen muchos hogares, los recursos
permiten únicamente el muestreo de un número pequeño de conglomerados, dos o
tres, por ejemplo. En este caso en un distrito la mayoría de las familias puede estar
satisfecha con sus escuelas y no apoyar la rezonificación, mientras que en otro
distrito la mayoría puede estar inconforme con sus escuelas y favorecer
decididamente la rezonificación. Una muestra pequeña de distritos escolares puede
no contener a uno u otro de estos grupos, produciendo por esto un estimador muy
deficiente. Se puede obtener mayor información muestreando un número grande de
conglomerados de menor tamaño.

72
El problema de elegir un tamaño apropiado del conglomerado puede ser aún más
complicado cuando se dispone de un número infinito de posibles tamaños de
conglomerados, como en la selección de parcelas forestales para la estimación de la
proporción de árboles enfermos. Si existe variabilidad en la densidad de árboles
enfermos a lo largo y ancho del bosque, entonces muchas parcelas (conglomerados)
pequeñas, localizadas aleatorias o sistemáticamente, pueden ser lo deseable. Sin
embargo, localizar aleatoriamente una parcela en el bosque consume mucho tiempo,
y una vez localizada, el muestreo de muchos árboles es económicamente
conveniente. Entonces muchas parcelas pequeñas son ventajosas para controlar la
variabilidad, pero pocas parcelas grandes son económicamente recomendables. Se
debe encontrar un equilibrio entre el número y tamaño de las parcelas. No existen
buenas reglas que funcionen siempre para tomar esta decisión. Cada problema debe
ser estudiado separadamente; pero las encuestas piloto pueden ayudar al
experimentador a encontrar la dirección correcta.
Nótese la principal diferencia entre la construcción óptima de estratos y la

construcción de los conglomerados. Recordemos que los estratos deben ser grupos
más o menos homogéneos (semejantes) entre ellos en cuanto a su composición
interna, pero un estrato debe diferir tanto como sea posible de otro con respecto a la
característica que está siendo medida. En cambio, en los conglomerados, se espera
que la composición interna sea lo más heterogénea (diferente) posible entre ellos, y
un conglomerados debe ser muy similar a otro en cuanto a la composición interna,
de tal forma que cada conglomerado represente en lo posible a la población.
Una vez que los conglomerados han sido especificados se debe conformar un marco
de muestreo que liste todos los conglomerados de la población. Entonces se
selecciona una muestra irrestricta aleatoria de conglomerados o mediante una
muestra sistemática de este marco.
Ejemplo 2.1. Un Estadístico quiere estimar el ingreso promedio por persona en

cierta ciudad pequeña. No existe una lista disponible de adultos residentes. ¿Cómo se
debe diseñar la encuesta por muestreo?
Solución. El muestreo por conglomerados parece ser la elección lógica para el diseño
de la encuesta porque no se encuentra disponible una lista de elementos. La ciudad es
dividida en bloques rectangulares, excepto las dos áreas industriales y los tres
parques que contienen pocas casas. El estadístico decide que cada bloque de la
ciudad va a ser considerado como un conglomerado, las dos áreas industriales van a
ser consideradas como otro, y, finalmente, los tres parques van a considerarse un
conglomerado más. Los conglomerados son numerados sobre un mapa de la ciudad,
con los números del 1 al 415. El estadístico decide seleccionar una muestra aleatoria
simple y sin reposición de n = 25 conglomerados y entrevistar a cada hogar dentro de
cada uno. Entonces se seleccionan 25 números aleatorios entre 001 y 415 de la tabla
de números aleatorios (o de la ayuda de un software estadístico), y los
conglomerados con esos números son marcados en el mapa. Después se asignan los
entrevistadores a cada uno de los conglomerados seleccionados.

73
2.5. Conglomerados con el mismo tamaño M i  M . Estimadores lineales

insesgados.
En este caso vamos a suponer que todos los conglomerados son del mismo tamaño
M i  M , en cuyo caso utilizaremos la siguiente notación:
N = Número de conglomerados en la población.

n = Número de conglomerados seleccionados en la muestra.
M = Número de unidades elementales por conglomerado (tamaño del conglomerado).
M = N M = Número total de unidades elementales en la población.
n M = Número total de unidades elementales en la muestra.
Consideremos la característica poblacional general:
N N M
θ   X i   X i j (2.1)
i 1 i 1 j 1
2.5.1. Muestreo por conglomerados en una etapa sin reposición
El parámetro θ de la expresión (2.1), puede ser estimado mediante el estimador

lineal insesgado de Horwitz y Thompson:
 X n n X ij
N n M
θ i   X ij
j 1
 (2.2)
i 1 π i i 1
n n i 1 j 1
N
Como se extraen n conglomerados para la muestra de entre los N existentes en total,

la variable de apoyo e i , puede definirse en este caso como:
~
1 si u i  Y con probabilidad π i  n / N
Eei   π i π i 
n
ei   ~
0 si u i  Y con probabilidad 1  π i  1  n / N N
La aplicación del estimador lineal insesgado de Horwitz y Thompson a las

estimaciones del total, media, proporción y total de clase poblacionales proporciona
los siguientes estimadores:
N M
Total  θ  Y   Yij  X ij  Yij
i 1 j 1
 N n M NM n 1 M 1 n
 Y 
n i 1 j 1
Yij   
n i 1 M j 1
Yij  NM  Y i  NM  y
n i 1

74
1 N M Yij
Media  θY  Yij 
N M i 1 j 1
X ij 
NM

N n M Yij 1 n M Yij 1 n
 Y      Yi  y
n i 1 j 1 NM n i 1 j 1 M n i 1
N M
Total de clase  θ  A   A ij  X ij  A ij
i 1 j 1
 N n M NM n 1 M 1 n 
 A  ij n 
n i 1 j 1
A   ij
i 1 M j 1
A  N M i
n i 1
P  N M  P
1 N M A ij
Proporción  θP  A ij
N M i 1 j 1
 X ij 
NM
 N n M A ij 1 n M A ij 1 n  
 P      Pi  P
n i 1 j 1 NM n i 1 j 1 M n i 1
Vemos que el estimador insesgado de la media poblacional es la media de las medias

de los conglomerados de la muestra y el estimador de la proporción poblacional es la
media de las proporciones de los conglomerados de la muestra. Así mismo se
mantiene la regla de que el estimador del total es el número total de unidades
elementales de la población multiplicado por el estimador de la media. De forma
similar, el estimador del total de clase es el número total de unidades elementales de
la población multiplicado por el estimador de la proporción.
2.5.1.1. Varianzas de los estimadores.
Estimador de la media.
 Y i  Y   MY  Y
N N
2 2
i

1 n 
V( Y)  V( y )  V  Y i   1  f   i  1  1  f   i  1 
 n i 1  n (N  1) n M(N  1)
 Y  Y
N M
2
i
S2b
 1  f  
i  1 j1
 (1  f) 
n M(N  1) nM
 Y  Y
N M
2
i
i  1 j 1
S2b  = cuasivarianza entre conglomerados.
N 1

75
La expresión de la varianza de la media, resulta:


S2b
V( Y)  V( y )  (1  f)  (2.3)
nM
es similar a la obtenida en el muestreo aleatorio simple sin reposición, sustituyendo

S2 por S2b y siendo n M el número total de unidades elementales en la muestra.
Estimador del total.

 S2b
V( Y)  V(N M y)  N M  V( y)  N M (1  f) 
2 2 2 2
(2.4)
nM
Estimador de la proporción.
Yi  Y 2  MY i  Y 2
N M N N
 M  Pi  P 
2
N
  Pi  P 
i  1 j 1 M
S2b   i 1
 i 1

2
N 1 N 1 N 1 N  1 i 1
M N N
  P  P 2
 Pi  P 2

N 1 i 1
2 i
 1  f    1  f   i  1
S
V( P)  (1  f)  b
(2.5)
nM nM n (N  1)
Estimador del total de clase.

N
 P  P 
2
   i
V( A)  V(N M P)  N 2 M  V( P)  N 2 M (1  f)  i  1
2 2
(2.6)
n (N  1)
2.5.1.2. Varianzas de los estimadores en función del coeficiente de correlación

intraconglomerados.
Sea (Yij , Yiz ) un par de valores cualesquiera de la variable en estudio medido sobre
unidades del conglomerado i-ésimo con j < z.
M
En cada conglomerado de M elementos se forman   pares de valores.
2
M
Para los N conglomerados tendremos N   pares posibles.
2
El coeficiente de correlación intraconglomerados se define como el coeficiente de

correlación lineal entre todos los pares especificados anteriormente, de tal forma que
dicho coeficiente será una “medida de la homogeneidad” en el interior de los
conglomerados. Nos interesará que el coeficiente intraconglomerados sea lo más
pequeño posible, ya que en muestreo por conglomerados lo ideal es la

76
heterogeneidad dentro los conglomerados. La expresión del coeficiente de

correlación intraconglomerados será:
N M
1
 (Yi j  Y)(Yi z  Y)
 M  i 1 j  z
N 
δ 

Cov(Yij , Yiz ) E (Yi j  E(Y ij )(Yi z  E(Y i z )
  
2 
σ(Yij ) σ(Yiz ) σ 2
σ2 (2.7)
Se tiene que:
 Y i j  Y  Y  Y
N M N M
2 2
ij
i  1 j 1 i  1 j 1 NM  1 2
S2  y σ2   σ2  S
NM  1 NM NM
Si sustituimos esta última expresión en el denominador del coeficiente de correlación

intraconglomerados (expresión 2.7) tenemos:
N M
1
 (Yi j  Y)(Yi z  Y) N M
 M  i1 j  z
N  2 (Yi j  Y)(Yi z  Y)
  2

i 1 j  z
(2.8)
NM  1 2 (M  1) (N M  1)  S2
S
NM
De esta expresión (2.8) se para deduce que:

N M
2 (Yi j  Y)(Yi z  Y)  (M  1) (NM  1)  S2  δ
i 1 j  z
Para expresar la varianza de y en función del coeficiente de correlación

intraconglomerados desarrollaremos la expresión:
2
 M 
 Y  Y
N

i
2
1 f  N 

1  f  N  j 1
 Yi j 
MY 
V( Y)  V( y )  1  f      Y i  Y    
i 1 2
n (N  1) n (N  1) i  1 n (N  1) i  1  M M 
 
 
1  f  1  f   N  M Y  Y
2 2
M N M 
2   ij   n (N  1) M 2    i j
   Y  Y  
n (N  1) M i  1  j  1 j 1  i 1  j 1


1  f  N M
 
N M
  

        
2
 Yi j Y 2 Yi j Y Yi z Y
n (N  1) M  i1 j 1
2
i 1 j z 

1  f  
 (NM  1) S2  (M  1) (NM  1)  S2  δ  
n (N  1) M
2

77

1  f  (NM  1)  S2  1  (M  1) δ  1  f  (NM  1)  S2  1  (M  1) δ
n (N  1) M
2
n (NM  M) M
 1  (M  1)  δ
S2
Si N    1  f  
nM
Luego podemos expresar la varianza del estimador de la media en función del

coeficiente de correlación intraconglomerados de la siguiente forma:

 1  (M  1)  δ
S2
V( Y)  V( y )  1  f   (2.9)
nM
2.5.1.3. Comparación con el muestreo aleatorio simple.
A partir de la expresión:
 1  (M  1)  δ  Vmas ( y)  1  (M  1)  δ
S2
V( y )  1  f   (2.10)
nM
se deduce que para valores positivos de  , existe un aumento en la varianza del

muestreo por conglomerados con relación al muestreo aleatorio simple y muestras de
tamaño igual a n M unidades elementales. El caso más desfavorable (varianza
máxima) correspondería a   1 y el más favorable (varianza mínima) a:
1
 
M 1
en que la varianza sería igual a cero ( V( y )  0 ). Para   0 ambos métodos

proporcionarían la misma precisión.
El termino M  1 expresa el aumento de la varianza debido a la selección de n

conglomerados de tamaño M en lugar de n M unidades elementales obtenidas por
muestreo aleatorio simple. Si el coeficiente de correlación intraconglomerados fuese
negativo ello supondría mayor precisión en el muestreo por conglomerados que en el
muestreo aleatorio simple. Pero en la práctica suele ocurrir que los elementos de cada
conglomerados tienen cierto parecido entre sí aunque se intente que sean lo más
heterogéneos posibles, con lo cual la correlación es positiva y menor la precisión en
el muestreo por conglomerados que en el muestreo aleatorio simple. Este problema
ya fue citado como una de las desventajas del muestreo por conglomerados.
Evidentemente, cuando   (0, 1] la precisión del muestreo por conglomerados es

inferior a la del muestreo aleatorio simple y a medida que el valor de  se aproxima
a 1, se acentúa la pérdida de precisión en el muestreo por conglomerados respecto del
muestreo aleatorio simple.
Cuando   0 las precisiones de ambos métodos coinciden y cuando:

78
 1 
   , 0
 M 1 
la precisión del muestreo por conglomerados es superior a la del muestreo aleatorio

1
simple y a medida que el valor de  se aproxima a  se acentúa la ganancia
M 1
del muestreo por conglomerados respecto del muestreo aleatorio simple.
Por otra parte, si llamamos n a al tamaño de muestra necesario en muestreo aleatorio

simple para obtener una precisión dada, y si llamamos n c al tamaño de muestra en
muestreo por conglomerados, resulta que si los dos tipos de muestreo tienen la
misma precisión:
 1  (M  1)  δ  n c  n a  1  (M  1)  δ
2
S2
1  f   S  1  f  
na nc
Precisamente la cantidad 1  (M  1) δ por la que hay que multiplicar el tamaño de

una muestra necesario en muestreo aleatorio simple n a para que coincida con el
tamaño de muestra por conglomerados n c para igual precisión en ambos tipos de
muestreo, se denomina efecto del diseño.
Ejemplo 2.2. Supongamos que tenemos una población de 9 elementos, con valores
{1, 2, 3, 1, 2, 3, 1, 2, 3}. La media poblacional es Y  2 y la cuasivarianza
poblacional es S2  0.75 .
a) Si escogemos la siguiente configuración de conglomerados:
{1, 2, 3}, {1, 2, 3}, {1, 2, 3}.
Calcular el coeficiente de correlación intraconglomerados. Interprete el valor

obtenido de  .
b) Si por el contrario, se utiliza la configuración: {1, 1, 1}, {2, 2, 2}, {3, 3, 3}. Se
pide calcular el coeficiente de correlación intraconglomerados. Interprete el
valor obtenido de 
Solución.
a) En este caso N = 3, M  3
N M0
2 (Yi j  Y)(Yi z  Y)
i 1 j  z 2(1  2)(2  2)  (1  2)(3  2)  (2  2)(3  2)
δ  
(M  1) (NM  1)  S 2
(3  1)  (3  3  1)  0.75
2(1  2)(2  2)  (1  2)(3  2)  (2  2)(3  2) 2(1  2)(2  2)  (1  2)(3  2)  (2  2)(3  2)

(3  1)  (3  3  1)  0.75 (3  1)  (3  3  1)  0.75

79
2  (1) 6
 3    0.5
2  8  0.75 12
1 1
Además,     0.5 , con lo cual la configuración escogida es la
M 1 3 1
mejor posible.
b) Para de caso de la configuración: {1, 1, 1}, {2, 2, 2}, {3, 3, 3}. Tenemos:
N M
2 (Yi j  Y)(Yi z  Y)
i 1 j  z 23  (1  2)(1  2)  3  (2  2)(2  2)  3  (3  2)(3  2)
δ 
(M  1) (NM  1)  S 2
(3  1)  (3  3  1)  0.75
61  0  1 12
  1
2  8  0.75 12
que es positiva, y como ya se ha visto, lleva a que el muestreo por

conglomerados, con esta configuración, tenga una pérdida de precisión respecto
al m.a.s para el mismo tamaño muestral.
2.5.1.4. Estimación de varianzas
Para realizar la estimación de varianzas vamos a construir las tablas del análisis de la
varianza (ANVA) que muestren la descomposición de la varianza, tanto para la
población como para la muestra.
Descomposición de la varianza para la población.
Fuente de variación Grados de libertad Sumas de cuadrados Cuadrados medios
 Y  Y
N M
Entre conglomerados N 1 i
2
S 2b
i  1 j 1
 Y  Yi 
N M
N (M  1)
2
Dentro de conglomerados ij S2w
i  1 j 1
 Y  Y
N M
N M 1
2
Total ij S2
i  1 j 1
La relación fundamental del análisis de la varianza será en este caso:
 Y i j  Y   Yi j  Y i  Y i  Y   Yi j  Y i    Y i  Y  

N M N M N M N M
2 2 2 2
i  1 j 1 i  1 j 1 i  1 j 1 i  1 j 1
2  Yi j  Y i )(Y i  Y    Yi j  Y i    Y i  Y 

N M N M N M
2 2
i  1 j 1
   i  1 j 1 i  1 j 1

80
 Y i j  Y  Y  Y  Y  Y
N M N M N M
2 2 2
ij i
i  1 j 1 i  1 j 1 i  1 j 1
S2  , Sw 
2
, S2b 
N M 1 N (M  1) N 1
Podemos expresar la descomposición de la varianza como sigue:
 Y i j  Y    Yi j  Y    Y i  Y 
N M N M N M
2 2 2
i  1 j 1 i  1 j 1 i  1 j 1
    
(N M 1)S2 N ( M 1)S2w (N 1)S2b
(N M  1) S2  N (M  1) S2w  (N  1) S2b (2.11)
N (M  1) S2w (N  1) S2b
 S  2
 (2.12)
N M 1 N M 1
Descomposición de la varianza para la muestra.
Fuente de variación Grados de Sumas de Cuadrados Esperanzas

libertad cuadrados medios
 Y 
n M
Entre conglomerados n 1 i y 2 
S 2b
i  1 j 1
S 2b
 Y  Yi  2
n M
Dentro de conglomerados n (M  1) 
S2w
i  1 j 1
ij S 2w
 Y 
n M
Total n M 1 ij y 2 
S2
i  1 j 1
La relación fundamental del análisis de la varianza será en este caso:
 Y   Y 
 Yi j  Y i    Y i  y   
n M 2 n M 2 n M n M 2
ij  y i j  Yi  Yi  y
2
i  1 j 1 i  1 j 1 i  1 j 1 i  1 j 1
 
2  Yi j  Y i )(Y i  y   Yi j  Y i    Y i  y  
n M n M n M 2
2
i  1 j 1
    i  1 j 1 i  1 j 1
 Y  y  Y  Yi   Y 
n M 2 n M n M 2
ij ij
2
i y
  
i  1 j 1 i  1 j 1 i  1 j 1
S2 , S 2w  , S 2b 
nM 1 n (M  1) n 1
Podemos expresar la descomposición de la varianza como sigue:
  
(n M  1) S 2  n (M  1) S 2w  (n  1) S 2b

81
 
 n (M  1) S 2w (n  1) S 2b
 S  2
 (2.13)
n M 1 nM 1
 2
2 2
Se cumple que S b es un estimador insesgado para S b y S w es un estimador
2
insesgado para S . En efecto tenemos:
w
 n M
  Y i  y  2   n
   M Y i  y
2 

 n

  Yi  y 
2 
  
 

 i  1 j 1 
E  S 2b   E    E  i 1   M E  i 1 
  n  1  n  1   n  1 
     
     
Cuasivarianza muestral

S 2Y i de los Yi
Y
N 2
N
 Yi  Y




2 N
 M Yi  Y 



2  


i  Y 
    i  1 j 1
 M i 1
 i 1
  S2b
 N -1  N -1 N -1
Cuasivarianza poblacional
de los Y
 n M 2   N M 
  Yi j  Y i     Yi j  Y i  
2
   i  1 j 1   i  1 j 1 
Yi j  Yi 2 E(e i )
N M
1
E  S 2w   E 
  n (M  1)   E  n (M  1)
e i  
n (M  1) i  1 j 1
   
   
 Y  Yi 
N M
2
ij
Yi j  Yi 2  n 
N M
1
 
n (M  1) i  1 j 1 N
i  1 j 1
N (M  1)
 S2w
Ahora vamos a hallar un estimador insesgado para S2 . A partir de la relación:
N (M  1) S2w (N  1) S2b
S2  
NM 1 NM 1
 2
y como ya sabemos que S 2b es un estimador insesgado para S 2b y S w es un estimador
insesgado para S2w , el estimador insesgado para S2 será:
 
 N (M  1) S 2w (N  1) S 2b
S 02   (2.14)
N M 1 N M 1
   
N (M  1) S 2w (N  1) S 2b  2 n (M  1) S 2w (n  1) S 2b

Note que: S  2
 S  
NM 1 NM 1 n M 1 n M 1
0

Para n > 50 puede considerarse S 02 como un estimador insesgado de S2 .

82
2.5.1.5. Estimación del coeficiente de correlación intraconglomerados.
Para estimar el coeficiente de correlación intraconglomerados tenemos a partir de las

expresiones (2.3) y (2.9):
 1  (M  1)  δ
S2
V( y )  1  f  

S2
V( Y)  V( y )  (1  f)  b ,
nM nM
S2b  S2
 S  S  1  (M  1)  δ
2 2
 δ
(M  1)S2
b
con lo que ya podemos estimar δ como:

 
 S 2b  S 02
δ 
(2.15)
(M  1) S 2
0
Una vez realizado todo tipo estimaciones ya podemos hallar los estimadores para
las varianzas. Así tenemos:

  S 2b
 V( y )  1  f  
S2
V( Y)  V( y )  (1  f)  b (2.16)
nM nM
 1  (M  1)  δ
S2
V( y )  1  f  
nM

 S2  

 V( y )  1  f   0  1  (M  1)  δ (2.17)
nM  
   
V( Y)  V(N M y)  N 2 M  V( y)  V(Y)  N 2 M  V( y)
2 2
(2.18)
2.5.1.6. Estimación de varianzas para proporciones.
Para el caso de proporciones el cuadro de análisis de la varianza para la población

sería el siguiente:

83
Fuente de Grados de Sumas de cuadrados Cuadrados Estimadores

variación libertad medios insesgados
N 2
A   MPi  P 
n
 
N 1 
2
Entre
S  2A

M  Pi  P 
conglomerados i 1
N 1
b i 1  
S b 
2
n 1
N n  
Dentro de N (M  1) B   M Pi (1  Pi ) B  M P (1  P ) i i
conglomerados S 
2 
i 1 w
N (M  1) S  2 i 1
n (M  1)
w
Total N M 1 C  N M P (1  P) C 
S2  S 02
N M 1
Las sumatorias de cuadrados y otras magnitudes que aparecen en esta tabla se

calculan como sigue:
A   Y i  Y    MY i  Y    MPi  P 
N M N N
2 2 2
(2.19)
i  1 j 1 i 1 i 1
N  M  N
B   Yi j  Y i     Yi2j  M  Y i  2Y i  Yi j   MPi  MPi2  2Pi MPi   
N M M
2 2
i  1 j 1 i 1  j 1 j1  i 1
N
  M Pi (1  Pi ) (2.20)
i 1
N  M 
C   Yi j  Y     Yi2j  M  Y  2Y Yi j  
N M M
2 2
i  1 j 1 i 1  j 1 j1 
N M N M
  A i2j  N MP 2  2P A i j  N MP  N MP 2  2 P N MP  N MP(1- P)
i  1 j1
 i 1 j1
A ij   
NMP
(2.21)
 
2 2
n M
 1 n n
 M n
 1 n 
    
2
Y i  y  Y i  Y i   M Y i  MY i 
i  1 j 1  n i1 

 i 1   
i  1 j 1 n i1
S 2b  
n 1 n 1 n 1
2 2
n
  1 n   n
 1 n   n
   2

  M Pi   M Pi  M  P i   P i  M  P i  P 
 i 1    i 1   i 1  
n i1 n i1 
n 1 n 1 n 1
M 2 2
 Y  Yi 
n M n M
 
  i j 
n
 Yi j  M Y i   M Pi (1  Pi )
2
ij
Y 2 Y i

i  1 j 1 i  1  j 1 j 1 
S 2w   i 1
n (M  1) n (M  1) n (M  1)

84
Ahora ya podemos establecer las fórmulas dadas en la expresión 2.22, para las
estimaciones de las varianzas:

  S2  

V(P )  1  f   0  1  (M  1)  δ
nM  

  S2
V(P )  1  f   b
nM
   
V ( A)  N 2 M  V ( P)
2
   
 S 2b  S 02  N (M  1) S 2w (N  1) S 2b
δ 
, S 02  
(M  1) S 2 N M 1 N M 1
0
(2.22)
donde todos los estimadores son conocidos ya en función de proporciones.
Ejemplo 2.3. En una población compuesta por 10 conglomerados de 100 elementos

se toma una muestra monoetápico de n conglomerados. Por experiencias anteriores
se sabe que el modelo de Smith S2b  S2 M se ajusta bien en la proximidad de
t
M  100 y se conoce el valor de S2b  1173 . Se pide:

a) Calcular el valor de t y S2w en el supuesto de que S2b / S2  13.8 .
b) Formar la tabla poblacional del análisis de la varianza y hallar el coeficiente de
correlación intraconglomerados.
c) Expresar la varianza de la media en función de S2 , n y M , utilizando el modelo
de Smith.
Solución.
S2b  S2 M 
t S2b
 M
t
 log S 2
/ S 
2
 t 
log M   t 
 

log S2b / S2 log13.8
log M 
a)
log 100
b
S2
log 13.8 1.1399

t   0.5699  0.57
log 100 2
S2b / S2  13.8  1173 / S2  13.8  S2  85
N (M  1) S2w (N  1) S2b
De la expresión S2   , tenemos que:
NM 1 NM 1
( N M  1)S2  (N  1) S2b (10 100  1) (85)  (10  1) (1173) 74358

S2w     75.11
N (M  1) 10 (100  1) 990

85
b) El cuadro poblacional del análisis de la varianza es el siguiente:
Fuente de variación Grados de Cuadrados Sumas de

libertad medios cuadrados
Entre conglomerados 9 S2b  1173 10557
Dentro de conglomerados 990 S2w  75.11 74358.9
Total 999 S2  85 84915
El valor del coeficiente de correlación intraconglomerados es el siguiente:
S2b  S2 1173  85
δ   0.129
(M  1)S 2
(100  1) (85)
c) La varianza de la media puede expresarse de la siguiente forma:
 0.57
S2b n S2b n S2 M n S2
V( Y)  V( y )  (1  f)   (1  )   (1  )   (1  )
nM N nM N nM N n M 0.43
Ejemplo 2.4. En una región hay 300 granjas de 50 animales diversos cada una. Se
obtiene una muestra de n = 5 granjas sin reposición y con probabilidades iguales. Las
proporciones de animales enfermos en cada una de las granjas son: 0.14, 0.20, 0.18,
0.12, 0.16. Se pide:
a) Estimar la proporción y el total de animales enfermos en la región

b) Estimar sus errores absoluto y relativo de muestreo de la proporción y del total
de clase.
c) Realizar la estimación por intervalos al 95% para el total de animales enfermos
en la región.
d) Estimar el coeficiente de correlación intraconglomerados y analizar la precisión
de la estimación anterior.
Solución.
  
a) N = 300 granjas, M  50 , n = 5 granjas, P 1  0.14 , P 2  0.20 , P 3  0.18 ,
 
P 4  0.12 , P 5  0.16
Estamos en un caso de muestreo monoetápico de conglomerados del mismo

tamaño. Se tiene:
 1 n 
P i  0.14  0.20  0.18  0.12  0.16   0.8  0.16
1 1
P  
n i1 5 5
Se estima que en la región hay un 16% de animales enfermos.

 
A  NM P  300  50  0.16  2400
Se estima que en la región hay un total de 2400 animales enfermos.

86
2 2
  n n
 
  2
 M  
i 1 
P i  P

  Pi  P 
i 1   =
V(P)  1  f  
Sb
b)  (1  f)   (1  f) 
nM n M(n  1) n (n  1)
 5  (0.14  0.16) 2  (0.20  0.16) 2  (0.18  0.16) 2  (0.12  0.16) 2  (0.16  0.16) 2
1  
 300  5 (5  1)
 5  0.004
 1    0.00019667
 300  5 (5  1)
   
Error absoluto:  (P)  V(P)  0.00019667  0.014
Se estima un error absoluto de muestreo de 0.014.
 
  V( P) 0.014
Error relativo: CV(P)  
  0.088 (8.8%)
P 0.16
Se estima un error relativo de muestreo del 8.8%.
   
 V(A)  N 2 M  V(P)  3002 502  0.00019667  44 250.75
2
   
Error absoluto: σ (A)  V(A)  44 250.75  210.3586
 
  V(A) 44250.75
Error relativo: CV(A)  
  0.088 (8.8%)
A 2400
c) La estimación por intervalos suponiendo normalidad en la población es:

  
A  Z / 2 σ (A)  2400  Z 0.025 44250.75  2400  1.96  210.3586  2400  412.30
1988, 2812
La estimación por intervalos sin normalidad en la población es:
 
 σ ( A) 44250.75
A  2400   2400  940.75
α 0.05
1459, 3341
d) Para estimar el coeficiente de correlación intraconglomerados, debemos

previamente calcular los estimadores de S2b y S2 . Se tiene que P  0.16 . Las
operaciones a realizar son:

87
2
  n

M   Pi  P 
i 1 
2

  50 (0.14  0.16)  (0.20  0.16)  (0.18  0.16)    (0.16  0.16)
2 2 2

Sb
2
n 1 5 1
50  0.004
  0.05
4
n  
  M P (1  P ) i i
50 0.14  0.86  0.2  0.8  0.18  0.82  0.12  0.88  0.16  0.84
S  2 i 1

n (M  1) 5  49
w
50 0.14  0.86  0.2  0.8  0.18  0.82  0.12  0.88  0.16  0.84 50 (0.668)
= 
5  49 245
 0.1363
 
 N (M  1) S 2w  (N  1) S 2b 300 (50  1)  0.1363  (300  1)  0.05 2018.56
S  2
 
N M 1 300  50  1
0
14999
 0.1346
Luego para estimar el coeficiente de correlación intraconglomerados hacemos:

 
 S 2b  S 02 0.05  0.1346
δ 
  0.0128271
(M  1) S 02 (50  1)  0.1346

 
, 0   0.02, 0
1
Como: δ  
 M 1 
La precisión resultante del muestreo por conglomerados es superior a la del

2.5.2. Muestreo por conglomerados en una etapa con reposición
En las sesiones anteriores hemos estudiado muestreo sin reposición, conglomerados

del mismo tamaño y con probabilidades iguales. En esta sesión se presentan las
varianzas de los estimadores y sus estimaciones en muestreo con reposición. Los
propios estimadores coinciden en ambos tipos de muestreo, ya que el estimador de
Horvitz y Thompson y el de Hansen y Hurwitz toman la misma expresión en
probabilidades iguales ( πi  n P i  n / N ).
2.5.2.1. Varianzas de los estimadores.
Estimador de la media.

88

1 n
1 N
 σ2 N 
Y i  Y 2 1 N
 M Y i  Y 
2
V( Y)  V( y )  V  Y i  
NM i  1
 i 1  
 n i 1  n n n
1 N
 M Y i  Y 2 1 N M
 Y i  Y 2 2
N N i  1 j1 σ
 i 1   b
nM nM nM
 Y  Y
N M
2
i
i  1 j 1
σ 2b  es la cuasivarianza entre conglomerados y la expresión de la
N
varianza de la media:
σ 2b
V( y )  (2.23)
nM
es similar a la obtenida en el muestreo aleatorio simple con reposición , sustituyendo

σ 2 por σ 2b y siendo n M el número total de unidades elementales en la muestra.
Estimador del total.

 σ 2b
V( Y)  V(N M y)  N 2 M  V( y)  N 2 M 
2 2
(2.24)
nM
Estimador de la proporción.
 Y  Y
N M
 MY i  Y 
N N
M Pi  P 
2 2 2
i
M N
  Pi  P 
i  1 j 1
σ 2b   i 1
 i 1

2
N N N N i 1
M N N
  i P  P 2
 Pi  P 2
 σ 2b N i 1
V( P)    i 1 (2.25)
nM nM nN
Estimador del total de clase.

N
    P  P
i
2
V( A)  V(N M P)  N 2 M  V( P)  N 2 M
2 2 i 1
(2.26)
nN
2.5.2.2. Varianzas de los estimadores en función del coeficiente de correlación

intraconglomerados.
Ya hemos visto que el coeficiente de correlación intraconglomerados puede

expresarse como:

89
1 N M
  (Yi j  Y)(Yi z  Y)
 M  i1 j  z N M
N  2  (Yi j  Y)(Yi z  Y)
  
Cov(Yij , Yiz ) 2
δ  i1 j  z
σ(Yij ) σ(Yiz ) σ 2
N M(M  1) σ 2
 Y  Y
N M
2
ij
i  1 j 1
σ2 
NM
De esta última expresión para  se deduce que:
N M
2 (Yi j  Y)(Yi z  Y)  NM(M  1)  σ 2  
i 1 j  z
Para expresar la varianza de y en función del coeficiente de correlación

intraconglomerados desarrollaremos la expresión:
2
 M 

1 N
 Y i  Y 2
  Yi j  N  M 
2
1 N
 j 1 MY 1 M
     Yi j   Y 
N i 1
V( Y)  V( y )    
n nN i  1  M M  n N M 2 i  1  j  1 j 1 
 
 
2
M  N M 
 Yi j  Y     Yi j  Y   2 Yi j  Y Yi z  Y  
N N M
1 1
2 
 
2
nNM i  1  j  1  nNM 2
  i1 j 1 i 1 j z 

1
2

 NM σ  (M  1) NM  σ  δ 
2 2
 NM  σ 2
2
 1  (M  1)  δ
n NM n NM
σ2
  1  (M  1)  δ
nM
Luego podemos expresar la varianza del estimador de la media en función del

coeficiente de correlación intraconglomerados de la siguiente forma:
σ2
V( y )   1  (M  1)  δ (2.27)
nM
2.5.2.3. Comparación con el muestreo aleatorio simple.
De la expresión:
σ2
V( y )   1  (M  1)  δ  VMAS ( y )  1  (M  1)  δ (2.28)
nM
se deduce que para valores positivos de  , existe un aumento en la varianza del

muestreo por conglomerados con relación al muestreo aleatorio simple y muestras de

90
tamaño igual a n M unidades elementales. El caso más desfavorable (varianza

máxima) correspondería a   1 y el más favorable (varianza mínima) a:
1
 
M 1
en que la varianza sería igual a cero ( V( y )  0 ). Para   0 ambos métodos

proporcionarían la misma precisión.
La comparación entre muestreo monoetápico de conglomerados y muestreo aleatorio

simple con reposición se resume como sigue:
 Si   0  conglomerados peor que aleatoriosimple


VMC ( y )  VMAS ( y )  1  (M  1)  δ  Si   0  conglomerados igual que aleatoriosimple
Si   0  conglomerados mejor que aleatoriosimple

Evidentemente, cuando   (0, 1] la precisión del muestreo por conglomerados es

inferior a la del muestreo aleatorio simple y a medida que el valor de  se aproxima
a 1, se acentúa la pérdida de precisión en el muestreo por conglomerados respecto del
Cuando   0 las precisiones de ambos métodos coinciden y cuando:
 1 
   , 0
 M 1 
la precisión del muestreo por conglomerados es superior a la del muestreo aleatorio

1
simple y a medida que el valor de  se aproxima a  se acentúa la ganancia
M 1
del muestreo por conglomerados respecto del muestreo aleatorio simple.
2.5.2.4. Estimación de varianzas
La descomposición de la varianza poblacional puede realizarse como sigue:
σ2 
1 N M
 Yij  Y 2

1 N M
 Yij  Y i  Y i  Y 2

1 N M
 Yi j  Yi 2 
NM i  1 j 1 NM i  1 j 1 NM i  1 j 1
1 N M
Yi  Y 2  1 2  Yi j  Yi )(Yi  Y 
N M
 
N M i  1 j 1 NM  i  1 j 1
  
0

1 N M
 Yij  Y i 2

1 N M
 Yi  Y 2
NM i  1 j 1 NM i  1 j 1

1 N M
 Yi j  Y i    MYi  Y2
2 1 N
NM i  1 j 1 NM i  1
91
 b2
 Yi j  Y i   N  Y i  Y   σ w 
1 N M 1 N

2 2 2
NM i  1 j 1 i 1 M
 Y  Y  Y  Yi 
N M N M
2 2
ij ij
i  1 j 1 i  1 j 1
σ2  , σ 2w  ,
NM NM
 Y  Y
N M
M Y i  Y 
N
2 2
i
i  1 j 1
σ 2b   i 1
N N
Luego podemos expresar la descomposición de la varianza como:
 b2
σ 2  σ 2w  (2.29)
M
En el muestreo con reposición las cuasivarianza muestrales estiman insesgadamente

las varianzas poblacionales, luego podemos decir que:
S 2b 

n

Yi  y  2
 i 1
estima insesgadamente a
M n 1
 b2
1 N
 Y i  Y 2
 (2.30)
N i 1 M

Lo que es lo mismo decir que: S 2b es un estimador insesgado para  b2 .
Por otra parte tenemos que:
 Y  Yi 2
N M
ij
σ 2w 
i  1 j 1

1 N 1 M
  ij Y  Y i  2

1 N 2
 σi
NM N i  1 M j 1 N i1

σ i2
con lo que tenemos σ 2w como la media poblacional de las varianzas dentro de los
conglomerados σ i2 i = 1, 2, … , N. Como un estimador insesgado para la media
poblacional es la media muestral, podemos afirmar que:
   
1 n 2 1 n 1 M 1 n M 
 i n
n i1
σ 
i 1 M

j 1
Yij  Y i
2

n M

i  1 j 1
Yij  Y i
2
 S 2
1 ,w (2.31)
 
σ i2
1 N 2
es un estimador insesgado para: 
N i1
σ i  σ 2w

92

Por lo tanto y de forma más sencilla, podemos asegurar que: S 1,2 w es un estimador
insesgado para  w2 .
Ahora podemos establecer un estimador insesgado para σ 2 :


 b2   S2
σ σ 
2 2
w  σ  S 2 2
1, w  b (2.32)
M M
2.5.2.5. Estimación del coeficiente de correlación intraconglomerados.
Para estimar el coeficiente de correlación intraconglomerados tenemos a partir de las

expresiones (2.23) y (2.27):
σ2
 1  (M  1)  δ
σ2
V( y )  b , V( y ) 
nM nM
σ 2b  σ 2
 σ 2b  σ 2  1  (M  1)  δ  δ
(M  1) σ 2
con lo que ya podemos estimar δ como:
 
2 
S  S 1 ,w  b 
 
2 2 S
 
 b
M

S 2b  σ 2  
δ   (2.33)
(M  1) σ 2  S 2b 


(M  1) S 1 ,w 
2
 M
 
Una vez realizado todo tipo estimaciones ya podemos hallar los estimadores para
las varianzas. Así tenemos:

  S2
σ2
V( Y)  V( y )  b  V( y )  b (2.34)
nM nM

σ2 σ 2  

V( y )   1  (M  1)  δ  V( y )   1  (M  1)  δ (2.35)
nM nM  
   
V( Y)  V(N M y)  N 2 M  V( y)  V(Y)  N 2 M  V( y)
2 2
(2.36)
2.5.2.6. Estimación de varianzas para proporciones.
Para el caso de proporciones y totales de clase en muestreo con reposición

tendremos:

93
NM  1 2 NM  1 NMP(1  P) NMP(1  P)
σ2  S     P(1  P) (2.37)
NM NM NM  1 NM
 Y  Yi 
N M N N
 MP i  P  P  P
2 2 2
ij i
i  1 j 1
σ 2w   i 1
 i 1
(2.38)
NM NM N
 Y  Y
N M
M Y i  Y 
N N
M Pi  P 
2 2 2
i
i  1 j 1
σ 2b   i 1
 i 1
(2.39)
N N N
2
  n
 
M   Pi  P 
i 1  
σb Sb 
2 2
n 1

 
n

 P i  1  P i
Yi j  Yi  2  
   
M P i 1  P i   i  1  
1 n M 1 n
σ 2w  S 1,2 w  
n M i  1 j 1
 
n M i 1   n
2
   n   n 
S 2b 
 
Pi 1  P i    P i  P 
σ  S 1, w 
2 2
 i 1    i 1  
M n n 1
Ahora ya podemos establecer las fórmulas (dadas en la expresión 2.40) para las
estimaciones de las varianzas:
  
 σ 2  
   σ2 S2
V(P )   1  (M  1)  δ , V(P )  b  b
nM   nM nM
 
     S 2b  σ 2
V ( A)  N M  V ( P) , δ 
2 2

(M  1) σ 2
(2.40)
donde todos los estimadores son conocidos ya en función de proporciones.
Ejemplo 2.5. Considerando la información del ejemplo 2.4, realice las mismas
estimaciones para muestreo con reposición. Comentarios.
Solución.

Del ejemplo 2.4, se conoce: N = 300 granjas, M  50 , n = 5 granjas, P 1  0.14 ,
   
P 2  0.20 , P 3  0.18 , P 4  0.12 , P 5  0.16

94
a) Se han estimado la proporción y el total de animales enfermos que hay en dicha

  
región, cuyos valores son: P  0.16 y A  N M P  2400
b) Ahora estimaremos los errores absoluto y relativo de muestreo de la proporción

y del total de clase, considerando muestreo con reposición. Tenemos:
2 2
n
  n
 
  2
Sb
M  

i 1 
P i  P 

  Pi  P 
i 1   
V( P)   
nM n M(n  1) n (n  1)
(0.14  0.16) 2  (0.20  0.16) 2  (0.18  0.16) 2  (0.12  0.16) 2  (0.16  0.16) 2

5 (5  1)
0.004
  0.0002
20
   
Error absoluto: σ(P)  V(P)  0.0002  0.01414
 
  V ( P) 0.01414
Error relativo: CV(P)  
  0.088375 (8.83%)
P 0.16
   
V(A)  N 2 M  V(P)  300 2 50 2  0.0002  45000
2
   
Error absoluto:  (A)  V(A)  45000  212.1320
 
  V(A) 45000
CV(A)  
  0.088388 (8.83%)
A 2400
Se observa que lo errores de muestreo son ligeramente mayores en el caso de

muestreo con reposición.
c) La estimación por intervalos suponiendo normalidad en la población es:

  
A  Z / 2 σ (A)  2400  1.96  45 000  2400  415.78  1984, 2816
La estimación por intervalos sin normalidad en la población es:

 
 σ ( A)
 2400  948.68  1451, 3349
45000
A  2400 
α 0.05
d) A continuación se estima el coeficiente de correlación intraconglomerados

suponiendo muestreo con reposición. Tenemos:

95
2
n
  
 
M  P i  P
i 1 
2 2

  50 (0.14  0.16)  (0.20  0.16)  (0.18  0.16)    (0.16  0.16)
2 2

σb Sb 
2 2
n 1 5 1
50  0.004
  0.05
4
 P 1  P  0.14  0.86  0.2  0.8  0.18  0.82  0.12  0.88  0.16  0.84
n  
i i
 
σ 2w  S 1,2 w  i 1

n 5
0.668
  0.1336
5

  S2 0.05
σ  S
2 2
1, w  b  0.1336   0.1346
M 50
 
 S 2b  σ 2 0.05  0.1346
Por lo tanto, resulta que: δ  
   0.012827
(M  1) σ 2 (50  1)  0.1346

Este valor estimado de δ , nos indica que el muestreo por conglomerado sigue siendo
muy bueno (mayor precisión), que el muestreo aleatorio simple.
2.6. Conglomerados con distinto tamaño M i .
2.6.1. Muestreo por conglomerados con probabilidades iguales.
2.6.1.1. Los conglomerados no varían mucho en tamaño ( M i similares)
N
Mi
Consideramos M   como la media de los tamaños M i de los conglomerados
i 1 N
y utilizamos todas las fórmulas estudiadas hasta ahora, tanto para muestreo sin
reposición como para muestreo con reposición. No obstante, suelen considerarse las
siguientes expresiones alternativas para los estimadores:
a) Muestreo por conglomerados en una etapa sin reposición
Para el caso de la media se tiene:
1 n 1 n Yi 1 n
y  n
n i1
Y i 
i 1 M
  Yi
n M i1
(2.41)
El estimador es insesgado para la media poblacional, ya que:

96
1 n 1 n
1 N 1 N n 1 N
E ( y)  E (  i nM 
nM i 1
Y )  E (
i 1
Yi )   i i nM 
nM i 1
Y E ( e ) 
i 1
Yi   Yi  Y
N NM i  1
Para muestreo sin reposición, su varianza y estimación de varianza se calculan como

sigue:
1 N N
 1 n
 1 1  1 n 
N  1 i 1
(Yi  Y) 2 
1  f i 1
(Yi  Y) 2
V ( y )  V  Yi   2 V  Yi   2 (1  f) 
 n M i1  M  n i1  M n

nM
2

N 1
(2.42)
Como en el muestreo sin reposición las cuasivarianzas muestrales estiman

insesgadamente a las cuasivarianzas poblacionales tenemos:
n
 1 f  (Y  y) i
2
V ( y)   i 1
(2.43)
nM
2
n 1
Para el caso del total se tiene el estimador:
 1 n N n
Y  NM y  NM 
n M i1
Yi   Yi
n i1
(2.44)
Observamos que no depende de M . Su varianza y estimación de varianza tampoco

depende de M . Veamos:
N N
 1 f  (Y  Y) i
2
1 f  (Y  Y)
i
2
V(Y)  V( N M  y)  N M V( y)  N M  i 1
N  i 1
2 2 2 2 2
nM
2
N 1 n N 1
(2.45)
  1 f  (Y  y) i
2
V( Y)  N 2  i 1
(2.46)
n n 1
b) Muestreo por conglomerados en una etapa con reposición
Para muestreo con reposición la varianza y estimación de varianza para el estimador

de la media pueden calcularse como sigue:
1 N N
1 N 
(Y  Y ) 2
(Yi  Y) 2
 1 n  1 1 n  i
1
V( y)  V
 n M

i 1
Yi   2 V  Yi   2  i1
 M  i1  M
n n

nM
2
 i1
N
2.47)

97
Como en el muestreo con reposición las cuasivarianzas muestrales estiman

insesgadamente a las cuasivarianzas poblacionales tenemos:
n
 1  (Y  y) i
2
V ( y)   i 1
(2.48)
nM
2
n 1
La varianza y estimación de varianza para el estimador del total no depende de M

y pueden calcularse como sigue:
N N
 1  (Yi  Y) 2 N2 
(Yi  Y) 2
V(Y)  V( N M  y)  N 2 M V( y)  N 2 M  i 1
  i1
2 2
nM
2
N 1 n N
(2.49)
n
N2 
 
(Yi  y) 2
V(Y)   i1 (2.50)
n n 1
En caso de estimación de proporciones y totales de clases se utilizan las fórmulas ya

vistas anteriormente para conglomerados del mismo tamaño, considerando a:
N
Mi
M
i 1 N
tanto para muestreo sin reposición como reposición.
2.6.1.2. Los conglomerados varían mucho en tamaño ( M i no similares y

N
M   Mi )
i 1
Si los tamaños de los conglomerados son distintos, un estimador de la media

poblacional es el estimador de razón:
n
  Y i
YyR i 1
n
(2.51)
M
i 1
i
a) Muestreo por conglomerados sin reposición
El estimador de la media por ser un estimador de la razón, su varianza aproximada

es:
  N 2 (1  f)  N 2 N N

V( Y)  V( y)  V( R )   
X n (N  1)  i1
2
Yi  R 2

i 1
X 2
i  2R 
i 1
X i Yi  


98
N 2 (1  f)  N 2 N N
 (1  f) N
 2   Yi  R  Mi  2R  Yi Mi   2   (Yi  RM i ) 2
2 2
M n (N  1)  i  1 i 1 i 1  M n (N  1) i  1
(2.52)
N
M Y i i
Y
y como Yi  M i Y i , R  i 1
N
 Y .
M
M
i
i 1
tenemos:
N
 (1  f) N
(1  f) M 2
i ( Y i  Y) 2
V( y)  V( R )    (M i Y i  YM i ) 2   i 1
(2.53)
M n (N  1)
2
i 1 M n
2
N 1
La varianza V( y) se estima mediante:

n
   (1  f) M 2
i ( Y i  y) 2
V ( y)  V ( R )   i 1
(2.54)
M n
2
n 1
Para el estimador del total tendremos:
Si M denota el número total de elementos en la población, entonces un estimador del

total Y es:
n
 Y i
Y  M y  M i 1
n
(2.55)
M
i 1
i
cuya varianza es:

N N
 (1  f)  M i2 (Y i  Y) 2 N 2 (1  f) 
M i2 (Y i  Y) 2
V( Y)  V(M y)  M 2 V( y)  M 2  i 1
  i1
M n
2
N 1 n N 1
(2.56)
que se estima mediante:

n
  N (1  f)
2 M 2
i ( Y i  y) 2
V(Y)   i 1
(2.57)
n n 1
Frecuentemente el número de elementos en la población M, no es conocido en

problemas donde el muestreo por conglomerados es apropiado. Entonces no

99

podemos usar el estimador Y  M y , pero podemos formar otro estimador del total
poblacional que no depende de M. La cantidad y t dada por:
1 n
yt   Yi
n i1
(2.58)
es el promedio de los totales de conglomerados para los n conglomerados muestrales.
Es por esto que y t es un estimador insesgado del promedio de los N totales de

conglomerados en la población. Entonces N y t es un estimador insesgado de la suma
de los totales de conglomerados o, equivalentemente, del total poblacional Y.
Luego el estimador del total poblacional Y, el cual no depende de M es:
 N n
Y  N yt   Yi
n i1
(2.59)
cuya varianza es:

N
 (1  f)  (Yi  Y) 2
V( Y)  V(N y t )  N 2 V( y t )  N 2  i1 (2.60)
n N 1
   N (1  f)
2  (Y  y ) i t
2
V(Y)  V(N y t )   i 1
(2.61)
n n 1
Para el estimador de la proporción tenemos:
Un estimador de la proporción poblacional es:

n
 A i
P i 1
n
(2.62)
M
i 1
i
con varianza:
N
 (1  f) M 2
i (Pi  P) 2
V( P)   i 1
(2.63)
M n
2
N 1

100
n  
  (1  f)  M i2 (P i  P) 2
V( P)   i 1
(2.64)
M n
2
n 1
Si el total de elementos en la población M se conoce, entonces un estimador del

total de clase A es:
n
  A i
A  M P  M i 1
n
(2.65)
Mi 1
i
cuya varianza es:

N
  N 2
(1 
 f)  M i2 (Pi  P) 2
V( A)  V(M P)  M 2 V( P)   i1 (2.66)
n N 1

n  
  N 2 (1  f) M 2
i ( P i  P) 2
V(A)   i 1
(2.67)
n n 1
Si el total de elementos en la población M no se conoce, entonces un estimador del total

de clase A es:
  1 n N n  1 n
A  N At  N   i n
n i1
A 
i 1
A i , donde: A t   Ai
n i1
cuya varianza es:
  (1  f)  (A i  A) 2
V( A)  V(N A t )  N 2  i 1
n N 1

n 
   N (1  f)
2  (A i  A t )2
V(A)  V(N A t )   i 1
(2.68)
n n 1
b) Muestreo por conglomerados con reposición
El estimador de la media por ser un estimador de la razón, su varianza aproximada

es:

101
   N 2 1 N N

V( Y)  V( y)  V( R )  2   Yi  R  X i  2R  X i Yi  
2 2
X n N  i 1 i 1 i 1 
1  N 2 N N
 1 N
 2
 
M n N  i1
Yi  R 2

i 1
M 2
i  2R 
i 1
Yi M i   2
 
 M n N i1
(Yi  RM i ) 2 (2.69)
M Y i i
Y
y como Yi  M i Y i , R  i 1
N  Y
M
i 1
i
M
tenemos:
N
 1 N
1 M 2
i (Y i  Y) 2
V( y)  V( R )  2
  (M i Y i  YM i ) 2  2
 i 1
(2.70)
M nN i 1 M n N

La varianza V( Y) se estima mediante:
   1 M 2
i ( Y i  y) 2
V ( y)  V ( R )   i 1
(2.71)
M n
2
n 1
Para el estimador del total tendremos:

N N
   1  Mi2 (Yi  Y) 2 N2 
M i2 (Y i  Y) 2
V( Y)  V(M R )  M 2 V( R )  M 2 2
 i 1
  i1
M n N n N
(2.72)

n
  N 2 M 2
i ( Y i  y) 2
V(Y)   i 1
(2.73)
n n 1
Para el estimador de la proporción y el total de clase tenemos:

N
 1 M 2
i (Pi  P) 2
V( P)  2
 i 1
(2.74)
M n N

n  
  1  M i2 (P i  P) 2
V( P)   i 1
(2.75)
M n
2
n 1

102
N2 
  
M i2 (Pi  P) 2
V( A)  V(M P)  M 2 V( P)   i1 (2.76)
n N

n  
  N2 M 2
i ( P i  P) 2
V(A)   i 1
(2.77)
n n 1
Ejemplo 2.6. Con respecto al ejemplo 2.1, se realizan entrevistas en cada uno de los
25 bloques muestreados, que fueron elegidos mediante un muestreo aleatorio simple
con probabilidades iguales y sin reposición. Los datos sobre ingresos se presentan en
la tabla 2.2.
Tabla 2.2. Ingreso por persona
Número de Ingreso total Número de Ingreso total

Bloque residentes por Bloque Residentes por
i Mi conglomerado i Mi conglomerado
Yi Yi
1 8 $ 96000 14 10 $ 49000
2 12 121000 15 9 53000
3 4 42000 16 3 50000
4 5 65000 17 6 32000
5 6 52000 18 5 22000
6 6 40000 19 5 45000
7 7 75000 20 4 37000
8 5 65000 21 6 51000
9 8 45000 22 8 30000
10 3 50000 23 7 39000
11 2 85000 24 3 47000
12 6 43000 25 8 41000
13 5 54000
25 25
 M i  151  Yi  1 329000
i 1 i 1
Use los datos para:

a) Estimar el ingreso promedio por persona adulta en la ciudad y establezca un
límite para el error de estimación.
b) Estimar el ingreso total de todos los residentes de la ciudad, y establezca un
límite para el error de estimación.
c) Estimar el ingreso total de todos los residentes de la ciudad, y ponga un límite
para el error de estimación. Existe 2500 residentes en la ciudad.
Solución.
a) En el ejemplo 2.l, el Estadístico ha considerado a los bloques rectangular de la

cuidad como conglomerados (N = 415). Posteriormente a extraído una muestra
aleatoria de 25 conglomerados (n = 25), siendo las unidades elementales el número
de residentes M i de cada conglomerado. El ingreso promedio por persona se
estimará como la razón entre el ingreso total en la muestra y el número de residentes
en la muestra. Como los bloques de la cuidad son de tamaño desiguales tenemos:

103
25
 Y i
$ 1329000
Yy i 1
25
  $ 8801.3
M
151
i
i 1
La estimación del ingreso promedio por persona adulta es $ 8801.3.


La expresión (2.54) para V( y) se puede expresar también como:
n
 n 2 n 2 n 
   (1  f) M 2
i ( Y i  y) 2   Yi  2 y  Yi M i  y  M i2 
 N  n  1  i1 
V ( y)  V ( R )   i 1
  2  i 1 i 1
n 1  nN  M  n 1 
2
M n
 
 

Para calcular V( y) , necesitamos las siguientes cantidades:
25
Y
i 1
i
2
 (96000) 2  (121000) 2    (41000) 2  82,039´000,000
25
M
i 1
2
i  (8) 2  (12) 2    (8) 2  1,047
25
YM
i 1
i i  (96000)(8)  (121000)(12)    (41000)(8)  8´403,000
Ya que M, el número de residentes en la ciudad, es desconocida, M debe ser


estimada por M , donde:

1 n 151
M 
n i1
Mi 
25
 6.04

Como nos da N = 415 bloques o conglomerados. Entonces el valor de V( y) resulta:
  415  25  1  82039000000  2(8801.3)(8403000)  (8801.3) (1047) 

2
V( y)     
 (25)(415)  6.04 
2
24 
 390   15227989330 
    653783.49
 378496.6   24 
Si se supone normalidad en la población de los ingresos, entonces un límite para el

error de estimación al nivel de confianza del 95%, es dada por:

Z 0.025 V( y)  1.96  653783.49  1584.8

104
El error de estimación debe ser menor que $ 1584.8 con una probabilidad cercana a
0.95. Este límite para el error de estimación es bastante grande; podría ser reducido
mediante el muestreo de más conglomerados y, consecuentemente, incrementando el
tamaño de muestra.
La estimación por intervalos con coeficiente de confianza del 95%, suponiendo

normalidad en la población de los ingresos es:

y  Z 0.025 V( y)  8801.3  1584.8
7216.5  Y  10386.1
b) En este caso se pide estimar el ingreso total de todos los residentes de la ciudad,
cuando el total de residentes en la cuidad (M) no es conocido.
Se conoce N = 415 y de la expresión (2.59), tenemos que la estimación del ingreso

total Y es:
 N n 1329000
Y  N yt  
n i1
Yi  415 
25
 $ 22061400
Para fijar un límite al error de estimación, primero calculamos:
n
( Yi ) 2
n n
(1329000) 2
 (Y  y )
i 1
i t
2
 Y 
i 1
i
2 i 1
n
 (96000)  (121000)    (41000) 
2 2
25
2
 82039000000  706496400000  11389360000

Luego la varianza estimada de Y  N y t es:
  
 Nn
 (Y  y ) i t
2
 415  25  11389360000 
V(Y)  V(N y t )  N 2   i 1
 (415) 2   
 nN  n 1  (25)(415)  24 
 3072279860000

Entonces el límite para el error de estimación del estimador Y  N y t es:

Z0.025 V(N y t )  1.96  3072279860000  3435472.356
De nuevo este límite para el error de estimación es grande, y podría ser reducido
incrementando el tamaño de muestra.

105
c) Existe 2500 residentes en la cuidad (M = 2500). El valor de la media muestral

calculada es y  $ 8801.3 . Entonces la estimación del total ingreso total Y es:

Y  M y  2500(8801.3)  $ 22003250
Esta cantidad es bastante similar a la estimación dada en el apartado b).

 
La cantidad V(Y) se calcula con el método usado en inciso b), excepto que M

ahora se conoce y es usado en lugar de M . Aquí, M  M/N  2500 / 415  6.02
 n 2 n 2 n 
  
 
 N  n  1  i1
Yi  2 y  Y i M i  y  M i2 

V( Y)  V(M y)  M 2   2  i 1 i 1
 nN  M  n  1 
 
 
 415  25  15227989330 
 (2500) 2   
 
2
 (25)(415)(6.02) 24
 6250000  0.00103725  634499555.4  4113341649000


Entonces el límite para el error de estimación del estimador Y  M y es:

Z / 2 V(M y)  (1.96) 4113341649000  (1.96)(2028137.483)  3975149.47
El límite para el error de estimación es levemente más grande que el límite para el

estimador Y  N y t (inciso b), debido parcialmente a que los tamaños de los
conglomerados están altamente correlacionados con los totales de los
conglomerados en este inciso. En otras palabras, los tamaños de los conglomerados
proporcionan información referente a los totales de conglomerados: por lo que el
estimador insesgado M y parece no ser mejor que el estimador N y t .
Ejemplo 2.7. Además de la pregunta sobre su ingreso, se interroga a los residentes

adultos, de la encuesta muestral del ejemplo 2.6, acerca de si son dueños o alquilan
casa donde viven. Los resultados se presentan en la tabla 2.3.
Utilice los datos de esta tabla para:

a) Estimar la proporción de residentes que viven en casas de alquiler.
b) Realizar una estimación por intervalos al 98% para la proporción de residentes
que viven en casa de alquiler.
c) Estimar el total de residentes que viven en casas de alquiler y su error de
muestreo.
Solución.

106
Tabla 2.3. Número de arrendatarios.

Número de Número de Número de Número de
Bloque residentes, arrendatarios, Bloque residentes, arrendatarios,
i Mi Ai i Mi Ai
1 8 4 14 10 5
2 12 7 15 9 4
3 4 1 16 3 1
4 5 3 17 6 4
5 6 3 18 5 2
6 6 4 19 5 3
7 7 4 20 4 1
8 5 2 21 6 3
9 8 3 22 8 3
10 3 2 23 7 4
11 2 1 24 3 0
12 6 3 25 8 3
13 5 2
25 25
 M i  151  A i  72
i 1 i 1
La proporción poblacional de arrendatarios P se estimará como la razón entre

número de arrendatarios en la muestra y el número de residentes en la muestra.
a) Como los bloques rectangulares de la cuidad son de tamaño desiguales tenemos:

25
 A i
72
P i 1
25
  0.4768  0.48
M
151
i
i 1
La estimación de la proporción de residentes que alquilan casa en la cuidad es 0.48.

 
b) La expresión (2.63) para V(P) se puede expresar también como:
n   n 2  n 2 n 
  (1  f)  M i2 (Pi  P) 2   A i  2 P  A i M i  P  M i2 
 N  n  1   i1 
V( P)   i 1
  2    i 1 i 1

M n
2
n 1  nN  M  n 1
 
 
 
Para calcular V( P) , se ha calculado las siguientes cantidades:
25 25 25 25 25
 M i  151
i 1
 A i  72
i 1
 M i2  1047
i 1
 A i2  262
i 1
A Mi 1
i i  511
Como M, el número de residentes en la ciudad, es desconocido, M fue estimada por


1 n 151
M 
n i1
Mi 
25
 6.04 . Además se conoce que N = 415 bloques.

107
   415  25  1  262  2(0.48)(511)  (0.48) 2 (1047) 

V( P)    
2 
 
 (25)(415)  6.04  24 
 390   12.669 
    0.000544
 378496.6   24 
Por tanto, la estimación por intervalo al 98% (suponiendo normalidad en la

población) para la proporción de residentes que viven en casa de alquiler en la ciudad
es:
  
P  2.33  V( P)  0.48  2.33  0.000544  0.48  0.054
0.426  P  0.534
c) Se pide estimar el total de residentes que alquilan casa en la cuidad, cuando el

total de residentes en la cuidad, M, es desconocido.
Como se conoce que N = 415 bloques y utilizando la expresión siguiente, tenemos

que la estimación del total de residentes que alquilan casa en la cuidad A es:

N n 415
At  
n i1
Ai 
25
 72  1195.2
Para fijar un límite al error de estimación, primero calculamos:

n

( A i ) 2
n n
(72) 2
 (Ai  A t ) 2   A i2 
i 1 i 1
i 1
n
 262 
25
 54.64

Luego la varianza estimada de A es:
n 
 
Nn
 (Ai  A t ) 2  415  25  54.64 
V(A)  N 2   i 1
 (415) 2     14739.14
 nN  n 1  (25)(415)  24 
 
Entonces el límite para el error de estimación del estimador A  N A t es:
 
Z0.025 V(N A t )  1.96  14739.14  237.95
2.6.2. Muestreo por conglomerados con probabilidades desiguales.
2.6.2.1. Muestreo por conglomerados sin reposición
Consideramos una población de N conglomerados de tamaños desiguales M i con

N
M   Mi .
i 1

108
En este caso se utilizará el estimador general de Horwitz y Thompson, que

proporciona el estimador lineal insesgado para el total definido por:
 n
Yi n
M Yi
YHT    i (2.78)
i 1 π i i 1 π i
De la unidad 2 del texto_ Muestreo Estadístico - parte I _ sabemos que la varianza

de este estimador es:
π ij  π i π j 
 2
Yi N N N
Y Yj
V( Y HT )   (1  π i )  2 i
i 1 πi i 1 j  i πi π j
y que un estimador insesgado para esta varianza es:
Yi Yj π ij  π i π j 
  n 2 n n
Yi
V(Y HT )   (1  π i )  2
i 1 j  i πi π j π ij
2
i 1 πi
Dependiendo del método de selección sin reposición a utilizar, los valores de π i y

π ij asociados al método van a definir los estimadores y sus varianza, así como sus
estimaciones. En la unidad 2 del texto_ Muestreo Estadístico – parte I, se estudiaron
varios de estos métodos o modelos: Polinomial, Ikeda, Durbin y Brewer.
 Pero los métodos más interesantes eran los que producían probabilidades π i
proporcionales a los tamaños M i . Para estos métodos se tiene:
N N
n n M
πi  k Mi   πi  k Mi  n  k M  k   πi  Mi  n i
i 1 i 1 M M M
El estimador lineal insesgado de Horwitz y Thompson para el total será:
 n
Yi n
M Yi n
M Yi 1 n
YHT    i  i  M  Yi  M y (2.79)
i 1 π i i 1 π i i 1
M
n i n i1
M
El estimador lineal insesgado de Horwitz y Thompson para la media será:


Y HT M y 1 n
YHT    y   Yi (2.80)
M M n i1
Se observa que las expresiones de los estimadores lineales insesgados para la media
y total en el caso de probabilidades desiguales proporcionales a los tamaños de los
conglomerados coinciden con sus expresiones para probabilidades iguales.
Los valores de las varianzas y sus estimadores dependerán del valor de π ij en cada
método de selección sin reposición.

109
2.6.2.2. Muestreo por conglomerados con reposición
Consideremos una población de N conglomerados de tamaños desiguales M i con

N
M   Mi .
i 1
En este caso se utilizará el estimador general de Hansen y Hurwitz, que
proporciona el estimador lineal insesgado para el total definido por:
 n
Yi n
M Yi
YHH    i (2.81)
i 1 n Pi i 1 n Pi
De la unidad 2 del texto Muestreo Estadístico I (ver expresión 2.28), se sabe que la
varianza de este estimador es:
2
 1 N Y 
V(Y HH )    i  Y  P i
n i 1  P i 
y que un estimador insesgado para esta varianza es:

2
  1 n
 Yi  
V(Y HH )     Y HH 
n (n  1) i 1  Pi 
Para el estimador de la media tendremos:

 

YHH    YHH  1     1  
YHH   V Y H H   V  V Y H H   V Y H H   V Y H H 
   M  M     M  
2 2
M
 
 Pero los métodos más interesantes eran los que producían probabilidades Pi
proporcionales a los tamaños M i . Para estos métodos se tiene:
N N
1 1 M
P i  k M i   pi  k  M i  1  k M  k   Pi  Mi  i
i 1 i 1 M M M
El estimador lineal insesgado de Hansen y Hurwitz para el total será:
 n
Yi n
M Yi n
M Yi 1 n
YHH    i  i  M  Yi  M y (2.82)
i 1 n Pi i 1 n Pi i 1 M n i 1
n i
M
El estimador lineal insesgado de Hansen y Hurwitz para la media, será:



Y My 1 n
YHH  HH   y   Yi (2.83)
M M n i1

110
Se observa que las expresiones de los estimadores para media y totales en el caso de
probabilidades proporcionales a los tamaños coinciden con y sin reposición
La varianza del estimador del total en el caso de probabilidades proporcionales

a los tamaños con reposición valdrá:
2
 
1 N  Yi Y  Mi M 2
2 2

1 N  Yi  N  Yi Y  Mi
V(Y HH )     Y  P i    M      
n i  1  Pi  n i 1  Mi M M n i 1  Mi M  M
 
 M 
M2
 Y Y    M i Y i  Y 
N
Mi M N
 2 2
i
n i 1 M n i 1

M i Y i  Y 
M N
V(Y HH )  
2
(2.84)
n i 1
La estimación de la varianza en este caso será:

2
 
n 
Yi 
2
  1 n
 Yi   1 Yi 1 n
V(Y HH )   
n(n - 1) i  1  P i
 Y HH 
   
n(n - 1) i  1  M i
 M   
n i1 M i 
  
 M 
2 2
1 n
 MYi 1 n MYi  M 2 n  Yi 1 n Y 
  
n(n - 1) i  1  M i
        i  
n i1 M i  n(n - 1) i  1  M i n i1 M i 
 
2
M2 n  1 n  M2 n
  i n 
n(n - 1) i  1 
Y 
i 1
Y i

  Yi  y
n (n - 1) i  1
2
 
V(Y HH ) 
M2 n

 Yi  y
n (n - 1) i  1
 2
(2.85)
La varianza del estimador de la media en el caso de probabilidades

proporcionales a los tamaños con reposición valdrá:

 
)  2 V(Y HH )  2  M i Y i  Y   M i Y i  Y 
Y HH 1 1 M N 1 N
V(Y HH )  V( 
2 2
M M M n i 1 n M i 1
(2.86)
La estimación de la varianza de la media será:


   1   1 M2 n
   
n
Y HH 1
V(Y HH )  V(
M
)  2 V(Y HH )  2
M
 Yi  y
M n (n - 1) i  1
2
 
n (n - 1) i  1
Yi  y 2
(2.87)

111
Estimación de proporciones y totales de clase
Las fórmulas para proporciones y totales de clase se obtienen sustituyendo Y i  Pi ,

Y  P , y  P . Esto es válido tanto en general como en probabilidades
proporcionales a los tamaños, y tanto sin reposición como con reposición.
Ejemplo 2.8. Un auditor desea muestrear los registros de ausencias por enfermedad
de una gran empresa, para determinar el número promedio de días de ausencia por
enfermedad por empleado en el cuatrimestre pasado. La empresa tiene ocho
divisiones, con diferentes números de empleados por división. Ya que el número de
días de ausencia por enfermedad dentro de cada división debe estar altamente
correlacionado con el número de empleados, el auditor decide muestrear n = 3
divisiones con probabilidad proporcional al número de empleados y con reposición.
a) Muestre cómo seleccionar la muestra si los respectivos números de empleados

son:
1200, 450, 2100, 860, 2840, 1910, 390, 3200.
b) Supóngase que el número total de días de ausencia por enfermedad registrados en

las tres divisiones muestreadas durante el cuatrimestre pasado son,
respectivamente:
Y1  3320 , Y2  4320 , Y3  5790 .
Estime el número promedio de días de ausencia por enfermedad requeridos por

persona de toda la empresa, y establezca un límite para el error de estimación.
Solución.
a) Primero listamos el número de empleados y el intervalo acumulado para cada
división, como sigue:
División Número de empleados Intervalo acumulado
1 1200 1 - 1200
2 450 1201 - 1650
3 2100 1651 - 3750
4 860 3751 - 4610
5 2840 4611 - 7450
6 1910 7451 - 9360
7 390 9360 - 9750
8 3200 9751 - 12950
Total 12950
Ya que se van a muestrear n = 3 divisiones (o conglomerados), debemos seleccionar

tres números aleatorios entre 00001 y 12950. Podemos hacer esta selección
empezando en cualquier lugar de la tabla de números aleatorios y seleccionando
números de cinco dígitos u obtener los números mediante una función generadora de
números aleatorios automatizada [por ejemplo en la hoja de cálculo Excel,
ALEATORIO.ENTRE (inferior, superior)]. Los tres números resultan ser: 10297,
00782 y 02756. El primero aparece en el intervalo acumulado de la división 8, el
segundo aparece en el intervalo de la división 1 y el tercero aparece en el intervalo de
la división 3. Entonces las divisiones 1, 3 y 8 constituyen la muestra. (Nótese que

112
una división puede ser seleccionada más de una vez. En este caso el dato resultante
se trata como dos valores muestrales separados pero iguales).
b) Primero debemos calcular las medias de los conglomerados muestreados, las

cuales son:
Y1 3320 Y 4320 Y 5790
Y1    2.77 , Y 2  2   2.06 , Y 3  3   1.81
M1 1200 M 2 2100 M 3 3200
Aplicando la expresión (2.83):


1 3 2.77  2.06  1.81
YHH  y  
n i1
Yi 
3
 2.21
De la expresión (2.87):
 
   
n
1 1
V(Y HH )   Yi  y
n (n - 1) i  1
2

3(2)
(2.77  2.21) 2  (2.06  2.21) 2  (1.81  2.21) 2
0.4961
  0.0827
6
Entonces el límite para el error de estimación es:
 
Z0025 V(Y HH )  1.96  0.0827  0.564
Ejemplo 2.9. Una gran empresa tiene sus inventarios de equipo listados
separadamente en 15 departamentos. Se selecciona una muestra de tres
departamentos con probabilidades proporcionales al número de artículos de equipo
en cada departamento y con reposición. La tabla siguiente presenta el número de
artículos de equipo (NA) en cada departamento (D).
D 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
NA 12 9 27 40 35 15 18 10 31 22 22 19 16 33 6
a) Suponiendo que los tres departamentos seleccionados (que serán los de mayor
probabilidad) tiene cada uno 2 artículos impropiamente identificados, estimar el
número total de artículos impropiamente identificados en la empresa y su error
relativo de muestreo.
b) Estimar por intervalos al 95% de confianza, la media de artículos propiamente
identificados, sabiendo que los tres departamentos seleccionados tienen
respectivamente 4, 5 y 6 artículos impropiamente identificados.
Solución.
a) Como se selecciona la muestra de tres departamentos con probabilidades

proporcionales al número de artículos de equipo en cada departamento, los tres
departamentos seleccionados para la muestra serán el 4, el 5 y el 14, ya que son los
que van a tener mayor probabilidad de selección (por tener el mayor número de
artículos).

113
Al ser la selección con probabilidades proporcionales a los tamaños se tiene que:
Mi 40 35 33
Pi   P1  , P2  y P3 
M 315 315 315
Como el muestreo es con reposición, el estimador insesgado del total de la clase de

los artículos impropiamente clasificados vendrá dado por la fórmula de Hansen y
Hurwitz.
  
 n
Ai n
M Pi n
M Pi 1 n  
AHH   i  i  M  P i  M PHH
i 1 n Pi i 1 n Pi i 1
M n i1
n i
M

P i = proporción muestral en el conglomerado i-ésimo.
 1 n  315  2 2 2
 AHH  M 
n i1
Pi       17.6136  18
3  40 35 33 
Como estamos en muestreo monoetápico de conglomerados con reposición y

probabilidades desiguales proporcionales a los tamaños de los conglomerados,
utilizaremos para estimar la varianza el estimador:
2
 
n  
2
  1 n
 Ai   1 Ai 
V(A HH )   
n (n  1) i 1  Pi
 A HH 
   
n (n  1) i 1  M i
 M P HH 

  
 M 
2
 Ai  
2
M2 n
M2 n
  
  

n (n  1) i 1  M i
 p 
HH     P i  p HH 
n (n  1) i 1  

 18
En este ejercicio p HH 
315
  3152  2 18 2 2 18 2 2 18 2 
V(A HH )  (  )  (  )  (  )  1.04209
3  2  40 315 35 315 33 315 
b) Para estimar la proporción de artículos propiamente identificados observamos que

los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30
y 27 artículos propiamente identificados, respectivamente. El estimador será el
siguiente:
 1 n  1  36 30 27 
PHH  
n i1
P i       0.858
3  40 35 33 
2
M2 n
 

 
 
 
V(A HH ) n (n  1) i 1 
Pi  p HH 
 1 n
 

2
V(P HH ) 
M2

M2
   Pi  p HH  
n (n  1) i 1 

114
1  36 30 27 
 (  0.858) 2  (  0.858) 2  (  0.858) 2   0.0005584
3  2  40 35 33 
El intervalo de confianza al 95% suponiendo normalidad, será:
  
P H H  Z / 2 V(P HH )  0.858  1.96 0.0005584  0.858  0.046
 0.812 , 0.904 
Ejemplo 2.10. Se trata de estudiar la superficie de una región montañosa dedicada a

la plantación de pinos. La región tiene una superficie de 25000 km2 y se divide en
100 zonas disjuntas lo más similares entre sí de tal forma que cada zona contiene
plantas de todas las clases que crecen en la región. Se extrae una muestra de 3 zonas
sin reemplazamiento mediante el método de Ikeda, para el cual se tiene que:
n 1 n 1  N  n n2
π i  Pi  (1  Pi )  y π ij    (Pi  Pj ) 
N 1 N 1  N  2 N  2 
siendo Pi las probabilidades proporcionales a las superficies de las zonas. En este

caso considerar 3 zonas de igual superficie para que las proporciones de superficie
total dedicadas a la plantación de pinos en cada una de ellas son de: 0.25, 0.35 y 0.40
respectivamente.
Se pide:
a) Un estimador de la superficie total de la región dedicada a la plantación de pinos.

b) Una estimación de su error estándar relativo y un intervalo con coeficiente de
confianza al nivel del 95%.
Solución.
a) Sean: M i = Superficie de la zona i-ésima
Yi = Superficie dedicada a la plantación de pinos.
Ahora como los Pi son proporcionales a las superficies de las zonas se tiene:
Y1 Y Y
 0.25 , 2  0.35 , 3  0.40
M1 M2 M3
Se supone que Mi  M  i  1, ... ,10 0
N
M1 M M M M
P
i 1
i 1 
M
 N  1 
M M

M
 1  N   1  NM  M
M
M 25000
 M   250
N 100

115
Y1
 0.25  Y1  62.5
250
Y2
 0.35  Y2  87.5
250
Y3
 0.40  Y3  100
250
M 250
Entonces: P i    0.01 (i = 1, 2, 3 j = 1, 2, 3)
M 25000
n 1 2
π i  Pi  (1  Pi )   0.01  0.99   0.03
N 1 99
n 1  N  n n2 3  1 100  3 3 2 
π ij    (Pi  Pj )      (0.01  0.01)   0.0006
N 1  N  2 N  2  100  1 100  2 100  2 
 n
Yi 1
Muestreo sin reposición  Y H T     (62.5  87.5  100)  8333.3
i 1 π i 0.03
Yi Yj π ij  π i π j 
  n 2 n n
Yi
V(Y HT )   (1  π i )  2 
i 1 j  i πi π j π ij
2
i 1 πi
(0.0006  0.03  0.03)

 62.5  87.5  62.5 100  87.5 100
1
  (1  0.03)(62.52  87.52  100 2 )  2
0.03 2
0.03  0.03  0.0006
 23239583.33  22743055.33  496528.0033
  496528.0033
CV(Y HT )   0.0845 (8.45 %)
8333.3
  
Y H T  Z 0.025 V(Y HT )  8928.6  1.96 18726615.65  446.8 , 17410.4
Ejercicio. Contestar a la mismas preguntas del ejemplo 2.10, suponiendo que la

selección es sin reposición mediante el método polinomial o urna generalizado, para
el cual se tiene que:
 1  2Pi N Pi   1 1 
π i  Pi    y π ij  Pi Pj  
1 P 1 P 
 1  Pi i  1 1  Pi   i j 
siendo Pi las probabilidades proporcionales a las superficies de las zonas.
  
Respuesta. π i  0.0102 , π ij  0.0002 , Y H T  24509.8 , V(Y HT )  393929017.7

116
2.7. Tamaño de la muestra.
Antes de estudiar el tamaño muestral para una precisión o costo prefijados, se

comenzará con una comparación con muestreo aleatorio simple (m.a.s) derivada de
los resultados anteriores.
2.7.1. Tamaño de la muestra en muestreo por conglomerados de tamaños

iguales.
Comparación con m.a.s en términos de tamaño muestral.
El tamaño muestral (en unidades elementales) es necesario en muestreo por

conglomerados monoetápico de tamaños iguales, para obtener la misma precisión
que en un m.a.s con tamaño muestral n m.a.s , es:
n c  n m.a.s  1  (M  1)  δ
En efecto: Se utilizará que N  n  M  n M , y sea n M  n c el tamaño muestral

N M
final en muestreo por conglomerados en una etapa o monoetápico.
Al ser las dos varianzas:
M  n c S2
V( y )    1  (M  1)  δ y Vm.a.s ( y ) 
M  n m.a.s S2

M nc M n m.a.s
entonces, para tener la misma precisión, ha de ser:
M  n c S2 M  n m.a.s S2
  1  (M  1)  δ  
M nc M n m.a.s
Despreciando los términos de corrección por población finita,
 1  (M  1)  δ 
1 1
nc n m.a.s
y por lo tanto
n c  n m.a.s  1  (M  1)  δ
 1  (M  1)  δ es denominada “efecto de diseño”. El

V( y )
La expresión
Vm.a.s ( y )
coeficiente δ suele decrecer cuando el tamaño medio de los conglomerados M
crece, pues se va haciendo mayor la heterogeneidad interna, pero en términos
relativos el factor 1  (M  1)  δ suele crecer con M . En todo caso, para un estudio
previo es necesario hallar un equilibrio entre tamaño muestral, costo, precisión y
tamaño de los conglomerados.

117
Normalmente la comparación directa con m.a.s en términos de precisión no tiene

interés práctico, pues el muestreo por conglomerados tiene mucho menor costo que
el m.a.s. Además, en grandes poblaciones el muestreo aleatorio simple es
frecuentemente inutilizable por motivos prácticos, de costo y de falta de información.
Veremos a continuación cómo obtener una aproximación al tamaño muestral óptimo

en muestreo por conglomerados en una etapa para una precisión y/o un costo dados
(prefijados).

2.7.1.1. Tamaño de la muestra para un error de muestreo e  σ( θ) prefijado.
Recordemos que n c es el número de unidades elementales obtenidas en muestreo por

conglomerados de una etapa, de n conglomerados seleccionados mediante m.a.s.
El error de muestreo es la desviación típica del estimador. En este caso e  V( y ) y

entonces e 2  V( y ) . Así, tomando la expresión aproximada de V( y ) :
M  n c S2
  1  (M  1)  δ  e 2 y despejando, se obtiene:
M nc
M 1  (M  1)  δS2
nc 
Me2  1  (M  1)  δS2
M
Como n c  n M  n , siendo n el número de conglomerados seleccionados, se
N
obtiene:
n  N
1  (M  1) δS 2
Me  1  (M  1)  δS
2 2
(2.88)
Si el número de conglomerados N es conocido, n está determinado por esta

expresión, siempre que se tenga una buena aproximación a S2 . Si se pueden adoptar
diferentes configuraciones de conglomerados de igual tamaño, existen varias
soluciones que se pueden presentar en una tabla, asociado a cada N un n que arroje la
precisión requerida, y asociando probablemente el costo. En este último caso,
además, cada diferente construcción de conglomerados lleva a un diferente δ . A
menudo esta información no está estimada para todas las posibilidades de
configuraciones de conglomerados, con lo que se suele prefijar el número de
conglomerados N en un valor que permite a través de información anterior, tener
estimada δ (y además, como es habitual, S2 ).
Si se desprecia el término de corrección por población finita, tenemos:
S2 1  (M  1)  δ
 1  (M  1)  δ  e 2
S2
 nc 
nc e2

118
Como n c  n M
S2 1  (M  1)  δ
 nc  n M  , con lo que resulta:
e2
1 S2 1  (M  1)  δ
n  (2.89)
M e2
Las mismas consideraciones respecto a N son válidas en esta última aproximación.
2.7.1.2. Tamaño de la muestra para un costo C prefijado.
En este caso es necesario expresar C en función de los diferentes costos que surgen
en este tipo de muestreo. Una función de costo sencilla es:
C  c0  c1n  c 2 n M (2.90)
donde c 0 es un costo fijo, c1 es el costo asociado a cada conglomerado (viaje,

requerimiento de información, etc.) y c 2 es el costo asociado a cada unidad
elemental (toma de datos, viaje dentro del conglomerado, costos administrativos,
etc.) dentro de los conglomerados. El valor de n se obtiene de manera directa:
C  c0
n (2.91)
c1  M c 2
Por lo que si el tamaño de los conglomerados está prefijado, fijar el costo lleva a un
valor de n concreto.
_____________________
Otra posibilidad para la función de costo es utilizar que el costo de viaje es

aproximadamente proporcional a la raíz cuadrada del número de conglomerados.
Para ilustrar esta idea, considérese la figura 2.2, donde los conglomerados se reparten
a la misma distancia en un área rectangular A.
Figura 2.2. n = 12 conglomerados

119
Si la distancia horizontal o vertical entre dos conglomerados es d, y n 1 es el número

de conglomerados en una fila y n 2 el número de conglomerados en una columna, la
longitud del rectángulo es d (n1  1) y la altura será d (n 2  1) . Además, el número
total de conglomerados es n  n1n 2 .
En el ejemplo de la figura 2.2, n1  4 , n 2  3 , n  n1n 2  12 .
El área total es A  d (n1  1)  d (n 2  1)  d 2 (n1  1) (n 2  1)
Si el número de conglomerados por columna o fila es más o menos grande, se puede

aproximar A  d 2 n1 n 2 , con lo que A  d 2 n y la distancia entre dos conglomerados
A
es d  .
n
Si se trata de recorrer todos los conglomerados por el camino más corto, la distancia
recorrida será aproximadamente d (n  1) , que es el número de caminos entre los
conglomerados dos a dos (en el ejemplo, d  11 ). Aproximando d (n  1)  d n , y
A
como d  , entonces la distancia recorrida en total será:
n
A
n  nA
n
Por lo tanto, como el costo relativo al viaje entre conglomerados es

aproximadamente proporcional a la distancia recorrida, será proporcional a la raíz
cuadrada del número de conglomerados. Esto se puede representar en la función de
costo como un término adicional c 0 n :
C  c0 n  c1n  c2 n M (2.92)
El valor de c 0 tiene en cuenta las consideraciones realizadas (en área A) y el costo de

cada viaje. El término c 0 n representa el costo de viaje entre los conglomerados.
En el valor de c1 están excluidos ahora los costos por viaje, sólo cuentan costos
relativos a la adquisición de información o añadidos extra por cada conglomerado.
La constante c 2 es, como anteriormente, relativa al costo de cada toma de datos y
adquisición de información previa en cada unidad elemental. Hay que tener en cuenta
que a menudo estos costos se consideran también en términos de horas/hombre.
En esta función de costo, se puede despejar n, haciendo n  n y resolviendo la

ecuación de segundo grado en n  . Si el tamaño medio de los conglomerados M (y
número de estos, N) no está prefijado, la optimización de la varianza sujeta al costo
fijo C se puede realizar también por métodos numéricos, arrojando ésta valores
óptimos de M .

120
Otra posibilidad más sencilla y directa es programar la expresión del costo y de la

varianza, y dar valores de M , observando los valores de n y de la varianza obtenida,
presentando la tabla y/o gráficos para la toma de decisiones sobre el número óptimo
de conglomerados.
 Podemos determinar los pares (n, M) óptimos que, para C prefijado, minimizan la
varianza del estimador de la media V( y ) . Esto conduce al planteamiento del
problema de Lagrange con una restricción:
  
 1  (M  1)  δ
S2
 Min V( y )  Min1  f  
  nM  (2.93)
C  c0 n  c1 n  c2 n M

También podemos determinación los pares (n, M) óptimos que, para V( y )

prefijada, minimizan la función de costo C. Esto lleva al planteamiento del problema
de Lagrange con una restricción:

 Min C  Min c 0 n  c1 n  c 2 n M 
 2
V( y ) 1  f  S 1  (M  1)  δ  (2.94)
 



n M





También se utiliza para la varianza la expresión:

S2b
V( Y)  V( y )  (1  f) 
n M0
Los problemas alternativos a resolver por multiplicadores de Lagrange serían

entonces:
  S2b 
 M in V( y )  M in (1  f)  
  nM
 (2.95)
C  c0 n  c1 n  c2 n M



 Min C  Min c 0 n  c1 n  c 2 n M 
 2
V( y ) (1f) Sb (2.96)
 nM


121
2.7.2. Tamaño de la muestra en muestreo por conglomerados de tamaño

diferente.
Si los conglomerados son de tamaño diferente y estamos utilizando muestreo por

n 
conglomerado en una etapa, el tamaño muestral final será n    M i  n M que es
i 1
una variable aleatoria pues depende de qué conglomerados caigan en la muestra.
N
Mi
Si los conglomerados ya están configurados, y M   está prefijado y es
i 1 N
conocido, el número de conglomerados a muestrear n corresponde a un costo fijo
esperado C  c0  c1n  c 2 n M es:
C  c0
n (2.97)
c1  M c 2
 Si la función de costo esperado es de la forma C  c0 n  c1n  c 2 n M , el

tamaño de la muestra n es:
 c 02  4C (c1  Mc 2 )  c 0 
n  (2.98)
 2(c1  Mc 2 ) 
Se trata de funciones de costo esperado, pues el término c 2 n M es la esperanza del


costo por unidad elemental, E(n c 2 )  E(n M c 2 )  n M c 2 .
Si M no está prefijado, y se puede elegir entre diferentes configuraciones de

conglomerados, entonces se puede realizar la optimización respecto a las varianzas
sujeto a costo fijo, o, directamente recurrir a la enumeración informática de las
diferentes posibilidades para la configuración de conglomerados y cálculo
aproximado de la varianza y costo asociados a diferentes tamaños n.
Ejemplo 2.11. Supongamos que en determinada población dividida en 50

conglomerados se ha estimado con cierta precisión el coeficiente de correlación
 
intraconglomerados δ   0.05 , y la cuasivarianza poblacional S 2  20 . Si los
tamaños de los conglomerados son iguales con M  10 . Calcular cuántos
conglomerados hay que seleccionar por muestreo aleatorio simple para que el error
de muestreo al estimar la media sea de 0.25.
Solución. Hemos visto que: N  n  M  n M , y que n M  n c

N M
Entonces la varianza del estimador de la media es aproximadamente
M  n c S2 N  n S2
V( y )    1  (M  1)  δ    1  (M  1)  δ
M nc N nM

122
Se pide calcular el valor de n tal que:
50  n 20
0.252    1  (10  1)  (0.05)
50 10n
Despejando, se obtiene:
n  50 
1  (10  1) (0.05) 20  50 
11
 13.017
50 10  0.25  1  (10  1)  (0.05) 20
2
42.25
Se necesitarían extraer n = 14 conglomerados
Ejemplo 2.12. Supóngase que los datos de la tabla 2.2 (ver ejemplo 2.6, página 102)
representan una muestra preliminar de ingresos en la ciudad. ¿Qué tan grande debe
tomarse la muestra en una encuesta futura para estimar el ingreso promedio μ por
persona con un error absoluto de muestreo de $ 250.
Solución. La expresión (2.54), es la varianza aproximada para el estimador de la

media por ser un estimador de la razón:
N
 (1  f) M 2
i (Y i  Y) 2
V( y)  V( R )   i 1
M n
2
N 1
M
i 1
2
i (Y i  Y) 2
El término se aproxima por el término obtenido en la muestra
N 1
n
M 2
i ( Y i  y) 2
15227989330
i 1
  634499555.4 (calculada en el ejemplo 2.6)
n 1 24

1 n 151
La cantidad M puede ser estimada por M  
n i1
Mi 
25
 6.04 calculada también
en el ejemplo 2.6, con los datos de la tabla 2.2.
Así tenemos:
(1  f) Nn
V( y)  250 2  2
 634499555.4  2
 634499555.4
M n M Nn
415  n 415  n
  634499555.4  250 2   634499555.4
(6.04)  415  n
2
(6.04) 2  415 n
415  634499555.4 263317315500

Se obtiene que: n    166.57
250  415  6.04  634499555.4
2 2
1580741055
Entonces se deben muestrear 167 conglomerados.

123
2.8. Muestreo por conglomerados combinando con Estratificación.
Así como en el caso de todos los demás métodos de muestreo, el muestreo por
conglomerados puede ser combinado con muestreo estratificado, con el objeto de que
la población pueda ser dividida en L estratos y se pueda seleccionar entonces una
muestra por conglomerados en cada estrato.
Recuérdese que la expresión (2.49) tiene la forma de un estimador de razón y puede

ser considerada como la razón de un estimador del promedio de totales de
conglomerados, con respecto al estimador del tamaño promedio de conglomerados.
Entonces, pensando en términos de un estimador de razón, tenemos dos maneras para
formar el estimador de una media poblacional a través de los estratos: el estimador
separado y el estimador combinado. Si se emplea el estimador separado, se debe
conocer el número total de elementos ( M h , h = 1, 2,…, L) en cada estrato para poder
asignar las ponderaciones adecuadas por estrato (para posteriormente aplicar las
fórmulas que hemos estudiado en el muestreo estratificado, para estimar parámetros
y sus respectivas varianzas).
Ya que el número total de elementos en cada estrato son comúnmente desconocidos,

únicamente analizaremos la forma combinada del estimador de razón en el contexto
de muestreo por conglomerados.
Supongamos que tenemos dos estratos, esto es, L = 2, con tamaños de estrato N1 y
N2 respectivamente.
El estimador del promedio poblacional del total por conglomerados es:
N1 y t 1  N 2 y t 2
(2.99)
N
n1 n2
 Yi1 Y i2
donde y t1  i 1
y y t2  i 1
representan los promedios de los totales de
n1 n2
los conglomerados en las respectivas muestras.
Por otro lado, el estimador del promedio del tamaño de conglomerados es:
 
1
(N1 M1  N 2 M 2 )
N
Un estimador de la media poblacional por elemento es entonces:
 
N1 y t 1  N 2 y t 2
Y   
(2.100)
N1 M1  N 2 M 2

124
n1 n2
  M i1  M i2
donde M1  i 1
y M2  i 1
representan los respectivos promedios de los
n1 n2
tamaños de los conglomerados en las muestras.
La expresión (2.99) tiene la forma de un estimador de razón combinada. La varianza

 
de Y puede ser estimada por:
  
1  N1 (N1  n1 ) n    
V(Y )  2     (Yi  y t1 )  Y (M i  M1 ) 2
M  n1 (n1  1) i 1  
N 2 (N 2  n 2 ) n    
2

    (Yi  y t2 )  Y (M i  M 2 ) 
n 2 (n 2  1) i 1   
(2.101)
donde M es el número total de elementos en la población y puede ser estimado por

 
N1 M1  N 2 M 2 si no es conocido. La primera suma en la expresión de la varianza es
sobre todas las observaciones de la muestra en el estrato 1, y la segunda suma es
sobre todas las observaciones del estrato 2.
Ejemplo 2.13. Consideremos los datos de la tabla 2.2 del ejemplo 2.6, como la
muestra del estrato 1, con N 1 = 415 y n 1 = 25. Se toma una ciudad vecina más
pequeña como el estrato 2. Para el estrato 2, n 2 = 10 bloques se van a muestrear de
N 2 = 168.
Bloque Número de Ingreso total por

i residentes M i conglomerado Y i
1 2 $ 18000
2 5 52000
3 7 68000
4 4 36000
5 3 45000
6 8 96000
7 6 64000
8 10 115000
9 3 41000
10 1 12000
a) Estime el ingreso promedio por persona en las ciudades combinadas.

b) Establezca un intervalo con coeficiente de confianza del 95% para ingreso
promedio por persona adulta para las dos ciudades combinadas.
Solución.
a) El promedio de los totales de conglomerados en las respectivas muestras son:

125
25 10
 Yi1 1329000 Y i2
547000
y t1  i 1
  53160 , y t2  i 1
  54700
25 25 10 10
El promedio de los tamaños de los conglomerados en las respectivas muestras es:
25 10
  M i1 151  M i2
49
M 1 i 1
  6.04 , M2  i 1
  4.9
25 25 10 10
Luego el ingreso promedio estimado por persona en las ciudades combinadas es:

N1 y t 1  N 2 y t 2 415(53160)  168(54700) 31251000
Y   
   $ 9385.25
415(6.04)  168(4.9) 3329.8
N1 M11  N 2 M12
b) Para el estrato 1:
25     
  i
(Y  y t1 )  Y (M i  M 1 )
2
 16222325900
i 1  
Para el estrato 2:
Se realizan los cálculos a manera de ilustración:

2
    
i Mi yi (Yi  y t2 )  Y (M i  M 2 )
 
1 2 $ 18000 [18000 – 54700 – 9385.25(2 – 4.9)]2 = (-9482.775)2=89923021.7
2 5 52000 [52000 – 54700 – 9385.25(5 – 4.9)]2 = (-3638.525)2=13238864.18
3 7 68000 [68000 – 54700 – 9385.25(7 – 4.9)]2 = (-6409.025)2=41075601.45
4 4 36000 [36000 – 54700 – 9385.25(4 – 4.9)]2 = (-10253.275)2=105129648.2
5 3 45000 [45000 – 54700 – 9385.25(3 – 4.9)]2 = (8131.975)2=66129017.4
6 8 96000 [96000 – 54700 – 9385.25(8 – 4.9)]2 = (12205.725)2=148979722.8
7 6 64000 [64000 – 54700 – 9385.25(6 – 4.9)]2 = (-1023.775)2=1048115.251
8 10 115000 [115000 – 54700 – 9385.25(10 – 4.9)]2 = (12435.225)2=154634820.8
9 3 41000 [41000 – 54700 – 9385.25(3 – 4.9)]2 = (4131.975)2=17073217.4
10 1 12000 [12000 – 54700 – 9385.25(1 – 4.9)]2 = (-6097.525)2=37179811.13
2
10    
  i
i 1 
(Y  y t2 )  Y (M i  M 2 )  674411840.3

Ya que el número total de residentes adultos en las dos ciudades combinadas (M)
se desconoce, este valor puede ser estimado a partir de:
 
N1 M1  N 2 M 2  415(6.04)  168(4.9)  3329.8

126
Por lo que:
 
 1  415(415 - 25) 168(168 - 10) 
V(Y )  2 
 16222325900   674411840.3
(3329.8)  25(24) 10(9) 
 412613.3817
Entonces el intervalo con coeficiente de confianza del 95% para ingreso promedio
por persona adulta para las dos ciudades combinadas es:
   
Y  Z0.025  V(Y )  9885.25  1.96  412613.3817  9885.25  1259
el ingreso promedio por persona para las dos ciudades combinadas se encuentra
en el intervalo:
$ 8626.25  Y  $ 11144.25
Vemos que el límite para el error de estimación es un poco más pequeño que el
límite para el estrato 1, como se encontró en el ejemplo 2.6.

Unidad 2 - 2022

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 2 - 2022

Cargado por

Copyright:

Formatos disponibles

66

Unidad 2. Muestreo por Conglomerados en una etapa o monoetápico.

MUESTREO POR CONGLOMERADOS EN UNA ETAPA O

Los diseños muestrales estudiados anteriormente presuponían la existencia de un

Definición 1. Un conglomerado es un conjunto de unidades, que a su vez es una

Como puede verse, en el muestreo por conglomerados se parte de una estructura de

Consideremos una población finita con M unidades elementales o últimas agrupadas

El número de unidades elementales de un conglomerado se denomina tamaño del

Dr. César Haro Díaz

y han de ser lo más heterogéneos posible dentro de ellos y lo más homogéneos

Casos típicos de muestreo por conglomerados son la selección aleatoria de familias

El empleo de conglomerados o áreas como unidades de muestreo se justifica por

Dr. César Haro Díaz

Otro ejemplo, supongamos que queremos determinar cuántas bicicletas son

Definición 2. El método de muestreo por conglomerados en una etapa o

Tabla 2.1. Algunos ejemplos de conglomerados en muestreo monoetápico.

En el muestreo estratificado figuran en la muestra algunas unidades de cada uno de

Los tres tipos de muestreo mencionados pueden combinarse en un diseño muestral

2.2. Analogías y diferencias entre el muestreo por conglomerados de una etapa

Los conglomerados recuerdan a los estratos, pero sólo de manera superficial: un

Dr. César Haro Díaz

población. Sin embargo, el proceso de selección es un poco distinto en ambos

Muestreo estratificado Muestreo por conglomerados

Población de L estratos; el estrato h Muestreo por conglomerados en una

Dr. César Haro Díaz

Mientras que, por lo general, la estratificación aumenta la precisión en relación con

2.3. Ventajas y desventajas del muestreo por conglomerados

 No se necesita un marco muy específico como en el caso del muestreo aleatorio

 Se divide previamente al muestreo la población en conglomerados o áreas

 Se pueden utilizar como marco divisiones territoriales ya establecidas por

Dr. César Haro Díaz

 Se ahorra costo y tiempo al efectuar visitas a las unidades seleccionadas. La

 La eficiencia de este tipo de muestreo disminuye al aumentar el tamaño de los

2.4. Cómo Seleccionar una muestra por conglomerados.

La primera tarea en muestreo por conglomerados es especificar los conglomerados

En contraste, supóngase que los distritos escolares se especifican como

Dr. César Haro Díaz

Nótese la principal diferencia entre la construcción óptima de estratos y la

Ejemplo 2.1. Un Estadístico quiere estimar el ingreso promedio por persona en

Dr. César Haro Díaz

2.5. Conglomerados con el mismo tamaño M i  M . Estimadores lineales

N = Número de conglomerados en la población.

Consideremos la característica poblacional general:

2.5.1. Muestreo por conglomerados en una etapa sin reposición

El parámetro θ de la expresión (2.1), puede ser estimado mediante el estimador

Como se extraen n conglomerados para la muestra de entre los N existentes en total,

La aplicación del estimador lineal insesgado de Horwitz y Thompson a las

Dr. César Haro Díaz

Vemos que el estimador insesgado de la media poblacional es la media de las medias

2.5.1.1. Varianzas de los estimadores.

Dr. César Haro Díaz

La expresión de la varianza de la media, resulta:

es similar a la obtenida en el muestreo aleatorio simple sin reposición, sustituyendo

Estimador del total.

Estimador del total de clase.

2.5.1.2. Varianzas de los estimadores en función del coeficiente de correlación

El coeficiente de correlación intraconglomerados se define como el coeficiente de

Dr. César Haro Díaz

heterogeneidad dentro los conglomerados. La expresión del coeficiente de

Si sustituimos esta última expresión en el denominador del coeficiente de correlación

De esta expresión (2.8) se para deduce que:

Para expresar la varianza de y en función del coeficiente de correlación

Dr. César Haro Díaz