Está en la página 1de 16

Teoría y Técnicas de Muestreo

Muestreo de Conglomerados

Mg. A. Gustavo Tolaba


agustavotolaba@gmail.com
Departamento de Matemática
Facultad de Ciencias Exactas
Universidad Nacional de Salta
Muestreo de Conglomerados
Cada investigación requiere un marco de muestreo. Luego deberían existir tantos marcos de
muestreo como investigaciones realizadas. Por lo general la elaboración de un marco de
muestreo de elementos es muy costosa porque implicaría realizar un censo, enumerando,
identificando y ubicando a cada elemento de la población. Una forma de realizar muestras
probabilísticas a falta de un marco de muestreo de elementos es seleccionar conglomerados de
elementos y realizar el proceso de medición en cada conglomerado.

1. Utilizamos muestreo por conglomerados sí:


a. Por ejemplo si tenemos que enumerar abejas, enumerar clientes, enlistar arboles en
un sector, enlistar hogares en los barrios (dispersión geográfica, reducción de
costos).
b. La población objetivo se encuentra muy dispersa (geográficamente) o aparece en
agrupaciones naturales: familias, escuelas, etc.
2. Los elementos individuales de una población sólo participan en la muestra si pertenecen
a un conglomerado incluido en la muestra.
3. El muestreo estratificado aumenta la precisión de las estimaciones, mientras que el
muestreo por conglomerados tiende a disminuirla.
4. Al obtener una muestra de elementos que pertenecen a un conglomerado repetimos la
información del conglomerado (dada la agrupación natural)
Muestreo de Conglomerados
Suponga que la población se divide en 𝑁𝑖 sub-grupos poblacionales, llamados
conglomerados y denotados como 𝑈𝑖 = *𝑈1 , … , 𝑈𝑁𝑖 + .Estos definen una partición de la
población en tal forma que
𝑁𝑖

𝑈𝑖 = 𝑈
𝑖=1
𝑈𝑖 ∩ 𝑈𝑗 = ∅, ∀𝑖 ≠ 𝑗

El numero de unidades 𝑁𝑖 en el conglomerado i-ésimo se llama tamaño del conglomerado


tal que, es de tamaño
𝑁𝑖

𝑁𝑖 = 𝑁
𝑖=1
donde 𝑁 es el tamaño de la población 𝑈. Con la población dividida en 𝑁𝑖 conglomerados,
los parámetros poblacionales de interés pueden escribirse como:
Muestreo de Conglomerados

El total poblacional
𝑁𝑖 𝑁𝑖

𝑡𝑦 = 𝑦𝑘 = 𝑦𝑘 = 𝑡𝑦𝑖
𝑘∈𝑈 𝑖=1 𝑘∈𝑈𝑖 𝑖=1

La media poblacional
𝑁𝑖 𝑁𝑖
𝑘∈𝑈 𝑦𝑘 1 1
𝑦𝑈 = = 𝑦𝑘 = 𝑁𝑖 𝑦𝑖
𝑁 𝑁 𝑁
𝑖=1 𝑘∈𝑈𝑖 𝑖=1

1
Donde 𝑦𝑖 = 𝑘∈𝑈𝑖 𝑦𝑖
𝑁𝑖
Esquema general del Diseño
• Seleccionar una muestra probabilística 𝑠𝑖 de conglomerados de la población 𝑈𝑖
mediante un diseño de muestreo tal que entonces
𝑃(𝑆𝑖 = 𝑠𝑖 ) = 𝑝𝑖 𝑠𝑖 , ∀𝑠𝑖 ∈ 𝑄𝑖
donde 𝑄𝑖 es el soporte conteniendo todas las posibles muestras de conglomerados.
• Todos y cada uno de los elementos pertenecientes a los conglomerados seleccionados
son observados y medidos.

El tamaño de la muestra aleatoria de conglomerados está dado por


• 𝑛(𝑆𝑖 ) = 𝑛𝑖 si la muestra es de tamaño fijo, 𝑛(𝑆𝑖 ) si la muestra es de tamaño variable
• 𝑛(𝑆𝑖 ) = 𝑚𝑖 si la muestra es seleccionada con reemplazo
La muestra aleatoria de elementos viene caracterizada por
𝑆= 𝑈𝑖
𝑖∈𝑆𝑖
y el tamaño de la muestra de elementos por 𝑛 𝑆 = 𝑖∈𝑆𝑖 𝑁𝑖 . Si es posible construir o definir
un soporte 𝑄𝑖 , también seria posible definir (al menos teóricamente) un soporte general 𝑄
de elementos conteniendo las posibles muestras de elementos pertenecientes a los
conglomerados seleccionados.
Muestreo de Conglomerados
En el esquema general del muestreo por conglomerados, se utiliza un diseño de muestreo
para la selección de los conglomerados en la muestra. Este diseño de muestreo 𝑝𝑖 𝑠𝑖
puede ser cualquiera de los diseños vistos anteriormente, aplicados a la selección, esta
vez no de elementos, sino de conglomerados. En general, dado el soporte 𝑄𝑖 , 𝑝𝑖 𝑠𝑖 puede
ser:

• Sin reemplazo: si todas las posibles muestras en 𝑄𝑖 son sin reemplazo.


Muestreo aleatorio simple, Bernoulli, Sistemático, estratificado simple.

• Con reemplazo: si todas las posibles muestras en 𝑄𝑖 son con reemplazo. Por ejemplo
MAS
• De tamaño fijo: si todas las posibles muestras en 𝑄 tienen el mismo tamaño de muestra
𝑛(𝑆𝑖 ) = 𝑛𝑖 .
Muestreo de Conglomerados
Definición: La probabilidad de inclusión del conglomerado i-esimo está dado por:

mientras que la probabilidad de inclusión de los conglomerados i-esimo y j-esimo están


dadas por

respectivamente. Por supuesto,𝜋𝐼𝑖𝑖 = 𝜋𝐼𝑖 .

Definición: La probabilidad de que el k-esimo elemento, sea incluido en la muestra 𝑆 esta


dada por,𝜋𝑘 = 𝜋𝐼𝑖 𝑠𝑖 𝑘 ∈ 𝑈𝑖 .
la probabilidad de inclusión de los elementos k-esimo y l-esimo está dada por
El estimador de Horvitz-Thompson
Proposición: Bajo un diseño de muestreo por conglomerados, el estimador de H-T para el
total 𝑡𝑦 , su varianza y su varianza estimada están dados por
El estimador de Horvitz-Thompson
Proposición: Si el diseño de muestreo 𝑝𝑖 𝑠𝑖 es de tamaño fijo, la varianza del estimador
de Horvitz-Thompson y su varianza estimada toman la siguiente forma
Estimación de otros parámetros
Proposición: En muestreo por conglomerado la media poblacional es estimada
insesgadamente mediante el uso del estimador de Horvitz-Thompson:
1
𝑌𝜋 = (𝑡𝑦𝜋 )
𝑁
1 𝑡𝑦𝑖
=
𝑁 𝜋𝐼𝑖
𝑖∈𝑆𝐼
el desconocimiento del tamaño poblacional es muy típico. Sin embargo, utilizando los
principios del estimador de Horvitz-Thompson, es posible estimar el tamaño de la población
escribiéndolo como
𝑁= 𝑁𝑖
𝑖∈𝑈𝐼
Estimación de otros parámetros
Proposición: En muestreo por conglomerados el tamaño poblacional es estimado
insesgadamente mediante el uso de la siguiente expresión:
𝑁𝑖
𝑁𝜋 =
𝜋𝐼𝑖
𝑖∈𝑆𝐼
Una vez el tamaño de la población es estimado, es posible utilizar la razón de Hájek (Hájek
1971) para estimar la media poblacional de la siguiente manera.
𝑡𝑦𝜋
𝑦𝑆 =
𝑁𝜋
En ocasiones, cuando el diseño de muestreo utilizado induce probabilidades de inclusión
desiguales, es mejor utilizar este estimador aun conociendo el tamaño poblacional.
El estimador de Hansen-Hurwitz
Si la selección de los conglomerados se hace con reemplazo, ya sea utilizando cualquier
diseño estudiado, entonces es posible utilizar los principios del estimador de HH para
completar la estrategia de muestreo. En caso de tener acceso a información auxiliar
continua, las probabilidad de selección del i-esimo conglomerado estaría dada por:
𝑡𝑥𝑖
𝑝𝐼𝑖 =
𝑡𝑥
en caso de conocerse los tamaños 𝑁𝑖 de cada cluster 𝑖 = 1, … , 𝑁𝐼 , estos mismos se pueden
usar como medidas de tamaño para un muestreo con probabilidades proporcionales.
Entonces un esquema general del muestreo con reemplazo seria:

• Para cada conglomerado de la población 𝑈𝐼 , existen números positivos 𝑝𝐼𝑖 , … , 𝑝𝐼𝑁𝑖 tales
que
𝑝𝐼𝑖 = 1
𝑈𝐼
Estas probabilidades no son necesariamente iguales.
El estimador de Hansen-Hurwitz

• Para seleccionar el primer elemento que pertenecerá a la muestra de tamaño 𝑚𝐼 , se


lleva a cabo un sorteo aleatorio de tal forma que
𝑃 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑟 𝑒𝑙 𝑐𝑜𝑛𝑔𝑙𝑜𝑚𝑒𝑟𝑎𝑑𝑜 𝑖 = 𝑝𝐼𝑖 , 𝑖 ∈ 𝑈𝐼
• El conglomerado seleccionado es reemplazado en la población y vuelve a ser parte del
próximo sorteo aleatorio con la misma probabilidad de selección. En total se realizan 𝑚𝐼
sorteos aleatorios independientes..
el sorteo aleatorio se realiza entre los conglomerados, y no entre los elementos, bajo
muestreo en conglomerados no tiene sentido hablar de la probabilidad de selección de un
elemento. Una vez que las probabilidades de selección de los conglomerados están
definidas, utilizamos el estimador de HH para estimar los parámetros de interés
El estimador de Hansen-Hurwitz
Proposición: Bajo un diseño de muestreo por conglomerados, el estimador de HH para el
total 𝑡𝑦 , su varianza y su varianza estimada están dados por:

respectivamente. Nótese que 𝑡𝑦𝑝 es insesgado para 𝑡𝑦 y que 𝑉𝑎𝑟(𝑡𝑦𝑝 ) es insesgado para
𝑉𝑎𝑟(𝑡𝑦𝑝 )
El estimador de Hansen-Hurwitz
Definición: De manera general, un diseño de muestreo con reemplazo de conglomerados
se define como
Muestreo de Conglomerados
Al respecto de la construcción del estimador de H-Thompson bajo muestreo en
conglomerados, Bautista (1998) deduce que
𝑡𝑦𝑖
1. La eficiencia de la estrategia de muestreo toma su máximo valor cuando los valores
𝜋𝐼𝑖
son constantes para todo 𝑖 = 1, … , 𝑁𝐼
2. Cuando el diseño por conglomerados es tal que asigna probabilidades de inclusión
idénticas a cada conglomerado, la estrategia pierde eficiencia, a menos que el
comportamiento de los totales de cada conglomerado sea similar.

Esto nos llevan a preferir diseños de muestreo que asignen probabilidades de inclusión
proporcionales al tamaño del conglomerado. Para esto se debería disponer de información
auxiliar continua disponible para toda la población 𝑈𝐼 que estuviera bien correlacionada con
los totales de la característica de interés en cada conglomerado 𝑡𝑦𝑖 . Luego, si 𝑥 representa
la información auxiliar continua y 𝑡𝑥𝑖 el total de la información auxiliar en el i-ésimo
conglomerado, la correlación entre 𝑡𝑥𝑖 y 𝑡𝑦𝑖 deberıa ser bastante fuerte y las probabilidades
de inclusión de los conglomerados deberían corresponder a la siguiente forma funcional:
𝑡𝑥𝑖
𝜋𝐼𝑖 = 𝑛𝐼
𝑡𝑥

También podría gustarte