Documentos de Académico
Documentos de Profesional
Documentos de Cultura
http://www.cdc.gov/Spanish/EncuestasSR/disenoM/muestreo1.html
Ir a 2. Selección de Muestras
1. Diseño de Muestras:
Las principales decisiones que se debe tomar para el diseño de una muestra son el
tamaño de la muestra y si la muestra va a requerir de estratificación. Antes de abordar
estos temas es importante describir el proceso de selección de las tres etapas que se ha
utilizado para seleccionar las muestras de las encuestas RHS.
2
DEFF = EE(complejo tamaño N) / EE(MAS tamaño N)
La mayoría de los indicadores claves en una RHS se calculan como una proporción, p
(por ejemplo, la proporción de mujeres casadas que utilizan métodos anticonceptivos, la
proporción de nacimientos atendidos en un centro de salud, o la proporción de niños con
diarrea que recibieron tratamiento para la deshidratación). En una muestra aleatoria
simple la fórmula para el error estándar de una proporción, ee(p), sería:
ee(p) = [p(1-p)/N]½ ,
Una práctica común es calcular un tamaño de muestra necesario para lograr un intervalo
de confianza específico para una proporción. Por ejemplo, se puede estimar la tasa
nacional de prevalencia de anticonceptivos con un intervalo de confianza del 95% de + /
- 2 puntos porcentuales. Se puede expresar la precisión deseada, d, la mitad del intervalo
de confianza para p, como:
En otras palabras, habría que diseñar la muestra para obtener 5,402 sujetos en el
denominador del indicador que estamos tratando de estimar. Establecer el valor de p
como 0.5 es la hipótesis más conservadora respecto a la proporción (cualquier otra
opción para p daría un valor menor para N). La elección de un valor apropiado para
DEFF es un tema más complejo que se discutirá más adelante. Un informe que
documenta los efectos del diseño para 37 variables diferentes en 48 encuestas de DHS la
mayoría de los efectos de diseño fueron entre 1.0 y 2.0 y el efecto de diseño promedio
fue de 1.49 (Le y Verma, 1997).
N = (1.96*DEFF/d)2(p)(1-p)
Intervalo de confianza de 95% de p entre (p-d) y (p+d)
Como se indicó anteriormente, todas las muestras utilizadas para las RHS son complejas
ya que emplean un proceso multi-etápico de selección (UPM, hogares o viviendas y
mujeres). Empleando este proceso de selección el diseño de muestra más simple sería
aquel que presenta una distribución proporcional entre los hogares de la muestra y de la
población. Para seguir desarrollando el ejemplo anterior, supongamos que queremos
diseñar una muestra en tres etapas para medir la prevalencia de anticonceptivos entre las
mujeres en unión con un intervalo de confianza nacional de + / - 2.5 puntos
porcentuales. Supongamos, además, que tenemos la siguiente información de una
encuesta anterior:
Tasa de prevalencia de anticonceptivos fue: 62%
El efecto del diseño fue: 1.37
Razón de hogares con entrevista completa a hogares en la muestra = .93 4
Tasa de respuesta individual = 97%.
65% de los hogares tenían al menos una mujer en edad fértil (MEF)
60% de las MEF estaban casadas o unidas (en unión).
Al sustituir estos valores en la ecuación 2 se determina que se necesita una muestra del
tamaño siguiente:
a. 2,718/.60 = 4,530 mujeres con una entrevista completa (se divide por la proporción
en unión)
b. 4,530 / 0.97 = 4,670 mujeres en la muestra (se divide por la tasa de respuesta
individual)
c. 4,670 / 0.65 = 7,185 hogares con una entrevista completa (se divide por proporción de
hogares con MEF)
d. 7,185 / 0.93 = 7,726 hogares en la muestra (se divide por la razón de hogares con
entrevista completa a hogares en la muestra).
Con este dato de 7,726 hogares en la muestra se puede determinar la cantidad de UPM y
hogares por UPM en la muestra.
La mayoría de las encuestas de salud reproductiva han fijado una meta de obtener entre
20 y 25 entrevistas completas, en promedio, por UPM en la muestra. Podemos ver que
el número de entrevistas completas dependerá de la tasa de respuesta de los hogares, la
proporción de hogares con una mujer en edad reproductiva y la tasa de respuesta
individual de las mujeres seleccionadas en la muestra. Si nos fijamos un promedio de 20
entrevistas individuales realizadas por UPM, podemos utilizar la información de arriba
para calcular el número promedio de hogares de la muestra por UPM:
Redondeando la cifra a 34, se puede calcular el número de UPM de 34 hogares que son
necesarias para obtener el total deseado de hogares en la muestra.
Supongamos que en este ejemplo que el costo de llevar a cabo una encuesta en 228
UPM PSU es más de lo que está disponible. Como medida de reducción de costos se
podría decidir que los equipos de trabajo de campo completen un promedio de 25
entrevistas individuales por UPM. Esto daría como resultado un conglomerado de 25 /
(0.93) (0.65) (0.97) = 42 hogares por UPM. Con 42 hogares por UPM, sólo 184 UPM
(7,726/42) serían necesarias para obtener el tamaño de la muestra deseado. La reducción
en el número de UPM implica menos costos relacionados a viajes, pero hay desventajas
al aumentar el tamaño de las UPM. En general, una muestra con menos UPM y más
hogares por UPM tendrá un efecto de diseño más grande que una muestra del mismo
tamaño con más UPM y un tamaño de UPM más pequeño. Kish (1965) introdujo una
medida sintética llamada el índice de homogeneidad (roh) que se define en términos del
DEFF y el tamaño promedio de grupo:
Puede verse en esta ecuación que para un determinado índice de homogeneidad (roh) el
efecto del diseño será más grande si el tamaño del conglomerado, b, es más grande.
Aquí, b se refiere al número promedio de individuos por conglomerado que conforma
el denominador para el indicador en referencia. En su estudio de efectos de diseño para
las DHS en 1997, Le y Verma proporcionan estimaciones de roh para una diversidad
variables, que fueron calculadas como el valor promedio en un grupo de 48 encuestas.
Estos índices oscilan entre 0.22 para asistencia médica en atención de partos y 0.01
para tasas específicas de fecundidad por edad. Como consecuencia, al variar el tamaño
del conglomerado, se tendrá un impacto diferencial sobre el efecto del diseño, en
función del roh para una determinada variable. Si una característica tiene más
homogeneidad dentro de UPM’s los valores de roh y DEFF serán más grandes para esa
característica.
El Cuadro 3 , contiene dos posibles diseños para la selección de una muestra de 9,000
hogares de un universo de 18 millones de hogares. Un diseño empleando una asignación
proporcional tendría una fracción de muestreo constante de 1 por cada 2,000 hogares
para los tres dominios, y no sería necesario estratificar la muestra. En un diseño con
asignación igual de UPM cada dominio tendría 3,000 hogares y la fracción de muestreo
varía según dominios, indicando que esta es una muestra estratificada. En el diseño de
asignación igual, el dominio más pequeño, A, es "sobre-muestreado" en relación con la
asignación proporcional y los dominios más grandes, B y C, que están "sub-
muestreados".
Casi todas las muestras utilizadas para las RHS se han estratificado a fin de sobre-
muestrear los dominios más pequeños. El Cuadro 4 , muestra las características de las
muestras de 22 encuestas realizadas en América Latina desde 1988. En la tercera
columna se describen los estratos utilizados para cada encuesta y en casi todos los casos
la muestra fue estratificada para permitir sobre-muestrear dominios pequeños. Para los
países con varias encuestas se observa una tendencia a ampliar el número de dominios
con resultados más desagregados y como consecuencia el tamaño de la muestra total
también ha aumentado. Por ejemplo, la encuesta de Ecuador en 1989 fue diseñada para
proporcionar estimaciones para 6 dominios (Quito, Guayaquil y 4 regiones), mientras
que la encuesta de 1999 proporcionó estimaciones para 15 provincias y 2 regiones. La
muestra pasó de 288 UPM con 7,863 hogares a 544 UPM con 21,760 hogares. Entre
estas 22 encuestas, sólo la muestra de la encuesta de mujeres en Honduras 2001 utilizó
una asignación proporcional y no estratificada.
No.
Naci
Selec mien
No. cion tos
Naci aleat en
No. Selec mien oria peri
Vivie ciona tos de odo
ndas ron 1 No. en un de
No. con muje No. MEF perio naci 60 No.
Vivie entr r/ho MEF/ /HE do mien mes Hog
ndas evist mbre HEF F de to es ar
en a por mues com 60 por mue No. por
muest com hoga trada plet mese muje strad UP UP
Pais Año Estratos ra pleta r? s a s r? os M M
urban, 265
Belize 1991 rural 4977 3927 Sí 2824 6 1989 No ? ?
San Jose
Costa &4 361
a
Rica 1993 regions 7508 7454 No- 3981 8 1807 No 188 ~36
Quito, 24 -
Guayaq urba
uil, & 4 na,
Ecuad regions - 796 35-
b
or 1989 7863 7533 No 8402 1 4366 No 288 rural
Quito,
Guayaq
uil, & 15
province 1826 1408 135
1994 s-b 20000 4 Sí 4 82 8853 Sí 5856 500 40
1999 Quito, 21760 1989 Sí 1505 142 8691 Sí 6044 544 40
Guayaq 6 7 85
uil, 15
province
s,
Amazoni
a,
Galapag
os
Quito,
Guayaq
uil, 15
province
s,
Amazoni
a,
2004 Galapag 1499 1114 108
MEF os 16530 3 Sí 8 14 6140 Sí 4355 692 24
Quito,
Guayaq
uil, 15
province
s,
2004 Amazoni
Gastos a,
en Galapag 1098
Salud os 12378 5 NA NA NA NA NA NA 692 18
AMSS,
other
urban
El and
Salvad other 357
or 1988 rural - c 5460 5023 Sí 3773 9 2520 No 179 30
AMSS,
other
urban
and
other 620
1993 rural 9000 8199 Sí 6555 7 4286 Sí 2804 225 40
13
Depart
ments, 5
regions
in San
Salvador
,4
districts 1953 1342 126
1998 -d 20760 5 Sí 5 34 8482 Sí 5372 692 30
13
Depart
2002/0 ments, 5
3 regions
mujere in San 1559 1172 106
s Salvador 18450 0 Sí 3 89 5867 Sí 4333 610 30
AMSS,
other
2002/0 urban
3 and
hombr other 131
es rural 2700 2290 Sí 1657 5 NA NA NA 90 30
13
Depart
ments, 4
regions
(Sibasi's
) in San 1785 1332 120
2008 Salvador 21595 9 Sí 9 08 5173 Sí 4265 617 35
2002 22
Guate mujere Depart 1148 915
mala s ments 12119 9 Sí 9726 5 7901 No 376 30
2002 22
hombr Depart 253
es ments 4033 3831 Sí 2963 8 NA NA NA 376 10
2008/0
9 22
mujere Depart 2076 1761 168 1115
s ments 21990 8 Sí 7 19 2 No 733 30
2008/0
9 22
hombr Depart 1032 708
es ments 10995 4 Sí 7893 6 NA NA NA 733 15
Emb
arazo
y
Teguciga Parto
lpa, San -
Pedro ultim 30,
1996 Sula and os 40
Hondu mujere 8 Health 750 parto or
ras s regionse 10779 9647 Sí 7890 5 s Sí 3763 299 47
Teguciga
lpa, San
Pedro
Sula, 28,
1996 resto 33
hombr urbano, 292 or
es rurale 5049 4410 3407 5 NA NA NA 153 40
2001
mujere 1046 836
s Nonee 12000 6 Sí 8745 2 6624 Sí 4226 400 30
2001 Teguciga 6000 5076 Sí 4063 324 NA NA NA 200 30
hombr lpa, San 7
es Pedro
Sula,
resto
urbano,
rurale
Managu
a, Otro
Nicara 1992/9 urbano, 715
gua 3 ruralf 9360 8567 Sí 7577 0 5467 Sí 3470 234 40
15
departm
ents,
2006/0 RAAN & 1720 1484 142
7 RAAS 19140 9 Sí 7 21 7228 Sí 5485 638 30
Asuncio
Parag n& 222
uay 1987 Otherg 3000 2907 Sí 2274 4 NA NA NA 120 25
Gran
Asuncio
n,
Norte,
Centro-
1995/9 Sur, 646 31-
6 Esteg 9462 8828 Sí 6751 5 4917 Sí 2907 305 36
Depart 359 30-
1998 mentsh 5936 5313 Sí 3667 8 ? Sí ? 185 33
Gran
Asuncio
n,
Norte,
Centro-
Sur, 1071 732 32-
2004 Esteg 12236 9 Sí 7519 1 4025 Sí 2600 352 66
Gran
Asuncio
n,
Norte,
Centro-
Sur, 1047 654
2008 Esteg 12208 4 Sí 6887 0 3057 Sí 2312 348 9-52
a- En Costa Rica utilizan un procedimiento unico en cual cada otra mujer en las viviendas
seleccionadas está seleccionada para ser entrevistada. En este caso había 7962 mujeres
edades 15-49 , de las cuales se seleccionaron 3981. Este procedimiento provisiona una
muestra autoponderado y minimiza entrevistas múltiples en el mismo hogar.
e - Excluye Islas
de la Bahia y
Gracias a Dios
f - Excluye Departamento de
Zelaya en la Costa Atlantica
(RAAN & RAAS)
No hay una indicación uniforme sobre la forma de asignar la muestra entre los estratos
en un diseño muestral estratificado. El diseño más eficiente para minimizar el error
estándar de las estimaciones nacionales es una asignación proporcional tal que se ha
dado una tendencia a ajustar o aproximar una asignación proporcional por tener
muestras más grandes para los dominios más grandes y muestras más pequeñas para
dominios más pequeños. Probablemente la “regla de dedo” más consistente ha sido que
los dominios más pequeños deberían tener un mínimo de 25 a 30 UPM cada uno. El
método más sencillo es determinar un tamaño de muestra global basada en las
necesidades para las estimaciones nacionales y ver que implicaciones tiene en los
tamaños de muestra para cada dominio si se utiliza una asignación proporcional de
UPM. Los dominios que son insuficientes en el tamaño de la muestra pueden ser
aumentados para llegar a un tamaño mínimo. La parte superior del Cuadro 5 ,
presenta un ejemplo de este procedimiento. En este ejemplo, se tiene información sobre
cómo los 8.8 millones de hogares en el último censo de un país están distribuidos por
los dominios del estudio (A a H). Suponiendo que se había fijado un objetivo de
escoger 300 UPM a nivel nacional en la primera etapa de selección de la muestra, se
puede ver en la tercera columna del cuadro 5 la distribución prevista de las 300
UPM, usando una asignación proporcional. En este escenario se observa que 5 de los 8
dominios tendrían menos de 30 UPM. Si aumentamos el número de UPM en los estratos
deficientes a conseguir que todos tengan al menos 30, entonces tendríamos un total de
359 UPM distribuidos como se presenta en la siguiente columna del panel superior. La
última columna muestra las fracciones de muestreo en cada estrato bajo el supuesto que
35 hogares serán seleccionados en cada UPM.
Haga click aquí para ver el Cuadro 5 en MS Excel
Asignación Fracción de
Estrat Proporcional a Proporcional con Muestreo con 35
o Hogares en censo Población mínimo de 30 hogares por UPM
A 360,000 12 30 0.00292
B 870,000 30 30 0.00121
C 1,450,000 49 49 0.00119
D 220,000 8 30 0.00477
E 3,750,000 128 128 0.00119
F 650,000 22 30 0.00162
G 940,000 32 32 0.00119
H 560,000 19 30 0.00188
Fracción de
Estrat Raiz Cuadrado Proporcional a raiz Prop a SQRT con Muestreo con 35
o (Hogares en Census) cuadrado (SQRT) minimo 30 hogares por UPM
A 600.0 23 30 0.00292
B 932.7 36 36 0.00147
C 1204.2 47 47 0.00114
D 469.0 18 30 0.00477
E 1936.5 76 76 0.00071
F 806.2 32 32 0.00170
G 969.5 38 38 0.00141
H 748.3 29 30 0.00188
En los ejemplos presentados hasta ahora hemos definido un número igual de hogares a
ser incluidos por UPM. Como se puede observar en el Cuadro 4 , para muchas de las
RHS realizadas hasta la fecha el tamaño del conglomerado ha variado. Han surgido dos
principales razones para variar el tamaño del conglomerado. Una de ellas es para
economizar recursos en el trabajo de campo haciendo un número más reducido de UPM
con un tamaño de conglomerado más grande en zonas de difícil acceso mientras se hace
más UPM con un tamaño de conglomerado más pequeño en las zonas más fáciles de
trabajar. Una segunda razón es para aprovechar la información existente en el sentido de
obtener un determinado número de entrevistas para todos los dominios del estudio. El
Cuadro 6 , proporciona un ejemplo de ambas situaciones para el diseño de una
muestra donde se ha establecido una meta de 1,000 entrevistas individuales en cada uno
de los siguientes tres dominios: la capital, otras zonas urbanas y zonas rurales.
Cuadro 6. Ejemplo de diseño muestral donde hogares por UPM varía entre Dominios
Razon de
Meta de hogares
entrevistas completos a Hogares
individuales por hogares en la Hogares con Tasa de respuesta necesitados por
Dominio UPM muestra mujer, 15-49 - mujeres UPM
Ciudad
capital 15 0.93 0.55 0.92 31.9
Otro Urbano 22 0.95 0.62 0.95 39.3
Rural 22 0.98 0.69 0.95 34.2
Meta de Meta de
entrevistas por entrevistas por Hogares en
Hogares por UPM dominio UPM Número UPM's dominio
Ciudad
capital 32 1000 15 67 2144
Otro Urbano 40 1000 22 46 1840
Rural 35 1000 22 46 1610
En la ciudad capital, hay una mayor concentración de viviendas y las UPM están tan
cercanas que permiten un acceso más fácil por lo que podría establecerse una meta de
sólo 15 entrevistas completas por UPM. En otras zonas urbanas y zonas rurales
decidimos poner una meta de 22 mujeres por UPM. En la parte superior del cuadro 6
tenemos información de una fuente externa sobre las variaciones en las tasas de
respuesta y la proporción de hogares con un informante elegible, que se puede utilizar
para calcular el número de hogares que debe ser visitado en cada UPM. Calculamos el
número necesario de hogares por UPM, como la meta de entrevistas completas por
UPM, dividida entre el producto de las tres proporciones (columnas 4-6 parte superior):
Para la ciudad capital tenemos entonces: 15 / [(0.93) (0.55) (0.92)] = 31,9. Al redondear
esta cifra se necesitaría 32 hogares por UPM para alcanzar un promedio de 15
entrevistas completas entre las mujeres. En otras zonas urbanas habría que visitar 40
hogares para entrevistar a 22 mujeres, mientras que en las zonas rurales sólo 35 hogares
son necesarias para entrevistar a 22 mujeres. Con estos tamaños de UPM se establece
que se necesitaría 67 UPM en la capital y 46 en cada uno de los otros 2 dominios para
satisfacer la meta de realizar 1,000 entrevistas completas en cada dominio.
1
En este documento se asume que la información disponible del censo o marco muestral
provee conteos del número de hogares en las UPM, donde el concepto de hogar es un
grupo de personas parientes o no que viven bajo el mismo techo y preparen en común
su alimentos (comen de la misma olla). En la práctica, muchas veces la información
disponible es un conteo de viviendas, donde el concepto de vivienda es un cuarto o
grupo de cuartos estructuralmente separados e independientes porque se puede entrar
y salir sin pasar por otras viviendas. Generalmente, 5 por ciento o menos de las
viviendas contienen hogares múltiples tal que los dos conceptos son muy similares y se
utiliza las mismas fórmulas en este documento para describir las dos situaciones.
2
Cabe mencionar que en este documento definimos efecto de diseño como la razón de
los errores estándares cuando estamos comparando muestras complejas y aleatorias
simples del mismo tamaño. Esto es consistente con la definición utilizada en la
documentación de las muestras de MICS y DHS. Es común en otras descripciones de
diseños muestrales referirse al efecto de diseño como la razón de varianzas la cual
puede causar confusión. En particular, algunos paquetes estadísticos calculan el DEFF
como la razón de la varianza en la muestra compleja a la varianza en una MAS
hipotética del mismo tamaño. Se debe tener cuidado en determinar cuál definición se
utiliza antes de interpretar los efectos de diseño presentados por el paquete. Si el
DEFF es la razón de errores estándares, como es utilizado aquí, indica el aumento
proporcional en el intervalo de confianza debido al uso de una muestra compleja. Si
DEFF es la razón de varianzas se interpreta como el aumento proporcional en el
tamaño de muestra para dar la misma precisión que una MAS de un tamaño
determinado.
3
Note que, si el efecto de diseño DEFF es definido como la razón de varianzas entonces
la ecuación 2 pasa a ser: N=1.962p(1-p)(DEFF)/d2.
4
La razón de hogares con entrevista completa a hogares en la muestra es diferente a la
tasa de respuesta para hogares. Esto es porque la tasa de respuesta para hogares
excluye las viviendas desocupados del denominador. La razón incluye todos los hogares
completos en el numerador y todos los hogares seleccionados más las viviendas
desocupadas en el denominador.
Ir a 2. Selección de Muestras
Volver al comienzo
Más
información
Contáctenos:
Centros para el Control y la Prevención de Enfermedades
1600 Clifton Rd
Atlanta, GA 30333
800-CDC-INFO
(800-232-4636)
TTY: (888) 232-6348
24 Horas/Todos los días
cdcinfo@cdc.gov
¿Cómo se visualizan los diferentes formatos de archivos (PDF, DOC, PPT, MPEG) en
este sitio?
Imprimir
Actualizaciones
Suscríbase
Escuche