Está en la página 1de 21

 Toolkit de Encuestas de Salud Reproductiva

 Diseño Muestral y Aplicación de Pesos de Análisis

http://www.cdc.gov/Spanish/EncuestasSR/disenoM/muestreo1.html

Regresar a página principal de Diseño Muestral y Aplicación de Pesos de Análisis

Ir a 2. Selección de Muestras

Guía de Muestreo para las Encuestas de


Salud Reproductiva con Asistencia
Técnica de CDC
Este documento describe e ilustra las prácticas que generalmente se ha empleado para el
diseño y selección de las muestras utilizadas en las Encuestas de Salud Reproductiva
(RHS, por sus siglas en inglés), para las cuales se ha proporcionado asistencia técnica de
parte de la División de Salud Reproductiva de los Centros para el Control y Prevención
de Enfermedades (CDC) en los últimos 35 años. No pretende ser un manual de
capacitación en la metodología de muestreo para las encuestas de hogares, que iría más
allá del alcance de este manual, sino proporcionar la documentación de referencia para
saber cómo se han realizado el diseño y selección de las muestras para las encuestas en
el pasado y las razones de los procedimientos que se han utilizado.

La serie de encuestas de salud reproductiva es uno de varios programas de encuestas


diseñadas para ofrecer estimaciones representativas a nivel nacional de indicadores de
salud basados en entrevistas con individuos que son seleccionados de una muestra
aleatoria de hogares. En particular, hay similitudes con la estrategia de muestreo que se
ha utilizado para las Encuestas de Demografía y Salud (DHS) y las Encuestas de
Indicadores Múltiples por Conglomerados (MICS), que son coordinadas por UNICEF.
En el Anexo A de este documento se incluye links a los websites que contienen los
manuales de muestreo utilizados por estas series de encuestas y algunas otras encuestas
similares.

Este documento está dividido en tres secciones: Diseño de Muestras, Selección de


Muestras y Cálculo de los Pesos de Análisis.

1. Diseño de Muestras:
Las principales decisiones que se debe tomar para el diseño de una muestra son el
tamaño de la muestra y si la muestra va a requerir de estratificación. Antes de abordar
estos temas es importante describir el proceso de selección de las tres etapas que se ha
utilizado para seleccionar las muestras de las encuestas RHS.

1. En la primera etapa, se seleccionan las unidades primarias de muestreo (UPM)


dentro de dominios geográficos o estratos. Las UPM generalmente son las
unidades geográficas más pequeñas en que se divide la cartografía censal en
poder de la oficina nacional de estadísticas de un país. Por lo general, son
grupos (segmentos o sectores) de entre 50 y 200 hogares dentro de límites
naturales o artificiales bien definidos, así como los bloques o manzanas en un
pueblo o ciudad. La selección de las UPM se hace generalmente con
una probabilidad de selección proporcional al tamaño (PPT) de la UPM, donde
el tamaño es el número de hogares (o viviendas)1 en la UPM de acuerdo al censo
más reciente. Por ejemplo, una UPM con 180 hogares tiene tres veces la
probabilidad de ser seleccionada en comparación con otra UPM que tiene sólo
60 hogares. Una alternativa a la selección de las UPM de un marco muestral
como el censo, es reutilizar las UPM ya seleccionadas para otra encuesta o como
parte de una muestra maestra (esto se discutirá más adelante en la sección sobre
selección de muestras). Las encuestas RHS, DHS y MICS emplean el mismo
método de selección de UPM con probabilidad proporcional al tamaño.
2. En la segunda etapa, se selecciona los conglomerados o grupos de hogares
incluidos en la muestra en cada una de las UPM que se seleccionaron en la
primera etapa. Se recomienda crear listados actualizados de todos los hogares y
viviendas en cada una de las UPM seleccionadas, antes de seleccionar los
hogares que formarán parte de la muestra de la encuesta. Esto asegura que todas
las viviendas existentes al momento de elaborar el listado tengan una
probabilidad conocida de ser seleccionadas. Generalmente una vivienda (o
estructura para vivir) corresponde a un hogar (o grupo de personas compartiendo
comida y gastos). En los casos cuando hay más de un hogar en la vivienda
seleccionada, el procedimiento utilizado para las RHS ha sido incluir todos los
hogares como parte de esta misma vivienda en la muestra. De esta manera, los
hogares tienen la misma probabilidad de selección que las viviendas en las
cuales están localizados. La selección de hogares en cada conglomerado se
realiza de tal manera que todos los hogares de la UPM tienen la misma
probabilidad de ser seleccionados dentro del conglomerado. Por ejemplo, si la
UPM contaba con 175 hogares de acuerdo a la lista y 25 hogares serían
seleccionados dentro del conglomerado entonces cada hogar tendría una
probabilidad de 1 en 7 (25/175) de ser seleccionado para la muestra. La
información sobre el cambio en el tamaño de la UPM entre la fecha del censo y
de la actualización cartográfica puede ser utilizada para calcular pesos de
análisis que capten las probabilidades de selección de los hogares. Esto se
presenta en más detalle en la sección sobre el cálculo de los pesos de análisis.
3. En la tercera etapa, se selecciona a una mujer en edad fértil (MEF: de 15 a 49 o
15 a 44 años) para entrevista en cada hogar que fue seleccionado en la segunda
etapa. Esta es una selección aleatoria que se realiza de tal manera que cada
mujer elegible tenga la misma probabilidad de selección. Esta tercera etapa de la
selección de una mujer generalmente no se hace en las encuestas DHS, donde
todas las mujeres elegibles para entrevista en el hogar entran en la muestra. Una
excepción en las encuestas de DHS es el módulo de violencia doméstica el que
ha sido aplicado sólo a una mujer por hogar. El método de selección de una
mujer por hogar se describe en la sección de selección de la muestra y las
implicaciones para la ponderación de los datos se presenta en la sección de
cálculo de los pesos. Se explica esto aquí, ya que afecta al cálculo del número de
hogares que se requiere con el fin de lograr un número predefinido de
entrevistas completas. En las RHS, a veces se ha incluido entrevistas cuesta con
hombres (edades de 15-54 o 15-59 años), para lo cual se ha empleado el mismo
procedimiento de selección de un hombre elegible por hogar.

El proceso de selección en las tres etapas descritas anteriormente representa un diseño


muestral complejo, que difiere de una muestra aleatoria simple (MAS). Una muestra
aleatoria simple de mujeres de 15 a 49 años de una población nacional sería aquella en
la que las mujeres de alguna manera podrían ser seleccionadas directamente de una lista
general de todas las mujeres en ese rango de edad. No existe dicha lista y si existiera el
costo de localizar y entrevistar a todas estas mujeres a escala nacional sería prohibitivo.
Una consecuencia de la utilización de un diseño muestral complejo es que las fórmulas
para el cálculo de errores estándar e intervalos de confianza sobre las estimaciones de la
encuesta también son complejos y requieren el uso de un paquete estadístico que tenga
en cuenta el diseño de la muestra para el cálculo correcto de los errores estándar. Los
paquetes estadísticos SAS, SPSS y STATA ahora incluyen rutinas para el cálculo de los
errores estándar en una muestra compleja. En general, el error estándar de una
estimación a partir de un diseño muestral complejo será más grande que el error
estándar de una muestra aleatoria simple del mismo tamaño, N. El aumento
proporcional en el error estándar de una estimación, debido a la utilización de un diseño
complejo, se conoce como el efecto de diseño, o DEFF:

2
DEFF = EE(complejo tamaño N) / EE(MAS tamaño N)

Una implicación desfavorable de los efectos de diseño es que no hay un efecto de


diseño que se aplique a todos los indicadores en un estudio. En un estudio dado puede
haber una variación considerable en los efectos de diseño para diferentes indicadores, y
entre los dominios diferentes efectos para un determinado indicador.

La mayoría de los indicadores claves en una RHS se calculan como una proporción, p
(por ejemplo, la proporción de mujeres casadas que utilizan métodos anticonceptivos, la
proporción de nacimientos atendidos en un centro de salud, o la proporción de niños con
diarrea que recibieron tratamiento para la deshidratación). En una muestra aleatoria
simple la fórmula para el error estándar de una proporción, ee(p), sería:

ee(p) = [p(1-p)/N]½ ,

donde N es el número de personas en el denominador de la proporción. En una muestra


compleja se puede expresar como:

ee(p) = [p(1-p)/N]½ *DEFF.

Una práctica común es calcular un tamaño de muestra necesario para lograr un intervalo
de confianza específico para una proporción. Por ejemplo, se puede estimar la tasa
nacional de prevalencia de anticonceptivos con un intervalo de confianza del 95% de + /
- 2 puntos porcentuales. Se puede expresar la precisión deseada, d, la mitad del intervalo
de confianza para p, como:

d = 1.96*[p (1-p) / N]½ DEFF. (1)

La ecuación puede ser despejada para expresar el tamaño de muestra necesario, N,


como una función de d, p y DEFF:

N=1.962 p(1-p)DEFF2 / d2 (2)3

Supongamos que queremos un N suficientemente grande para calcular una proporción


con un intervalo de confianza de + / - 2 puntos porcentuales. Si se asume un efecto de
diseño de 1.5 y un valor esperado de p alrededor de 50%, tenemos:

N=1.962 (.5)(1-.5)1.52 / .022 = 5,402.25 .

En otras palabras, habría que diseñar la muestra para obtener 5,402 sujetos en el
denominador del indicador que estamos tratando de estimar. Establecer el valor de p
como 0.5 es la hipótesis más conservadora respecto a la proporción (cualquier otra
opción para p daría un valor menor para N). La elección de un valor apropiado para
DEFF es un tema más complejo que se discutirá más adelante. Un informe que
documenta los efectos del diseño para 37 variables diferentes en 48 encuestas de DHS la
mayoría de los efectos de diseño fueron entre 1.0 y 2.0 y el efecto de diseño promedio
fue de 1.49 (Le y Verma, 1997).

Continuando con el ejemplo anterior, supongamos que la muestra de 5,402 no es


factible dado los recursos disponibles para el estudio y que se decidió que un intervalo
de confianza de +/- 4 puntos porcentuales será suficiente. Usando la misma fórmula de
arriba tenemos un requisito N de 1,351. Esto ilustra que doblando el intervalo de
confianza con el que estamos dispuestos a "convivir" se reduce el tamaño de la muestra
necesaria a un cuarto de la cantidad original. Una deducción lamentable es que la
reducción del intervalo de confianza a la mitad requiere cuadruplicar el tamaño de la
muestra.

El Cuadro 1 , presenta un conjunto de tamaños de muestra, N, que corresponde a una


variedad de valores de p, d, DEFF.

Haga click aquí para ver el Cuadro 1 en MS Excel

Cuadro 1. Tamaño de muestra, N, necesaria para estimar una proporción, p, con


intervalo de confianza de 95%, d, y efecto de diseño, DEFF

Propoción Efecto de Tamaño de Mitad del intervalo de confianza de 95%


estimada diseño (d)
(p) (DEFF) 0.01 0.02 0.03 0.04 0.05 0.10
0.1 1.0 3,457 864 384 216 138 35
0.1 1.5 7,779 1,945 864 486 311 78
0.1 2.0 13,830 3,457 1,537 864 553 138
0.1 2.5 21,609 5,402 2,401 1,351 864 216
0.1 3.0 31,117 7,779 3,457 1,945 1,245 311

0.2 1.0 6,147 1,537 683 384 246 61


0.2 1.5 13,830 3,457 1,537 864 553 138
0.2 2.0 24,586 6,147 2,732 1,537 983 246
0.2 2.5 38,416 9,604 4,268 2,401 1,537 384
0.2 3.0 55,319 13,830 6,147 3,457 2,213 553

0.3 1.0 8,067 2,017 896 504 323 81


0.3 1.5 18,152 4,538 2,017 1,134 726 182
0.3 2.0 32,269 8,067 3,585 2,017 1,291 323
0.3 2.5 50,421 12,605 5,602 3,151 2,017 504
0.3 3.0 72,606 18,152 8,067 4,538 2,904 726

0.4 1.0 9,220 2,305 1,024 576 369 92


0.4 1.5 20,745 5,186 2,305 1,297 830 207
0.4 2.0 36,879 9,220 4,098 2,305 1,475 369
0.4 2.5 57,624 14,406 6,403 3,602 2,305 576
0.4 3.0 82,979 20,745 9,220 5,186 3,319 830

0.5 1.0 9,604 2,401 1,067 600 384 96


0.5 1.5 21,609 5,402 2,401 1,351 864 216
0.5 2.0 38,416 9,604 4,268 2,401 1,537 384
0.5 2.5 60,025 15,006 6,669 3,752 2,401 600
0.5 3.0 86,436 21,609 9,604 5,402 3,457 864

N = (1.96*DEFF/d)2(p)(1-p)
Intervalo de confianza de 95% de p entre (p-d) y (p+d)

1.1 Muestreo Proporcional de los Dominios del Estudio

Como se indicó anteriormente, todas las muestras utilizadas para las RHS son complejas
ya que emplean un proceso multi-etápico de selección (UPM, hogares o viviendas y
mujeres). Empleando este proceso de selección el diseño de muestra más simple sería
aquel que presenta una distribución proporcional entre los hogares de la muestra y de la
población. Para seguir desarrollando el ejemplo anterior, supongamos que queremos
diseñar una muestra en tres etapas para medir la prevalencia de anticonceptivos entre las
mujeres en unión con un intervalo de confianza nacional de + / - 2.5 puntos
porcentuales. Supongamos, además, que tenemos la siguiente información de una
encuesta anterior:
Tasa de prevalencia de anticonceptivos fue: 62%
El efecto del diseño fue: 1.37
Razón de hogares con entrevista completa a hogares en la muestra = .93 4
Tasa de respuesta individual = 97%.
65% de los hogares tenían al menos una mujer en edad fértil (MEF)
60% de las MEF estaban casadas o unidas (en unión).

Al sustituir estos valores en la ecuación 2 se determina que se necesita una muestra del
tamaño siguiente:

N = 1,962 (0.62) (1-0.62)1.372 / 0.0252 = 2,718 mujeres en unión

Esto, sin embargo, no es el número de hogares de la muestra. De la información anterior


se puede calcular a continuación que la muestra debe tener:

a. 2,718/.60 = 4,530 mujeres con una entrevista completa (se divide por la proporción
en unión)

b. 4,530 / 0.97 = 4,670 mujeres en la muestra (se divide por la tasa de respuesta
individual)

c. 4,670 / 0.65 = 7,185 hogares con una entrevista completa (se divide por proporción de
hogares con MEF)

d. 7,185 / 0.93 = 7,726 hogares en la muestra (se divide por la razón de hogares con
entrevista completa a hogares en la muestra).

Con este dato de 7,726 hogares en la muestra se puede determinar la cantidad de UPM y
hogares por UPM en la muestra.

La mayoría de las encuestas de salud reproductiva han fijado una meta de obtener entre
20 y 25 entrevistas completas, en promedio, por UPM en la muestra. Podemos ver que
el número de entrevistas completas dependerá de la tasa de respuesta de los hogares, la
proporción de hogares con una mujer en edad reproductiva y la tasa de respuesta
individual de las mujeres seleccionadas en la muestra. Si nos fijamos un promedio de 20
entrevistas individuales realizadas por UPM, podemos utilizar la información de arriba
para calcular el número promedio de hogares de la muestra por UPM:

Tamaño de UPM = 20 / [(0.93) (0.65) (0.97)] = 34.1 hogares por UPM.

Redondeando la cifra a 34, se puede calcular el número de UPM de 34 hogares que son
necesarias para obtener el total deseado de hogares en la muestra.

Nº UPM = 7,726/34 = 227.2

Redondeando hacia arriba a 228, se deriva en un diseño muestral simple en el que


primero se selecciona las 228 UPM, y a continuación los 34 hogares por UPM,
resultando una muestra total de 7,752 hogares. Es común ampliar un poco el número de
UPM para tomar en cuenta la posibilidad de seleccionar UPM no accesibles por razones
de seguridad o condiciones geográficas. Se espera que esta muestra arroje 20 * 228 =
4,560 entrevistas individuales completas y que (0.60) (4,560) = 2,736 de estas mujeres
estarán casadas o acompañadas. Si se asume un efecto de diseño de 1.37 para la tasa de
prevalencia de anticonceptivos, esto debería producir un intervalo de confianza del 95%
de +/- 2.5 puntos porcentuales para el valor estimado.

Supongamos que en este ejemplo que el costo de llevar a cabo una encuesta en 228
UPM PSU es más de lo que está disponible. Como medida de reducción de costos se
podría decidir que los equipos de trabajo de campo completen un promedio de 25
entrevistas individuales por UPM. Esto daría como resultado un conglomerado de 25 /
(0.93) (0.65) (0.97) = 42 hogares por UPM. Con 42 hogares por UPM, sólo 184 UPM
(7,726/42) serían necesarias para obtener el tamaño de la muestra deseado. La reducción
en el número de UPM implica menos costos relacionados a viajes, pero hay desventajas
al aumentar el tamaño de las UPM. En general, una muestra con menos UPM y más
hogares por UPM tendrá un efecto de diseño más grande que una muestra del mismo
tamaño con más UPM y un tamaño de UPM más pequeño. Kish (1965) introdujo una
medida sintética llamada el índice de homogeneidad (roh) que se define en términos del
DEFF y el tamaño promedio de grupo:

DEFF2 = 1 + (b-1) roh.

Puede verse en esta ecuación que para un determinado índice de homogeneidad (roh) el
efecto del diseño será más grande si el tamaño del conglomerado, b, es más grande.
Aquí, b se refiere al número promedio de individuos por conglomerado que conforma
el denominador para el indicador en referencia. En su estudio de efectos de diseño para
las DHS en 1997, Le y Verma proporcionan estimaciones de roh para una diversidad
variables, que fueron calculadas como el valor promedio en un grupo de 48 encuestas.
Estos índices oscilan entre 0.22 para asistencia médica en atención de partos y 0.01
para tasas específicas de fecundidad por edad. Como consecuencia, al variar el tamaño
del conglomerado, se tendrá un impacto diferencial sobre el efecto del diseño, en
función del roh para una determinada variable. Si una característica tiene más
homogeneidad dentro de UPM’s los valores de roh y DEFF serán más grandes para esa
característica.

En el ejemplo anterior, se utilizó el usamos uso de anticonceptivos, que tiene un


denominador de mujeres en unión, como indicador para determinar el tamaño de la
muestra, N. En cada encuesta, sin embargo, existe una amplia variedad de indicadores y
el número de casos en el denominador depende de la definición del indicador. En el
Cuadro 2 , se muestra el número de casos que representan el denominador en un
grupo de indicadores clave, usando la RHS de El Salvador 2008 como ejemplo. La
muestra contiene 617 UPM, con 35 hogares por UPM. De los 21,595 hogares visitados
se obtuvo 12,008 entrevistas completas con mujeres en edad reproductiva, obteniendo
un promedio de 19.2 entrevistas individuales por UPM. Para el grupo de indicadores
que se incluye en el Cuadro 2 , el tamaño de la muestra o número de casos del
denominador varía desde sólo 470 para niños de 0 a 5 meses a 12,008 para indicadores
basados en todas las mujeres. Las últimas dos columnas del cuadro 2 , muestran el
número promedio de casos por conglomerado, b, y el promedio por mujer de casos en el
denominador para el indicador.

Haga click aquí para ver el Cuadro 2 en MS Excel


Cuadro 2. Ejemplo de variaciones según indicador en el tamaño de muestra, efecto de diseño,
tamaño de conglomerado y el promedio de casos en el denominador a Mujeres entrevistadas:
El Salvador 2008 RHS
Error
No. de estand
casos no ar en No. de
pondera Valor muestr casos
dos en el de a Efecto por Promedio
Definición de denomin Indicad comple de conglo de casos
Indicador Denominador ador or ja diseño merado por mujer
Agua por
tuberia en
hogar Mujeres 15-49 12,008 73.5 1.3 3.724 19.2 1.00
Mujer es jefa
del hogar Mujeres 15-49 12,008 36.8 0.6 1.340 19.2 1.00
Mujeres
Usando método casadas/unidas
anticonceptivo , 15-44 6,618 72.5 0.7 1.298 10.6 0.55
Mujeres
casadas/unidas
Min. de Salud , 15-44, usando
como fuente de método
método anticonceptivo 4,729 56.5 1.0 1.436 7.5 0.39
Mujeres 15-24
que han tenido
relaciones
sexuales Mujeres 15-24 3,764 50.6 1.1 1.294 6.0 0.31
Usó Mujeres 15-24
anticonceptivo que han tenido
en primera relaciones
relación sexual sexuales 2,182 28.2 1.2 1.254 3.5 0.18
Conocimiento
correcto de VIH Mujeres 15-49 12,008 24.2 0.6 1.574 19.2 1.00
Experimentó
violencia física o
sexual en Mujeres 15-49,
últimos 12 alguna vez
meses casadas/unidas 7,349 7.7 0.3 1.034 11.7 0.61
Control prenatal
antes del 4o
mes y 5 ó más
controles Nacidos vivos,
durante abril 2003 -
embarazo marzo 2008 5,169 69.9 0.9 1.348 8.2 0.43
Nacidos vivos,
Parto abril 2003 -
Institucional marzo 2008 5,169 84.6 0.9 1.870 8.2 0.43
Recibió
lactancia
exclusiva en
últimas 24 Hijos/Hijas, 0-5
horas meses de edad 470 31.4 2.6 1.212 0.7 0.04
Baja talla-para- Hijos/Hijas, 3-
edad (<-2.0 59 meses de
d.e.) edad 4,391 19.2 0.8 1.391 7.0 0.37
Hijos/Hijas, 6-
Prevalencia de 59 meses de
anemia edad 3,836 26.0 0.9 1.202 6.1 0.32
Hijos/Hijas, 7-
Asistió escuela 14 años de
en 2008 edad 8,927 92.3 0.5 1.635 14.2 0.74

Tomando al ejemplo hipotético anterior, en El Salvador 2008 había 0.55 mujeres


acompañadas por cada mujer con entrevista completa. Si hubiéramos usado la ecuación
(2) para calcular el número de sujetos necesarios, N, para otro indicador, en el paso (a)
se dividiría la N calculada con la fórmula, entre el valor para ese indicador en la última
columna del Cuadro 2 , para obtener el número necesario de entrevistas completas.
Los pasos restantes (b, c y d) para calcular el número de hogares de la muestra serían los
mismos.

1.2 Muestreo No Proporcional de los Dominios del Estudio

En la sección anterior, se calculó el número de hogares a muestrear para una situación


ideal donde hay un tamaño de muestra definido para las estimaciones nacionales y
tamaños de muestra para las estimaciones sub-nacionales, que se definen de manera
proporcional a la distribución de los hogares en la población nacional. Se ha
simplificado aún más por asumir un número constante de hogares por conglomerado tal
que la decisión sobre el tamaño de la muestra se convierte en una decisión sobre al
número de UPM a incluir en la muestra. En la gran mayoría de las RHS un segundo
objetivo ha sido producir estimaciones para dominios sub-nacionales, de tal manera que
hay un tamaño de muestra mínimo para cada unidad sub-nacional.

Aquí utilizamos el término “unidad sub-nacional” para describir dominios de estudio


para los cuales intentamos presentar los resultados de la encuesta. Algunos ejemplos de
dominios de estudio, incluyen: urbano / rural; capital / otras zonas urbanas y rurales,
regiones de salud, departamentos o provincias, áreas de intervención de un proyecto,
poblaciones de refugiados o de desplazados. En una muestra proporcional todos los
dominios estarán sujetos a la misma fracción de muestreo. Si el tamaño de la muestra
para un dominio donde se usa una distribución proporcional es demasiado pequeño para
el cálculo de indicadores con la precisión deseada, entonces es común usar diferentes
fracciones de muestreo para diferentes dominios. Si la muestra emplea diferentes
fracciones de muestreo para diferentes dominios la muestra se conoce como
"estratificada". En una muestra estratificada el universo o marco muestral de la
muestra debe ser dividido en estratos separados y la muestra se selecciona de forma
independiente para cada estrato. En vista que diferentes estratos tienen diferentes
fracciones de muestreo (o probabilidades de selección) se debe utilizar pesos cuando se
combinan las observaciones de diferentes estratos.

El Cuadro 3 , contiene dos posibles diseños para la selección de una muestra de 9,000
hogares de un universo de 18 millones de hogares. Un diseño empleando una asignación
proporcional tendría una fracción de muestreo constante de 1 por cada 2,000 hogares
para los tres dominios, y no sería necesario estratificar la muestra. En un diseño con
asignación igual de UPM cada dominio tendría 3,000 hogares y la fracción de muestreo
varía según dominios, indicando que esta es una muestra estratificada. En el diseño de
asignación igual, el dominio más pequeño, A, es "sobre-muestreado" en relación con la
asignación proporcional y los dominios más grandes, B y C, que están "sub-
muestreados".

Haga click aquí para ver el Cuadro 3 en MS Excel

Cuadro 3. Comparación de Asignación Proporcional y Asignación Igual de UPM's por Dominio de


Estudio

Asignación Proporcional Asignación Igual


Dominios de Hogares Hogares en Fracción de Hogares en Fracción de
Estudio según censo muestra muestreo muestra muestreo

A 3,500,000 1,750 0.0005 3,000 0.000857143


B 8,300,000 4,150 0.0005 3,000 0.000361446
C 6,200,000 3,100 0.0005 3,000 0.000483871

Total 18,000,000 9,000 9,000

El diseño de asignación igual tiene la ventaja de presentar errores estándar similares


para todos los dominios del estudio. Los errores estándar están afectados por otros
factores además del número de hogares en cada dominio. Aún cuando el número de
hogares de la muestra es constante para los dominios, no se garantiza que el número de
sujetos (N) que entran para el cálculo de un indicador (por ejemplo, los nacimientos en
un período de 60 meses) será el mismo para todos los dominios. Además, el efecto de
diseño (DEFF) asociado con el uso de un diseño complejo no es necesariamente el
mismo para todos los dominios y la proporción (p) de los sujetos con la característica
analizada no va a ser la misma para todos los dominios. Los tres factores, N, P y DEFF
afectan el error estándar e intervalo de confianza, pero sólo el tamaño de la muestra
puede ser fácilmente controlado en el diseño de la muestra.

Casi todas las muestras utilizadas para las RHS se han estratificado a fin de sobre-
muestrear los dominios más pequeños. El Cuadro 4 , muestra las características de las
muestras de 22 encuestas realizadas en América Latina desde 1988. En la tercera
columna se describen los estratos utilizados para cada encuesta y en casi todos los casos
la muestra fue estratificada para permitir sobre-muestrear dominios pequeños. Para los
países con varias encuestas se observa una tendencia a ampliar el número de dominios
con resultados más desagregados y como consecuencia el tamaño de la muestra total
también ha aumentado. Por ejemplo, la encuesta de Ecuador en 1989 fue diseñada para
proporcionar estimaciones para 6 dominios (Quito, Guayaquil y 4 regiones), mientras
que la encuesta de 1999 proporcionó estimaciones para 15 provincias y 2 regiones. La
muestra pasó de 288 UPM con 7,863 hogares a 544 UPM con 21,760 hogares. Entre
estas 22 encuestas, sólo la muestra de la encuesta de mujeres en Honduras 2001 utilizó
una asignación proporcional y no estratificada.

Haga click aquí para ver el Cuadro 4 en MS Excel

Cuadro 4. Resumen de los diseños de muestra y tamaños


de muestra para 22 ESR conducidas en la región de
América Latina y el Caribe: 1987-2009

No.
Naci
Selec mien
No. cion tos
Naci aleat en
No. Selec mien oria peri
Vivie ciona tos de odo
ndas ron 1 No. en un de
No. con muje No. MEF perio naci 60 No.
Vivie entr r/ho MEF/ /HE do mien mes Hog
ndas evist mbre HEF F de to es ar
en a por mues com 60 por mue No. por
muest com hoga trada plet mese muje strad UP UP
Pais Año Estratos ra pleta r? s a s r? os M M
urban, 265
Belize 1991 rural 4977 3927 Sí 2824 6 1989 No ? ?
San Jose
Costa &4 361
a
Rica 1993 regions 7508 7454 No- 3981 8 1807 No 188 ~36
Quito, 24 -
Guayaq urba
uil, & 4 na,
Ecuad regions - 796 35-
b
or 1989 7863 7533 No 8402 1 4366 No 288 rural
Quito,
Guayaq
uil, & 15
province 1826 1408 135
1994 s-b 20000 4 Sí 4 82 8853 Sí 5856 500 40
1999 Quito, 21760 1989 Sí 1505 142 8691 Sí 6044 544 40
Guayaq 6 7 85
uil, 15
province
s,
Amazoni
a,
Galapag
os
Quito,
Guayaq
uil, 15
province
s,
Amazoni
a,
2004 Galapag 1499 1114 108
MEF os 16530 3 Sí 8 14 6140 Sí 4355 692 24
Quito,
Guayaq
uil, 15
province
s,
2004 Amazoni
Gastos a,
en Galapag 1098
Salud os 12378 5 NA NA NA NA NA NA 692 18
AMSS,
other
urban
El and
Salvad other 357
or 1988 rural - c 5460 5023 Sí 3773 9 2520 No 179 30
AMSS,
other
urban
and
other 620
1993 rural 9000 8199 Sí 6555 7 4286 Sí 2804 225 40
13
Depart
ments, 5
regions
in San
Salvador
,4
districts 1953 1342 126
1998 -d 20760 5 Sí 5 34 8482 Sí 5372 692 30
13
Depart
2002/0 ments, 5
3 regions
mujere in San 1559 1172 106
s Salvador 18450 0 Sí 3 89 5867 Sí 4333 610 30
AMSS,
other
2002/0 urban
3 and
hombr other 131
es rural 2700 2290 Sí 1657 5 NA NA NA 90 30
13
Depart
ments, 4
regions
(Sibasi's
) in San 1785 1332 120
2008 Salvador 21595 9 Sí 9 08 5173 Sí 4265 617 35
2002 22
Guate mujere Depart 1148 915
mala s ments 12119 9 Sí 9726 5 7901 No 376 30
2002 22
hombr Depart 253
es ments 4033 3831 Sí 2963 8 NA NA NA 376 10
2008/0
9 22
mujere Depart 2076 1761 168 1115
s ments 21990 8 Sí 7 19 2 No 733 30
2008/0
9 22
hombr Depart 1032 708
es ments 10995 4 Sí 7893 6 NA NA NA 733 15
Emb
arazo
y
Teguciga Parto
lpa, San -
Pedro ultim 30,
1996 Sula and os 40
Hondu mujere 8 Health 750 parto or
ras s regionse 10779 9647 Sí 7890 5 s Sí 3763 299 47
Teguciga
lpa, San
Pedro
Sula, 28,
1996 resto 33
hombr urbano, 292 or
es rurale 5049 4410 3407 5 NA NA NA 153 40
2001
mujere 1046 836
s Nonee 12000 6 Sí 8745 2 6624 Sí 4226 400 30
2001 Teguciga 6000 5076 Sí 4063 324 NA NA NA 200 30
hombr lpa, San 7
es Pedro
Sula,
resto
urbano,
rurale
Managu
a, Otro
Nicara 1992/9 urbano, 715
gua 3 ruralf 9360 8567 Sí 7577 0 5467 Sí 3470 234 40
15
departm
ents,
2006/0 RAAN & 1720 1484 142
7 RAAS 19140 9 Sí 7 21 7228 Sí 5485 638 30
Asuncio
Parag n& 222
uay 1987 Otherg 3000 2907 Sí 2274 4 NA NA NA 120 25
Gran
Asuncio
n,
Norte,
Centro-
1995/9 Sur, 646 31-
6 Esteg 9462 8828 Sí 6751 5 4917 Sí 2907 305 36
Depart 359 30-
1998 mentsh 5936 5313 Sí 3667 8 ? Sí ? 185 33
Gran
Asuncio
n,
Norte,
Centro-
Sur, 1071 732 32-
2004 Esteg 12236 9 Sí 7519 1 4025 Sí 2600 352 66
Gran
Asuncio
n,
Norte,
Centro-
Sur, 1047 654
2008 Esteg 12208 4 Sí 6887 0 3057 Sí 2312 348 9-52

a- En Costa Rica utilizan un procedimiento unico en cual cada otra mujer en las viviendas
seleccionadas está seleccionada para ser entrevistada. En este caso había 7962 mujeres
edades 15-49 , de las cuales se seleccionaron 3981. Este procedimiento provisiona una
muestra autoponderado y minimiza entrevistas múltiples en el mismo hogar.

b- Excluye región amazonia e Islas


Galapagos Islands (Región Insular), con
3.5% de la población.

c- Excluyes areas afectado por el conflicto cuales


corresponden a 45% del territorio y 20-25% de la
población(igual que 1985 DHS)
d - Sobremuestraron 4 municipios
en Ahuachapan, Usulatan and
Morazan para USAID

e - Excluye Islas
de la Bahia y
Gracias a Dios

f - Excluye Departamento de
Zelaya en la Costa Atlantica
(RAAN & RAAS)

g- Excluye región oeste


(Chaco) con aprox. 2% de
la población.

h- Excluye region oeste (Chaco), pero sobremuestraron departamentos de


Central, Misiones, Cordillera para el Proyecto MEASURE/Evaluation sobre
decentralización de los servicios de salud.

i - La encuesta de Paraguay en 1998 muestró un nacimiento en ultimos 5 años por mujer,


pero el informe solo presenta datos sobre ultimos 3 años para no tener un traslape con
el periodo de la encuesta previa en 1995.

No hay una indicación uniforme sobre la forma de asignar la muestra entre los estratos
en un diseño muestral estratificado. El diseño más eficiente para minimizar el error
estándar de las estimaciones nacionales es una asignación proporcional tal que se ha
dado una tendencia a ajustar o aproximar una asignación proporcional por tener
muestras más grandes para los dominios más grandes y muestras más pequeñas para
dominios más pequeños. Probablemente la “regla de dedo” más consistente ha sido que
los dominios más pequeños deberían tener un mínimo de 25 a 30 UPM cada uno. El
método más sencillo es determinar un tamaño de muestra global basada en las
necesidades para las estimaciones nacionales y ver que implicaciones tiene en los
tamaños de muestra para cada dominio si se utiliza una asignación proporcional de
UPM. Los dominios que son insuficientes en el tamaño de la muestra pueden ser
aumentados para llegar a un tamaño mínimo. La parte superior del Cuadro 5 ,
presenta un ejemplo de este procedimiento. En este ejemplo, se tiene información sobre
cómo los 8.8 millones de hogares en el último censo de un país están distribuidos por
los dominios del estudio (A a H). Suponiendo que se había fijado un objetivo de
escoger 300 UPM a nivel nacional en la primera etapa de selección de la muestra, se
puede ver en la tercera columna del cuadro 5 la distribución prevista de las 300
UPM, usando una asignación proporcional. En este escenario se observa que 5 de los 8
dominios tendrían menos de 30 UPM. Si aumentamos el número de UPM en los estratos
deficientes a conseguir que todos tengan al menos 30, entonces tendríamos un total de
359 UPM distribuidos como se presenta en la siguiente columna del panel superior. La
última columna muestra las fracciones de muestreo en cada estrato bajo el supuesto que
35 hogares serán seleccionados en cada UPM.
Haga click aquí para ver el Cuadro 5 en MS Excel

Cuadro 5. Ejemplo de asignacion de UPM a estratos, especificando un mínimo de 30 hogares


por estrato

Asignación Fracción de
Estrat Proporcional a Proporcional con Muestreo con 35
o Hogares en censo Población mínimo de 30 hogares por UPM
A 360,000 12 30 0.00292
B 870,000 30 30 0.00121
C 1,450,000 49 49 0.00119
D 220,000 8 30 0.00477
E 3,750,000 128 128 0.00119
F 650,000 22 30 0.00162
G 940,000 32 32 0.00119
H 560,000 19 30 0.00188

Total 8,800,000 300 359

Fracción de
Estrat Raiz Cuadrado Proporcional a raiz Prop a SQRT con Muestreo con 35
o (Hogares en Census) cuadrado (SQRT) minimo 30 hogares por UPM
A 600.0 23 30 0.00292
B 932.7 36 36 0.00147
C 1204.2 47 47 0.00114
D 469.0 18 30 0.00477
E 1936.5 76 76 0.00071
F 806.2 32 32 0.00170
G 969.5 38 38 0.00141
H 748.3 29 30 0.00188

Total 7666.5 300 319

Una variación en el procedimiento anterior se demuestra en la segunda parte del Cuadro


5 . Puede suceder que no haya fondos suficientes para agregar 59 UPM al costo de la
encuesta. Entonces, es posible reasignar algunas UPM de los dominios más grandes a
los más pequeños, sin aumentar el número total de UPM. Una forma mecánica de
hacerlo es asignar la muestra de forma proporcional a la raíz cuadrada del número de
hogares en cada dominio de estudio. La segunda columna de la parte inferior del Cuadro
5 , muestra la raíz cuadrada del número de hogares en cada dominio. El valor total
de esta columna es simplemente la suma de las raíces cuadradas de los distintos
dominios. La tercera columna muestra la asignación de las 300 UPM si se distribuyen
en proporción a las raíces cuadradas. Se puede ver que el mayor dominio, E, se ha
reducido de 128 UPM en la parte superior a 76 UPM en la parte inferior y que el
dominio menor, D, se ha aumentado de 8 a 18 UPM. Sin embargo, todavía hay tres
dominios (A, D y H) con menos de 30 UPM, si se usa una asignación proporcional a la
raíz cuadrada del tamaño del dominio. En la siguiente columna de la parte inferior del
Cuadro 5 , se ve la asignación que resulta si los dominios con menos de 30 UPM se
aumentan a 30. Esto requeriría la adición de 19 UPM en total.

La decisión sobre la distribución de la muestra en un diseño estratificado, no se puede


reducir a una fórmula o método. Se debe reflejar los objetivos del estudio. Si el objetivo
principal es obtener intervalos de confianza similares para todos los dominios, entonces
sería recomendable tener un número igual de UPM en todos los dominios,
independientemente de la variación que existe en la población de estos dominios. Para
las RHS realizadas hasta la fecha esto no ha sido el caso y el enfoque por lo general ha
sido establecer un tamaño mínimo de la muestra para los más dominios pequeños,
mientras los dominios más grandes tienen muestras mayores.

1.3 Número variable de hogares por UPM (tamaño de conglomerado)

En los ejemplos presentados hasta ahora hemos definido un número igual de hogares a
ser incluidos por UPM. Como se puede observar en el Cuadro 4 , para muchas de las
RHS realizadas hasta la fecha el tamaño del conglomerado ha variado. Han surgido dos
principales razones para variar el tamaño del conglomerado. Una de ellas es para
economizar recursos en el trabajo de campo haciendo un número más reducido de UPM
con un tamaño de conglomerado más grande en zonas de difícil acceso mientras se hace
más UPM con un tamaño de conglomerado más pequeño en las zonas más fáciles de
trabajar. Una segunda razón es para aprovechar la información existente en el sentido de
obtener un determinado número de entrevistas para todos los dominios del estudio. El
Cuadro 6 , proporciona un ejemplo de ambas situaciones para el diseño de una
muestra donde se ha establecido una meta de 1,000 entrevistas individuales en cada uno
de los siguientes tres dominios: la capital, otras zonas urbanas y zonas rurales.

Haga click aquí para ver el Cuadro 6 en MS Excel

Cuadro 6. Ejemplo de diseño muestral donde hogares por UPM varía entre Dominios

Razon de
Meta de hogares
entrevistas completos a Hogares
individuales por hogares en la Hogares con Tasa de respuesta necesitados por
Dominio UPM muestra mujer, 15-49 - mujeres UPM

Ciudad
capital 15 0.93 0.55 0.92 31.9
Otro Urbano 22 0.95 0.62 0.95 39.3
Rural 22 0.98 0.69 0.95 34.2
Meta de Meta de
entrevistas por entrevistas por Hogares en
Hogares por UPM dominio UPM Número UPM's dominio
Ciudad
capital 32 1000 15 67 2144
Otro Urbano 40 1000 22 46 1840
Rural 35 1000 22 46 1610

En la ciudad capital, hay una mayor concentración de viviendas y las UPM están tan
cercanas que permiten un acceso más fácil por lo que podría establecerse una meta de
sólo 15 entrevistas completas por UPM. En otras zonas urbanas y zonas rurales
decidimos poner una meta de 22 mujeres por UPM. En la parte superior del cuadro 6
tenemos información de una fuente externa sobre las variaciones en las tasas de
respuesta y la proporción de hogares con un informante elegible, que se puede utilizar
para calcular el número de hogares que debe ser visitado en cada UPM. Calculamos el
número necesario de hogares por UPM, como la meta de entrevistas completas por
UPM, dividida entre el producto de las tres proporciones (columnas 4-6 parte superior):

N º HH = Meta completa / [(Razón de hogares completas a hogares seleccionados)


(Proporción de hogares con elegible) (Tasa de respuesta mujer)]

Para la ciudad capital tenemos entonces: 15 / [(0.93) (0.55) (0.92)] = 31,9. Al redondear
esta cifra se necesitaría 32 hogares por UPM para alcanzar un promedio de 15
entrevistas completas entre las mujeres. En otras zonas urbanas habría que visitar 40
hogares para entrevistar a 22 mujeres, mientras que en las zonas rurales sólo 35 hogares
son necesarias para entrevistar a 22 mujeres. Con estos tamaños de UPM se establece
que se necesitaría 67 UPM en la capital y 46 en cada uno de los otros 2 dominios para
satisfacer la meta de realizar 1,000 entrevistas completas en cada dominio.

1
En este documento se asume que la información disponible del censo o marco muestral
provee conteos del número de hogares en las UPM, donde el concepto de hogar es un
grupo de personas parientes o no que viven bajo el mismo techo y preparen en común
su alimentos (comen de la misma olla). En la práctica, muchas veces la información
disponible es un conteo de viviendas, donde el concepto de vivienda es un cuarto o
grupo de cuartos estructuralmente separados e independientes porque se puede entrar
y salir sin pasar por otras viviendas. Generalmente, 5 por ciento o menos de las
viviendas contienen hogares múltiples tal que los dos conceptos son muy similares y se
utiliza las mismas fórmulas en este documento para describir las dos situaciones.
2
Cabe mencionar que en este documento definimos efecto de diseño como la razón de
los errores estándares cuando estamos comparando muestras complejas y aleatorias
simples del mismo tamaño. Esto es consistente con la definición utilizada en la
documentación de las muestras de MICS y DHS. Es común en otras descripciones de
diseños muestrales referirse al efecto de diseño como la razón de varianzas la cual
puede causar confusión. En particular, algunos paquetes estadísticos calculan el DEFF
como la razón de la varianza en la muestra compleja a la varianza en una MAS
hipotética del mismo tamaño. Se debe tener cuidado en determinar cuál definición se
utiliza antes de interpretar los efectos de diseño presentados por el paquete. Si el
DEFF es la razón de errores estándares, como es utilizado aquí, indica el aumento
proporcional en el intervalo de confianza debido al uso de una muestra compleja. Si
DEFF es la razón de varianzas se interpreta como el aumento proporcional en el
tamaño de muestra para dar la misma precisión que una MAS de un tamaño
determinado.
3
Note que, si el efecto de diseño DEFF es definido como la razón de varianzas entonces
la ecuación 2 pasa a ser: N=1.962p(1-p)(DEFF)/d2.
4
La razón de hogares con entrevista completa a hogares en la muestra es diferente a la
tasa de respuesta para hogares. Esto es porque la tasa de respuesta para hogares
excluye las viviendas desocupados del denominador. La razón incluye todos los hogares
completos en el numerador y todos los hogares seleccionados más las viviendas
desocupadas en el denominador.

Ir a 2. Selección de Muestras

Volver al comienzo

 Imprima esta página


 Subscríbase al canal de RSS


 Reciba actualizaciones
 Escuche Podcasts de los CDC

Reciba actualizaciones por correo electrónico

Para recibir actualizaciones de esta página, ingrese su correo electrónico:

Más
información

Contáctenos:
 Centros para el Control y la Prevención de Enfermedades
1600 Clifton Rd
Atlanta, GA 30333
 800-CDC-INFO
(800-232-4636)
TTY: (888) 232-6348
24 Horas/Todos los días
 cdcinfo@cdc.gov

Ayuda sobre los formatos de archivos:

¿Cómo se visualizan los diferentes formatos de archivos (PDF, DOC, PPT, MPEG) en
este sitio?

 Imprimir
 Actualizaciones
 Suscríbase
 Escuche

 Esta página fue revisada el 30 de diciembre del 2011


 Esta página fue modificada el 30 de diciembre del 2011
 Fuente del contenido: Centros para el Control y la Prevención de Enfermedades

También podría gustarte