Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cap 5 Estratificacion2 PDF
Cap 5 Estratificacion2 PDF
V - MUESTREO ESTRATIFICADO
Notas:
1 No debe confundirse el concepto de representatividad con el de probabilidad. Una muestra probabilística
tiene una determinada probabilidad de no ser representativa de una población o universo, mientras que una mues-
tra no probabilística puede ser perfectamente representativa, al menos en lo que hace a una determinada cantidad
de variables. El hecho que una muestra no sea probabilística (condición que se da en la gran mayoría de las inves-
tigaciones sociales) no desmerece su representatividad y la validez de sus resultados, contrariamente a un mito o
prejuicio muy instalado.
176 - Introducción al muestreo para estudiantes de ciencias sociales
dad de casos. Pero lo que se conoce como eficiencia del diseño muestral depende de la técni-
ca de selección empleada y su correspondiente error estándar.
Supongamos que tenemos dos muestras (A y B) con igual cantidad de casos, obtenidas
de una misma población, con idénticos estadísticos y que la diferencia entre ellas radica en la
técnica de selección utilizada. Con la información de la muestra A podemos concluir que el
porcentaje de varones de la población, para un nivel de confianza determinado, es un valor
que está entre 46% y 50%, mientras que con la muestra B podemos concluir, con la misma
confianza y similares resultados, que el porcentaje de varones de esa población se encuentra
entre 47% y 49%. Ello es posible porque el error estándar que obtenemos a partir de la
muestra B es menor y diremos que es, estadísticamente, más eficiente que la muestra A.
O también podemos realizar estimaciones con un mismo error, pero con niveles de
confianza distintos. La muestra que nos permite realizar estimaciones con el riesgo menor es
a la que consideraremos estadísticamente más eficiente.
error de confianza error
Muestra = •
estimación z(k/2) estándar
A 2 = 2 • 1
B 1 = 2 • 0,5
A 1 = 1 • 1
B 1 = 2 • 0,5
Vimos en el capítulo anterior que el MASsr es más eficiente que el MAScr. ¿Cómo se
consigue una muestra estadísticamente todavía más eficiente? Trabajando con las unidades
de muestreo para disminuir la probabilidad que aparezcan muestras cuyos estadísticos se
alejen en demasía de los parámetros de la población.
Supongamos que nos encontramos ante una pequeña reunión de tres amigos que se han
conocido cursando en el mismo colegio secundario. Como tienen edades similares, ya que
provienen de la misma promoción, y han concurrido con sus parejas y algunos de sus hijos y
nietos, nos encontramos con una población claramente dividida en tres grupos muy diferen-
tes en cuanto a sus edades: los "abuelos", los "hijos" y los "nietos".
En total son 36 personas. Pasemos a describirlas, atendiendo solo a sus edades:
Abuelos Hijos Nietos
60 25 31 10 6 8
58 23 32 12 6 13
65 30 26 4 9 7
60 35 23 14 8 6
57 36 30 8 11 6
60 29 31 7 5 13
Hay 6 personas que integran el grupo de los "abuelos", 12 el de los "hijos" y 18 el de
los "nietos". La media aritmética de la edad de todos ellos es 24 años.
Supongamos también que alguien desea conocer el promedio de edad de esta pobla-
ción a partir de una muestra al azar simple sin reposición de 6 casos.
¿Puede suceder que la muestra extraída se componga solo por "abuelos"? Evidente-
mente sí, aunque la probabilidad es baja. Si ello sucediera llegará a la conclusión (mediante
una estimación puntual) que el promedio de edad de la población es de 60 años. Y también
Capítulo V – Muestreo estratificado (borrador)- 177
puede suceder que la muestra extraída al azar simple sin reposición contenga a los seis "nie-
tos" de menor edad (4, 5, 6, 6, 6 y 6) arrojando un promedio de 5,5 años. La primera de las
muestras tiene un error de 36 años y la segunda de –18,5 años.
Para no olvidarnos que debemos pensar en términos de distribuciones muestrales, estamos hablan-
do de un espacio muestral de NΩ= N! ÷ (N-n)! = 36! ÷ (36-6)! =1.402.410.240 muestras. Solo 720
de estas muestras sin reposición comprenden a los seis “abuelos”, y otras 720 muestras a los seis
“nietos” menores. Aunque la probabilidad de seleccionar una muestra al azar simple sin reposición
con las seis personas de mayor edad es muy baja (apenas el 0,00005 %), y una probabilidad simi-
lar encontramos para la selección de una muestra con las seis personas de menor edad, ambos su-
cesos son posibles.
Pero como la persona interesada en conocer el promedio de edad de esta pequeña po-
blación observa que hay 3 grupos claramente distintos e identificables a partir de su aparien-
cia física, decide extraer su muestra de seis casos en forma proporcional al tamaño de los
grupos, es decir, averiguar la edad de un "abuelo", de dos "hijos" y de tres "nietos" (seleccio-
nados con MASsr dentro de cada grupo).
La técnica utilizada, el dividir previamente a la población en grupos cuyos compo-
nentes son similares entre sí y luego realizar una seleccionar aleatoria dentro de cada uno de
ellos se conoce como estratificación. Como, además, la cantidad de casos seleccionada en
cada grupo depende del peso relativo de los grupos, hablamos de un "muestreo estratificado
proporcional". Estos grupos son excluyentes (cada elemento puede pertenecer a un solo gru-
po) y exhaustivos (en su conjunto contienen a todos los componentes de la población).
A diferencia del muestreo aleatorio simple, en el muestreo estratificado no todas las
muestras (o combinaciones de elementos) tienen la misma probabilidad de ser seleccionadas.
Es más, algunas combinaciones ni siquiera son posibles. Sin embargo, esto no es un inconve-
niente. Las probabilidades de selección de las muestras siguen siendo conocidas y ello es lo
que permite realizar estimaciones de parámetros con errores y riesgos mensurables.
Volviendo a nuestro “investigador”, ¿es posible que seleccione a los tres "nietos" más
pequeños, a los dos "hijos" de menor edad y al "abuelo" más joven? Otra vez la respuesta es
sí. Y, a la inversa, también puede suceder que seleccione en cada uno de los grupos a quienes
tienen mayor edad.
Veamos la primera posibilidad, la de seleccionar a los más jóvenes en cada grupo. La
selección daría una muestra con casos de 4, 5, 6, 23, 23 y 57 años, y un promedio de 19,8
años de edad (error: - 4,2 años).
Cualquier otra combinación de seis casos que arroje un promedio de edad menor al de
la población, no podría estar más alejada de este que la muestra obtenida.
Y para la segunda posibilidad, la de seleccionar a los de mayor edad en cada grupo,
obtendría una muestra de 13, 13, 14, 36, 35 y 65 años, con un promedio de 29, 3 años (error:
+ 5,3 años).
Cualquier otra combinación de seis casos con un promedio de edad mayor al de la po-
blación, no podría estar más alejada de este que la muestra obtenida.
Aunque con poca probabilidad de aparición, ambas selecciones son las más extremas
que pueden aparecer. Nótese la diferencia con las muestras de valores más extremos obteni-
bles mediante MASsr, donde los errores eran de –18,5 y 36 años respectivamente.
178 - Introducción al muestreo para estudiantes de ciencias sociales
Una de las razones para la utilización del muestreo estratificado es, entonces, la de
aumentar la precisión o confiabilidad de los estimadores. Pero también puede optarse por
esta técnica a partir de la necesidad de información específica sobre sub-poblaciones del uni-
verso, que pueden ser consideradas como estratos y de las que se sacarán muestras indepen-
dientes, o por la intención de desarrollar técnicas de selección diferentes en cada sub-grupo.
Notas:
2 Cuando al menos uno de los estimadores es sesgado, para determinar cuál es más eficiente se aplican
cálculos sencillos que contemplan tanto la magnitud de la varianza como el sesgo.
Capítulo V – Muestreo estratificado (borrador)- 179
Como una derivación secundaria, también puede emplearse el muestreo estratificado cuando,
sin modificar la confianza o precisión de la estimación, se desea trabajar con una menor can-
tidad de casos.
Para una adecuada estratificación deben responderse varias preguntas:
1) ¿Qué variables deben ser consideradas para dividir a la población en estratos?
2) ¿Cómo combinamos y categorizamos estas variables, cuáles son los límites de cada
estrato?
3) ¿Cuántos estratos deben considerarse?
4) ¿Cuántos casos se seleccionaran dentro de cada estrato?
Si tenemos una muestra de 200 hogares del norte de la provincia de Buenos Aires que
arroja un promedio de 5 personas por hogar y otra muestra de 200 familias del sur con pro-
medio de 4 personas por hogar (afijación igual, como veremos más adelante), y sabemos que
los hogares del norte implican el 80% del total de hogares de la provincia, no podemos esti-
mar el promedio provincial de personas por hogar simplemente calculando el promedio de
ambas muestras. Debemos asignar a cada muestra el peso de la población que representa.
x provincia = Wnorte x norte + Wsur x sur (donde W=proporción o peso del estrato en la población)
x provincia = 0,8 × 5 + 0,2 × 4 = 4 + 0,8 = 4,8 personas por hogar
Los promedios de 5 y 4 personas por hogar variarán de una muestra a otra. Lo que se
mantiene constante es el peso de dada estrato. Los espacios muestrales son el resultado de la
combinación de todas y cada una de las muestras posibles de un estrato con todas las mues-
tras posibles de los otros estratos y los valores de las distribuciones muestrales de medias son
los promedios ponderados de las medias de las muestras de cada estrato.
Supongamos una población de 800.000 trabajadores en relación de dependencia, divi-
da en tres estratos. El estrato A tiene 350.000 personas, el B tiene 300.000 y el C tiene
150.000.
En cada estrato se selecciona una muestra aleatoria simple, siendo el tamaño de las
muestras proporcional al peso de cada estrato. Posteriormente se obtiene información sobre
la aprobación de la instrucción primaria y el ingreso mensual de cada persona seleccionada,
la que está volcada en el cuadro siguiente.
En la primera columna se incluyen las medidas de la muestra global calculadas como
si esta hubiera sido extraída al azar simple sin reposición.
Azar sim-
Estrato A Estrato B Estrato C
ple
N (población) 800.000 350.000 300.000 150.000
W (peso) 0,4375 0,375 0,1875
n (muestra) 800 350 300 150
p (proporción) primaria completa aprobada 0,31 0,15 0,25 0,80
x (media) ingreso mensual $ 588 $ 320 $ 460 $ 1470
s2 (cuasivarianza) ingreso mensual 205.466 9.632 10.852 108.306
Comencemos estimando la media y la proporción de la población a partir del total de
la muestra, como si toda en su conjunto hubiera sido seleccionada al azar simple, para una
confianza del 95,5%. Utilizaremos las fórmulas del muestreo con reposición, en lugar de las
que deberíamos utilizar (las del muestreo sin reposición) al solo efecto de simplificar los cál-
culos. Para la estimación mediante intervalos de la media:
s2
IC(µ, k ) = x ± z ( k 2 )
n
Capítulo V – Muestreo estratificado (borrador)- 181
Remplazando...
205.466
IC(µ,0.955) = $588 ± 2 = $588 ± 2 × 16,02599 = $588 ± 32,05199
800
Y llegamos a la conclusión que, para una confianza del 95,5%, la remuneración media
mensual es un valor que está entre $554,94 y $620,06.
Solo a modo ilustrativo (para quedarnos tranquilos y comprobar que con poblaciones
grandes y fracciones de muestreo pequeñas la aplicación de una u otra fórmula no cambia
demasiado la cosa), utilicemos también la fórmula para MASsr.
s2 N − n
IC(µ, k ) = x ± z ( k 2 )
n N
Remplazando...
En el caso particular del muestreo estratificado proporcional, si hubieramos podido efectual el cál-
culo de la media a partir de la matriz de datos (con la información desagregada caso por caso) po-
dríamos habernos ahorrado la ponderación, ya que al representar los elementos de cada muestra el
peso de su estrato, el valor final sería el mismo.
El cálculo del error estándar total a partir de datos estratificados no es tan directo. No
podemos llegar a él a través de una suma ponderada de los errores estándar de cada estrato
(como lo hicimos con la media y la proporción) sino a través de las varianzas de las distribu-
ciones muestrales de cada estrato.
La varianza de la distribución muestral total es la suma de las varianzas de las distri-
buciones muestrales de cada uno de los estratos, ponderadas por los pesos cuadrados de los
estratos correspondientes:
σ 2x = Σ Wi2σ 2x
i
σ i2
...podemos remplazar σ 2x = Σ Wi2 σ 2x i por σ 2x = Σ Wi2
ni
Capítulo V – Muestreo estratificado (borrador)- 183
El paso siguiente para llegar a la estimación puntual del error estándar es obvio: ex-
traer la raíz cuadrada de la estimación de la varianza total de la distribución muestral.
s i2
σ̂ x = ∑ Wi2
ni
s i2
IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑ Wi2
ni
Fórmula que, aplicada a nuestro ejemplo, nos lleva (siempre con el cálculo simplifica-
do del MAScr), a...
Redondeando, concluimos que, con una confianza del 95,5%, el ingreso mensual pro-
medio de nuestra población es un valor que está dentro de un intervalo con límites $576 y
$600. Recordemos que el cálculo sin considerar la estratificación establecía un intervalo (pa-
ra la misma confianza) con límites $555 y $621, por lo que hemos reducido el error de esti-
mación de $33 a $12.
Ello implica, en términos relativos sobre la estimación puntual de la media aritmética,
una reducción del error de estimación de 5,6 puntos porcentuales a 2 puntos porcentuales, lo
que no es poco, sobre todo si tenemos en cuenta que si deseamos una reducción equivalente
del error de estimación usando MASsr el tamaño de la muestra debe elevarse de 800 a cerca
de 5.700 casos para los valores que usamos de ejemplo.
Avancemos ahora sobre las proporciones. La fórmula para estimar el error estándar de
la distribución muestral de proporciones de la muestra total sigue la misma lógica que la de
las medias aritméticas (raíz cuadrada de la sumatoria de las estimaciones puntuales de las va-
rianzas de las distribuciones muestrales de las muestras de cada estrato multiplicadas por los
pesos cuadrados de los estratos correspondientes), y es:
pi qi
σ̂ p = ∑W i
2
ni −1
Si ... entonces ... y el resulta-
Estrato W p n W2 × p.q / (n-1) do es
A 0.4375 15 350 0,43752 × 15 × 85 ÷ 349 0,7
B 0.375 25 300 0,3752 × 25 × 75 ÷299 0,88
C 0.1875 80 150 0,18752 × 80 × 20 ÷ 149 0,38
2
Sumamos todos los resultados (∑ W pq/(n-1), con lo que llegamos a estimación de la
1,96
varianza de la distribución muestral de proporciones total
Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del
1,4
error estándar total
Ya podemos estimar, mediante intervalo, la proporción de personas de la población
que cuentan con estudios primarios aprobados.
IC(P, k ) = p ABC ± z ( k 2 ) σˆ p ABC
V.3 - Variables que deben ser consideradas para dividir (estratificar) a la población.
¿Qué variables deben ser consideradas para dividir a la población en estratos?
La respuesta intuitiva a la pregunta es obvia: la mejor estratificación surge de la distri-
bución de la variable en estudio. Pero esta respuesta, además de obvia, puede llegar a ser ab-
surda, ya que si tenemos suficiente información sobre esta variable como para confeccionar
estratos a partir de ella, ¿qué sentido tiene realizar una investigación sobre la misma?
Afortunadamente solemos contar, a partir de relevamientos censales o investigaciones
previas, con información sobre variables estrechamente vinculadas con las de investigación.
La distribución geográfica, el sexo, la edad, el nivel socioeconómico, los ingresos, la condi-
ción de ocupación, los resultados electorales, la mortalidad, la fecundidad, la educación, la
densidad poblacional, el hacinamiento, la cantidad de empleados, la distribución y cobertura
de servicios públicos, el grado de "bancarización", la exposición a medios de comunicación,
la participación de una marca en el mercado, el régimen de tenencia de la tierra, la recauda-
ción impositiva, la cobertura de salud, el grado de sindicalización o el monto de facturación
186 - Introducción al muestreo para estudiantes de ciencias sociales
anual, son algunas de las tantas variables sobre las que se cuenta con información (o sobre
las que se pueden realizar estimaciones confiables) y que suelen estar íntimamente relacio-
nadas con muchas de nuestras inquietudes. Es entonces a partir de ellas que se realiza la es-
tratificación, buscando que los elementos de cada estrato sean lo más parecidos entre sí y
maximizando las diferencias con los integrantes de los otros estratos.
La calidad de la estratificación dependerá, entre otros factores, del grado de asociación
de las variables consideradas a tal efecto con las variables en estudio. Como en muchos otros
aspectos del diseño muestral, un buen juicio, experiencia y ajustado marco teórico suelen ser
más útiles que fórmulas o recetas para su elección.
personales como variable de estratificación, donde establecemos cortes con mayor minucio-
sidad en los valores más bajos, ya que a medida que aumentan los ingresos las diferencias se
vuelven menos significativas.
La determinación de los límites de los estratos tiene fundamentos más teóricos que
estadísticos y depende del conocimiento que los investigadores tengan sobre las característi-
cas de la asociación de las variables utilizadas en la estratificación con las variables en estu-
dio.
Cuando el investigador se encuentra con dificultades para establecer los limites de un
estrato, es conveniente evaluar la posibilidad de no subdividirlo y darle el tratamiento co-
rrespondiente a un estrato de alta variabilidad.
Notas:
3 Cochran, W.G., Técnicas de Muestro, pág. 176, Ed. Cecsa, México, 2000
188 - Introducción al muestreo para estudiantes de ciencias sociales
Si lo que nos interesa son los resultados globales y solo conocemos de los estratos su
tamaño, la distribución proporcional es recomendable. Pero, si además contamos con una es-
timación razonable de la variabilidad de los estratos, a los efectos de mejorar la eficiencia
estadística, podemos realizar una distribución no proporcional.
Para ilustrarlo, pensemos que hemos decido extraer una muestra de 200 casos de una
población de 600 personas para conocer la remuneración mensual media de los operarios de
una empresa manufacturera, y definido dos estratos de trabajadores: los no calificados y los
calificados.
De los primeros sabemos que comprenden al 60% de nuestra población, tienen condi-
ciones y características de trabajo similares y remuneraciones que oscilan entre $500 y $560
mensuales. De los trabajadores calificados sabemos que tienen salarios que oscilan entre
$700 y $1400 a partir de condiciones y calificaciones laborales disímiles.
Estratos
No calificados Calificados
N 360 240
Rango salarios $ 500 / $ 600 $ 700 / $ 1400
Si el muestreo es proporcional deberíamos seleccionar, para la muestra, 120 trabajado-
res no calificados y 80 calificados. Sin embargo, e invocando al sentido común ¿no sería un
desperdicio asignar una muestra de 120 casos al estrato de trabajadores no calificados, cuan-
do con unos pocos casos obtendríamos una medida suficientemente confiable de la media de
su remuneración mensual? ¿No sería entonces también razonable asignar más casos a los tra-
bajadores calificados, ya que dada la variabilidad de su ingreso corremos mayor riesgo de
obtener un valor de la media demasiado alejado del verdadero si trabajamos con poca infor-
mación? La respuesta es, evidentemente, sí.
Pero los trabajadores no calificados son más numerosos y un error en la estimación de
sus parámetros tendrá más influencia en la estimación total que un error en la estimación de
los parámetros de los trabajadores calificados. Surge entonces una pregunta: ¿cuál es la más
ajustada distribución de casos por estratos? ¿Cuál es la distribución óptima que, contemplan-
do el tamaño de los estratos pero también su variabilidad, brinda el menor error estándar po-
sible?
estratificadas no son más que la suma de muestras aleatorias simples independientes en cada
estrato ¿por qué no aprovechar este conocimiento para optimizar la eficiencia estadística
global de nuestra muestra y asignarle más casos a los estratos más "complejos", reduciendo
los de los estratos menos "complejos", sin dejar de considerar simultáneamente el tamaño de
cada estrato, disminuyendo los errores estándar parciales y llevando el error estándar total a
su mínima expresión?
Veamos distintas alternativas de muestreo utilizadas a los efectos de ir mejorando la
eficiencia estadística. Dijimos que el tamaño de la muestra será 200 casos, con independen-
cia de la técnica de selección utilizada. Supongamos que el investigador extrae una muestra
aleatoria simple, y como tiene suerte, los resultados son absolutamente representativos de la
población (cosa que nosotros conocemos, pero él no).
Muestra de 200 trabajadores al azar simple sin reposición
x = $ 712,5 s2 = 81.465
El investigador estima ahora mediante intervalo la media de la población para una con-
fianza del 95,5%. Como la población es pequeña, la muestra fue obtenida sin reposición y la
fracción de muestreo es grande, aplica la fórmula:
s2 N − n
IC (µ, 0.955) = x ± z (k/2) σ̂ x = x ± z (k/2) × =
n N
81.465 600 − 200
= 712,5 ± 2 × = $712,5 ± 2 × 16,479 = 712,5 ± 33
200 600
Y llega a la conclusión que la remuneración mensual media, con una confianza del
95,5%, es un valor que está entre $ 679,5 y $ 745,5.
Pero si hubiera sabido que el 60% de los trabajadores no tienen calificación, podría
haber extraído una muestra estratificada proporcional, la que, con un poco de buena fortuna,
arrojaría la siguiente información:
Muestra de 200 trabajadores. Estratificado pro-
porcional
Estrato A (no ca- Estrato B (califi-
lificados) cados)
n 120 80
x $ 520,8 $ 1000
s2 375 65.272
A partir de estos datos calculamos primero la media global de la muestra mediante el
promedio ponderado de las medias de las muestras de los estratos A y B.
x AB = W A . x A + W B . x B = 0,6 × 520,8 + 0,4 × 1000 = 712,5
Luego estimamos puntualmente el error estándar de la distribución muestral de medias
de la muestra. Repasando, para ello se estiman las varianzas de la distribuciones muestrales
correspondientes a las muestras de cada estratos, se las multiplica por el peso al cuadrado del
Capítulo V – Muestreo estratificado (borrador)- 191
estrato, se suman los productos obtenidos para llegar a la estimación de la varianza total de la
distribución muestral y luego se extrae su raíz cuadrada. La fórmula para la estimación del
error estándar, si MASsr intra-estrato, es:
s i2 (N i − n i ) s i2 N i − n i
σ̂ x = ∑W i
2
ni Ni
ó σ̂ x = ∑W i
2
ni
×
Ni
Aplicada a nuestro ejemplo:
WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B )
σ̂ x AB = +
nA NA nBNB
Y remplazando:
0,36 × 375 × (360 − 120) 0,16 × 65.272 × (240 − 80 )
σ̂ x AB = + =
120 × 360 80 × 240
= 0,75 + 87,03 = 87,78 = 9,37
Teniendo ya las estimaciones puntuales de la media de la población y del error están-
dar podemos calcular el error de estimación y por lo tanto el intervalo de confianza:
IC (µ, 0.955) = x AB ± z (k 2 )σ̂ x AB = 712,5 ± 2 × 9,37 = 712,5 ± 18,74
Concluyendo que la remuneración mensual media (con una confianza del 95,5%) es un
valor que está entre $693 y $732, intervalo notablemente más pequeño que el establecido por
la estimación a partir de la muestra aleatoria simple ($679 / $746).
Pero supongamos que el investigador no solo conoce la cantidad de personas incluidas
en cada estrato poblacional sino que además tiene información confiable sobre la variabili-
dad de la remuneración en cada uno de ellos: sabe que la cuasivarianza del estrato A no pue-
de ser superior a 3000 y la del estrato B a 80.000.
Considera que no tiene sentido asignar tantos casos a un estrato con tan poca variabili-
dad como el primero y que podría aumentar la cantidad de casos en el segundo estrato, que
tiene una dispersión mucho mayor, aumentando la eficiencia estadística total. Existen 199
combinaciones posibles de asignación de 200 casos en dos estratos:
Combi- Casos por estrato
nación A B
1 1 199
2 2 198
3 3 197
... ... ...
197 197 3
198 198 2
199 199 1
Una solución, un tanto artesanal, es observar cuál es el resultado de cada una de las
199 combinaciones y elegir la que arroje menor error estándar, pero por suerte existe un me-
192 - Introducción al muestreo para estudiantes de ciencias sociales
canismo que nos permite conocer cuál es la mejor asignación (Fórmula de Neyman) sin tener
que realizar una gran cantidad de cálculos y comparaciones:
Si la selección intra-estrato es aleatoria con reposición, el tamaño del estrato se calcula
mediante la fórmula...
n Wi σ i
ni =
∑ Wiσ i
El tamaño de la muestra para el estrato A está dada por el peso del estrato multiplicado
por su desvío estándar y por el tamaño global de la muestra (WA.σσA.n) y dividido por la suma
de los pesos de todos los estratos multiplicados por sus desvíos estándar correspondientes
ΣWi.σ
(Σ σi).
...y, si la selección es sin reposición, la fórmula es...
n Wi Si
ni =
∑ W i Si
La fórmula de Neyman también es aplicable a las proporciones, remplazando
σi por Pi Q i y S i por Pi Q i N i (N i - 1) , quedando...
n W i Pi Qi
ni = , para la selección con reposición...
∑ Wi ⋅ Pi Qi
n W i Pi Q i N i (N i - 1)
...y n i = para la selección sin reposición.
∑ Wi ⋅ Pi Q i N i (N i - 1)
Como, para la mayoría de las situaciones, el uso de σ i en lugar de S i y de
Pi Q i por Pi Q i N i (N i - 1) no implica diferencias significativas en los resultados, usamos
la fórmula más sencilla para calcular el tamaño óptimo del estrato, en esta caso la que impli-
ca usar S (el cuasi desvío estándar), ya que contamos con la magnitud de la cuasivarianza.
Entonces, si S = S 2 ...
S A = 3000 == 54,7723
S B = 80.000 = 282,8427
...y aplicando la fórmula de Neyman...
n Wi Si
ni =
∑ W iS i
200 × 0,6 × 54,7723 6572,68
nA = = = 45,02
0,6 × 54,7723 + 0,4 × 282,8427 146,0005
Capítulo V – Muestreo estratificado (borrador)- 193
...el investigador resuelve extraer una muestra estratificada con asignación óptima con-
siderando el peso y la variabilidad de cada estrato, donde la cantidad de casos a seleccionar
en el estrato A es 45 y en el estrato B se seleccionaran 155 (n-nA).
Los resultados de esta muestra son los del siguiente cuadro:
Muestra de 200 trabajadores. Estratificado con
afijación óptima
Estrato A (no ca- Estrato B (califi-
lificados) cados)
n 45 155
x $ 520 $ 997,6
s2 365 64.832
Y repitiendo los pasos ya conocidos para la estimación de la media aritmética me-
diante intervalo, para una confianza del 95,5%...
Cálculo de la media global de la muestra:
x AB = W A . x A + W B . x B = 0,6 × 520 + 0,4 × 9 97 , 6 = 711
Estimación puntual del error estándar de la distribución de medias muestrales:
WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B )
σ̂ x AB = + =
nANA nBNB
0.36 × 365 × (360 − 45) 0.16 × 64.832 ÷ (240 − 155)
= + =
45 × 360 155 × 240
= 2,555 + 23,702 = 26,257 = 5,1242
Estimación mediante intervalo de confianza de la media aritmética de la población
IC (µ, 0.955) = x AB ± z (k 2 )σ̂ x AB = 711 ± 2 × 5,1242 = 711 ± 10,25
Y esta vez concluye que la remuneración mensual media, con una confianza del
95,5%, es un valor que está entre $ 700 y $ 722.
Resumiendo, vemos que las estimaciones mediante intervalos de confianza, sin modi-
ficar el riesgo (4,5%) ni la cantidad de casos (n=200), arrojaron los siguientes resultados de-
pendiendo de la técnica de muestreo empleada y la asignación de casos por estrato.
Estratificado propor- Estratificado con asig-
MASsr
cional nación óptima
limite limite limite limite limite limite
inferior superior inferior superior inferior superior
intervalo 679 746 693 732 700 722
error estándar 16,48 9,37 5,13
194 - Introducción al muestreo para estudiantes de ciencias sociales
ni =
∑W S 2 2
i i
2 2
igual
δ ∑ WS
2
δ + i i
z z N
(k 2 ) (k 2 )
Selección intra-estrato
MAScr MASsr
asignación Wi ∑ Wiσ 2
Wi ∑ WiSi2
proporcio- ni = 2
i
ni = 2
δ + ∑ WiSi
2
nal δ
z z N
(k 2 ) (k 2 )
Capítulo V – Muestreo estratificado (borrador)- 195
Selección intra-estrato
MAScr MASsr
n=
(∑ Wσ ) i i
2
n=
(∑ W S )i i
2
2 2
δ + ∑ WiSi
asignación 2
δ
óptima
z z N
(k 2 ) (k 2 )
nWiσ i nWi S i
ni = ni =
∑ Wiσ i ∑WS i i
z N
(k 2 )
V.7.C - Tamaño de los estratos para estimación de proporciones.
Selección intra-estrato
MAScr MASsr
Wi2 PiQi Ni
asignación ∑ W PQ 2
∑ N −1
ni = i i
2
i
ni = i
igual Pi Qi N i
δ ∑ Wi
2
z δ + Ni − 1
(k 2 ) z N
(k 2 )
196 - Introducción al muestreo para estudiantes de ciencias sociales
Selección intra-estrato
MAScr MASsr
Wi Pi Qi N i
asignación Wi ∑ Wi PiQi Wi ∑
ni = N1 − 1
proporcio- 2 ni =
Wi PiQi Ni
∑
nal δ 2
z δ + Ni − 1
(k 2 ) z N
(k 2 )
Selección intra-estrato
MAScr MASsr
2
PiQi Ni
n=
(∑ W i Pi Qi )2
∑ Wi
N i − 1
2 n=
Wi PiQi N i
δ ∑
2
asignación z δ + Ni - 1
óptima (k 2 ) z N
(k 2 )
Pi Q i N i
nWi
nWi Pi Q i Ni -1
ni = ni =
∑W i Pi Q i
∑W i
Pi Q i N i
Ni -1
ni = ∑W PQ 2
i i i
ni =
Wi ∑ Wi Pi Q i
n=
(∑ W i PiQi )
2
2 2 2
δ ∑W PQ δ + ∑ Wi Pi Qi δ + ∑ Wi Pi Qi
z + i i i
z
N N z
(k 2 ) (k 2 ) (k 2 )
N
Veamos un ejemplo sobre el uso de las formulas exactas y las fórmulas simplificadas.
Supongamos la siguiente población, de la que conocemos su tamaño y una estimación razo-
nablemente del porcentaje de aparición de un determinado atributo (P).
Capítulo V – Muestreo estratificado (borrador)- 197
Estratos
Total
A B C
W 1 0,32 0,43 0,25
N 2000 640 860 500
P 40% 81% 21% 21%
Si queremos establecer el tamaño mínimo de los estratos para poder realizar estima-
ciones mediante intervalos con una confianza del 95% y un error de estimación no mayor a 4
pp., bajo el supuesto que la selección intra-estrato se realizará mediante MASsr, podemos
usar la fórmula exacta...
Wi Pi Qi N i
Wi ∑
N1 − 1
ni =
Wi PiQi N i
∑
2
δ + Ni − 1
z N
(k 2 )
...la que, aplicada al estrato A:
0,32 × 81× 19 × 640 0,43 × 21× 79 × 860 0,25 × 21 × 79 × 500
0,32 × + +
nA = 639 859 499 =
0,32 × 81 × 19 × 640 0,43 × 21 × 79 × 860 0,25 × 21× 79 × 500
2 + +
4 639 859 499
+
1,96 2000
0,32 × (493,2507042 + 714,2004657 + 415,5811623) 519,3703463
= = = 104,4
4,164931279 + 0,811516166 4,976447445
...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos
estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C, siendo el ta-
maño total de la muestra de 328 casos.
Usemos ahora la fórmula simplificada:
Wi ∑ Wi Pi Qi
ni = 2
δ + ∑ Wi Pi Q
z N
(k 2 )
0,32 × (0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79 )
nA = 2
=
4 0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79
+
1,96 2000
0,32 × 1620,6 518,592
= = = 104,2
4,164931279 + 0,8103 4,975231279
198 - Introducción al muestreo para estudiantes de ciencias sociales
...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos
estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C. El tamaño
total de la muestra es, también, de 328 casos.
Solamente podríamos observar la diferencia entre uno u otro resultado en las centési-
mas. Para poblaciones de mayor magnitud la diferencia en el uso de una u otra fórmula para
calcular el tamaño de los estratos es todavía más irrelevante en lo que hace a la ulterior esti-
mación. Tengamos en cuenta, además, que hemos usado a modo de ejemplo un tamaño, tanto
para la población total como para los estratos, desacostumbradamente pequeño en la investi-
gación social, mientras que la confianza y el margen de error son de uso habitual.
También, a los efectos prácticos y con N grande, es indistinto el uso de σ i ó S i
n=
(∑ W σ i i ci )∑ W σ i i ci
n=
(∑ W S i i ci )∑ W S i i ci
∑ Wi Si
2 2 2
calculo de n δ δ
+
z (k 2 ) z (k 2 ) N
nWi σ i ci nWi S i ci
cálculo de ni (estrato) ni = ni =
∑Wσ i i ci ∑WS i i ci
Las mismas fórmulas son aplicables para variables de nivel de medición nominal u or-
dinal...
...reemplazando por
σi Pi Q i
Pi Q i N i
Si
N i −1
Pi Q i N i
S i2
N i −1
Estratos
Total
A B A+B
W 1 0.8 0.2
n 1000 800 200
s2 920,497879 907,152344 935,159722
s2
σ̂ 2x = 0,92049788
n
s2
σ̂ x = 0,9594
n
s i2
Wi2 0,72572188 0,18703194
ni
s i2
σ̂ 2x = ∑W i
2
ni
0,91275382
s i2
σ̂ x = ∑W i
2
ni
0,9554
s i2
σ̂ x = ∑W i
2
ni
1,7175
modificar la confianza o precisión de los estimadores, salvo que estemos absolutamente con-
vencidos que la asociación entre las variables “estratificadoras” y las variables a investigar es
suficientemente fuerte y teniendo un buen conocimiento teórico de la características de la
relación como para calcular y justificar la reducción de casos.
204 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercitación
Ejercicio 1
El siguiente cuadro contiene la distribución de hogares de la localidad F, por nivel so-
cioeconómico, incluyendo una estimación razonable del máximo desvío estándar posible de
ingresos mensuales por hogar para cada nivel.
Nivel socioeconómico N W máximo σ estimado
Bajo 5200 0,52 $ 400
Medio 3200 0,32 $ 700
Alto 1600 0,16 $ 900
Se desea realizar una investigación mediante muestreo estratificado por nivel socioe-
conómico para determinar el promedio de ingresos por hogar de la localidad F, con un error
de estimación que no supere los $ 65 y un riesgo máximo del 5%. Con el mismo riesgo se de-
sea, adicionalmente, conocer el grado de aceptación de los jefes de hogar del plan de obras
públicas propuesto por el municipio para el año venidero, con un error de estimación global
no superior a 5 puntos porcentuales y sabiendo que en los niveles socioeconómicos bajo y
medio la aceptación de los jefes de hogar no es inferior al 70 %.
Bajo el supuesto de una selección intra-estrato aleatoria con reposición, se debe de-
terminar el tamaño del total de la muestra (y de cada estrato), para una afijación...
(1.1.1) igual, para estimar la media de ingresos mensuales de los hogares.
(1.1.2) igual, para estimar el grado de aceptación del plan de obras públicas
(1.2.1) proporcional, para estimar la media de ingresos mensuales de los hogares.
(1.2.2) proporcional, para estimar el grado de aceptación del plan de obras públicas
(1.3.1) óptima sin considerar el costo, para estimar la media de ingresos mensuales de
los hogares.
(1.3.2) óptima sin considerar el costo, para estimar el grado de aceptación del plan de
obras públicas.
Capítulo V – Muestreo estratificado (borrador)- 205
ni =
∑W σ i
2
i
2
2
δ
z
(k 2 )
Desarrollo del dividendo
NSE Wi σi2 Wi2σi2
Bajo 0,52 160000 43264
Medio 0,32 490000 50176
Alto 0,16 810000 20736
Σ 114176
114176 114176
ni = 2
= = 103,815035
65 1099,80217
1,96
En cada estrato se deberán seleccionar (MAScr) 104 hogares, por lo que el total de la
muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 312 ho-
gares.
(1.1.2) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato
MAScr) para el grado de aceptación...
ni =
∑W P Q 2
i i i
2
δ
z
(k 2 )
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Desarrollo del dividendo
NSE Wi2 PiQi Wi2PiQi
Bajo 0,2704 2100 567,84
Medio 0,1024 2100 215,04
Alto 0,0256 2500 64
Σ 846,88
206 - Introducción al muestreo para estudiantes de ciencias sociales
846,88 846,88
ni = 2
= = 130,1
5 6,5077
1,96
En cada estrato se deberán seleccionar (MAScr) 131 hogares, por lo que el total de la
muestra para estimar el grado de aceptación en las condiciones solicitadas será de 393 hoga-
res.
(1.2.1)Cálculo del tamaño de los estratos con afijación proporcional (selección intra-
estrato MAScr) para la media de ingresos...
Wi ∑ Wiσ i2
ni = 2
δ
z
(k 2 )
Desarrollo
2
Wi ∑ Wiσ i2
NSE Wi σi2 Wiσi2 Wi ΣWiσi2 (δ z(k/2))
(δ z(k/2)) 2
Bajo 0,52 160000 83200 192192 1099,80217 174,8
Medio 0,32 490000 156800 118272 1099,80217 107,5
Alto 0,16 810000 129600 59136 1099,80217 53,8
Σ 369600
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 175 hogares, en el
nivel medio 108 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para
estimar el promedio de ingresos en las condiciones solicitadas será de 337 hogares.
(1.2.2) Cálculo del tamaño de los estratos con afijación proporcional (selección intra-
estrato MAScr) para el grado de aceptación...
Wi ∑ Wi PiQi
ni = 2
δ
z
(k 2 )
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Capítulo V – Muestreo estratificado (borrador)- 207
Desarrollo
Wi ∑ Wi Pi Qi
NSE Wi PiQi WiPiQi Wi ΣWiPiQi (δ z(k/2)) 2
(δ z(k/2)) 2
Bajo 0,52 2100 1092 1125,28 6,5077051 172,9
Medio 0,32 2100 672 692,48 6,5077051 106,4
Alto 0,16 2500 400 346,24 6,5077051 53,2
Σ 2164
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 173 hogares, en el
nivel medio 107 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para
estimar el promedio de ingresos en las condiciones solicitadas será de 334 hogares.
(1.3.1) Cálculo del tamaño de los estratos con afijación óptima (selección intra-
estrato MAScr) para la media de ingresos...
A diferencia de los puntos anteriores, primero se debe calcular el tamaño total de la
muestra...
n=
(∑ W σ ) i i
2
2
δ
z
(k 2 )
Desarrollo del dividendo
NSE Wi σi Wiσi
Bajo 0,52 400 208
Medio 0,32 700 224
Alto 0,16 900 144
Σ Wiσi 576
(Σ Wiσi)2 331776
331776 331776
n= 2
= = 301,67
65 1099,8022
1,96
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos
según la fórmula de Neyman.
nWiσ i
ni =
∑ Wiσ i
208 - Introducción al muestreo para estudiantes de ciencias sociales
Desarrollo
NSE Wi σi Wiσi nWiσi nWiσi/ΣWiσi
Bajo 0,52 400 208 62747,1105 108,9
Medio 0,32 700 224 67573,8113 117,3
Alto 0,16 900 144 43440,3073 75,4
Σ 576
Los 303 hogares a seleccionar para estimar el promedio de ingresos en las condiciones
solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 109 hoga-
res, en el nivel medio 118 hogares y en el nivel alto 76 hogares.
(1.3.2) Cálculo del tamaño de los estratos con afijación óptima (selección intra-
estrato MAScr) para el grado de aceptación...
Cálculo del tamaño total de la muestra...
( W
n= ∑ i Pi Qi )2
2
δ
z
(k 2 )
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Desarrollo del dividendo
NSE Wi Pi Q i Wi Pi Q i
Bajo 0,52 45,8257569 23,8293936
Medio 0,32 45,8257569 14,6642422
Alto 0,16 50 8
∑ Wi Pi Q i 46,4936358
(∑ W i Pi Q i )
2
2161,65817
2161,65817 2161,65817
n= 2
= = 332,169042
5 6,5077
1,96
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos
según la fórmula de Neyman.
nWi Pi Q i
ni =
∑W i Pi Q i
Capítulo V – Muestreo estratificado (borrador)- 209
Desarrollo
nWi Pi Q i
NSE Wi Pi Q i Wi Pi Q i nWi Pi Q i
∑W i Pi Q i
Bajo 0,52 45,8257569 23,8293936 7915,386838 170,2
Medio 0,32 45,8257569 14,6642422 4871,007285 104,8
Alto 0,16 50 8 2657,352332 57,2
Σ 46,4936358
Los 334 hogares a seleccionar para estimar el promedio de ingresos en las condiciones
solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 171 hoga-
res, en el Nivel medio 105 hogares y en el nivel alto 58 hogares.
Ejercicio 2
Debiendo efectuarse una sola muestra para estudiar simultáneamente las dos variables
contempladas en el ejercicio 1, se debe...
(2.1) ...compatibilizar los resultados de los ejercicios (1.1.1) y (1.1.2)
(2.2) ...compatibilizar los resultados de los ejercicios (1.2.1) y (1.2.2)
(2.3) ...compatibilizar los resultados de los ejercicios (1.3.1) y (1.3.2)
...es decir, se debe obtener una sola muestra para cada tipo de asignación (igual, pro-
porcional y óptima) que cumpla con los objetivos planteados para ambas variables.
Una vez respondido el ejercicio y cotejados los resultados, se recomienda no pasar por
alto los comentarios adicionales al final de la resolución del ejercicio 2.
Resolución del ejercicio 2
(2.1) Asignación igual
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
Los resultados de los ejercicios (1.1.1) y (1.1.2) son:
NSE n para muestra estratificada con asignación igual
(1.1.1) ingresos... (1.1.2) aceptación... ambas
Bajo 104 131 131
Medio 104 131 131
Alto 104 131 131
Total 312 393 393
210 - Introducción al muestreo para estudiantes de ciencias sociales
(2.2) Proporcional
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
NSE n para muestra estratificada con asignación proporcional
(1.2.1) ingresos... (1.2.2) aceptación... ambas
Bajo 175 173 175
Medio 108 107 108
Alto 54 54 54
Total 337 334 337
(2.3) Optima
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
NSE n para muestra estratificada con asignación óptima
(1.3.1) ingresos... (1.3.2) aceptación... ambas
Bajo 109 171 171
Medio 118 105 118
Alto 76 58 76
Total 303 334 365
Ejercicio 3
Sabiendo que el costo de cada caso para el nivel socioeconómico bajo es $ 20, para el
nivel socioeconómico medio $ 40 y para el alto $ 80, considerando la información y objeti-
vos de estimación utilizados en el ejercicio 1 y bajo el el supuesto de una selección intra-
estrato aleatoria con reposición, se debe determinar el tamaño del total de la muestra (y de
cada estrato), para una afijación...
(3.1) óptima,minimizando el costo total, para estimar la media de ingresos mensuales
de los hogares.
(3.2) óptima, maximizando la precisión a partir de un costo total de $9.000, para esti-
mar para estimar la media de ingresos mensuales de los hogares.
212 - Introducción al muestreo para estudiantes de ciencias sociales
n=
(∑ W σ i i ci )∑ W σ i i ci
2
δ
z (k 2 )
Desarrollo
NSE Wi σi ci ($) Wiσi ci Wi σ i c i Wi σ i ci
Bajo 0,52 400 20 208 4,47213595 930,204279 46,5102139
Medio 0,32 700 40 224 6,32455532 1416,70039 35,4175098
Alto 0,16 900 80 144 8,94427191 1287,97516 16,0996894
Σ 3634,87983 98,0274132
(∑ W σ i i ci )∑ Wi σ i c i 356317,8664
2
δ z 1099,802166
( k 2)
(∑ W σ i i )
c i ∑ Wi σ i ci (δ z (k 2 ) )
2
323,9836014
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.
nWi σ i ci
ni =
∑Wσ i i ci
Desarrollo
nWi σ i ci
NSE Wi σi ci ($) Wi σ i ci n Wi σ i ci
∑ Wi σ i c i
Bajo 0,52 400 20 46,5102139 15068,54661 154
Medio 0,32 700 40 35,4175098 11474,69237 117
Alto 0,16 900 80 16,0996894 5216,035365 53
Σ 98,0274132 Σ 324
Capítulo V – Muestreo estratificado (borrador)- 213
(3.2) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima
(selección intra-estrato MAScr), maximizando la precisión a partir de un costo total dado,
para la media de ingresos...
Cálculo del tamaño total de la muestra maximizando la precisión a partir de un costo
total determinado....
C∑ Wi σ i ci
n=
∑W σ i i ci
Desarrollo
NSE Wi σi ci ($) Wiσi ci Wi σ i c i
Bajo 0,52 400 20 46,5102139 930,204279
Medio 0,32 700 40 35,4175098 1416,70039
Alto 0,16 900 80 16,0996894 1287,97516
Σ 98,0274132 3634,87983
C∑ Wi σ i ci
242,7168877
∑Wσ i i ci
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.
nWi σ i ci
ni =
∑Wσ i i ci
Desarrollo
nWi σ i ci
NSE Wi σi ci ($) Wi σ i ci n Wi σ i ci
∑ Wi σ i c i
Bajo 0,52 400 20 46,5102139 11288,81437 114
Medio 0,32 700 40 35,4175098 8596,427748 88
Alto 0,16 900 80 16,0996894 3907,666514 40
Σ 98,0274132 Σ 242
214 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercicio 4
A partir de los datos dados en la formulación y los obtenidos en el desarrollo de los
ejercicios, estimar mediante intervalos y para una confianza del 95%, la media mensual de
ingresos de los hogares (bajo el supuesto de MAScr intra-estrato) de la población en estu-
dio...
(4.1) Con la muestra obtenida en el ejercicio (1.1.1).
(4.2) Con la muestra obtenida en el ejercicio (1.2.1).
(4.2) Con la muestra obtenida en el ejercicio (1.3.1).
(4.3) Con la muestra obtenida en el ejercicio (3.1).
(4.4) Con la muestra obtenida en el ejercicio (3.2).
...si los datos obtenidos fueran...
Nivel socioeconómico xi si2
Bajo $ 625 160.000
Medio $ 1450 490.000
Alto $ 3175 810.000
s i2
σ̂ x = ∑ Wi2
ni
Capítulo V – Muestreo estratificado (borrador)- 215
Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,10 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
216 - Introducción al muestreo para estudiantes de ciencias sociales
(4.3) Para afijación óptima sin considerar el costo, n obtenido en el ejercicio (1.3.1).
Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 109 0,52 0,2704 160.000 1467,88991 396,917431
Medio 118 0,32 0,1024 490.000 4152,54237 425,220339
Alto 76 0,16 0,0256 810.000 10657,8947 272,842105
W 2s 2
∑ i i = 1094,97988
ni
Wi2 s i2
∑ = 33,0904801
ni
Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,09 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
Capítulo V – Muestreo estratificado (borrador)- 217
(4.5) Para afijación óptima minimizando la variabilidad con un costo total fijo, n ob-
tenido en el ejercicio (3.2).
Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 114 0,52 0,2704 160.000 1403,50877 379,508772
Medio 88 0,32 0,1024 490.000 5568,18182 570,181818
Alto 40 0,16 0,0256 810.000 20250 518,4
2 2
W s
∑ i i = 1468,09059
ni
Wi2 s i2
∑ = 38,3156703
ni
Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 38,32 = $ 1297 ± 75,1
límite inferior límite superior
1221,9 1372,1
218 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercicio 5
Resumir, en un cuadro, los tamaños de muestra y estratos obtenidos en los ejercicios
(1.1.1), (1.2.1), (1.3.1), (3.1) y (3.2), los errores de estimación calculados para cada uno de
ellos en el ejercicio 4 y el costo total de cada muestra.
Resolución del ejercicio 5.
Costo total: ∑ n i c i
n Costo
afijación z ⋅ σˆ X
Bajo Medio Alto Total Total
igual 104 104 104 312 64.9 14560
proporcional 175 108 54 337 64.9 12140
óptima 109 118 76 303 64.9 12980
óptima minimizando costo 154 118 53 325 64.9 12040
óptima con costo fijo total 114 88 40 242 75,1 9000
Ejercicio 6
Se realizar una investigación cuyo objetivo principal es conocer el porcentaje de
alumnos de una determinada facultad que desarrollan alguna actividad laboral que implique
una dedicación superior a las 20 horas semanales y por la que reciben remuneración.
Para ello se decide seleccionar una muestra de 500 casos, estratificada atendiendo al
turno durante el que asisten habitualmente a clases los alumnos. Se conoce que...
...el 45 % asiste a clases durante el turno mañana
...el 40 % asiste a clases durante el turno tarde
...el 15 % asiste a clases durante el turno noche
La dirección de la investigación resuelve realizar una asignación óptima de casos bajo
el supuesto que el porcentaje de alumnos que trabajan durante más de 20 horas semanales y
reciben remuneración no supera...
...el 5 % entre los que asisten al turno mañana
...el 15 % entre los que asisten al turno tarde
...el 50 % entre los que asisten al turno noche.
Se debe...
(6.1) Calcular el tamaño de muestra para cada estrato si la distribución se realiza pro-
porcionalmente a su tamaño.
(6.2) Calcular el tamaño óptimo de muestra para cada estrato considerando el tamaño
del estrato y los supuestos de heterogeneidad expuestos.
(6.3) Suponiendo los datos de la muestra evidencian que el porcentaje de alumnos que
trabaja durante más de 20 horas semanales y recibe remuneración representa...
...el 50% de los alumnos del turno mañana
...el 50% de los alumnos del turno tarde
...el 90% de los alumnos del turno noche
calcular el error de estimación global, para una confianza del 95,5% considerando...
(6.3.1) una selección de casos al azar simple
(6.3.2) una selección de casos estratificada proporcional (punto 6.1)
(6.3.3) una selección de casos estratificada con asignación óptima (punto 6.2)
(6.4) extraer conclusiones sobre la diferencia de los tres errores estándar calculados en
el punto (6.3).
(6.5) Considerando los resultados arrojados por la investigación, ¿cuál debería haber
sido la correcta asignación óptima?
Para simplificar los cálculos se trabajará bajo el supuesto de selección con reposi-
ción.
220 - Introducción al muestreo para estudiantes de ciencias sociales
Resolución Ejercicio 6
(6.1) a (6.3.3.)
Mañana Tarde Noche
Wi (peso estrato) 0.45 0.4 0.15
(6.1) niWi (casos por estrato) 225 200 75
Pi (supuesto) 5 15 50
Pi Q i (supuesto) 21,79449472 35,70714214 50
Wi Pi Q i (supuesto) 9,807522623 14,28285686 7,5
(6.2)
∑W i Pi Q i (supuesto) 31,59037948
W i ⋅ Pi Q i ⋅ n
ni = 155 226 119
∑ Wi ⋅ Pi Qi
p estrato 50 50 90
∑ Wi p i (p total) 56
(6.3.1)
p.q
σ̂ p = 2,222133153
n -1
2 × σ̂ p 4,444266307
2
W 0,2025 0,16 0,0225
p i .q i
σ̂ 2pi = 11,16071429 12,56281407 12,16216216
n i -1
Wi2 σ̂ 2pi 2,260044643 2,010050251 0,273648649
(6.3.2)
∑ W σ̂ i
2 2
pi 4,543743543
σ̂ = ∑ W σ̂
p i
2 2
pi 2,13160586
2 × σ̂ p 4,26321172
p i .q i
σ̂ 2pi = 16,23376623 11,11111111 7,627118644
n i -1
Wi2 σ̂ 2pi 3,287337662 1,777777778 0,171610169
(6.3.3)
σ̂ p = ∑ W σ̂ i
2 2
pi 2,288389305
2 × σ̂ p 4,576778609
Capítulo V – Muestreo estratificado (borrador)- 221
(6.4)
error est. proporcional < error est. azar simple < error est. asignación óptima.
La mayor magnitud del error de estimación generado por la asignación óptima se debe
a la incorrecta estimación de P utilizada en el cálculo del tamaño de la muestra para cada es-
trato, afectando negativamente la eficiencia de la estimación (en especial en el estrato “turno
mañana”).
Si bien la precisión del muestreo estratificado proporcional es mayor que la del azar
simple, la diferencia no adquiere relevancia ya que la variabilidad de los principales estratos
(que incluyen al 85% de la población en estudio) es similar, lo que minimiza la potencial ga-
nancia de la estratificación proporcional.
(6.5)
Mañana Tarde Noche
Wi 0.45 0.4 0.15
Pi 50 50 90
Pi Q i 50 50 30
Wi Pi Q i 22,5 20 4,5
∑W i Pi Q i 47
W i ⋅ Pi Q i ⋅ n
ni = 239 213 48
∑ Wi ⋅ Pi Qi
222 - Introducción al muestreo para estudiantes de ciencias sociales
∑∑ (x ) ∑ N (x − µ)
2 2
ij − µi i i
i =1 j=1 i =1
σ d2 = σ e2 =
N N
Estas expresiones nos indican que para obtener σ d2 debemos sumar los desvíos cuadrados de cada
estrato (calculados sobre la media aritmética del estrato y no sobre la media total), luego sumar
estas sumas de desvíos cuadrados y divir la doble sumatoria por la cantidad total de casos.
Y que para obtener σ 2e debemos calcular el desvío cuadrado del promedio de cada estrato (sobre la
media total), multiplicarlo por la cantidad de casos del estrato, sumar estos productos y dividirlos
por la cantidad total de casos de la población.
Desarrollemos estos cálculos con un ejemplo sencillo. El cuadro siguiente expresa una población
de 15 elementos, dividida en tres grupos.
a b c d e
1 Total Grupo 1 Grupo 2 Grupo 3
2 2 2 2
3 2 3 3
4 3 4 5
5 6 5 6
6 6 5
7 6
8 N 15 6 5 4
9 µ 4 4,16666667 3,8 4
10 σ2 2,53333333
Ni
11 ∑ (x
j=1
ij − µi )
2
20,8333333 6,8 10
h Ni
12 ∑∑ (x
i =1 j=1
ij − µi )
2
37,6333333
h Ni
13 ∑∑ (x
i =1 j=1
ij − µi ) 2
2,50888889
σ d2 =
N
14 (x i − µ )2 0,02777778 0,04 0
N i (x i − µ )
2
15 0,16666667 0,2 0
h
16 ∑ N (x
i =1
i i − µ)
2
0,36666667
h
17 ∑ N (x
i =1
i i − µ)
2
0,02444444
σ 2e =
N
18 σ 2 = σ d2 + σ e2 2,53333333
Vemos en la celda B18 que la suma de las varianzas intra (B13) e inter grupos (B17) es igual a la
varianza total (B10), pero que el peso recae en la varianza intra grupos.
Capítulo V – Muestreo estratificado (borrador)- 223
12 ∑ (x
j=1
ij − µi )
2
1,71428571 0,75 0
h Ni
13 ∑∑ (x
i =1 j=1
ij − µi ) 2
2,46428571
h Ni
14 ∑∑ (x
i =1 j=1
ij − µi ) 2
0,16428571
σ d2 =
N
15 (x i − µ )2 2,46938776 0,5625 4
N i (x i − µ )
2
16 17,2857143 2,25 16
h
17 ∑ N (x
i =1
i i − µ)
2
35,5357143
h
18 ∑ N (x
i =1
i i − µ)
2
2,36904762
σ 2e =
N
19 σ 2 = σ d2 + σ e2 2,53333333
La suma de las varianzas intra (B14) e inter grupos (B18), incluida en la celda B19, sigue siendo
igual a la varianza total (B11), pero ahora el peso recae en la varianza inter-grupos, condición que
le permite al muestreo conseguir una mayor precisión en la estimación para el conjunto de la po-
blación.