Está en la página 1de 49

Capítulo V – Muestreo estratificado (borrador)- 175

V - MUESTREO ESTRATIFICADO

V.1 - Estratificación y eficiencia de los diseños muestrales


Ya vimos que la primera gran clasificación de los diferentes métodos de muestreo de-
pende del conocimiento o desconocimiento de las probabilidades de selección de cada
muestra posible. De allí que a un grupo de estos métodos se los denomine, según los autores,
muestreo con probabilidad conocida, muestreo con probabilidad o muestreo probabilístico,
mientras que al otro se lo conoce como muestreo sin probabilidad conocida, muestreo sin
probabilidad o muestreo no probabilístico. El muestreo probabilístico, a partir del conoci-
miento de la probabilidad de selección, es la única técnica de muestreo que brinda una medi-
da de la confianza de las estimaciones de parámetros(1).
El muestreo al azar simple es el método probabilístico más sencillo. Se caracteriza
porque todas las muestra posibles de un universo determinado cuentan con la misma oportu-
nidad de ser seleccionadas. Pero la importancia del muestreo al azar simple radica más en su
utilidad teórica y como elemento introductorio de los conceptos básicos de muestreo que en
su aplicación práctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas
condiciones, lo que lo hace poco recomendable en la mayoría de las investigaciones.
El muestreo al azar simple solo es aplicable cuando se dispone de un listado satisfacto-
riamente completo de los elementos de la población.
El muestreo al azar simple no es aconsejable cuando el costo de recolección del dato
difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir
de la dispersión geográfica o dificultades para su ubicación).
El muestreo al azar simple solo debería usarse cuando no se dispone de otra informa-
ción sobre la población que la lista de sus componentes.
Las dos primeras observaciones son de carácter administrativo y técnico. La última se
deriva de considerar su menor eficiencia estadística con relación a otras alternativas de
muestreo.
¿Qué es la eficiencia estadística de una muestra? Un diseño muestral es, estadística-
mente, más eficiente que otro cuando, para el mismo tamaño de muestra, se obtiene un error
estándar menor.
Podríamos hablar de eficiencia estadística cuando el grado de precisión o la magnitud
de la confianza de las conclusiones son mayores, considerando muestras con la misma canti-

Notas:
1 No debe confundirse el concepto de representatividad con el de probabilidad. Una muestra probabilística
tiene una determinada probabilidad de no ser representativa de una población o universo, mientras que una mues-
tra no probabilística puede ser perfectamente representativa, al menos en lo que hace a una determinada cantidad
de variables. El hecho que una muestra no sea probabilística (condición que se da en la gran mayoría de las inves-
tigaciones sociales) no desmerece su representatividad y la validez de sus resultados, contrariamente a un mito o
prejuicio muy instalado.
176 - Introducción al muestreo para estudiantes de ciencias sociales

dad de casos. Pero lo que se conoce como eficiencia del diseño muestral depende de la técni-
ca de selección empleada y su correspondiente error estándar.
Supongamos que tenemos dos muestras (A y B) con igual cantidad de casos, obtenidas
de una misma población, con idénticos estadísticos y que la diferencia entre ellas radica en la
técnica de selección utilizada. Con la información de la muestra A podemos concluir que el
porcentaje de varones de la población, para un nivel de confianza determinado, es un valor
que está entre 46% y 50%, mientras que con la muestra B podemos concluir, con la misma
confianza y similares resultados, que el porcentaje de varones de esa población se encuentra
entre 47% y 49%. Ello es posible porque el error estándar que obtenemos a partir de la
muestra B es menor y diremos que es, estadísticamente, más eficiente que la muestra A.
O también podemos realizar estimaciones con un mismo error, pero con niveles de
confianza distintos. La muestra que nos permite realizar estimaciones con el riesgo menor es
a la que consideraremos estadísticamente más eficiente.
error de confianza error
Muestra = •
estimación z(k/2) estándar
A 2 = 2 • 1
B 1 = 2 • 0,5
A 1 = 1 • 1
B 1 = 2 • 0,5

Vimos en el capítulo anterior que el MASsr es más eficiente que el MAScr. ¿Cómo se
consigue una muestra estadísticamente todavía más eficiente? Trabajando con las unidades
de muestreo para disminuir la probabilidad que aparezcan muestras cuyos estadísticos se
alejen en demasía de los parámetros de la población.
Supongamos que nos encontramos ante una pequeña reunión de tres amigos que se han
conocido cursando en el mismo colegio secundario. Como tienen edades similares, ya que
provienen de la misma promoción, y han concurrido con sus parejas y algunos de sus hijos y
nietos, nos encontramos con una población claramente dividida en tres grupos muy diferen-
tes en cuanto a sus edades: los "abuelos", los "hijos" y los "nietos".
En total son 36 personas. Pasemos a describirlas, atendiendo solo a sus edades:
Abuelos Hijos Nietos
60 25 31 10 6 8
58 23 32 12 6 13
65 30 26 4 9 7
60 35 23 14 8 6
57 36 30 8 11 6
60 29 31 7 5 13
Hay 6 personas que integran el grupo de los "abuelos", 12 el de los "hijos" y 18 el de
los "nietos". La media aritmética de la edad de todos ellos es 24 años.
Supongamos también que alguien desea conocer el promedio de edad de esta pobla-
ción a partir de una muestra al azar simple sin reposición de 6 casos.
¿Puede suceder que la muestra extraída se componga solo por "abuelos"? Evidente-
mente sí, aunque la probabilidad es baja. Si ello sucediera llegará a la conclusión (mediante
una estimación puntual) que el promedio de edad de la población es de 60 años. Y también
Capítulo V – Muestreo estratificado (borrador)- 177

puede suceder que la muestra extraída al azar simple sin reposición contenga a los seis "nie-
tos" de menor edad (4, 5, 6, 6, 6 y 6) arrojando un promedio de 5,5 años. La primera de las
muestras tiene un error de 36 años y la segunda de –18,5 años.
Para no olvidarnos que debemos pensar en términos de distribuciones muestrales, estamos hablan-
do de un espacio muestral de NΩ= N! ÷ (N-n)! = 36! ÷ (36-6)! =1.402.410.240 muestras. Solo 720
de estas muestras sin reposición comprenden a los seis “abuelos”, y otras 720 muestras a los seis
“nietos” menores. Aunque la probabilidad de seleccionar una muestra al azar simple sin reposición
con las seis personas de mayor edad es muy baja (apenas el 0,00005 %), y una probabilidad simi-
lar encontramos para la selección de una muestra con las seis personas de menor edad, ambos su-
cesos son posibles.
Pero como la persona interesada en conocer el promedio de edad de esta pequeña po-
blación observa que hay 3 grupos claramente distintos e identificables a partir de su aparien-
cia física, decide extraer su muestra de seis casos en forma proporcional al tamaño de los
grupos, es decir, averiguar la edad de un "abuelo", de dos "hijos" y de tres "nietos" (seleccio-
nados con MASsr dentro de cada grupo).
La técnica utilizada, el dividir previamente a la población en grupos cuyos compo-
nentes son similares entre sí y luego realizar una seleccionar aleatoria dentro de cada uno de
ellos se conoce como estratificación. Como, además, la cantidad de casos seleccionada en
cada grupo depende del peso relativo de los grupos, hablamos de un "muestreo estratificado
proporcional". Estos grupos son excluyentes (cada elemento puede pertenecer a un solo gru-
po) y exhaustivos (en su conjunto contienen a todos los componentes de la población).
A diferencia del muestreo aleatorio simple, en el muestreo estratificado no todas las
muestras (o combinaciones de elementos) tienen la misma probabilidad de ser seleccionadas.
Es más, algunas combinaciones ni siquiera son posibles. Sin embargo, esto no es un inconve-
niente. Las probabilidades de selección de las muestras siguen siendo conocidas y ello es lo
que permite realizar estimaciones de parámetros con errores y riesgos mensurables.
Volviendo a nuestro “investigador”, ¿es posible que seleccione a los tres "nietos" más
pequeños, a los dos "hijos" de menor edad y al "abuelo" más joven? Otra vez la respuesta es
sí. Y, a la inversa, también puede suceder que seleccione en cada uno de los grupos a quienes
tienen mayor edad.
Veamos la primera posibilidad, la de seleccionar a los más jóvenes en cada grupo. La
selección daría una muestra con casos de 4, 5, 6, 23, 23 y 57 años, y un promedio de 19,8
años de edad (error: - 4,2 años).
Cualquier otra combinación de seis casos que arroje un promedio de edad menor al de
la población, no podría estar más alejada de este que la muestra obtenida.
Y para la segunda posibilidad, la de seleccionar a los de mayor edad en cada grupo,
obtendría una muestra de 13, 13, 14, 36, 35 y 65 años, con un promedio de 29, 3 años (error:
+ 5,3 años).
Cualquier otra combinación de seis casos con un promedio de edad mayor al de la po-
blación, no podría estar más alejada de este que la muestra obtenida.
Aunque con poca probabilidad de aparición, ambas selecciones son las más extremas
que pueden aparecer. Nótese la diferencia con las muestras de valores más extremos obteni-
bles mediante MASsr, donde los errores eran de –18,5 y 36 años respectivamente.
178 - Introducción al muestreo para estudiantes de ciencias sociales

Es evidente que, al utilizar este segundo procedimiento, sin modificar la cantidad de


casos seleccionados ha disminuido la posibilidad de aparición de muestras con valores aleja-
dos de la media de la población y, consecuentemente, la posibilidad de llegar a conclusiones
erróneas. Aunque la demostración no es la más ajustada, desde el punto de vista matemático,
sirve para una comprensión intuitiva del concepto de eficiencia estadística del diseño mues-
tral.
¿Qué es lo permite al muestreo estratificado conseguir una mayor precisión con un
mismo tamaño de muestra (e incluso menor) que el muestreo al azar simple? Sin profundizar
en los fundamentos, solamente diremos que la varianza total puede explicarse por la suma de
las variabilidades intra-grupos e inter-grupos. Al formar grupos lo más disímiles entre sí (y
por lo tanto con gran homogeneidad interna) se busca que este factor (la variabilidad inter-
grupos) asuma la mayor parte de la varianza total (ver apéndice al final del capítulo).
La eficiencia estadística de un diseño muestral no depende del límite inferior o supe-
rior del rango de valores que se obtienen en una distribución muestral, sino de la variabili-
dad de esta distribución, aunque, como consecuencia, la extensión del rango pueda disminuir.
La mayor eficiencia estadística se expresa, refiriéndonos a la población que usamos de ejem-
plo, en que la distribución muestral de medias de n=6 y MASsr tiene un error estándar de po-
co más de 7 años, mientras que la distribución muestral de medias de n=6 con muestreo es-
tratificado proporcional arroja un error estándar de poco menos de 2 años.
La eficiencia estadística del muestreo estratificado depende fundamentalmente de las
características de los estratos construidos. Cuanto más se parezcan entre sí los componentes
de un mismo estrato y más se diferencien de los elementos de los otros estratos mayor senti-
do tiene la estratificación.
Aunque tengan como referencia común la variabilidad, no debe confundirse la eficiencia del dise-
ño con la eficiencia del estimador que vimos en el capítulo anterior. Un estimador es más eficiente
que otro cuando, para un mismo diseño e igualdad de casos, tiene un error estándar menor. La efi-
ciencia de los diseños se establece a partir del mismo estimador, cuando, para una misma cantidad
de casos, se consigue disminuir su error estándar.
Eficiencia del estimador Eficiencia del diseño
Estimador A Estimador B Diseño A Diseño B
(2)
Insesgados Mismo estimador
Mismo espacio muestral Diferentes espacios muestrales
+ error estándar - error estándar + error estándar - error estándar
- eficiencia + eficiencia - eficiencia + eficiencia

Una de las razones para la utilización del muestreo estratificado es, entonces, la de
aumentar la precisión o confiabilidad de los estimadores. Pero también puede optarse por
esta técnica a partir de la necesidad de información específica sobre sub-poblaciones del uni-
verso, que pueden ser consideradas como estratos y de las que se sacarán muestras indepen-
dientes, o por la intención de desarrollar técnicas de selección diferentes en cada sub-grupo.
Notas:
2 Cuando al menos uno de los estimadores es sesgado, para determinar cuál es más eficiente se aplican
cálculos sencillos que contemplan tanto la magnitud de la varianza como el sesgo.
Capítulo V – Muestreo estratificado (borrador)- 179

Como una derivación secundaria, también puede emplearse el muestreo estratificado cuando,
sin modificar la confianza o precisión de la estimación, se desea trabajar con una menor can-
tidad de casos.
Para una adecuada estratificación deben responderse varias preguntas:
1) ¿Qué variables deben ser consideradas para dividir a la población en estratos?
2) ¿Cómo combinamos y categorizamos estas variables, cuáles son los límites de cada
estrato?
3) ¿Cuántos estratos deben considerarse?
4) ¿Cuántos casos se seleccionaran dentro de cada estrato?

V.2 - Estimación de medias, proporciones y totales con muestras estratificadas


Antes de responder a las cuatro preguntas que cierran el punto anterior, es conveniente
introducirnos en la estimación de medias, proporciones y totales a través de intervalos de
confianza con muestras estratificadas.
Como ya vimos, el cálculo del error de estimación no es más que la multiplicación del
error estándar por una magnitud que depende de la confianza elegida [ (z(k/2) ]. El problema
radica en establecer, en cada caso y a partir de las características de la muestra, la magnitud
del error estándar. Cuando trabajamos con muestras aleatorias simples utilizamos los si-
guientes procedimientos:

fórmula general IC(θ, k ) = θ̂ ± z (k 2 ) σ̂ θ̂


Poblaciones infinitas o MAScr Poblaciones finitas y MASsr
s2 s2 N − n
Medias IC(µ, k ) = x ± z (k 2 ) IC(µ, k ) = x ± z (k 2 ) ×
n n N
N 2s 2 N 2s 2 N − n
Total IC(T, k ) = xN ± z (k 2 ) IC(T, k ) = xN ± z (k 2 ) ×
n n N
Propor- p.q p.q N − n
IC(P, k) = p ± z (k 2 ) IC(P, k ) = p ± z (k 2 ) ×
ciones n -1 n -1 N
N−n
y puede reemplazarse por 1-f (siendo f = n/N)
N
Donde el error de estimación está dado por la multiplicación de la estimación puntual
del error estándar (utilizando para su cálculo los estadísticos p y s2 como estimadores de los
parámetros P, σ2 y S2) por la confianza elegida (expresada en puntaje z equivalente al área
bajo la curva normal para la mitad de la confianza).
En el muestreo estratificado el concepto no varía, pero sí lo hace el procedimiento para
calcular los estadísticos y estimar los parámetros y sus errores estándar, a los que llegamos
mediante sumas ponderadas de las medidas de las muestras de cada estrato, ya que las distri-
buciones muestrales derivadas de una selección estratificada son distribuciones muestrales de
estadísticos ponderados.
180 - Introducción al muestreo para estudiantes de ciencias sociales

Si tenemos una muestra de 200 hogares del norte de la provincia de Buenos Aires que
arroja un promedio de 5 personas por hogar y otra muestra de 200 familias del sur con pro-
medio de 4 personas por hogar (afijación igual, como veremos más adelante), y sabemos que
los hogares del norte implican el 80% del total de hogares de la provincia, no podemos esti-
mar el promedio provincial de personas por hogar simplemente calculando el promedio de
ambas muestras. Debemos asignar a cada muestra el peso de la población que representa.
x provincia = Wnorte x norte + Wsur x sur (donde W=proporción o peso del estrato en la población)
x provincia = 0,8 × 5 + 0,2 × 4 = 4 + 0,8 = 4,8 personas por hogar
Los promedios de 5 y 4 personas por hogar variarán de una muestra a otra. Lo que se
mantiene constante es el peso de dada estrato. Los espacios muestrales son el resultado de la
combinación de todas y cada una de las muestras posibles de un estrato con todas las mues-
tras posibles de los otros estratos y los valores de las distribuciones muestrales de medias son
los promedios ponderados de las medias de las muestras de cada estrato.
Supongamos una población de 800.000 trabajadores en relación de dependencia, divi-
da en tres estratos. El estrato A tiene 350.000 personas, el B tiene 300.000 y el C tiene
150.000.
En cada estrato se selecciona una muestra aleatoria simple, siendo el tamaño de las
muestras proporcional al peso de cada estrato. Posteriormente se obtiene información sobre
la aprobación de la instrucción primaria y el ingreso mensual de cada persona seleccionada,
la que está volcada en el cuadro siguiente.
En la primera columna se incluyen las medidas de la muestra global calculadas como
si esta hubiera sido extraída al azar simple sin reposición.
Azar sim-
Estrato A Estrato B Estrato C
ple
N (población) 800.000 350.000 300.000 150.000
W (peso) 0,4375 0,375 0,1875
n (muestra) 800 350 300 150
p (proporción) primaria completa aprobada 0,31 0,15 0,25 0,80
x (media) ingreso mensual $ 588 $ 320 $ 460 $ 1470
s2 (cuasivarianza) ingreso mensual 205.466 9.632 10.852 108.306
Comencemos estimando la media y la proporción de la población a partir del total de
la muestra, como si toda en su conjunto hubiera sido seleccionada al azar simple, para una
confianza del 95,5%. Utilizaremos las fórmulas del muestreo con reposición, en lugar de las
que deberíamos utilizar (las del muestreo sin reposición) al solo efecto de simplificar los cál-
culos. Para la estimación mediante intervalos de la media:

s2
IC(µ, k ) = x ± z ( k 2 )
n
Capítulo V – Muestreo estratificado (borrador)- 181

Remplazando...

205.466
IC(µ,0.955) = $588 ± 2 = $588 ± 2 × 16,02599 = $588 ± 32,05199
800
Y llegamos a la conclusión que, para una confianza del 95,5%, la remuneración media
mensual es un valor que está entre $554,94 y $620,06.
Solo a modo ilustrativo (para quedarnos tranquilos y comprobar que con poblaciones
grandes y fracciones de muestreo pequeñas la aplicación de una u otra fórmula no cambia
demasiado la cosa), utilicemos también la fórmula para MASsr.

s2 N − n
IC(µ, k ) = x ± z ( k 2 )
n N
Remplazando...

205.466 800.000 − 800


IC(µ,0.995) = $588 ± 2 × = $588 ± 32,03596
800 800.000
Donde, con la misma confianza, establecemos un intervalo con límites $555,96 y
04
$620, , siendo despreciable la ganancia en la precisión (por lo pequeño de la fracción de
muestreo).
Continuemos con la estimación de P, para la misma confianza y con el procedimiento
para MAScr:
p.q
IC(P, k ) = p ± z (k 2 )
n -1
Y, reemplazando:
0,31× 0,69
IC(P, k ) = 0,31 ± 2 = 0,31 ± 0,03272367
799
ó, expresado en puntos porcentuales:
31 × 69
IC(P, k ) = 31 ± 2 = 31 ± 3,272367
799
De donde concluimos, para una confianza del 95,5%, que P está dentro de un intervalo
con límites inferior y superior de 0,2772 y 0,3428 respectivamente (ó 27,72% y 34,28%, co-
mo más nos guste expresarlo).
Veamos ahora los pasos para la estimación de P y µ considerando la estratificación.
182 - Introducción al muestreo para estudiantes de ciencias sociales

El cálculo de la media y la proporción globales de la muestra no presenta inconve-


nientes. Es simplemente un promedio ponderado y se expresa en las fórmulas...
x ABC = WA x A + WB x B + WC x C
p ABC = WA p A + WB p B + WC p C
Ni
WA,WB y WC indican los pesos de cada uno de los estratos, donde Wi = (el peso
N
de un estrato es el cociente entre la cantidad de elementos del estrato sobre el total de ele-
mentos de la población) y ∑
Wi = 1 (la suma del peso de todos los estratos es igual a 1).
Así, reemplazando por los correspondientes valores, tenemos, para la media de ingre-
sos...
xABC= 0,4375 × 320 + 0,375 × 460 + 0,1875 × 1470 = $588
...y, para primario completo...
pABC = 0,4375 × 0,15 + 0,375 × 0,25 + 0,1875 × 0,80 = 0,31
ó
pABC = 0,4375 × 15% + 0,375 × 25% + 0,1875 × 80% = 31%

En el caso particular del muestreo estratificado proporcional, si hubieramos podido efectual el cál-
culo de la media a partir de la matriz de datos (con la información desagregada caso por caso) po-
dríamos habernos ahorrado la ponderación, ya que al representar los elementos de cada muestra el
peso de su estrato, el valor final sería el mismo.

El cálculo del error estándar total a partir de datos estratificados no es tan directo. No
podemos llegar a él a través de una suma ponderada de los errores estándar de cada estrato
(como lo hicimos con la media y la proporción) sino a través de las varianzas de las distribu-
ciones muestrales de cada estrato.
La varianza de la distribución muestral total es la suma de las varianzas de las distri-
buciones muestrales de cada uno de los estratos, ponderadas por los pesos cuadrados de los
estratos correspondientes:

σ 2x = Σ Wi2σ 2x
i

Si, con MAScr...


σ i2
σ 2x =
i ni

σ i2
...podemos remplazar σ 2x = Σ Wi2 σ 2x i por σ 2x = Σ Wi2
ni
Capítulo V – Muestreo estratificado (borrador)- 183

Y, si con MAScr, σ̂ 2 = s 2 (insesgado), entonces podemos estimar puntualmente la va-


rianza total de la distribución muestral a partir de la suma de las cuasivarianzas de las mues-
tras de todos los estratos, divididas por la cantidad de elementos de la muestra de cada es-
trato y ponderadas por el peso cuadrado del estrato correspondiente.
s i2
σ̂ 2x =∑ Wi2
ni

El paso siguiente para llegar a la estimación puntual del error estándar es obvio: ex-
traer la raíz cuadrada de la estimación de la varianza total de la distribución muestral.

s i2
σ̂ x = ∑ Wi2
ni

Entonces ya podemos realizar la estimación por intervalos de la media total.

s i2
IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑ Wi2
ni
Fórmula que, aplicada a nuestro ejemplo, nos lleva (siempre con el cálculo simplifica-
do del MAScr), a...

WA2 s 2A WB2 s 2B WC2 s C2


IC(µ ABC , k ) = x ABC ± z ( k 2 ) + +
nA nB nC

El cálculo del error estándar se desarrolla en el siguiente cuadro.

Si ... entonces ... y el resulta-


Estrato W s2 n W2 × s2 / n do es
A 0.4375 9.632 350 0,43752 × 9.632 ÷ 350 5,27
B 0.375 10.852 300 0,3752 × 10.852 ÷300 5,09
C 0.1875 108.306 150 0,18752 × 108.306 ÷ 150 25,38
Sumamos todos los resultados (∑ W2s2/n), con lo que llegamos a la estimación de la
35,74
varianza de la distribución muestral de medias total
Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del
5,98
error estándar total
Ahora tenemos la información necesaria para realizar la estimación global, utilizan-
do...
IC(µ, k ) = x ABC ± z ( k 2 ) σ̂ x
ABC

...que, al remplazar por los valores correspondientes, nos da


IC(µ,0.955) = $588 ± 2 × $5,98 = $588 ± $11,96
184 - Introducción al muestreo para estudiantes de ciencias sociales

Redondeando, concluimos que, con una confianza del 95,5%, el ingreso mensual pro-
medio de nuestra población es un valor que está dentro de un intervalo con límites $576 y
$600. Recordemos que el cálculo sin considerar la estratificación establecía un intervalo (pa-
ra la misma confianza) con límites $555 y $621, por lo que hemos reducido el error de esti-
mación de $33 a $12.
Ello implica, en términos relativos sobre la estimación puntual de la media aritmética,
una reducción del error de estimación de 5,6 puntos porcentuales a 2 puntos porcentuales, lo
que no es poco, sobre todo si tenemos en cuenta que si deseamos una reducción equivalente
del error de estimación usando MASsr el tamaño de la muestra debe elevarse de 800 a cerca
de 5.700 casos para los valores que usamos de ejemplo.
Avancemos ahora sobre las proporciones. La fórmula para estimar el error estándar de
la distribución muestral de proporciones de la muestra total sigue la misma lógica que la de
las medias aritméticas (raíz cuadrada de la sumatoria de las estimaciones puntuales de las va-
rianzas de las distribuciones muestrales de las muestras de cada estrato multiplicadas por los
pesos cuadrados de los estratos correspondientes), y es:
pi qi
σ̂ p = ∑W i
2
ni −1
Si ... entonces ... y el resulta-
Estrato W p n W2 × p.q / (n-1) do es
A 0.4375 15 350 0,43752 × 15 × 85 ÷ 349 0,7
B 0.375 25 300 0,3752 × 25 × 75 ÷299 0,88
C 0.1875 80 150 0,18752 × 80 × 20 ÷ 149 0,38
2
Sumamos todos los resultados (∑ W pq/(n-1), con lo que llegamos a estimación de la
1,96
varianza de la distribución muestral de proporciones total
Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del
1,4
error estándar total
Ya podemos estimar, mediante intervalo, la proporción de personas de la población
que cuentan con estudios primarios aprobados.
IC(P, k ) = p ABC ± z ( k 2 ) σˆ p ABC

WA2 p A q A WB2 p B q B WC2 p C q C


IC(P, k ) = p ABC ± z ( k 2 ) + +
n A −1 n B −1 n C −1
IC(P,0.955 ) = 31 ± 2 × 1,4 = 31 ± 2,8
Atendiendo a la estratificación, el nuevo intervalo de estimación de P (para una con-
fianza del 95,5 %) queda entre 28,2 y 33,8%, mientras que el anterior estaba dado por 27,7 y
34,3 %, o dicho de otra forma, el error de estimación se reduce de 3,3 a 2,8 puntos porcen-
tuales. Si pretendemos obtener este error de estimación mediante MASsr la cantidad de casos
necesarios en la muestra se eleva de 800 a cerca de 1.100, siempre y cuando podamos esti-
mar previamente con cierta aproximación la heterogeneidad de la población.
Capítulo V – Muestreo estratificado (borrador)- 185

¿Qué es lo que ha permitido reducir los errores de estimación, mejorar la eficiencia


estadística? Que el criterio de agrupamiento de los casos demostró ser útil al construir estra-
tos con poca variabilidad, lo que llevó a una disminución del error estándar total. Recorde-
mos que se dice que un diseño muestral es más eficiente en lo estadístico que otro cuando,
para el mismo tamaño de muestra, se obtiene un error estándar (o típico) menor.

V.2.A - Fórmulas para estimación de parámetros mediante intervalo de confianza (muestras


estratificadas)
Selección
parámetro Fórmula
intra-estrato
Wi2 s i2
µ IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑
ni
N i2 s i2
MAScr T(X) IC(T(X) ABC , k ) = x ABC N ± z ( k 2 ) ∑
ni
Wi2 p i q i
P IC(PABC , k ) = p ABC ± z ( k 2 ) ∑
ni −1
Wi2s i2 (N i − n i )
µ IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑
ni Ni
N i s i2 (N i − n i )
MASsr T(X) IC(T(X) ABC , k ) = x ABC N ± z ( k 2 ) ∑
ni
Wi2 p i q i (N i − n i )
P IC(PABC , k ) = p ABC ± z ( k 2 ) ∑
(n i − 1)N i

V.3 - Variables que deben ser consideradas para dividir (estratificar) a la población.
¿Qué variables deben ser consideradas para dividir a la población en estratos?
La respuesta intuitiva a la pregunta es obvia: la mejor estratificación surge de la distri-
bución de la variable en estudio. Pero esta respuesta, además de obvia, puede llegar a ser ab-
surda, ya que si tenemos suficiente información sobre esta variable como para confeccionar
estratos a partir de ella, ¿qué sentido tiene realizar una investigación sobre la misma?
Afortunadamente solemos contar, a partir de relevamientos censales o investigaciones
previas, con información sobre variables estrechamente vinculadas con las de investigación.
La distribución geográfica, el sexo, la edad, el nivel socioeconómico, los ingresos, la condi-
ción de ocupación, los resultados electorales, la mortalidad, la fecundidad, la educación, la
densidad poblacional, el hacinamiento, la cantidad de empleados, la distribución y cobertura
de servicios públicos, el grado de "bancarización", la exposición a medios de comunicación,
la participación de una marca en el mercado, el régimen de tenencia de la tierra, la recauda-
ción impositiva, la cobertura de salud, el grado de sindicalización o el monto de facturación
186 - Introducción al muestreo para estudiantes de ciencias sociales

anual, son algunas de las tantas variables sobre las que se cuenta con información (o sobre
las que se pueden realizar estimaciones confiables) y que suelen estar íntimamente relacio-
nadas con muchas de nuestras inquietudes. Es entonces a partir de ellas que se realiza la es-
tratificación, buscando que los elementos de cada estrato sean lo más parecidos entre sí y
maximizando las diferencias con los integrantes de los otros estratos.
La calidad de la estratificación dependerá, entre otros factores, del grado de asociación
de las variables consideradas a tal efecto con las variables en estudio. Como en muchos otros
aspectos del diseño muestral, un buen juicio, experiencia y ajustado marco teórico suelen ser
más útiles que fórmulas o recetas para su elección.

V.4 - Establecimiento de los estratos (categorización).


¿Cómo combinamos y categorizamos las variables utilizadas para estratificar, cuáles
son los límites de cada estrato?
El problema radica en los límites a partir de los cuales definir los estratos. Y se com-
plica a medida que aumenta en nivel de medición de las variables de estratificación. Si deci-
diéramos realizar una estratificación sencilla a partir del sexo, la región de residencia o la
condición de ocupación no tendríamos mayores dudas para ubicar a cada caso en alguna de
las categorías, cumpliendo los requisitos básicos de la estratificación: cada una de las unida-
des de muestreo está comprendida en algún estrato y solo en uno (estratos mutuamente ex-
cluyentes y en su conjunto comprensivos de la totalidad de la población) y los elementos de
cada estrato serán similares entre sí y diferentes a los de cualquier otro estrato (un integrante
de un estrato no debe parecerse más a un elemento de otro estrato que a uno del propio).
Pero si la variable utilizada fuera la edad (establecida en años cumplidos) la definición
del límite de cada estrato es más difícil (y muchas veces sin solución). Si definimos tres gru-
pos: menores de 30 años, de 30 a 50 años y mayores de 50 años, cumpliríamos con la primera
condición (que cada unidad de muestreo sea incorporable a un grupo y solo a uno) pero no
con la segunda. Una persona de 29 años pertenece al primer grupo, pero sin embargo tiene
más semejanza con una gran cantidad de integrantes del segundo grupo que con muchos de
los miembros de su propio grupo. Se parece más a una persona de 30 años, que pertenece al
segundo estrato, que a otra de 22 años con la que comparte el estrato. Este tipo de clasifica-
ción generará grupos no definibles como estratos, al menos muestralmente hablando. Incluso
cuando se realiza una estratificación compleja de menor nivel de medición (utilizando dis-
tintas variables), la combinación de categorías puede generar inconvenientes similares.
Esto no significa que las variables de nivel de medición intervalar o de razones no
puedan ser utilizadas para estratificar a la población en estudio. Al margen que existen algu-
nos procedimientos matemáticos para estratificar con estas variables, hay situaciones donde
los cortes se establecen naturalmente por ausencia de unidades con determinados valores in-
termedios, y muchas veces el corte no necesariamente se vincula con los valores de la varia-
ble utilizada para estratificar sino con atributos asociados a estos (aunque, estrictamente, no
estamos usando esta variable para estratificar). Cuando, por ejemplo, las variables en estudio
están relacionadas con temas educativos, demográficos u ocupacionales, la edad puede arro-
jar segmentaciones significativas con independencia de la cercanía o no de sus valores. Con-
sideraciones similares se pueden hacer, por ejemplo con el uso de los ingresos familiares o
Capítulo V – Muestreo estratificado (borrador)- 187

personales como variable de estratificación, donde establecemos cortes con mayor minucio-
sidad en los valores más bajos, ya que a medida que aumentan los ingresos las diferencias se
vuelven menos significativas.
La determinación de los límites de los estratos tiene fundamentos más teóricos que
estadísticos y depende del conocimiento que los investigadores tengan sobre las característi-
cas de la asociación de las variables utilizadas en la estratificación con las variables en estu-
dio.
Cuando el investigador se encuentra con dificultades para establecer los limites de un
estrato, es conveniente evaluar la posibilidad de no subdividirlo y darle el tratamiento co-
rrespondiente a un estrato de alta variabilidad.

V.5 - Cantidad de estratos.


¿Cuántos estratos deben considerarse?
Una gran cantidad de estratos nos permite cumplir más acabadamente con la condición
que los integrantes de un estrato sean similares entre sí y se diferencien de los integrantes de
los otros estratos, por lo que podríamos responder que la cantidad de estratos será la mayor
que podamos establecer con un sustento aceptable.
Pero, por grande que sea la cantidad de estratos, nunca se conseguirá explicar com-
pletamente la "variabilidad" de las observaciones. A partir de cierto momento la variación
"inexplicada" será dominante y es pequeña la ganancia que tendremos introduciendo una
mayor cantidad de estratos. Si consideramos el tema de los costos (ya sea en la selección
como en recolección del dato y en los análisis posteriores de la información) también encon-
traremos que la creación de una gran cantidad de estratos poco aporta con relación a la inver-
sión total.
Siguiendo a Cochran (3) y pensando en términos de "costo/beneficio", es aconsejable
no utilizar mucho más de seis estratos cuando el objetivo es realizar estimaciones que inclu-
yen a la totalidad de los casos. Sin embargo, esta no es una regla que necesariamente debe
seguirse, dependiendo entre otras cosas del grado de asociación de la variable “estratificado-
ra“ con la variable de estudio y de la cantidad de casos que podemos seleccionar por estrato.
Si la asociación es alta, ganaremos con mayor cantidad de estratos. Si la cantidad de casos a
seleccionar en cada estrato es baja, no estará de más dividir a la población en más estratos
para asegurarnos la mayor homogeneidad posible dentro de cada uno de ellos, de forma de
que unos pocos casos por estrato puedan ser representativos sin asumir demasiados riesgos.
Una mayor cantidad de estratos será considerada también cuando el objetivo sea tener infor-
mación de sub-grupos.

Notas:
3 Cochran, W.G., Técnicas de Muestro, pág. 176, Ed. Cecsa, México, 2000
188 - Introducción al muestreo para estudiantes de ciencias sociales

V.6 - Cantidad de casos en cada estrato.

V.6.A - Asignación proporcional y no proporcional


¿Cuántos casos se seleccionaran dentro de cada estrato?
Las observaciones de una muestra estratificada pueden distribuirse en forma propor-
cional al tamaño o peso de los estratos en la población o pueden distribuirse, por distintos
motivos, en forma no proporcional (con igual o desigual cantidad de casos en cada estrato).
En el caso que queramos comparar los resultados de sub-grupos o realizar estimacio-
nes para cada sub-grupo con una precisión mínima, con una asignación proporcional pode-
mos quedarnos sin bases de cálculo suficientes si alguno de ellos es relativamente pequeño.
De acuerdo a los datos del censo 2001, la población que reside en la Patagonia repre-
senta menos del 5% de la población total de la república argentina, mientras que los residen-
tes en el Gran Buenos Aires abarcan a casi el 32% y los de la Región Central el 35%. Si
asignáramos proporcionalmente por región una muestra de n=2000, a la Patagonia le corres-
ponderían 100 casos, al Gran Buenos Aires 640 y a la Región Central 700, repartiéndose los
casos faltantes en las restantes regiones.
Evidentemente, la precisión de las estimaciones para la Patagonia será muy pobre. Si
nuestro interés es contar con estimaciones razonablemente precisas para cada región, sin au-
mentar el tamaño de la muestra total y sin considerar los costos de recolección del dato, ten-
dremos que asignarle más casos a las regiones pequeñas en menoscabo de las mayores. Ha-
ciéndolo con criterio, la pérdida de precisión en las regiones de mayor peso será relativa-
mente pequeña en comparación con la ganancia en las áreas de menor magnitud.
En el cuadro que figura a continuación se observan los máximos errores de estimación
por región para variables de nivel de medición ordinal o menor, con una confianza del
95,5%, con asignación proporcional y no proporcional (en este caso arbitraria), con MAScr
intra-estrato.
Asignación
Región Proporcional No proporcional
n z ( k 2 ) σˆ p n z ( k 2 ) σˆ p
Patagonia 100 10 % 300 5,8 %
Gran Buenos Aires 640 4% 560 4,2 %
Región Central 700 3,8 % 580 4,2 %
El agregarle 200 casos a la Patagonia y restarle 80 al Gran Buenos Aires y 120 a la
Región Central implica una importante ganancia en la estimación de parámetros para la pri-
mera región, sin que la pérdida sea significativa en las otras.
También podremos optar por una asignación igual por estrato, de manera que la preci-
sión de las estimaciones sea similar en todas las regiones. En este caso, en cada una de las 6
grandes áreas de la República Argentina seleccionaremos alrededor de 333 casos, siendo el
máximo error de estimación de casi 5,5 puntos porcentuales en cada una (siempre para varia-
bles de nivel de medición ordinal o menor y con MAScr).
Capítulo V – Muestreo estratificado (borrador)- 189

Si lo que nos interesa son los resultados globales y solo conocemos de los estratos su
tamaño, la distribución proporcional es recomendable. Pero, si además contamos con una es-
timación razonable de la variabilidad de los estratos, a los efectos de mejorar la eficiencia
estadística, podemos realizar una distribución no proporcional.
Para ilustrarlo, pensemos que hemos decido extraer una muestra de 200 casos de una
población de 600 personas para conocer la remuneración mensual media de los operarios de
una empresa manufacturera, y definido dos estratos de trabajadores: los no calificados y los
calificados.
De los primeros sabemos que comprenden al 60% de nuestra población, tienen condi-
ciones y características de trabajo similares y remuneraciones que oscilan entre $500 y $560
mensuales. De los trabajadores calificados sabemos que tienen salarios que oscilan entre
$700 y $1400 a partir de condiciones y calificaciones laborales disímiles.
Estratos
No calificados Calificados
N 360 240
Rango salarios $ 500 / $ 600 $ 700 / $ 1400
Si el muestreo es proporcional deberíamos seleccionar, para la muestra, 120 trabajado-
res no calificados y 80 calificados. Sin embargo, e invocando al sentido común ¿no sería un
desperdicio asignar una muestra de 120 casos al estrato de trabajadores no calificados, cuan-
do con unos pocos casos obtendríamos una medida suficientemente confiable de la media de
su remuneración mensual? ¿No sería entonces también razonable asignar más casos a los tra-
bajadores calificados, ya que dada la variabilidad de su ingreso corremos mayor riesgo de
obtener un valor de la media demasiado alejado del verdadero si trabajamos con poca infor-
mación? La respuesta es, evidentemente, sí.
Pero los trabajadores no calificados son más numerosos y un error en la estimación de
sus parámetros tendrá más influencia en la estimación total que un error en la estimación de
los parámetros de los trabajadores calificados. Surge entonces una pregunta: ¿cuál es la más
ajustada distribución de casos por estratos? ¿Cuál es la distribución óptima que, contemplan-
do el tamaño de los estratos pero también su variabilidad, brinda el menor error estándar po-
sible?

V.6.A.1 - Asignación (afijación) óptima.


Asumiendo que la estratificación fue correctamente establecida, que los costos de la
recolección de datos en cada estrato no son sensiblemente distintos y que el tamaño total de
la muestra es fijo (para cualquier combinación de estratos) la pregunta es: ¿cuántos casos de-
ben asignarse a cada estrato si decidimos realizar una muestra estratificada no proporcional,
y esta decisión no está basada en la necesidad de conocer con determinada precisión las ca-
racterísticas de alguno o todos los estratos, sino en la pretensión de mejorar la eficiencia es-
tadística global?
Ya sea porque las poblaciones son pequeñas o, sobre todo, porque los datos tienen me-
nos variabilidad (poblaciones más "homogéneas"), sabemos que la cantidad de casos necesa-
rios en una muestra será menor sin afectar la eficiencia estadística. Entonces, si las muestras
190 - Introducción al muestreo para estudiantes de ciencias sociales

estratificadas no son más que la suma de muestras aleatorias simples independientes en cada
estrato ¿por qué no aprovechar este conocimiento para optimizar la eficiencia estadística
global de nuestra muestra y asignarle más casos a los estratos más "complejos", reduciendo
los de los estratos menos "complejos", sin dejar de considerar simultáneamente el tamaño de
cada estrato, disminuyendo los errores estándar parciales y llevando el error estándar total a
su mínima expresión?
Veamos distintas alternativas de muestreo utilizadas a los efectos de ir mejorando la
eficiencia estadística. Dijimos que el tamaño de la muestra será 200 casos, con independen-
cia de la técnica de selección utilizada. Supongamos que el investigador extrae una muestra
aleatoria simple, y como tiene suerte, los resultados son absolutamente representativos de la
población (cosa que nosotros conocemos, pero él no).
Muestra de 200 trabajadores al azar simple sin reposición
 x = $ 712,5 s2 = 81.465
El investigador estima ahora mediante intervalo la media de la población para una con-
fianza del 95,5%. Como la población es pequeña, la muestra fue obtenida sin reposición y la
fracción de muestreo es grande, aplica la fórmula:

s2 N − n
IC (µ, 0.955) = x ± z (k/2) σ̂ x = x ± z (k/2) × =
n N
81.465 600 − 200
= 712,5 ± 2 × = $712,5 ± 2 × 16,479 = 712,5 ± 33
200 600
Y llega a la conclusión que la remuneración mensual media, con una confianza del
95,5%, es un valor que está entre $ 679,5 y $ 745,5.
Pero si hubiera sabido que el 60% de los trabajadores no tienen calificación, podría
haber extraído una muestra estratificada proporcional, la que, con un poco de buena fortuna,
arrojaría la siguiente información:
Muestra de 200 trabajadores. Estratificado pro-
porcional
Estrato A (no ca- Estrato B (califi-
lificados) cados)
n 120 80
x $ 520,8 $ 1000
s2 375 65.272
A partir de estos datos calculamos primero la media global de la muestra mediante el
promedio ponderado de las medias de las muestras de los estratos A y B.
x AB = W A . x A + W B . x B = 0,6 × 520,8 + 0,4 × 1000 = 712,5
Luego estimamos puntualmente el error estándar de la distribución muestral de medias
de la muestra. Repasando, para ello se estiman las varianzas de la distribuciones muestrales
correspondientes a las muestras de cada estratos, se las multiplica por el peso al cuadrado del
Capítulo V – Muestreo estratificado (borrador)- 191

estrato, se suman los productos obtenidos para llegar a la estimación de la varianza total de la
distribución muestral y luego se extrae su raíz cuadrada. La fórmula para la estimación del
error estándar, si MASsr intra-estrato, es:

s i2 (N i − n i ) s i2 N i − n i
σ̂ x = ∑W i
2
ni Ni
ó σ̂ x = ∑W i
2
ni
×
Ni
Aplicada a nuestro ejemplo:
WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B )
σ̂ x AB = +
nA NA nBNB
Y remplazando:
0,36 × 375 × (360 − 120) 0,16 × 65.272 × (240 − 80 )
σ̂ x AB = + =
120 × 360 80 × 240
= 0,75 + 87,03 = 87,78 = 9,37
Teniendo ya las estimaciones puntuales de la media de la población y del error están-
dar podemos calcular el error de estimación y por lo tanto el intervalo de confianza:
IC (µ, 0.955) = x AB ± z (k 2 )σ̂ x AB = 712,5 ± 2 × 9,37 = 712,5 ± 18,74

Concluyendo que la remuneración mensual media (con una confianza del 95,5%) es un
valor que está entre $693 y $732, intervalo notablemente más pequeño que el establecido por
la estimación a partir de la muestra aleatoria simple ($679 / $746).
Pero supongamos que el investigador no solo conoce la cantidad de personas incluidas
en cada estrato poblacional sino que además tiene información confiable sobre la variabili-
dad de la remuneración en cada uno de ellos: sabe que la cuasivarianza del estrato A no pue-
de ser superior a 3000 y la del estrato B a 80.000.
Considera que no tiene sentido asignar tantos casos a un estrato con tan poca variabili-
dad como el primero y que podría aumentar la cantidad de casos en el segundo estrato, que
tiene una dispersión mucho mayor, aumentando la eficiencia estadística total. Existen 199
combinaciones posibles de asignación de 200 casos en dos estratos:
Combi- Casos por estrato
nación A B
1 1 199
2 2 198
3 3 197
... ... ...
197 197 3
198 198 2
199 199 1
Una solución, un tanto artesanal, es observar cuál es el resultado de cada una de las
199 combinaciones y elegir la que arroje menor error estándar, pero por suerte existe un me-
192 - Introducción al muestreo para estudiantes de ciencias sociales

canismo que nos permite conocer cuál es la mejor asignación (Fórmula de Neyman) sin tener
que realizar una gran cantidad de cálculos y comparaciones:
Si la selección intra-estrato es aleatoria con reposición, el tamaño del estrato se calcula
mediante la fórmula...
n Wi σ i
ni =
∑ Wiσ i
El tamaño de la muestra para el estrato A está dada por el peso del estrato multiplicado
por su desvío estándar y por el tamaño global de la muestra (WA.σσA.n) y dividido por la suma
de los pesos de todos los estratos multiplicados por sus desvíos estándar correspondientes
ΣWi.σ
(Σ σi).
...y, si la selección es sin reposición, la fórmula es...
n Wi Si
ni =
∑ W i Si
La fórmula de Neyman también es aplicable a las proporciones, remplazando
σi por Pi Q i y S i por Pi Q i N i (N i - 1) , quedando...

n W i Pi Qi
ni = , para la selección con reposición...
∑ Wi ⋅ Pi Qi
n W i Pi Q i N i (N i - 1)
...y n i = para la selección sin reposición.
∑ Wi ⋅ Pi Q i N i (N i - 1)
Como, para la mayoría de las situaciones, el uso de σ i en lugar de S i y de
Pi Q i por Pi Q i N i (N i - 1) no implica diferencias significativas en los resultados, usamos
la fórmula más sencilla para calcular el tamaño óptimo del estrato, en esta caso la que impli-
ca usar S (el cuasi desvío estándar), ya que contamos con la magnitud de la cuasivarianza.
Entonces, si S = S 2 ...
S A = 3000 == 54,7723
S B = 80.000 = 282,8427
...y aplicando la fórmula de Neyman...
n Wi Si
ni =
∑ W iS i
200 × 0,6 × 54,7723 6572,68
nA = = = 45,02
0,6 × 54,7723 + 0,4 × 282,8427 146,0005
Capítulo V – Muestreo estratificado (borrador)- 193

...el investigador resuelve extraer una muestra estratificada con asignación óptima con-
siderando el peso y la variabilidad de cada estrato, donde la cantidad de casos a seleccionar
en el estrato A es 45 y en el estrato B se seleccionaran 155 (n-nA).
Los resultados de esta muestra son los del siguiente cuadro:
Muestra de 200 trabajadores. Estratificado con
afijación óptima
Estrato A (no ca- Estrato B (califi-
lificados) cados)
n 45 155
x $ 520 $ 997,6
s2 365 64.832
Y repitiendo los pasos ya conocidos para la estimación de la media aritmética me-
diante intervalo, para una confianza del 95,5%...
Cálculo de la media global de la muestra:
x AB = W A . x A + W B . x B = 0,6 × 520 + 0,4 × 9 97 , 6 = 711
Estimación puntual del error estándar de la distribución de medias muestrales:

WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B )
σ̂ x AB = + =
nANA nBNB
0.36 × 365 × (360 − 45) 0.16 × 64.832 ÷ (240 − 155)
= + =
45 × 360 155 × 240
= 2,555 + 23,702 = 26,257 = 5,1242
Estimación mediante intervalo de confianza de la media aritmética de la población
IC (µ, 0.955) = x AB ± z (k 2 )σ̂ x AB = 711 ± 2 × 5,1242 = 711 ± 10,25

Y esta vez concluye que la remuneración mensual media, con una confianza del
95,5%, es un valor que está entre $ 700 y $ 722.
Resumiendo, vemos que las estimaciones mediante intervalos de confianza, sin modi-
ficar el riesgo (4,5%) ni la cantidad de casos (n=200), arrojaron los siguientes resultados de-
pendiendo de la técnica de muestreo empleada y la asignación de casos por estrato.
Estratificado propor- Estratificado con asig-
MASsr
cional nación óptima
limite limite limite limite limite limite
inferior superior inferior superior inferior superior
intervalo 679 746 693 732 700 722
error estándar 16,48 9,37 5,13
194 - Introducción al muestreo para estudiantes de ciencias sociales

V.7 - El tamaño de la muestra estratificada.


Nos queda ahora calcular el tamaño de la muestra y de sus estratos cuando se utiliza la
estratificación. Al igual que con el azar simple, queda a criterio del investigador establecer la
confianza y el error de estimación deseados. También deberá realizar una estimación razona-
ble de la variabilidad de todos y cada uno de los estratos.
Tomamos tres criterios de asignación de casos: asignación igual, asignación propor-
cional y asignación óptima (con igualdad de costos para todos los estratos).
Obviamente, en el caso de la asignación igual bastará con un solo cálculo, ya que to-
dos los estratos tendrán asignada igual cantidad de casos, y este resultado se multiplicará por
la cantidad de estratos para llegar al tamaño total de muestra.
En el caso de la asignación proporcional se debe calcular la cantidad de casos a selec-
cionar en cada estrato, y la suma de estos resultados arrojará la cantidad de casos totales de
la muestra.
Para la asignación óptima primero se debe calcular el tamaño de muestra, y posterior-
mente aplicar la fórmula de Neyman a cada uno de los estratos para realizar la distribución
de casos por estrato.
Se recomienda especial atención en la lectura y uso de las fórmulas que se exponen a
continuación. Una mirada apresurada puede llevar a errores, ya que muchas de las medidas y
notaciones son parecidas. Algunas de ellas hacen referencia a información de los estratos (las
que tienen el subíndice i) y otras al total poblacional. En la misma fórmula W puede estar
elevado al cuadrado o no. Hay fórmulas en donde se utiliza el desvío estándar (σ), en otras la
varianza (σ2), la cuasivarianza (S2) o el cuasi desvío estándar (S). Y en algunas se combinan
dos o más de estas medidas.

V.7.A - Tamaño de los estratos para estimación de medias aritméticas.


Selección intra-estrato
MAScr MASsr
asignación ni =
∑W σ i
2
i
2

ni =
∑W S 2 2
i i
2 2
igual    
δ  ∑ WS
2
 δ   + i i
 z   z  N
 (k 2 )   (k 2 ) 
Selección intra-estrato
MAScr MASsr
asignación Wi ∑ Wiσ 2
Wi ∑ WiSi2
proporcio- ni = 2
i
ni = 2
   
 δ  + ∑ WiSi
2
nal  δ 
 z   z  N
 (k 2 )   (k 2 ) 
Capítulo V – Muestreo estratificado (borrador)- 195

Selección intra-estrato
MAScr MASsr

n=
(∑ Wσ ) i i
2

n=
(∑ W S )i i
2

2 2
   
 δ  + ∑ WiSi
asignación 2
 δ 
óptima
 z   z  N
 (k 2 )   (k 2 ) 
nWiσ i nWi S i
ni = ni =
∑ Wiσ i ∑WS i i

V.7.B - Tamaño de los estratos para estimación de totales.


El cálculo del tamaño de los estratos para la estimación de totales se realiza utilizando
las mismas fórmulas del tamaño para la estimación de medias aritméticas, dividiendo el má-
ximo error de estimación deseado por la cantidad total de casos, transformando la expre-
sión...
2 2
   
 δ  δ N
 z  en  z 
(k )
 2   (k 2 ) 
Así, por ejemplo, la fórmula para determinar el tamaño mínimo de la muestra de un
estrato en particular para realizar una estimación del total con un error y una confianza de-
terminadas, mediante estratificación proporcional con MASsr intra-estrato queda...
Wi ∑ WiSi2
ni = 2
 
 δ/N  + ∑ WiSi
2

 z  N
 (k 2 ) 
V.7.C - Tamaño de los estratos para estimación de proporciones.
Selección intra-estrato
MAScr MASsr
Wi2 PiQi Ni
asignación ∑ W PQ 2
∑ N −1
ni = i i
2
i
ni = i
igual   Pi Qi N i
 δ   ∑ Wi
2

 z   δ  + Ni − 1
 (k 2 )   z  N
 (k 2 ) 
196 - Introducción al muestreo para estudiantes de ciencias sociales

Selección intra-estrato
MAScr MASsr
Wi Pi Qi N i
asignación Wi ∑ Wi PiQi Wi ∑
ni = N1 − 1
proporcio- 2 ni =
  Wi PiQi Ni
 ∑
nal  δ  2

 z   δ  + Ni − 1
 (k 2 )   z  N
 (k 2 ) 

Selección intra-estrato
MAScr MASsr
2
 PiQi Ni 
n=
(∑ W i Pi Qi )2
 ∑ Wi

 N i − 1 
 
2 n=
Wi PiQi N i
 δ   ∑
2

asignación  z   δ  + Ni - 1
óptima  (k 2 )   z  N
 (k 2 ) 
Pi Q i N i
nWi
nWi Pi Q i Ni -1
ni = ni =
∑W i Pi Q i
∑W i
Pi Q i N i
Ni -1

Regla práctica: Teniendo en cuenta que, para fracciones de muestreo pequeñas, el


realizar operaciones con N-1 o N es prácticamente indistinto, en la mayoría de los casos y
cuando la selección intra-estrato es al azar simple sin reposición se pueden utilizar fórmulas
simplificadas. Ellas son:
Fórmulas simplificadas para determinar el tamaño de los estratos (para estimación de pro-
porciones) en el muestreo estratificado con selección intra-estrato MASsr
asignación igual asignación proporcional asignación óptima
(estrato) (estrato) (total muestra)

ni = ∑W PQ 2
i i i
ni =
Wi ∑ Wi Pi Q i
n=
(∑ W i PiQi )
2

2 2 2
     
 δ  ∑W PQ  δ  + ∑ Wi Pi Qi  δ  + ∑ Wi Pi Qi
 z  + i i i
 z 
N N  z 
 (k 2 )   (k 2 )   (k 2 ) 
N

Veamos un ejemplo sobre el uso de las formulas exactas y las fórmulas simplificadas.
Supongamos la siguiente población, de la que conocemos su tamaño y una estimación razo-
nablemente del porcentaje de aparición de un determinado atributo (P).
Capítulo V – Muestreo estratificado (borrador)- 197

Estratos
Total
A B C
W 1 0,32 0,43 0,25
N 2000 640 860 500
P 40% 81% 21% 21%
Si queremos establecer el tamaño mínimo de los estratos para poder realizar estima-
ciones mediante intervalos con una confianza del 95% y un error de estimación no mayor a 4
pp., bajo el supuesto que la selección intra-estrato se realizará mediante MASsr, podemos
usar la fórmula exacta...
Wi Pi Qi N i
Wi ∑
N1 − 1
ni =
Wi PiQi N i
 ∑
2

 δ  + Ni − 1
 z  N
 (k 2 ) 
...la que, aplicada al estrato A:
 0,32 × 81× 19 × 640 0,43 × 21× 79 × 860 0,25 × 21 × 79 × 500 
0,32 ×  + + 
nA =  639 859 499  =
0,32 × 81 × 19 × 640 0,43 × 21 × 79 × 860 0,25 × 21× 79 × 500
2 + +
 4  639 859 499
  +
 1,96  2000
0,32 × (493,2507042 + 714,2004657 + 415,5811623) 519,3703463
= = = 104,4
4,164931279 + 0,811516166 4,976447445

...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos
estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C, siendo el ta-
maño total de la muestra de 328 casos.
Usemos ahora la fórmula simplificada:
Wi ∑ Wi Pi Qi
ni = 2
 
 δ  + ∑ Wi Pi Q
 z  N
 (k 2 ) 
0,32 × (0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79 )
nA = 2
=
 4  0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79
  +
 1,96  2000
0,32 × 1620,6 518,592
= = = 104,2
4,164931279 + 0,8103 4,975231279
198 - Introducción al muestreo para estudiantes de ciencias sociales

...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos
estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C. El tamaño
total de la muestra es, también, de 328 casos.
Solamente podríamos observar la diferencia entre uno u otro resultado en las centési-
mas. Para poblaciones de mayor magnitud la diferencia en el uso de una u otra fórmula para
calcular el tamaño de los estratos es todavía más irrelevante en lo que hace a la ulterior esti-
mación. Tengamos en cuenta, además, que hemos usado a modo de ejemplo un tamaño, tanto
para la población total como para los estratos, desacostumbradamente pequeño en la investi-
gación social, mientras que la confianza y el margen de error son de uso habitual.
También, a los efectos prácticos y con N grande, es indistinto el uso de σ i ó S i

V.7.C.1 - Asignación óptima atendiendo al costo


Una variante de la asignación óptima es la que considera al costo de cada caso dentro
del estrato.
No es un tema menor, ya que en lo cotidiano el tamaño de la muestra suele estar con-
dicionado por los recursos disponibles. Pero debe prestarse cuidado al determinar el tamaño
de los estratos atendiendo al costo, ya que presupuestos reducidos y diferencias importantes
de costo para cada estrato pueden llevar a tamaños de muestras alejados de los objetivos es-
tadísticos pretendidos.
En parte de la bibliografía se considera al costo total (C)como resultado de las funcio-
nes:
C = ∑ n i ci ó C = Cf + ∑ n i ci
...donde Cf, ni y ci representan, respectivamente, la totalidad de los costos fijos, la can-
tidad de casos por estrato y el costo por caso del estrato sin incluir los costos fijos. La rique-
za de situaciones no puede ser contemplada acabadamente por las fórmulas expuestas, sobre
todo cuando los gastos generados por traslados, viajes, alojamiento y viáticos son importan-
tes.
Hecha la salvedad, sin considerar a los costos fijos (o asumiento que fueron correcta-
mente imputados a cada estrato) y bajo el supuesto que el costo por caso es razonablemente
homogéneo dentro de cada estrato, el tamaño óptimo de la muestra global (n) se definirá de-
pendiendo de si deseamos maximizar la precisión y la confianza para un costo determinado,
o disminuir el costo para una precisión y confianza determinadas. Después de definir el ta-
maño óptimo de n, según el objetivo, se procede al cálculo de los n correspondientes a los
estratos.
Las fórmulas, para ambos objetivos y dependiendo del tipo de selección intra-estrato,
son las siguientes:
Capítulo V – Muestreo estratificado (borrador)- 199

maximizar precisión a Selección intra-estrato


partir de un costo total
dado MAScr MASsr
C∑ Wi σ i ci C∑ WiSi ci
calculo de n n= n=
∑W σ i i ci ∑WS i i ci
nWi σ i ci nWi S i ci
cálculo de ni (estrato) ni = ni =
∑Wσ i i ci ∑WS i i ci
Minimizar costos a
Selección intra-estrato
partir de error de esti-
mación y nivel de con-
MAScr MASsr
fianza dados.

n=
(∑ W σ i i ci )∑ W σ i i ci
n=
(∑ W S i i ci )∑ W S i i ci
 ∑ Wi Si
2 2 2
calculo de n  δ   δ
    +
 z (k 2 )   z (k 2 )  N
nWi σ i ci nWi S i ci
cálculo de ni (estrato) ni = ni =
∑Wσ i i ci ∑WS i i ci

Las mismas fórmulas son aplicables para variables de nivel de medición nominal u or-
dinal...
...reemplazando por
σi Pi Q i
Pi Q i N i
Si
N i −1
Pi Q i N i
S i2
N i −1

y recordando que, para tamaños de N y Ni grandes, el uso de σ i ó S i es indistinto a los


Pi Q i N i
efectos prácticos, así como también el uso de Pi Q i ó
N i −1

V.8 - Algunas precauciones a tener en cuenta con la estratificación.


Considerando las dificultades teóricas y prácticas para su implementación la estratifi-
cación no es la panacea universal (mucho menos en la investigación social). Por un lado,
comparte con el muestreo aleatorio simple la necesidad de contar con un marco muestral ra-
zonablemente completo. A ello hay que agregarle un satisfactorio conocimiento de los prin-
200 - Introducción al muestreo para estudiantes de ciencias sociales

cipales aspectos de la población y del tipo y características de la asociación de las variables


en estudio con otras cuya distribución nos sea conocida o calculable.
La estratificación es una herramienta poderosa que permite mejorar sensiblemente la
precisión de las estimaciones. Y, si no pretendemos disminuir la precisión, posibilita bajar los
costos de la investigación (y aumentar el control del error no muestral) al reducir la cantidad
de casos necesarios. Pero esta última ventaja es también, en ocasiones, una tentación peligro-
sa.
Si la decisión de no proporcionar la muestra se basa en la necesidad de contar con es-
timaciones más precisas para algunos de los estratos, o atiende a consideraciones operativas
o de costos, el resultado final dependerá de estos requisitos y no hay nada que objetar enton-
ces. Pero si lo hacemos deseando una mayor eficiencia estadística global hay que tomar
ciertas precauciones, ya que una incorrecta asignación de casos a cada estrato puede llevar a
resultados contrarios a los buscados.
Una estratificación puede ser buena o mala, útil o inútil, y solo lo sabremos con certe-
za cuando tengamos los datos finales tabulados. Si hemos realizado una estratificación previa
es porque tenemos sólidas razones para pensar que las características de los elementos de un
estrato son relativamente similares entre sí y se diferencian sensiblemente de las de los com-
ponentes de los otros estratos. Si ello no es así, la estratificación habrá sido, cuanto menos,
innecesaria.
Respetando la proporcionalidad, una mala estratificación llevará, en la mayoría de los
casos, a que los valores de la estimación global sean similares a los que se hubieran conse-
guido a través del azar simple. Si el investigador no se comprometió a brindar estimaciones
con menores errores o riesgos que los obtenibles mediante este último método, o no decidió
restringir la cantidad total de casos basado en la mayor eficiencia estadística esperada, sim-
plemente habrá perdido tiempo, esfuerzo y los costos derivados de obtener y procesar la in-
formación necesaria para la estratificación (los que, en su conjunto, suelen no ser desprecia-
bles).
El problema es más serio con una muestra estratificada no proporcional. Ya sea por de-
fectos de la estratificación o por una errónea asignación de casos en los estratos a partir de
una mala información sobre la variabilidad, la eficiencia estadística puede llegar a ser sensi-
blemente menor que la de un muestreo aleatorio simple, con las consecuencias imaginables.
Veamos el siguiente ejemplo, con una selección al azar simple con reposición para ha-
cer los cálculos sencillos. Se trata de una muestra de 1.000 casos que se distribuyó propor-
cionalmente en dos estratos. La estratificación es incorrecta (o al menos inútil), ya que la
cuasivarianza del estrato A es apenas un poco menor que la del total y la del estrato B es su-
perior a la del total.
Capítulo V – Muestreo estratificado (borrador)- 201

Estratos
Total
A B A+B
W 1 0.8 0.2
n 1000 800 200
s2 920,497879 907,152344 935,159722
s2
σ̂ 2x = 0,92049788
n
s2
σ̂ x = 0,9594
n
s i2
Wi2 0,72572188 0,18703194
ni
s i2
σ̂ 2x = ∑W i
2
ni
0,91275382

s i2
σ̂ x = ∑W i
2
ni
0,9554

Como resultado de ello, el error estándar calculado a partir de la estratificación


(0,9554) es similar al de una selección al azar simple sobre el total de casos (0,9594).
Supongamos ahora que la distribución de casos, a partir de supuestos erróneos sobre la
variabilidad de los estratos o por razones de costo, no es proporcional. Mantenemos los mis-
mos estadísticos para cada estrato, pero invertimos la asignación de casos.
Estratos
A B A+B
W 0.8 0.2
n 200 800
s2 907,152344 935,159722
s2
Wi2 i 2,9028875 0,04675799
ni
s i2
σ̂ 2x = ∑W i
2
ni
2,94964549

s i2
σ̂ x = ∑W i
2
ni
1,7175

El error estándar calculado a partir de la estratificación (1,7175) es ahora significati-


vamente mayor al que se habría obtenido con una selección al azar simple sobre el total de
casos.
Y todavía podemos pensar ejemplos con consecuencias peores: construir un estrato
pequeño de baja variabilidad y uno grande de alta variabilidad, asignando los casos en forma
inversa o, más grave aún, disminuir la cantidad de casos bajo la convicción de que la estrati-
ficación es útil y la asignación correcta, y descubrir, luego de recolectar la información, que
los dos supuestos eran falsos. En el último cuadro, de haber reducido la muestra a la mitad
(cosa que una buena estratificación y asignación puede permitir), el error estándar global as-
cendería a 2,4.
202 - Introducción al muestreo para estudiantes de ciencias sociales

Debemos tener en cuenta que la mayoría de la veces las variables “estratificadoras”,


aunque vinculadas con el fenómeno investigado, no lo explican en su totalidad ni mucho me-
nos.
Para decirlo de otra forma y aplicando estas ideas a un sondeo pre-electoral, sabemos
que el nivel socioeconómico, la edad, el sexo, la región de residencia y otros atributos están
vinculados con la intención de voto. Podemos decir, por ejemplo, que la probabilidad de ads-
cripción a un determinado partido político de un varón joven, de nivel socioeconómico bajo
y residente en una zona semi-rural del noreste es mayor que la de una mujer adulta, de nivel
socioeconómico medio-alto y que reside en una gran ciudad de la región central. Pero, ¿co-
nocemos con precisión estas asociaciones? ¿Estamos convencidos que las variables conside-
radas explican, al menos gran parte, lo que queremos averiguar? ¿Sabemos tanto de su mag-
nitud y características como para arriesgarnos a disminuir significativamente el tamaño de la
muestra a partir de una ajustada estratificación y asignación?
Si la respuesta es sí, ¿para qué hacer entonces el estudio si estamos en condiciones de
predecir los resultados a partir de las variables conocidas? Si la respuesta es no, realicemos
entonces la estratificación bajo la convicción de que tenemos una alta probabilidad de mejo-
rar los estimadores, pero no asumamos el riesgo de disminuir la cantidad de casos.
Seguramente, si el MASsr nos exige realizar 1.000 casos para poder realizar estima-
ciones con un intervalo de confianza determinado, no nos equivocaremos si, a “ojo de buen
cubero” y siguiendo con el ejemplo, decidimos que, con una buena estratificación que consi-
dere a todas las variables mencionadas, cumpliremos holgadamente los requisitos con solo
900 o menos casos. ¿Pero, cuán significativa es esta diferencia? ¿Se justifica la reducción del
costo, sobre todo teniendo en cuenta que la recolección de los datos es solo un aspecto del
costo total y que su disminución no afecta proporcionalmente al resto de los factores? (4). La
decisión dependerá de cada investigación en particular.
Además, habitualmente hay interés en conocer el comportamiento de más de una va-
riable y una buena estratificación para la principal o más importante de las variables no nece-
sariamente sirve para otras. Cuando se decide estratificar con el objetivo de mejorar la esti-
mación de más de una variable se debe llegar a una situación de compromiso o equilibrio pa-
ra las variables más relevantes.
Todo ello nos lleva a la conclusión que, en líneas generales, no es conveniente utilizar
la estratificación para disminuir la cantidad de casos de una muestra con la pretensión de no
Notas:
4 Los recursos disponibles no son un aspecto menor de la investigación y la mayoría de las veces apare-
cen como el factor no estadístico más limitante del diseño muestral. Sin embargo, una reducción de la cantidad de
casos no afecta sensiblemente a los otros factores. El diseño general de la investigación, del instrumento de reco-
lección (por ejemplo, un cuestionario), las “pruebas piloto”, el diseño muestral, el análisis de los datos, la elabora-
ción de conclusiones y la confección del informe y su presentación son algunos de los aspectos muchas veces no
afectados, en términos de costo, por el tamaño de la muestra. En el procesamiento estadístico suele no haber dife-
rencias sensibles a partir de cierta cantidad de casos (salvo en lo que hace al ingreso de datos). Incluso costos
más directamente vinculados con la recolección, como la coordinación y supervisión del trabajo de campo, no ne-
cesariamente guardan una relación directa con la cantidad de casos a relevar, sin considerar la infinidad de costos
fijos e indirectos que pueden existir y que tampoco se modifican.
Capítulo V – Muestreo estratificado (borrador)- 203

modificar la confianza o precisión de los estimadores, salvo que estemos absolutamente con-
vencidos que la asociación entre las variables “estratificadoras” y las variables a investigar es
suficientemente fuerte y teniendo un buen conocimiento teórico de la características de la
relación como para calcular y justificar la reducción de casos.
204 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercitación

Ejercicio 1
El siguiente cuadro contiene la distribución de hogares de la localidad F, por nivel so-
cioeconómico, incluyendo una estimación razonable del máximo desvío estándar posible de
ingresos mensuales por hogar para cada nivel.
Nivel socioeconómico N W máximo σ estimado
Bajo 5200 0,52 $ 400
Medio 3200 0,32 $ 700
Alto 1600 0,16 $ 900
Se desea realizar una investigación mediante muestreo estratificado por nivel socioe-
conómico para determinar el promedio de ingresos por hogar de la localidad F, con un error
de estimación que no supere los $ 65 y un riesgo máximo del 5%. Con el mismo riesgo se de-
sea, adicionalmente, conocer el grado de aceptación de los jefes de hogar del plan de obras
públicas propuesto por el municipio para el año venidero, con un error de estimación global
no superior a 5 puntos porcentuales y sabiendo que en los niveles socioeconómicos bajo y
medio la aceptación de los jefes de hogar no es inferior al 70 %.
Bajo el supuesto de una selección intra-estrato aleatoria con reposición, se debe de-
terminar el tamaño del total de la muestra (y de cada estrato), para una afijación...
(1.1.1) igual, para estimar la media de ingresos mensuales de los hogares.
(1.1.2) igual, para estimar el grado de aceptación del plan de obras públicas
(1.2.1) proporcional, para estimar la media de ingresos mensuales de los hogares.
(1.2.2) proporcional, para estimar el grado de aceptación del plan de obras públicas
(1.3.1) óptima sin considerar el costo, para estimar la media de ingresos mensuales de
los hogares.
(1.3.2) óptima sin considerar el costo, para estimar el grado de aceptación del plan de
obras públicas.
Capítulo V – Muestreo estratificado (borrador)- 205

Resolución del ejercicio 1


(1.1.1) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato
MAScr) para la media de ingresos...

ni =
∑W σ i
2
i
2

2
 
 δ 
 z 
 (k 2 ) 
Desarrollo del dividendo
NSE Wi σi2 Wi2σi2
Bajo 0,52 160000 43264
Medio 0,32 490000 50176
Alto 0,16 810000 20736
Σ 114176
114176 114176
ni = 2
= = 103,815035
 65  1099,80217
 
 1,96 
En cada estrato se deberán seleccionar (MAScr) 104 hogares, por lo que el total de la
muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 312 ho-
gares.
(1.1.2) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato
MAScr) para el grado de aceptación...

ni =
∑W P Q 2
i i i
2
 
 δ 
 z 
 (k 2 ) 
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Desarrollo del dividendo
NSE Wi2 PiQi Wi2PiQi
Bajo 0,2704 2100 567,84
Medio 0,1024 2100 215,04
Alto 0,0256 2500 64
Σ 846,88
206 - Introducción al muestreo para estudiantes de ciencias sociales

846,88 846,88
ni = 2
= = 130,1
 5  6,5077
 
 1,96 
En cada estrato se deberán seleccionar (MAScr) 131 hogares, por lo que el total de la
muestra para estimar el grado de aceptación en las condiciones solicitadas será de 393 hoga-
res.
(1.2.1)Cálculo del tamaño de los estratos con afijación proporcional (selección intra-
estrato MAScr) para la media de ingresos...
Wi ∑ Wiσ i2
ni = 2
 
 δ 
 z 
 (k 2 ) 
Desarrollo

2
Wi ∑ Wiσ i2
NSE Wi σi2 Wiσi2 Wi ΣWiσi2 (δ z(k/2))
(δ z(k/2)) 2
Bajo 0,52 160000 83200 192192 1099,80217 174,8
Medio 0,32 490000 156800 118272 1099,80217 107,5
Alto 0,16 810000 129600 59136 1099,80217 53,8
Σ 369600
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 175 hogares, en el
nivel medio 108 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para
estimar el promedio de ingresos en las condiciones solicitadas será de 337 hogares.
(1.2.2) Cálculo del tamaño de los estratos con afijación proporcional (selección intra-
estrato MAScr) para el grado de aceptación...
Wi ∑ Wi PiQi
ni = 2
 
 δ 
 z 
 (k 2 ) 
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Capítulo V – Muestreo estratificado (borrador)- 207

Desarrollo
Wi ∑ Wi Pi Qi
NSE Wi PiQi WiPiQi Wi ΣWiPiQi (δ z(k/2)) 2
(δ z(k/2)) 2
Bajo 0,52 2100 1092 1125,28 6,5077051 172,9
Medio 0,32 2100 672 692,48 6,5077051 106,4
Alto 0,16 2500 400 346,24 6,5077051 53,2
Σ 2164
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 173 hogares, en el
nivel medio 107 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para
estimar el promedio de ingresos en las condiciones solicitadas será de 334 hogares.
(1.3.1) Cálculo del tamaño de los estratos con afijación óptima (selección intra-
estrato MAScr) para la media de ingresos...
A diferencia de los puntos anteriores, primero se debe calcular el tamaño total de la
muestra...

n=
(∑ W σ ) i i
2

2
 
 δ 
 z 
 (k 2 ) 
Desarrollo del dividendo
NSE Wi σi Wiσi
Bajo 0,52 400 208
Medio 0,32 700 224
Alto 0,16 900 144
Σ Wiσi 576
(Σ Wiσi)2 331776
331776 331776
n= 2
= = 301,67
 65  1099,8022
 
 1,96 
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos
según la fórmula de Neyman.
nWiσ i
ni =
∑ Wiσ i
208 - Introducción al muestreo para estudiantes de ciencias sociales

Desarrollo
NSE Wi σi Wiσi nWiσi nWiσi/ΣWiσi
Bajo 0,52 400 208 62747,1105 108,9
Medio 0,32 700 224 67573,8113 117,3
Alto 0,16 900 144 43440,3073 75,4
Σ 576
Los 303 hogares a seleccionar para estimar el promedio de ingresos en las condiciones
solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 109 hoga-
res, en el nivel medio 118 hogares y en el nivel alto 76 hogares.
(1.3.2) Cálculo del tamaño de los estratos con afijación óptima (selección intra-
estrato MAScr) para el grado de aceptación...
Cálculo del tamaño total de la muestra...

( W
n= ∑ i Pi Qi )2

2
 
 δ 
 z 
 (k 2 ) 
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel
socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Desarrollo del dividendo

NSE Wi Pi Q i Wi Pi Q i
Bajo 0,52 45,8257569 23,8293936
Medio 0,32 45,8257569 14,6642422
Alto 0,16 50 8
∑ Wi Pi Q i 46,4936358

(∑ W i Pi Q i )
2
2161,65817

2161,65817 2161,65817
n= 2
= = 332,169042
 5  6,5077
 
 1,96 
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos
según la fórmula de Neyman.

nWi Pi Q i
ni =
∑W i Pi Q i
Capítulo V – Muestreo estratificado (borrador)- 209

Desarrollo
nWi Pi Q i
NSE Wi Pi Q i Wi Pi Q i nWi Pi Q i
∑W i Pi Q i
Bajo 0,52 45,8257569 23,8293936 7915,386838 170,2
Medio 0,32 45,8257569 14,6642422 4871,007285 104,8
Alto 0,16 50 8 2657,352332 57,2
Σ 46,4936358
Los 334 hogares a seleccionar para estimar el promedio de ingresos en las condiciones
solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 171 hoga-
res, en el Nivel medio 105 hogares y en el nivel alto 58 hogares.

Ejercicio 2
Debiendo efectuarse una sola muestra para estudiar simultáneamente las dos variables
contempladas en el ejercicio 1, se debe...
(2.1) ...compatibilizar los resultados de los ejercicios (1.1.1) y (1.1.2)
(2.2) ...compatibilizar los resultados de los ejercicios (1.2.1) y (1.2.2)
(2.3) ...compatibilizar los resultados de los ejercicios (1.3.1) y (1.3.2)
...es decir, se debe obtener una sola muestra para cada tipo de asignación (igual, pro-
porcional y óptima) que cumpla con los objetivos planteados para ambas variables.
Una vez respondido el ejercicio y cotejados los resultados, se recomienda no pasar por
alto los comentarios adicionales al final de la resolución del ejercicio 2.
Resolución del ejercicio 2
(2.1) Asignación igual
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
Los resultados de los ejercicios (1.1.1) y (1.1.2) son:
NSE n para muestra estratificada con asignación igual
(1.1.1) ingresos... (1.1.2) aceptación... ambas
Bajo 104 131 131
Medio 104 131 131
Alto 104 131 131
Total 312 393 393
210 - Introducción al muestreo para estudiantes de ciencias sociales

(2.2) Proporcional
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
NSE n para muestra estratificada con asignación proporcional
(1.2.1) ingresos... (1.2.2) aceptación... ambas
Bajo 175 173 175
Medio 108 107 108
Alto 54 54 54
Total 337 334 337

(2.3) Optima
Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen
total y por estrato, se adopta para cada estrato el mayor tamaño exigido.
NSE n para muestra estratificada con asignación óptima
(1.3.1) ingresos... (1.3.2) aceptación... ambas
Bajo 109 171 171
Medio 118 105 118
Alto 76 58 76
Total 303 334 365

Comentarios sobre el ejercicio 2


Obsérvese, a partir de los resultados del ejercicio, que una buena asignación para una
variable no necesariamente es adecuada para otra.
Obsérvese tambien que...
...para los ingresos del hogar...
n asignación n asignación n asignación óp-
> >
proporcional igual tima
...mientras que para la aceptación del plan de obras públicas...
n asignación n asignación n asignación óp-
> =
igual proporcional tima
Habitualmente la asignación igual es menos eficiente que la asignación proporcional.
El que la asignación proporcional arroje un tamaño de muestra mayor que el de la asignación
igual para los ingresos del hogar se debe a que la variabilidad estimada es menor en el estrato
de mayor peso y, a la inversa, mayor en el de menor peso, compensándose mutuamente y ha-
ciendo que la asignación igual sea más eficiente que la proporcional.
Con el grado de aceptación del plan de obras públicas sucede algo similar
(−V+W/+V−W) pero la diferencia de variabilidad no es tan relevante como para compensar
las diferencias de peso, y por lo tanto la asignación igual no es más eficiente que la propor-
cional. Por lo general, cuando de variables nominales u ordinales se trata, las diferencias de
variabilidad en los estratos deben ser grandes para tener infuencia en las asignaciones, no
Capítulo V – Muestreo estratificado (borrador)- 211

siendo demasiado notables los cambios entre la asignación proporcional y la óptima en lo


que hace al total de casos.
Que un estrato tenga, en una variable intervalar, una variabilidad 10 veces mayor que
la de otro no es una situación demasiado atípica. Pero, para una variable nominal, es extraño
que la variabilidad de un estrato sea 1,5 veces mayor que la de otro. Para los datos que usa-
mos en el ejercicio, la varianza de los ingresos de los hogares del nivel socioeconómico alto
es 810.000, cinco veces mayor que la varianza de los ingresos de los hogares de nivel socioe-
conómico bajo (160.000), mientras que la varianza del grado de aceptación del plan de obras
públicas (P × Q) en el nivel socioeconómico alto es 2.500, solo 1,2 veces mayor que la va-
rianza en los niveles medio y bajo (2.100).
Para dar una respuesta al tamaño de la muestra y sus estratos cumpliendo con los ob-
jetivos planteados para dos variables distintas, se parte del supuesto que las muestras necesa-
rias para cada variable no difieren significativamente en su volumen y distribución interes-
trato, adoptándose una salida un tanto simple y lineal que consiste en la asignar a cada es-
trato la mayor cantidad de casos exigida en una u otra variable. Sin embargo, la afirmación
de estar trabajando con magnitudes similares es bastante discutible y relativa, ya que depen-
de del costo de cada caso. Una diferencia pequeña puede ser importante si el costo de reco-
lección de los datos es considerable. Cuando las diferencias para distintas variables son rele-
vantes se trata de llegar a alguna solución de compromiso que, inevitablemene, afectará en
mayor o menor medida a la precisión de la estimación de la mayoría de las variables (cuando
no a todas). De cualquier forma, cambios pequeños en la afijación óptima no modifican se-
riamente la estimación final.
Para una apreciación formal sobre este problema, se puede consultar, entre otros, a
Cochran, William (Técnicas de Muestreo, Cecsa, México, 2000, Capítulo 5A, puntos 5A.3 y
5A.4).

Ejercicio 3
Sabiendo que el costo de cada caso para el nivel socioeconómico bajo es $ 20, para el
nivel socioeconómico medio $ 40 y para el alto $ 80, considerando la información y objeti-
vos de estimación utilizados en el ejercicio 1 y bajo el el supuesto de una selección intra-
estrato aleatoria con reposición, se debe determinar el tamaño del total de la muestra (y de
cada estrato), para una afijación...
(3.1) óptima,minimizando el costo total, para estimar la media de ingresos mensuales
de los hogares.
(3.2) óptima, maximizando la precisión a partir de un costo total de $9.000, para esti-
mar para estimar la media de ingresos mensuales de los hogares.
212 - Introducción al muestreo para estudiantes de ciencias sociales

Resolución del ejercicio 3


(3.1) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima
(selección intra-estrato MAScr), minimizando el costo total, para la media de ingresos...
Cálculo del tamaño total de la muestra minimizando costos a partir de error de esti-
mación y nivel de confianza dados....

n=
(∑ W σ i i ci )∑ W σ i i ci
2
 δ 
 
 z (k 2 ) 
Desarrollo
NSE Wi σi ci ($) Wiσi ci Wi σ i c i Wi σ i ci
Bajo 0,52 400 20 208 4,47213595 930,204279 46,5102139
Medio 0,32 700 40 224 6,32455532 1416,70039 35,4175098
Alto 0,16 900 80 144 8,94427191 1287,97516 16,0996894
Σ 3634,87983 98,0274132
(∑ W σ i i ci )∑ Wi σ i c i 356317,8664
2
 δ z  1099,802166
 ( k 2) 
(∑ W σ i i )
c i ∑ Wi σ i ci (δ z (k 2 ) )
2
323,9836014

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.

nWi σ i ci
ni =
∑Wσ i i ci
Desarrollo
nWi σ i ci
NSE Wi σi ci ($) Wi σ i ci n Wi σ i ci
∑ Wi σ i c i
Bajo 0,52 400 20 46,5102139 15068,54661 154
Medio 0,32 700 40 35,4175098 11474,69237 117
Alto 0,16 900 80 16,0996894 5216,035365 53
Σ 98,0274132 Σ 324
Capítulo V – Muestreo estratificado (borrador)- 213

(3.2) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima
(selección intra-estrato MAScr), maximizando la precisión a partir de un costo total dado,
para la media de ingresos...
Cálculo del tamaño total de la muestra maximizando la precisión a partir de un costo
total determinado....
C∑ Wi σ i ci
n=
∑W σ i i ci
Desarrollo
NSE Wi σi ci ($) Wiσi ci Wi σ i c i
Bajo 0,52 400 20 46,5102139 930,204279
Medio 0,32 700 40 35,4175098 1416,70039
Alto 0,16 900 80 16,0996894 1287,97516
Σ 98,0274132 3634,87983
C∑ Wi σ i ci
242,7168877
∑Wσ i i ci

Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.

nWi σ i ci
ni =
∑Wσ i i ci
Desarrollo
nWi σ i ci
NSE Wi σi ci ($) Wi σ i ci n Wi σ i ci
∑ Wi σ i c i
Bajo 0,52 400 20 46,5102139 11288,81437 114
Medio 0,32 700 40 35,4175098 8596,427748 88
Alto 0,16 900 80 16,0996894 3907,666514 40
Σ 98,0274132 Σ 242
214 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercicio 4
A partir de los datos dados en la formulación y los obtenidos en el desarrollo de los
ejercicios, estimar mediante intervalos y para una confianza del 95%, la media mensual de
ingresos de los hogares (bajo el supuesto de MAScr intra-estrato) de la población en estu-
dio...
(4.1) Con la muestra obtenida en el ejercicio (1.1.1).
(4.2) Con la muestra obtenida en el ejercicio (1.2.1).
(4.2) Con la muestra obtenida en el ejercicio (1.3.1).
(4.3) Con la muestra obtenida en el ejercicio (3.1).
(4.4) Con la muestra obtenida en el ejercicio (3.2).
...si los datos obtenidos fueran...
Nivel socioeconómico xi si2
Bajo $ 625 160.000
Medio $ 1450 490.000
Alto $ 3175 810.000

Resolución del ejercicio 4


El primer paso consiste en estimar puntualmente la media de ingresos de los hogares,
lo que haremos una sola vez para todas las muestras, ya que lo único necesario es contar con
las medias observadas en cada estrato y su respectivo peso, los que no varían de muestra a
muestra.
x BMA = WB x B + WM x M + WA x A
Desarrollo
Nivel socioeconómico Wi xi Wi x i
Bajo 0,52 $ 625 $ 325
Medio 0,32 $ 1450 $ 464
Alto 0,16 $ 3175 $ 508
µ̂ = ∑ Wi x i = $ 1297
A continuación debemos estimar el error estándar global de cada muestra. Como en su
fórmula intervienen la cantidad de casos seleccionados en los estratos, su cálculo debe reali-
zarse por separado para cada una de ellas.

s i2
σ̂ x = ∑ Wi2
ni
Capítulo V – Muestreo estratificado (borrador)- 215

(4.1) Para afijación igual, n obtenido en el ejercicio (1.1.1).


Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 104 0,52 0,2704 160.000 1538,46154 416
Medio 104 0,32 0,1024 490.000 4711,53846 482,461538
Alto 104 0,16 0,0256 810.000 7788,46154 199,384615
W 2s 2
∑ i i = 1097,84615
ni
Wi2 s i2
∑ = 33,1337615
ni

Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9

(4.2) Para afijación proporcional, n obtenido en el ejercicio (1.2.1).


Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 175 0,52 0,2704 160.000 914,285714 247,222857
Medio 108 0,32 0,1024 490.000 4537,03704 464,592593
Alto 54 0,16 0,0256 810.000 15000 384
2 2
W s
∑ i i = 1095,81545
ni
Wi2 s i2
∑ = 33,1031033
ni

Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,10 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
216 - Introducción al muestreo para estudiantes de ciencias sociales

(4.3) Para afijación óptima sin considerar el costo, n obtenido en el ejercicio (1.3.1).
Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 109 0,52 0,2704 160.000 1467,88991 396,917431
Medio 118 0,32 0,1024 490.000 4152,54237 425,220339
Alto 76 0,16 0,0256 810.000 10657,8947 272,842105
W 2s 2
∑ i i = 1094,97988
ni
Wi2 s i2
∑ = 33,0904801
ni

Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,09 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9

(4.4) Para afijación óptima minimizando el costo, n obtenido en el ejercicio (3.1).


Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 154 0,52 0,2704 160.000 1038,96104 280,935065
Medio 118 0,32 0,1024 490.000 4152,54237 425,220339
Alto 53 0,16 0,0256 810.000 15283,0189 391,245283
W 2s 2
∑ i i = 1097,40069
ni
Wi2 s i2
∑ = 33,1270386
ni

Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9
límite inferior límite superior
1232,1 1361,9
Capítulo V – Muestreo estratificado (borrador)- 217

(4.5) Para afijación óptima minimizando la variabilidad con un costo total fijo, n ob-
tenido en el ejercicio (3.2).
Nivel socioe-
ni Wi Wi2 si2 si2/ni Wi2si2/ni
conómico
Bajo 114 0,52 0,2704 160.000 1403,50877 379,508772
Medio 88 0,32 0,1024 490.000 5568,18182 570,181818
Alto 40 0,16 0,0256 810.000 20250 518,4
2 2
W s
∑ i i = 1468,09059
ni
Wi2 s i2
∑ = 38,3156703
ni

Una vez calculada la estimación puntual del error estándar, se establecen los límites
del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X
IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 38,32 = $ 1297 ± 75,1
límite inferior límite superior
1221,9 1372,1
218 - Introducción al muestreo para estudiantes de ciencias sociales

Ejercicio 5
Resumir, en un cuadro, los tamaños de muestra y estratos obtenidos en los ejercicios
(1.1.1), (1.2.1), (1.3.1), (3.1) y (3.2), los errores de estimación calculados para cada uno de
ellos en el ejercicio 4 y el costo total de cada muestra.
Resolución del ejercicio 5.
Costo total: ∑ n i c i
n Costo
afijación z ⋅ σˆ X
Bajo Medio Alto Total Total
igual 104 104 104 312 64.9 14560
proporcional 175 108 54 337 64.9 12140
óptima 109 118 76 303 64.9 12980
óptima minimizando costo 154 118 53 325 64.9 12040
óptima con costo fijo total 114 88 40 242 75,1 9000

Comentarios sobre el ejercicio 5


Las s2 del ejercicio 4 son iguales a la esperanza matemática correspondiente si los má-
ximos desvíos estándar estimados para el ejercicio 1 coinciden con los desvíos estándar
“reales” de los estratos. Ello lleva a que los errores de estimación sean iguales al máximo
pretendido (al margen de algún decimal fruto del redondeo hacia arriba de los diversos n).
En los comentarios sobre el ejercicio 2 habíamos observado que, para la variable in-
gresos mensuales, la estratificación igual resultaba más eficiente que la proporcional. Sin
embargo, al ser sensiblemente más barata la recolección del dato en los estratos más bajos, la
distribución porporcional es la recomendable en función de los costos globales, aun cuando
implique una mayor cantidad de casos. Para los ci dados, es recomendable incluso sobre la
asignación óptima que no considera el costo.
En cuanto a las afijaciones que atienden al costo la que mantiene la precisión y la con-
fianza es la que implica un desembolso total más bajo sin modificar los valores deseados pa-
ra la estimación, como era de esperarse. La última, la que fija y distribuye la muestra limita-
da por un costo total predefinido, lo hace en perjuicio de la precisión.
Una posibilidad interesante es calcular esta afijación (la que minimiza la varianza a
partir de un costo dado) a partir del importe final de la afijación óptima sin atender al coste.
n Costo
afijación z ⋅ σˆ X
Bajo Medio Alto Total Total
óptima 109 118 76 303 64.9 12980
óptima con costo fijo total = proporcional 165 126 58 349 62,5 12980
Con las medidas que estamos tomando de ejemplo, para el mismo gasto obtendríamos
una precisión mayor. Si bien la afijación óptima sin atender a los gastos siempre será la de
mayor eficiencia estadística, desde una mirada que pondere la relación costo/beneficio la
muestra a elegir es, sin lugar a dudas, la otra.
Capítulo V – Muestreo estratificado (borrador)- 219

Ejercicio 6
Se realizar una investigación cuyo objetivo principal es conocer el porcentaje de
alumnos de una determinada facultad que desarrollan alguna actividad laboral que implique
una dedicación superior a las 20 horas semanales y por la que reciben remuneración.
Para ello se decide seleccionar una muestra de 500 casos, estratificada atendiendo al
turno durante el que asisten habitualmente a clases los alumnos. Se conoce que...
...el 45 % asiste a clases durante el turno mañana
...el 40 % asiste a clases durante el turno tarde
...el 15 % asiste a clases durante el turno noche
La dirección de la investigación resuelve realizar una asignación óptima de casos bajo
el supuesto que el porcentaje de alumnos que trabajan durante más de 20 horas semanales y
reciben remuneración no supera...
...el 5 % entre los que asisten al turno mañana
...el 15 % entre los que asisten al turno tarde
...el 50 % entre los que asisten al turno noche.
Se debe...
(6.1) Calcular el tamaño de muestra para cada estrato si la distribución se realiza pro-
porcionalmente a su tamaño.
(6.2) Calcular el tamaño óptimo de muestra para cada estrato considerando el tamaño
del estrato y los supuestos de heterogeneidad expuestos.
(6.3) Suponiendo los datos de la muestra evidencian que el porcentaje de alumnos que
trabaja durante más de 20 horas semanales y recibe remuneración representa...
...el 50% de los alumnos del turno mañana
...el 50% de los alumnos del turno tarde
...el 90% de los alumnos del turno noche
calcular el error de estimación global, para una confianza del 95,5% considerando...
(6.3.1) una selección de casos al azar simple
(6.3.2) una selección de casos estratificada proporcional (punto 6.1)
(6.3.3) una selección de casos estratificada con asignación óptima (punto 6.2)
(6.4) extraer conclusiones sobre la diferencia de los tres errores estándar calculados en
el punto (6.3).
(6.5) Considerando los resultados arrojados por la investigación, ¿cuál debería haber
sido la correcta asignación óptima?
Para simplificar los cálculos se trabajará bajo el supuesto de selección con reposi-
ción.
220 - Introducción al muestreo para estudiantes de ciencias sociales

Resolución Ejercicio 6
(6.1) a (6.3.3.)
Mañana Tarde Noche
Wi (peso estrato) 0.45 0.4 0.15
(6.1) niWi (casos por estrato) 225 200 75
Pi (supuesto) 5 15 50
Pi Q i (supuesto) 21,79449472 35,70714214 50
Wi Pi Q i (supuesto) 9,807522623 14,28285686 7,5
(6.2)
∑W i Pi Q i (supuesto) 31,59037948
W i ⋅ Pi Q i ⋅ n
ni = 155 226 119
∑ Wi ⋅ Pi Qi
p estrato 50 50 90
∑ Wi p i (p total) 56
(6.3.1)

p.q
σ̂ p = 2,222133153
n -1
2 × σ̂ p 4,444266307
2
W 0,2025 0,16 0,0225
p i .q i
σ̂ 2pi = 11,16071429 12,56281407 12,16216216
n i -1
Wi2 σ̂ 2pi 2,260044643 2,010050251 0,273648649
(6.3.2)

∑ W σ̂ i
2 2
pi 4,543743543

σ̂ = ∑ W σ̂
p i
2 2
pi 2,13160586

2 × σ̂ p 4,26321172
p i .q i
σ̂ 2pi = 16,23376623 11,11111111 7,627118644
n i -1
Wi2 σ̂ 2pi 3,287337662 1,777777778 0,171610169
(6.3.3)

∑ Wi2 σ̂ 2pi 5,23672561

σ̂ p = ∑ W σ̂ i
2 2
pi 2,288389305

2 × σ̂ p 4,576778609
Capítulo V – Muestreo estratificado (borrador)- 221

(6.4)
error est. proporcional < error est. azar simple < error est. asignación óptima.
La mayor magnitud del error de estimación generado por la asignación óptima se debe
a la incorrecta estimación de P utilizada en el cálculo del tamaño de la muestra para cada es-
trato, afectando negativamente la eficiencia de la estimación (en especial en el estrato “turno
mañana”).
Si bien la precisión del muestreo estratificado proporcional es mayor que la del azar
simple, la diferencia no adquiere relevancia ya que la variabilidad de los principales estratos
(que incluyen al 85% de la población en estudio) es similar, lo que minimiza la potencial ga-
nancia de la estratificación proporcional.
(6.5)
Mañana Tarde Noche
Wi 0.45 0.4 0.15
Pi 50 50 90
Pi Q i 50 50 30
Wi Pi Q i 22,5 20 4,5

∑W i Pi Q i 47
W i ⋅ Pi Q i ⋅ n
ni = 239 213 48
∑ Wi ⋅ Pi Qi
222 - Introducción al muestreo para estudiantes de ciencias sociales

Apéndice (reducción de la varianza)


Si dividimos a una población en grupos, la varianza total puede expresarse como la suma de las
variabilidades intragrupos e intergrupos, es decir σ 2 = σ d2 + σ e2
donde σ d2 es la variabilidad intragrupos y σ e2 es la variabilidad intergrupos.
h Ni h

∑∑ (x ) ∑ N (x − µ)
2 2
ij − µi i i
i =1 j=1 i =1
σ d2 = σ e2 =
N N
Estas expresiones nos indican que para obtener σ d2 debemos sumar los desvíos cuadrados de cada
estrato (calculados sobre la media aritmética del estrato y no sobre la media total), luego sumar
estas sumas de desvíos cuadrados y divir la doble sumatoria por la cantidad total de casos.
Y que para obtener σ 2e debemos calcular el desvío cuadrado del promedio de cada estrato (sobre la
media total), multiplicarlo por la cantidad de casos del estrato, sumar estos productos y dividirlos
por la cantidad total de casos de la población.
Desarrollemos estos cálculos con un ejemplo sencillo. El cuadro siguiente expresa una población
de 15 elementos, dividida en tres grupos.
a b c d e
1 Total Grupo 1 Grupo 2 Grupo 3
2 2 2 2
3 2 3 3
4 3 4 5
5 6 5 6
6 6 5
7 6
8 N 15 6 5 4
9 µ 4 4,16666667 3,8 4
10 σ2 2,53333333
Ni

11 ∑ (x
j=1
ij − µi )
2
20,8333333 6,8 10

h Ni

12 ∑∑ (x
i =1 j=1
ij − µi )
2
37,6333333

h Ni

13 ∑∑ (x
i =1 j=1
ij − µi ) 2
2,50888889
σ d2 =
N
14 (x i − µ )2 0,02777778 0,04 0
N i (x i − µ )
2
15 0,16666667 0,2 0
h
16 ∑ N (x
i =1
i i − µ)
2
0,36666667
h

17 ∑ N (x
i =1
i i − µ)
2
0,02444444
σ 2e =
N
18 σ 2 = σ d2 + σ e2 2,53333333
Vemos en la celda B18 que la suma de las varianzas intra (B13) e inter grupos (B17) es igual a la
varianza total (B10), pero que el peso recae en la varianza intra grupos.
Capítulo V – Muestreo estratificado (borrador)- 223

Si agrupamos a los elementos de la población en grupos homogeneos internamente y heterogéneos


entre sí...
a b c d e
1 Total Grupo 1 Grupo 2 Grupo 3
2 2 4 6
3 2 5 6
4 2 5 6
5 2 5 6
6 3
7 3
8 3
9 N 15 7 4 4
10 µ 4 2,42857143 4,75 6
11 σ2 2,53333333
Ni

12 ∑ (x
j=1
ij − µi )
2
1,71428571 0,75 0

h Ni

13 ∑∑ (x
i =1 j=1
ij − µi ) 2
2,46428571

h Ni

14 ∑∑ (x
i =1 j=1
ij − µi ) 2
0,16428571
σ d2 =
N
15 (x i − µ )2 2,46938776 0,5625 4
N i (x i − µ )
2
16 17,2857143 2,25 16
h
17 ∑ N (x
i =1
i i − µ)
2
35,5357143
h

18 ∑ N (x
i =1
i i − µ)
2
2,36904762
σ 2e =
N
19 σ 2 = σ d2 + σ e2 2,53333333
La suma de las varianzas intra (B14) e inter grupos (B18), incluida en la celda B19, sigue siendo
igual a la varianza total (B11), pero ahora el peso recae en la varianza inter-grupos, condición que
le permite al muestreo conseguir una mayor precisión en la estimación para el conjunto de la po-
blación.

También podría gustarte