Está en la página 1de 41

Técnicas de muestreo avanzado

Repaso de conceptos
Material elaborado por:
Lic. Roberto Damián Díaz González

Campus Universitario
San Lorenzo, Paraguay
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Índice
1. Muestro Aleatorio Simple (𝐌𝐀𝐒) ....................................................................................................4
1.1. Cómo seleccionar un 𝐌𝐀𝐒 .......................................................................................................4
1.2. Estimaciones.............................................................................................................................7
1.2.1. Media ...........................................................................................................................7
1.2.2. Proporción ....................................................................................................................9
1.2.3. Total........................................................................................................................... 10
1.3. Teorema Central de límite .................................................................................................... 11
1.4. Precisión que se alcanza en las estimaciones ....................................................................... 13
1.4.1. El error estándar “DE (estimación)” .......................................................................... 13
1.4.2. Intervalos de confianza (IC) ....................................................................................... 14
2. El factor costo de una encuesta .................................................................................................... 18
3. Determinación de la muestra ........................................................................................................ 18
3.1. Algunos factores que pueden incidir en el tamaño muestral ............................................... 19
3.2. Precisión Estadística .............................................................................................................. 19
3.2.1. Fracción del muestreo ............................................................................................... 19
3.2.2. Error ¨d¨ .................................................................................................................... 19
3.3. Tamaño de la muestra para la estimación ............................................................................ 20
3.3.1. Tamaño de la muestra para la estimación de Media ................................................ 20
3.3.2. Tamaño de la muestra para la estimación de Total .................................................. 21
3.3.3. Tamaño de la muestra para la estimación de proporción ........................................ 23
4. Muestreo estratificado (ME) ......................................................................................................... 24
4.1. Asignación proporcional al tamaño del estrato .................................................................... 25
4.2. Nomenclatura........................................................................................................................ 25
4.3. Estimación ............................................................................................................................. 26
4.3.1. Media ........................................................................................................................ 26
4.3.2. Total........................................................................................................................... 29
4.3.3. Proporción ................................................................................................................. 30
4.4. Precisión del muestreo estratificado .................................................................................... 32
5. Muestreo por conglomerado (MC) ............................................................................................... 33
5.1. Definición .............................................................................................................................. 33
5.2. Características principales del MC ........................................................................................ 34
5.3. Ventajas del (MC) .................................................................................................................. 34
5.4. Notación básica ..................................................................................................................... 35

2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

5.5. Estimaciones.......................................................................................................................... 35
5.5.1. Estimación de medias................................................................................................ 35
5.5.2. Estimación de proporciones ...................................................................................... 36
5.5.3. Estimación de totales ................................................................................................ 36
5.6. Muestreo por conglomerado en dos etapas ......................................................................... 40
Bibliografía ............................................................................................................................................ 41

3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1. Muestro Aleatorio Simple (𝐌𝐀𝐒)


Según Lohr (2000), el muestreo aleatorio simple es la forma más sencilla de muestreo de
probabilidad y nos proporciona la base teórica de las formas más complejas. Existen dos
formas de extraer una muestra aleatoria simple: con reemplazo, donde la misma unidad se
puede incluir más de una vez en la muestra; sin reemplazo, donde todas las unidades de la
muestra son distintas, una vez elegida, ya son excluidas del conjunto de datos, por ende
tienen la misma probabilidad de ser seleccionada.

De manera formal, podemos definir de la siguiente manera:

Si se selecciona un tamaño de muestra 𝑛 de una población 𝑁 de tal manera que cada


muestra posible de tamaño 𝑛 tenga la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple. A la muestra así
obtenida se le denomina muestra aleatoria simple.

(Richard L. Scheaffer, Wiliam Mendenhall III y R. Lyman Ott., 2007).

1.1. Cómo seleccionar un 𝐌𝐀𝐒

A continuación, se muestra una serie de pasos para seleccionar una muestra aleatoria

Paso 1: Enumeramos las unidades de la población de 1 a N.

Paso 2: Extraemos la muestra de estas unidades, utilizando una tabla de números aleatorios,
un programa de computación (Excel, SPSS, etc.) o la calculadora.

Paso 3: Realizamos la selección unidad por unidad.

Observaciones:

 En cada selección, el procedimiento que utilicemos debe otorgar la misma


oportunidad a todos y cada uno de los números que no hayan salido aún.

 Debemos asegurarnos de que los números seleccionados sean todos diferentes y que
ninguno de ellos sea mayor que N.

 Una vez que terminemos de seleccionar los números, los elementos de la población
correspondiente a estos números, tomamos como muestra.

4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Ejemplo 1. 1: A continuación se presenta una base de datos de una población de 20 alumnos


de la Universidad Nacional de Asunción de la asignatura Muestreo de la carrera Matemática
estadística, cuyos datos contiene el número de orden, el nombre, la edad, su situación
laboral actual y su sexo, de esta población de alumnos obtener una muestra aleatoria de 5
alumnos (𝐧 = 𝟓).

Tabla 1. Base de datos de los alumnos


Nº orden Nombre Edad Situación Laboral Sexo

1 Ramona 20 No trabaja Mujer


2 Víctor 21 Trabaja Hombre
3 Juan 18 No trabaja Hombre
4 Elena 19 No trabaja Mujer
5 René 20 Trabaja Hombre
6 Máximo 25 No trabaja Hombre
7 Cynthia 22 Trabaja Mujer
8 Rosario 23 Trabaja Mujer
9 Carlos 25 No trabaja Hombre
10 Carmen 22 Trabaja Mujer
11 María 24 No trabaja Mujer
12 Fernanda 26 No trabaja Mujer
13 Julio 21 No trabaja Hombre
14 Fabián 19 Trabaja Hombre
15 Laura 18 Trabaja Mujer
16 Analía 25 Trabaja Mujer
17 Pedro 22 Trabaja Hombre
18 Jorge 22 No trabaja Hombre
19 Anastasia 23 No trabaja Mujer
20 Marcos 20 Trabaja Hombre

Solución:

Paso 1: En este caso nuestra base de datos ya está numerada del 1 al 20.

Paso 2: Seleccionamos la muestra de 5 números (n = 5) entre el 1 al 20, esto hacemos a


modo de darle la misma probabilidad de selección a cada unidad de la población.
Utilizaremos el método de selección del Excel teniendo en cuenta lo siguiente:

La sintaxis de la función es:

ALEATORIO.ENTRE (inferior; superior)

Donde los argumentos son:

5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

 Inferior: es el menor número entero que la función puede devolver.

 Superior: es el mayor número entero que la función puede devolver.

Considerando el ejemplo, realicemos la selección de la muestra de la población


enumerada del 1 al 20 a partir de la generación de números aleatorios en el Excel, para
ello:

 Creamos una hoja de cálculo en Excel.

 Seleccionamos la celda C1 en la hoja de cálculo.

 Escribimos en la celda =ALEATORIO.ENTRE(1;20) y pulsamos la tecla

De esta manera obtenemos el primer número


aleatorio y es el número 13, el mismo se
encuentra dentro del rango de especificado
(1 al 20).

Como la nuestra solicitada es 5, de la misma manera generamos los restantes números


aleatorios, para ello continuamos con el mismo procedimiento.

De esta manera obtuvimos los 5 números aleatorios, los mismos


son 13, 8, 15, 2 y 7. Como siguiente paso, seleccionamos la
muestra correspondiente a los números aleatorios resultantes.

Paso 3: Seleccionamos la muestra aleatoria.

Tabla 2. Muestra aleatoria de tamaño 5

Nº orden correspondiente a los alumnos Nombre Edad Situación Laboral Sexo

2 Víctor 21 Trabaja Hombre


7 Cynthia 22 Trabaja Mujer
8 Rosario 23 Trabaja Mujer
13 Julio 21 No trabaja Hombre
15 Laura 18 Trabaja Mujer
De esta manera, queda seleccionada la muestra aleatoria de tamaño 5.

6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1.2. Estimaciones

Imaginémonos que de una población específica, cuyo número de habitante oscila entre
50.000 personas, y que se desea conocer la proporción de estudiantes existente, la edad
promedio de una zona de dicha población, etc. en estos casos, solo bastaría sacar una
muestra aleatoria y a través de un procedimiento matemático al que llamamos
“estimación”, obtener un valor que pueda representar adecuadamente a los valores
deseados de la población. Entonces, podemos decir que la estimación es un procedimiento
de la estadística inferencial por el cual podemos describir las características de una
población a partir de los datos de una muestra. A la característica de la muestra se lo conoce
como estadístico, o simplemente como estimador.

A continuación, desarrollaremos el proceso y las fórmulas de las estimaciones de los


parámetros.

1.2.1. Media

La media muestral 𝐱̅ es un estimador de la media poblacional μ, cuya denotación definimos


∑𝐍
𝐢=𝟏 𝐗 𝐢
de la siguiente manera: 𝛍= 𝐍

Donde

Xi : son los valores para cualquier característica en las unidades poblacionales.

𝑁: es el número de unidades en la población.

De la misma forma la media muestral que utilizamos para estimar la media poblacional μ lo
∑𝐧
𝐢=𝟏 𝐱𝐢
denotamos de la siguiente forma: 𝐱̅ = 𝐧

Donde

xi : Son los valores para cualquier característica en las unidades muestrales.

n: Es el número de unidades en la muestra.

La estimación de la varianza de la media 𝐱̅ de una muestra aleatoria simple está dada por:

𝐒𝟐
̂(𝐱̅) = (𝟏 − 𝐟) ∗
𝐕
𝐧

Donde

(1 − 𝑓) es el ajuste o corrección por población finita.

7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

𝒏
𝑓 = 𝑵 es la fracción de muestreo o proporción de la población que estamos muestreando.

∑n ̅ )2
1 (xi −x
S2 = es la varianza muestral.
n−1

Ejemplo 1. 2: Supongamos ahora que se desea estimar la edad promedio de los alumnos
seleccionados en la muestra del Ejemplo 1.1

Solución:

La muestra aleatoria seleccionada en fue:

Tabla 3: N° de orden y edad de los alumnos


seleccionados en la muestra

Nº orden correspondiente a los alumnos Edad

2 21
7 22
8 23
13 21
15 18

Apliquemos la fórmula correspondiente a la estimación de la media a

∑ni=1 𝑥𝑖 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 21 + 22 + 23 + 21 + 18 105
x̅ = = = =
n 5 5 5

x̅ = 21

Respuesta: se estima que la edad promedio de los alumnos de la Universidad Nacional de


Asunción es 21 años.

Utilizamos el mismo procedimiento para estimar la varianza:

Como calculo auxiliar, calculemos primeramente S 2

2
∑n1(xi − x̅)2 (21 − 21)2 + (22 − 21)2 + (23 − 21)2 + (21 − 21)2 + (21 − 18)2
S = =
n−1 5−1

14
S2 = = 3,5
4
14
S2 5 3 2
̂(x̅) = (1 − 𝑓) ∗
V = (1 − 20) ∗ 4
= 4∗3 ̂(x̅) = 0,53
V
n 5

8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1.2.2. Proporción

La proporción muestral 𝐩 ̂ es un estimador puntual de la proporción poblacional P. Para


calcular dicha estimación utilizaremos la siguiente expresión:

𝐍ú𝐦𝐞𝐫𝐨 𝐝𝐞 𝐨𝐛𝐬𝐞𝐫𝐯𝐚𝐜𝐢𝐨𝐧𝐞𝐬 𝐜𝐨𝐧 𝐥𝐚 𝐜𝐚𝐫𝐚𝐜𝐭𝐞𝐫í𝐬𝐭𝐢𝐜𝐚 𝐝𝐞 𝐢𝐧𝐭𝐞𝐫é𝐬


̂=
𝐩
𝐧

∑𝐧𝐢=𝟏 𝐱 𝐢
̂=
𝐩
𝐧

𝑥𝑖 = 1 si ocurre el evento de interés


Donde {
𝑥𝑖 = 0 si no ocurre el eveno de interés

La varianza de la estimación de una proporción está dada por la siguiente expresión:

̂(𝟏 − 𝐩
𝐩 ̂)
̂(𝐩
𝐕 ̂) = (𝟏 − 𝐟) ∗
𝐧−𝟏
n
Donde 𝑓 = N

Ejemplo 1. 3: Sigamos con los mismos datos de los alumnos de los ejemplos anteriores.
Centrémonos ahora en los alumnos que poseen trabajo actualmente, es decir, estamos
interesados en estimar la proporción de los alumnos que poseen trabajo.

Solución:

Definamos primero a las características que presentan los alumnos y el evento de interés.

𝑥𝑖 = 1 los alumnos que trabajan(evento de ínteres)


Sea {
𝑥𝑖 = 0 los alumnos que no trabajan

Eventos 𝑥𝑖 Cantidades
1 4
0 1

Entonces, la proporción estimada queda de la siguiente forma:

Cantidad de alumnos que trabajan


p̂ =
n
4
p̂ = 5 = 0,8  La proporción de alumnos que trabajan es de 0,8, es decir, el 80% de los
alumnos poseen actualmente un trabajo.

La varianza de la estimación quedaría de la siguiente manera:

9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1
p̂ ∗ (1 − p̂) 5 0,8 ∗ (1 − 0,8) 3 16
̂(p̂) = (1 − 𝑓) ∗
V = (1 − ) ∗ = ∗
n−1 20 5−1 4 4

̂(p̂) = 0,03
V

1.2.3. Total

El total muestral 𝐭̂ es un estimador puntual del total poblacional T. Para estimar un total en
el MAS utilizaremos la siguiente expresión:

∑𝐧𝐢=𝟏 𝐱 𝐢
𝐭̂ = 𝐍 ∗ = 𝐍 ∗ 𝐱̅
𝐧
Donde

x̅: es la media muestral.

N: el número de unidades en la población.

La varianza de la estimación de un total está dada por:

𝐍𝟐 𝐒𝟐
̂(𝐭̂) = (𝟏 − 𝐟) ∗
𝐕
𝐧
∑n ̅ )2
1 (xi −x
Donde S 2 = n−1

Ejemplo 1.4: Se extrae una muestra aleatoria simple de tamaño 7 de un total de 30 alumnos
de la Facultad de Ciencias Exactas y Naturales del segundo semestre del 2017, se les
consulto la cantidad de asignaturas cursadas en el semestre, a continuación los datos
obtenidos:

Tabla 4: Cantidad de asignaturas cursadas en el


semestre
Alumnos 1 2 3 4 5 6 7
Cantidad de
5 6 4 5 6 7 4
asignaturas

Se pide estimar el total de asignaturas cursadas por los 30 alumnos.

Solución:

Es importante especificar la variable aleatoria xi , en este caso será la cantidad de asignaturas


cursadas por los alumnos en el semestre.

10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Por otro lado, para calcular la estimación de un total por 𝐌𝐀𝐒 debemos primeramente
obtener la media estimada.

Entonces usando la fórmula de la media, tendremos lo siguiente:

∑ni=1 xi x1 + x2 + x3 + x4 + x5 21 + 22 + 23 + 21 + 18 105
x̅ = = = = =2
n 5 5 5

El total estimado será:

∑n
i=1 xi
t̂ = N ∗ = N ∗ x̅ = 30 ∗ 21
n

t̂ = 630

El número total de asignaturas cursadas por los alumnos de la Facultad de Ciencias Exactas y
Naturales del segundo semestre del 2017 en el segundo semestre es aproximadamente 630.

Como veníamos haciendo en los demás ejemplos, calculemos también la varianza del total
estimada.

Y como V(t̂) depende S 2 , calculemos primeramente este valor.

∑n1(xi − x̅)2
S2 =
n−1

S2
(5 − 21)2 + (6 − 21)2 + (4 − 21)2 + (5 − 21)2 + (6 − 21)2 + (7 − 21)2 + (4 − 21)2
=
7−1

1736
S2 = = 289,3
6

Por lo tanto,

N2 S2 7 302 ∗ 289,3
̂(t̂) = (1 − f) ∗
V = (1 − ) ∗
n 30 7

̂(t̂) = 28.520
V

1.3. Teorema Central de límite

Sean X1 , X2 , X3,… Xn un conjunto de variable aleatoria independiente e idénticamente


distribuida de una distribución de probabilidad específica, con una media μ y varianza σ2 ≠
̅ = 1 ∑ni=1 Xi tiene aproximadamente
0. Si n es suficientemente grande, la variable aleatoria X n
𝟐 𝛔𝟐
una distribución normal con 𝛍𝐗̅ = 𝛍 y 𝛔 ̅
𝐗 = .
𝐧

11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Figura 1: Ilustración del Teorema Central de límite

Para una mejor ilustración de este teorema, veamos el siguiente ejemplo:

Ejemplo 1.5: Supongamos que 𝐗 es una variable aleatoria con una distribución de
probabilidad cualquiera y cuya población sea {𝟐, 𝟒, 𝟓}. Si tomamos una muestra 𝐧 = 𝟐,
calcular 𝛍𝐗̅ y 𝛔𝟐 𝐗̅ .

Solución:

Calculemos primeramente la media μ y la varianza σ2 de la población, cuyas fórmulas son:

1 1
μ = N ∑ni=1 Xi y σ2 = N ∑ni=1(Xi − μ)2

Entonces tendremos lo siguiente:

1 11
μ= ∗ (2 + 4 + 5) =
3 3

1 11 2 11 2 11 2 1 14 14
σ2 = ∗ ((2 − ) + (2 − ) + (2 − ) ) = ∗ ( ) =
3 3 3 3 3 3 9

Ahora bien, debemos extraer todas las muestras posibles de tamaño 2, sin reemplazo.

Las muestras posibles son las siguientes n1 = (2,4) n2 = (2,5) n3 = (4,5):

̅1 = 3
Las medias de las muestras son: X ̅ 2 = 3,5
X ̅ 3 = 4,5
X

12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Entonces,

1 1 11
μX̅ = ∗ (3 + 3,5 + 4,5) = ∗ 11 =
3 3 3

2
1 11 2 11 2 11 2 2
σ ̅
X = ∗ ((3 − ) + (3,5 − ) + (4,5 − ) ) =
3 3 3 3 5

Como la población es conocida debemos utilizar el Factor de Corrección de Población Finita


𝐍−𝐧
(𝐍−𝟏).

Por tanto, en este caso

14
N − n σ2 3−2 2
σ2
̅
X =( )∗ =( )∗ 9 =
N−1 n 3−1 2 5

Conclusión: El teorema Central de Límite se verifica con una pequeña corrección de la


Varianza de la distribución muestral de la media.

1.4. Precisión que se alcanza en las estimaciones

En el apartado anterior mencionamos a las estimaciones de los distintos parámetros


poblacionales. Es muy importante conocer la precisión y el nivel de confianza que
obtenemos al utilizar estos estimadores.

Según Rodríguez (1991), la precisión de las estimaciones tiene relación inversa con el error
muestral, cuanto menor sea el error menor es la dispersión de la distribución del estimador
y, en consecuencia, la precisión será mayor, pero para lograr una menor dispersión es
necesario aumentar el número de unidades en la muestra hasta que obtengamos los niveles
de precisión aceptables.

Para medir la precisión de un estimador o de los estimadores conozcamos primero los


siguientes conceptos fundamentales: error estándar y nivel de confianza.

1.4.1. El error estándar “DE (estimación)”

Al hacer nuestras estimaciones siempre tendremos errores, a esos errores se los llama “error
estándar” o también “error típico”. Es una medida de variabilidad del estimador con
respecto al parámetro de la población que estemos estimando.

El error estándar se calcula a partir de la varianza de los estimadores, este es la raíz cuadrada
de la misma.

En fórmulas matemáticas se puede expresar de la siguiente manera:

13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

2 ∑n ̅ )2
̂(x̅) = √(1 − f) ∗ S  donde S 2 =
Para la media estimada: DE(x̅) = √V 1 (xi −x
n n−1

̂(1−p
p ̂)
̂(p̂) = √(1 − f) ∗
Para la proporción: DE(p̂) = √V n−1

N 2 S2 ∑n ̅ )2
1 (xi −x
̂ (t̂) = √(1 − f) ∗
Para el total: DE(t̂) = √V  donde S 2 =
n n−1

Según Cochran (1980), los errores estándar de las estimaciones de los parámetros
poblacionales son utilizados generalmente por los siguientes motivos:

 Para comparar la precisión obtenida por el muestreo aleatorio simple.

 Para estimar el tamaño de la muestra que se necesita en una encuesta que esté
siendo planteada.

 Para estimar la precisión realmente obtenida en una encuesta.

1.4.2. Intervalos de confianza (IC)

El intervalo de confianza es un método por el cual podemos medir la precisión de la


estimación.

En ocasiones es más factible estimar un rango de valores (valor mínimo y valor máximo) en
el cual se encuentre el parámetro con un nivel de confianza especificada; a este rango se le
denomina “intervalo de confianza”, y a este procedimiento, ¨estimación por intervalo¨.

𝟏 − 𝜶: Representa el nivel de confianza y es la probabilidad de que el método de estimación


nos proporcione un intervalo de confianza que contiene al parámetro.

𝛂: Nivel de significancia

Interpretación de un IC al 95%

Si realizamos el procedimiento de selección de muestras de la población, varias veces, y


construimos un intervalo de confianza a partir de este método, esperamos que el 95% de los
intervalos resultantes contengan al verdadero valor del parámetro, pero en la realidad
extraemos una sola muestra, por lo que ¨el IC sólo es una afirmación de probabilidad acerca
de la frecuencia con la que esperamos estar en lo correcto¨

(Lohr,2000).

14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

El intervalo de confianza de cualquier estimación viene dada por:

𝐈𝐂: 𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧 ± 𝐃𝐄(𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧) ∗ 𝐭

Margen del error

𝐭 es el valor del desvío normal correspondiente a la


probabilidad de la confianza deseada.

Veamos algunos valores más conmúnmente utilizados:

Nivel de confianza Nivel de significancia Valor de 𝐭

99% 1% 2,58

95% 5% 1,96

90% 10% 1,64

De esta manera, los IC para cada parámetro sería lo siguiente:

IC para la media: IC = x̅ ± DE(x̅) ∗ t

IC para la proporción IC = p̂ ± DE(p̂) ∗ t

IC para la proporción IC = t̂ ± DE(t̂) ∗ t

Consideremos los siguientes ejemplos para una mejor ilustración de la precisión de una
estimación.

Ejemplo 1. 6: Utilizando los datos del Ejemplo 1. 2: Supongamos ahora que se desea estimar
la edad promedio de los alumnos seleccionados en la muestra del Ejemplo 1.1estime el
intervalo de confianza para la edad promedio de los alumnos con las siguientes condiciones:

a) Utilice una confianza del 95%.

b) Utilice una confianza del 99%.

c) Repetir el punto a) utilizando una muestra 𝐧 = 𝟏𝟎.

d) Repetir el punto b) utilizando una muestra 𝐧 = 𝟏𝟎.

e) Hacer una pequeña descripción del resultado de los puntos anteriores.

Observación: para los puntos c) y d) utilizar los mismos datos a excepción del tamaño
muestral.

15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Solución

a) Calculemos primeramente el DE(estimación):

̂(x̅) = √0,53 = 0,73


DE(x̅) = √V

Calculemos ahora el margen de error, para ello utlizaremos el valor de t al 95%, esto es 1,96.

Entonces,

DE(x̅) ∗ t = 0,73 ∗ 1,96 = 1,42

El intervalo de confianza al 95%,

IC = x̅ ± DE(x̅) ∗ t

IC = 21 ± 1,42

IC(95%) = 19,6 ≤ μ ≤ 22,4

̂(x̅) = √0,53 = 0,73


b) DE(estimación): DE(x̅) = √V

El margen de error de t al 99%, es 2,58.

Entonces,

DE(x̅) ∗ t = 0,73 ∗ 2,58 = 1,87

El intervalo de confianza al 99%,

IC = x̅ ± DE(x̅) ∗ t

IC = 21 ± 1,87

IC(95%) = 19,1 ≤ μ ≤ 22,8

c) Como el tamaño de la muestra fue modificado, debemos tener en cuenta lo siguiente:


 Usaremos la misma media (x̅) y la misma varianza muestral S 2 .
 Calcularemos de nuevo DE(estimación) para el n = 10, entonces debemos
̂(x̅).
conseguir el valor de la varianza estimada V

16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

14
S2 10 1 1 1
̂(x̅) = (1 − f) ∗ = (1 − ) ∗ 4 = ∗ = = 0,18
V
n 20 10 2 3 6

̂ (x̅) = √0,18 = 0,42


DE(x̅) = √V

NC = 95%  t = 1,96

Entonces,

DE(x̅) ∗ t = 0,42 ∗ 1,96 = 0,82

El intervalo de confianza al 95%,

IC = x̅ ± DE(x̅) ∗ t

IC = 21 ± 0,82

IC(95%) = 20,18 ≤ μ ≤ 21,82

d) Nivel de confianza = 99% para n = 10

14
S2 10 1 1 1
̂(x̅) = (1 − f) ∗ = (1 − ) ∗ 4 = ∗ = = 0,18
V
n 20 10 2 3 6

̂ (x̅) = √0,18 = 0,42


DE(x̅) = √V

NC = 99%  t = 2,58

Entonces,

DE(x̅) ∗ t = 0,42 ∗ 2,58 = 1,08

El intervalo de confianza al 99%,

IC = x̅ ± DE(x̅) ∗ t

IC = 21 ± 1,08

IC(95%) = 19,92 ≤ μ ≤ 22,08

17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

e) Este ejemplo nos ayuda a tener un mejor concepto sobre la precisión que pueden tener
los estimadores, si bien, en este caso solo usamos la estimación de la media, de la
misma manera se comportan los estimadores de proporción y total.

Se puede notar que cuando aumentamos el NC de 95% a 99% la amplitud del intervalo se
vuelve un poco más amplio. Esto es simplemente que al aumentar el nivel de confianza
estamos siendo más exigentes con respecto a donde se podría encontrar el verdadero valor
de la media poblacional. Sin embargo, cuando aumentamos el tamaño de la muestra, ocurrió
lo contrario, la amplitud del intervalo es menor comparando para cada nivel de confianza
correspondiente.

De aquí podemos decir que la precisión de un estimador depende exclusivamente del


tamaño de la muestra. En otras palabras, a medida que el tamaño de la muestra sea mayor,
mayor será la precisión de los estimadores.

2. El factor costo de una encuesta


Una de las relaciones sumamente importante de un muestreo es la del costo y la precisión,
lo ideal sería obtener una mayor precisión para un costo mínimo. La precisión podemos
medir a través de intervalos de confianza, mientras que el costo es una restricción que
podremos medir estableciendo funciones de costo.

Cabe destacar que no existe una función que nos proporcione un costo óptimo para todos
los eventos, ya que para ello deberíamos considerar todos los ítems que inciden en
maximizar la precisión y minimizar el costo para cada diseño muestral.

Este punto estaremos viendo de manera más profunda en unidades posteriores.

3. Determinación de la muestra
El muestreo aleatorio simple se caracteriza por ser uno de los métodos más simples en
cuanto al cálculo de las estimaciones, sin embargo, cabe mencionar que hasta ahora hemos
tratado el procedimiento de selección y no acerca del número de observaciones que deben
ser incluidos en la muestra, el cálculo del tamaño muestral es una actividad a priori al
desarrollo de una encuesta y las estimaciones se realizan una vez realizada la encuesta.

Para estimar el tamaño muestral es importante tener en cuenta dos supuestos, el primero
corresponde al nivel de confianza al que queremos trabajar y el segundo, al error máximo
que estamos dispuestos a admitir en nuestra estimación.

Veamos algunos factores que pueden incidir en el cálculo mencionado.

18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

3.1. Algunos factores que pueden incidir en el tamaño muestral

Según Pérez (2010); Rodríguez, Ferreras & Núñez (1991), estos son algunos de los factores
que podrían incidir a la hora de calcular la estimación del tamaño muestral:

 Los recursos económicos disponibles, la mayoría de las veces representa una


limitación fundamental para considerar muestras grandes.

 Disponibilidad del marco muestral.

 El diseño muestral.

 La variable a ser medida, que tan homogéneo o heterogéneo es el comportamiento


de las unidades de la población en relación a la variable considerada, para ello es
importante revisar estudios anteriores, estadísticas disponibles, etc.

 El tipo de estimación a ser calculada.

 El nivel de confianza.

 La precisión.

3.2. Precisión Estadística

Veamos algunas definiciones que nos ayudarán a comprender mejor la precisión estadística

3.2.1. Fracción del muestreo


n
La fracción de muestreo está identificada por f en donde f = N y es la razón del tamaño de la
muestra respecto a la población, es decir, representa la proporción muestreada en la
población. Cuando el tamaño poblacional es grande (N → ∞), la fracción de muestreo es
muy pequeña (f → 0), por lo que los factores o las correcciones por población finita (cpf),
n n
como habíamos especificado (1 − N) para la varianza y √1 − N para el error estándar,
toman valores muy cercanos a la unidad y el tamaño poblacional no tiene un efecto directo
en el error estándar de la estimación.

Según Cochran (1980), la ¨cpf se puede ignorar cuando la fracción de muestreo no exceda un
5%¨.

3.2.2. Error ¨d¨

Como hemos visto, el intervalo de confianza para una estimación está dada por:

19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

𝐈𝐂: 𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧 ± 𝐃𝐄(𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧) ∗ 𝐭

Margen del error

Donde el margen de error o el error máximo permisible está representado por 𝐝, al límite o
margen de error también se la denomina precisión.

d = DE(estimación) ∗ t

La precisión hace referencia a la longitud del intervalo, si el intervalo es (a, b), entonces
cuanto menor sea la longitud ℓ = b − a más precisa será la estimación.

3.3. Tamaño de la muestra para la estimación

A continuación veremos las fórmulas para obtener el tamaño de muestra suficiente para la
estimación de los parámetros.

3.3.1. Tamaño de la muestra para la estimación de Media

El tamaño de muestra necesario para estimar μ con un límite para el error de estimación d y
un nivel de confianza prefijado está dado por:

𝐒𝟐 ∗ 𝐭𝟐
𝐧=
𝐝𝟐

Dónde:

t: es el valor correspondiente al nivel de confianza elegido.

S: información acerca de la variabilidad (desviación típica).

d: error máximo permisible o margen de error.

Debemos comprobar si se cumple N > n(n − 1), en caso de que se cumpla, el tamaño
muestral adecuado que debemos considerar es obtenido a partir de la fórmula presentada
más arriba.

Si no se cumple la condición presentada, el tamaño de muestra adecuado es obtenido a


partir de la siguiente fórmula:

𝐧𝟎
𝐧𝐟 = 𝐧
𝟏 + 𝐍𝟎

Observación: Cuando la población es grande (N → ∞), la fracción de muestreo es pequeña


𝐒𝟐 ∗𝐭 𝟐
(f → 0) entonces n → n0 con 𝐧𝟎 = .
𝐝𝟐

20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Ejemplo 1.7: Supongamos que deseamos estimar la edad promedio de los alumnos que se
encuentran cursando el segundo año de un colegio de la capital, la totalidad de alumnos de
dicho curso es de aproximadamente 300. Para hacer el estudio se accedió a la lista de
matriculados del colegio, así también por un estudio anterior se sabe que la varianza de la
estimación es de 4 y pretendemos cometer un error máximo de hasta 1 al estimar la media.
Si usamos un nivel de confianza del 95%; ¿cuál debe ser el tamaño de la muestra?

Solución

Nuestra variable aleatoria o variable de interés:

xi = edad del estudiante

Tenemos los datos previos a nuestro estudio

S2 = 4

Nivel de confianza = 95% → t = 1,96

d=1

N = 300

Teniendo en cuenta estos datos, ya podemos calcular el tamaño de la muestra.

S2 ∗ t2
n=
d2

4 ∗ (1,96)2 15,3664
n= = = 15,3664 ≈ 15
12 1

Verifiquemos si el tamaño muestral obtenido es adecuado para la estimación de la media:

N > n(n − 1)  300 > 15(15 − 1)  300 > 210

Verificamos que si se cumple la condición especificada, por lo tanto, concluimos que el


tamaño muestral es adecuado.

Conclusión: Para estimar el promedio de edad de los alumnos de la capital, deberíamos


tomar como mínimo a 15 alumnos, considerando un 95% de confianza y un error máximo de
1.

3.3.2. Tamaño de la muestra para la estimación de Total

El tamaño de muestra necesario para estimar 𝐓 con un límite para el error de estimación 𝐝 y
un nivel de confianza prefijado está dado por:

21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

𝐍 𝟐 ∗ 𝐧𝟎 𝐒𝟐 ∗ 𝐭𝟐
𝐧= con 𝐧𝟎 =
𝟏 + 𝐍 ∗ 𝐧𝟎 𝐝𝟐

Dónde:

t: es el valor correspondiente al nivel de confianza elegido.

S: información acerca de la variabilidad (desviación típica).

d: error máximo permisible o margen de error.

Ejemplo 1.8: ¿Cuál sería el tamaño de la muestra que debe utilizar el dueño de una fábrica
de cementos que desea estimar el monto total de la ganancia diaria generada por su
producto (esto es de acuerdo a su kg), si para ello pretende realizar una muestra aleatoria
con una confianza del 95%?, los datos siguientes fueron obtenidos a través de un estudio
anterior:

N = 20.000 Unidades

S 2 = 1.000.000 Gs.

d = 2.000.000 Gs.

Solución:

Nuestra variable aleatoria xi =ganancia diaria en Gs. generados por la fábrica.

Utilicemos los datos proporcionados para determinar el tamaño de la muestra.

Nivel de confianza = 95% → t = 1,96

S 2 ∗ t 2 1.000.000 ∗ (1,96)2
n0 = = = 1,9208
d2 (2.000.0000)2

Entonces;

N 2 ∗ n0 20.0002 ∗ 1,9208
n= = = 19999,4794 ≅ 2.000
1 + N ∗ n0 1 + 20.000 ∗ 1,9208

Concluimos que el dueño de la fábrica debería elegir al menos 2.000 unidades de su


producto para estimar la ganancia total diaria, utilizando una confianza del 95% y un error
máximo de 2.000.000 de Gs.

22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

3.3.3. Tamaño de la muestra para la estimación de proporción

El tamaño de muestra necesario para estimar 𝐏 con un límite para el error de estimación 𝐝 y
un nivel de confianza prefijado está dado por:

𝐩 ∗ (𝟏 − 𝐩) ∗ 𝐭 𝟐
𝐧=
𝐝𝟐

Dónde:

t: es el valor correspondiente al nivel de confianza elegido.

d: error máximo permisible o margen de error.

Debemos comprobar si se cumple N > n ∗ (n − 1), en caso de que se cumpla el tamaño


muestral adecuado que debemos considerar es obtenido a partir de la fórmula presentada
más arriba.

Si no se cumple la condición presentada, el tamaño de muestra adecuado es obtenido a


𝐧𝟎
partir de la siguiente fórmula: 𝐧𝐟 = 𝐧
𝟏+ 𝟎
𝐍

Cuando la población es grande 𝐍→∞, la fracción de muestreo es pequeña 𝐟→0


𝐩∗(𝟏−𝐩)∗𝐭 𝟐
entonces 𝐧→𝐧𝟎 con 𝐧𝟎 = .
𝐝𝟐

Ejemplo 1. 9: Se desea estudiar el nivel de conocimiento sobre la ley de maternidad en un


barrio especifico de la zona rural, en dicha zona se encuentran 500 casas, de los cuales por
una prueba piloto se obtuvo que el 62% de las amas de casa si tienen conocimiento sobre
esta ley, si se pretende utilizar una confianza del 95% y un error máximo de hasta un 5%.
¿Cuál sería el tamaño de la muestra para dicho estudio?

Solución:
1 conocen la ley
Nuestra variable de interés es: xi = {
0 en otro caso.
p = 0,62 Proporción de amas de casa que conocen la ley de maternidad.

1 − p = 1 − 0,62 = 0,38

d = 5% → 0,05

Nivel de confianza =95% → t = 1,96

23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Entonces;
p ∗ (1 − p) ∗ t 2 0,62 ∗ 0,38 ∗ (1,96)2
n= = = 362,032384 ≅ 362
d2 (0,05)2

Comprobemos si el tamaño de muestra estimado es adecuado:

N > n ∗ (n − 1) 500 > 362 ∗ (362 − 1)  500 > 130.682

Vemos que no se cumple la condición; por tanto, usemos la fórmula alternativa para este
caso.

Observación: f → 0 implica que podremos obtener el tamaño adecuado para la muestra


usando la corrección para una población finita (cpf).

Por ello;

362
nf = = 209,98 ≈ 210
362
1+
500
Conclusión: como mínimo se debe muestrear a 210 casas para estimar la proporción de
conocimiento de las amas de casa cobre la ley de maternidad, con un nivel de confianza del
95% y un error máximo hasta el 5%.

4. Muestreo estratificado (ME)


Partiendo del objetivo principal del muestreo:

 Obtener la mayor información posible sobre la población.


 El costo de dicho muestreo no sea tan elevado.

En este caso el muestreo estratificado se adecua muy bien a estos objetivos ya que permite
obtener muy buenas informaciones de la población con un costo no tan elevado. Esto ocurre
por el diseño propio, la misma consiste en agrupar a las unidades de muestreo cuyas
características sean bastante similares.

En síntesis, el muestreo estratificado nos permite dividir la población (de tamaño N) en


diferentes grupos, a los cuales denominamos estratos, con la particularidad de que cada una
de las unidades de muestreo pertenezca a uno y solo uno de ellos; así también, estas
unidades deben tener características similares dentro de cada grupo, y diferentes de un
estrato a otro.

Similares dentro del grupo


Diferentes entre los grupos

24 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Dividimos la población de N unidades de muestreo en H estratos, con Nh unidades del


muestreo en el estrato h. Debemos conocer los valores de N1 , N2 , … , Nh .

𝐍𝟏 + 𝐍𝟐 + ⋯ + 𝐍𝐡 = 𝐍
𝐍 → Total de unidades en toda la población

4.1. Asignación proporcional al tamaño del estrato

En la asignación proporcional, la muestra extraída de cada estrato es proporcional al tamaño


de cada uno. Es decir, la cantidad de unidades en la muestra es estrictamente proporcional a
la cantidad de cada estrato, por ende la probabilidad de selección πhj = nh /Nh para cada
grupo (Sharon L. Lohr, 2000)

𝐄𝐧 𝐥𝐚 𝐚𝐬𝐢𝐠𝐧𝐚𝐜𝐢ó𝐧 𝐩𝐫𝐨𝐩𝐨𝐫𝐜𝐢𝐨𝐧𝐚𝐥,
𝐥𝐚 𝐟𝐫𝐚𝐜𝐜𝐢ó𝐧 𝐝𝐞 𝐦𝐮𝐞𝐬𝐭𝐫𝐞𝐨 𝐞𝐬 𝐥𝐚 𝐦𝐢𝐬𝐦𝐚 𝐩𝐚𝐫𝐚 𝐜𝐚𝐝𝐚 𝐞𝐬𝐭𝐫𝐚𝐭𝐨.
𝐧𝐡 𝐍𝐡 𝐧𝐡 𝐧
= ó = ó 𝐟𝐡 = 𝐟
𝐧 𝐍 𝐍𝐡 𝐍

4.2. Nomenclatura

Consideremos estas notaciones para nuestro posterior estudio:

L → número estratos

i → unidad dentro del estrato

N → tamaño de la población

est → estratificado

Nh → número total de unidades en el estrato h

nh → número total de unidades en la muestra del estrato h

xhi → valor obtenido para la i-ésima unidad en el estrato h

Nh
Wh = → ponderación del estrato h
N

25 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

n
fh = Nh → fracción de muestreo en el estrato h
h

n
h x
∑i=1 hi
x̅h = → media de la muestra en el estrato h
nh

n
h (x −x 2
∑i=1 hi ̅ h )
Sh 2 = → varianza estimada en el estrato h
nh −1

4.3. Estimación

Desarrollaremos a continuación las estimaciones de los parámetros del muestreo


estratificado.

4.3.1. Media

La estimación utilizada en el muestreo estratificado para la media de una población está


representada por 𝐱̅ 𝐞𝐬𝐭 donde

𝐋 𝐋
𝐍𝐡
𝐱̅ 𝐞𝐬𝐭 =∑ ∗ 𝐱̅ 𝐡 = ∑ 𝐖𝐡 ∗ 𝐱̅ 𝐡
𝐍
𝐡=𝟏 𝐡=𝟏

La estimación de la varianza de la media estratificada 𝐱̅ 𝐞𝐬𝐭 está dada por:

𝐋
𝐍𝐡 𝟐 𝐒𝐡 𝟐
𝐕(𝐱̅ 𝐞𝐬𝐭 ) = ∑ (𝟏 )
∗ − 𝐟𝐡 ∗
𝐍𝟐 𝐧𝐡
𝐡=𝟏

(1 − fh ) → Factor de corrección por población finita.

El error muestral está representado por:

𝐋
𝐍𝐡 𝟐 𝐒𝐡 𝟐
𝐃𝐄(𝐱̅ 𝐞𝐬𝐭 ) = √∑ 𝟐 ∗ (𝟏 − 𝐟𝐡 ) ∗ = √𝐕(𝐱̅ 𝐞𝐬𝐭 )
𝐍 𝐧𝐡
𝐡=𝟏

Estimación del intervalo de confianza con nivel de confianza (𝟏 − 𝛂)%:

𝐈𝐂 = 𝐱̅ 𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐱̅ 𝐞𝐬𝐭 )

Ejemplo 1.10: Usando los datos de la siguiente tabla, estimar lo siguiente:

a) El promedio de gasto por electricidad de los hogares de cada uno de los


departamentos.

26 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

b) El promedio estratificado del gasto por electricidad.

Observación: Los datos fueron extraídos en forma aleatoria a través de MAS en cada uno de
los departamentos.

Para San Pedro → n1 = 4 y N1 = 30

Para Central → n1 = 4 y N1 = 25

Para Itapúa → n1 = 5 y N1 = 20

Tabla 5: Gasto en concepto de luz eléctrica por hogar.


Estrato Departamento Pago por electricidad en Gs.
San Pedro 435.500
San Pedro 128.650
Estrato 1
San Pedro 358.400
San Pedro 565.800
Central 276.500
Central 409.200
Estrato 2
Central 565.500
Central 72.900
Itapúa 250.000
Itapúa 100.000
Estrato 3 Itapúa 74.000
Itapúa 168.000
Itapúa 200.000

Solución:

Tenemos como variable de estratificación el departamento (San Pedro, Central e Itapúa),

Saquemos los datos proporcionados en el ejemplo:

L=3

N = N1 + N2 + N3 = 30 + 25 + 20 = 75

a) En este punto debemos hacer la estimación del promedio de gasto por la luz eléctrica
de los hogares en cada departamento, esto podremos hacer mediante la siguiente fórmula:
nh x
∑i=1 hi
x̅h = nh

27 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Entonces tendremos lo siguiente:

Para el departamento San Pedro:

435.500 + 128.650 + 358.400 + 565.800


x̅1 = = 372.088
4

Para el departamento Central:

276.500 + 409.200 + 565.500 + 72.900


x̅2 = = 331.025
4

Para el departamento de Caaguazú:

250.000 + 100.000 + 74.000 + 168.000 + 200.000


x̅3 = = 158.400
5

Podemos decir que si seleccionamos al azar un hogar del departamento de San Pedro,
esperamos que este tenga un gasto por luz eléctrica de Gs. 372.088 aproximadamente; si
escogemos de Central esperamos que tenga un gasto alrededor de Gs. 331.025 y, si
seleccionamos aleatoriamente un hogar de Itapúa esperamos que tenga un gasto
aproximado de Gs. 174.100.

b) Para estimar el promedio de gastos por luz eléctrica, usaremos la siguiente fórmula:

L
Nh
x̅est = ∑ ∗ x̅h
N
h=1

Por tanto:

N1 N2 N3 1
x̅est = ∗ x̅1 + ∗ x̅2 + ∗ x̅3 = ∗ (N1 ∗ x̅1 + N2 ∗ x̅2 + N3 ∗ x̅3 )
N N N N

Usaremos los cálculos resultantes en el punto anterior, donde ya calculamos la estimación


de la media muestral en cada departamento.

Entonces:
1 1
x̅est = ∗ (30 ∗ 372.088 + 20 ∗ 331.025 + 25 ∗ 158.400) = ∗ 21.743.140
75 75

x̅est = 289.909

Esto nos indica que al seleccionar un hogar esperamos que el gasto promedio por la Luz
eléctrica sea Gs. 289.909 aproximadamente.

28 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

4.3.2. Total

La estimación del total la realizamos mediante la siguiente expresión:

𝐭 𝐞𝐬𝐭 = ∑ 𝐱̅ 𝐡 ∗ 𝐍𝐡
𝐡=𝟏

La estimación de la varianza del total estratificado 𝐭 𝐞𝐬𝐭 está dada por:

𝐋
𝟐 𝐒𝐡 𝟐
𝐕(𝐭 𝐞𝐬𝐭 ) = ∑ 𝐍𝐡 ∗ (𝟏 − 𝐟𝐡 ) ∗
𝐧𝐡
𝐡=𝟏

El error muestral está representado por:

𝐋
𝟐 𝐒𝐡 𝟐
𝐃𝐄(𝐭 𝐞𝐬𝐭 ) = √∑ 𝐍𝐡 ∗ (𝟏 − 𝐟𝐡 ) ∗ = √𝐕(𝐭 𝐞𝐬𝐭 )
𝐧𝐡
𝐡=𝟏

Estimación del intervalo de confianza con nivel de confianza (𝟏 − 𝛂)%:

𝐈𝐂 = 𝐭 𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐭 𝐞𝐬𝐭 )

Ejemplo 1.11: Se pretende estudiar la disponibilidad total de dinero que poseen los alumnos
de una institución, para ello se utiliza el muestreo estratificado usando los 3 turnos
disponibles (mañana, tarde y noche) como estratos.

Se obtuvo los siguientes datos:

Tabla 6: Disponibilidad de dinero de los alumnos en Gs.


𝑵º Estratos N n Media Muestral
1 Sección 1 120 45 30.000
2 Sección 2 115 35 45.000
3 Sección 3 130 40 50.000

a) Estimar la disponibilidad total de dinero de los alumnos en cada turno disponible


b) Estimar disponibilidad total de dinero de todos los alumnos.

Solución:

a) Debemos estimar la disponibilidad total de dinero de los alumnos por cada turno.

Entonces tendremos:

Para la mañana:

29 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

𝑡1 = x̅1 ∗ N1 = 30.000 ∗ 120 = 3.600.000

Para la tarde:

𝑡2 = x̅2 ∗ N2 = 50.000 ∗ 130 = 6.500.000

Para la noche:

𝑡3 = x̅3 ∗ N3 = 45.000 ∗ 115 = 5.175.000

Podemos decir que los alumnos del turno mañana disponen de 3.600.000 Gs., los de
turno tarde tienen disponible aproximadamente 6.500.000 Gs., mientras que los
alumnos del turno noche disponen de 5.175.000 Gs. Aproximadamente.

b) Para estimar el monto total que poseen los alumnos de la institución, debemos usar
la siguiente fórmula:

t est = ∑ x̅h ∗ Nh
h=1

Por tanto:

t est = x̅1 ∗ N1 + x̅2 ∗ N2 = 30.000 ∗ 120 + 45.000 ∗ 115 + 50.000 ∗ 130

t est = 15.275.000

El monto total que disponen los alumnos de dicha institución es aproximadamente de


15.275.000 Gs.

4.3.3. Proporción

La estimación de la proporción estratificada 𝐩𝐞𝐬𝐭 está dada por la siguiente expresión:

𝐋
𝐍𝐡
𝐩𝐞𝐬𝐭 = ∑ ∗ 𝐩𝐡
𝐍
𝐡=𝟏

nh a
∑i=1 hi
Donde ph = nh

→ ahi = 1 Si ocurre el evento de interés

→ ahi = 0 Si no ocurre el evento de interés

30 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

La varianza para la proporción estratificada 𝐩𝐞𝐬𝐭

𝐋
𝐍𝐡 𝟐 𝐩𝐡 ∗ (𝟏 − 𝐩𝐡 )
𝐕(𝐩𝐞𝐬𝐭 ) = ∑ 𝟐
∗ (𝟏 − 𝐟𝐡 ) ∗
𝐍 𝐧𝐡 − 𝟏
𝐡=𝟏

El error muestral está representado por:

𝐋
𝐍𝐡 𝟐 𝐩𝐡 ∗ (𝟏 − 𝐩𝐡 )
𝐃𝐄(𝐩𝐞𝐬𝐭 ) = √∑ ∗ (𝟏 − 𝐟𝐡 ) ∗
𝐍𝟐 𝐧𝐡 − 𝟏
𝐡=𝟏

Estimación del intervalo de confianza con nivel de confianza (𝟏 − 𝛂)%:

𝐈𝐂 = 𝐩𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐩𝐞𝐬𝐭 )

Ejemplo 4.2:

Ejemplo 1. 12: A partir de los datos de la tabla siguiente, realizar una estimación de la
proporción de personas que no poseen seguro médico.

Observación: en este estudio se aplicó el diseño de muestreo estratificado, teniendo en


cuenta la categoría de ocupación para los estratos.

Tabla 7: Tenencia de seguros médicos por categoría de ocupación


Categoría Ocupacional
Domesticas Docentes
Sí tiene seguro médico 900 10.000
No tiene seguro médico 8.000 800
N 15.000 25.000
n 8.900 10.800

Solución:

Los datos de la tabla son:

NDomésticas = 15.000 NDocentes = 25.000

Por tanto:

N = NDomésticas + NDocentes = 15.000 + 25.000 = 40.000

Para estimar la proporción de personas que no poseen seguro médico, primeramente


debemos calcular los valores de las proporciones estimadas dentro de cada estrato, es decir

31 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

la proporción de personas que no poseen seguro médico en cada una de las categorías de
ocupación.

Entonces:

número de personas sin seguro médico 8.000


Para las Domésticas: pDomésticas = = 8.900 = 0,90
nDocentes

número de personas sin seguro médico 800


Para las Docentes: pDocentes = = 10.800 = 0,07
nDomésticas

Ahora bien, teniendo los datos mencionados más arriba, podemos calcular lo solicitado en el
ejemplo.

Debemos utilizar la siguiente fórmula para nuestro cálculo

L
Nh
pest = ∑ ∗ ph
N
h=1

NDomésticas NDocentes
pest = ∗ pDomésticas + ∗ pDocentes
N N

15.000 25.000
pest = ∗ 0,90 + ∗ 0,07 = 0,38
40.000 40.000

pest = 0,38 pest = 38%

Aproximadamente el 38% de las personas no cuentan con seguro médico.

4.4. Precisión del muestreo estratificado

Según Cochran (1987) el muestreo estratificado posee ganancias considerables en cuanto a


la precisión si se dan los siguientes factores:

1. Al estratificar por los valores de la cantidad a muestrear, no habría superposición


entre los estratos y la varianza dentro de ellos, sería mucho menor que la varianza
global.

2. Si la población consta de instituciones que varían mucho en su tamaño.

3. Las principales variables a medir están íntimamente relacionadas con los tamaños de
las instituciones.

4. Se cuenta con una buena medida de tamaños para establecer los estratos.

32 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

5. Muestreo por conglomerado (MC)


Es un método en el cual la unidad de muestreo consiste de un grupo de unidades
elementales. Es decir, que cada grupo o conglomerado es un agregado de unidades
elementales. Cada conglomerado es considerado como una unidad de muestreo de
diferente rango a las unidades elementales que son las de interés.

Figura 2: Ilustración del muestreo Conglomerado

5.1. Definición

Según Pérez (2010), en un muestreo monoetápico de conglomerados se considera ¨una


población finita con M unidades elementales (…) agrupadas en N unidades mayores
llamadas conglomerados o unidades primarias, de tal forma que no exista solapamiento
entre los conglomerados y que éstos contengan en todo caso a la población en estudio¨.

Nota: Entiéndase por muestreo monoetápico (o también denominado muestreo por


conglomerados en una sola etapa) cuando seleccionamos los conglomerados y
consideramos a todas y cada una de las unidades en los mismos, es decir, realizamos un
censo de las unidades en cada conglomerado seleccionado.

Una muestra por conglomerados es una muestra aleatoria en la que cada unidad de
muestreo es un conjunto, o conglomerado de elementos”.

(Scheaffer, Mendenhall y Lyman, 2007)

33 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

A diferencia del muestreo estratificado, en el muestreo por conglomerados nos interesa que
las unidades sean heterogéneas dentro de cada conglomerado, y que cada conglomerado
sea homogéneo entre uno y otro (Pérez, 2010).

Diferentes dentro de los conglomerados


Similares entre los conglomerados

5.2. Características principales del MC

Los siguientes puntos son algunas características principales del muestreo por
conglomerado, (Pérez 2010):

 No es necesario tener un marco muestral que liste a todas las unidades de la


población, pues como sabemos, muchas veces resulta difícil obtenerlo, basta con
tener una lista de conglomerados y de ahí realizar la selección de los mismos.

 Cada unidad de muestreo constituye un conjunto de elementos o conglomerado de


elementos.

 Pueden utilizarse como marcos muestrales particiones o divisiones territoriales ya


delimitadas, los cuales generalmente son materiales cartográficos, como por
ejemplo: un plano de una ciudad, donde las manzanas pueden constituir los
conglomerados a muestrear.

 Pueden reducir los costos por observación, esto es debido a que generalmente las
unidades en los conglomerados no están tan dispersos geográficamente, sino, más
bien son agrupaciones geográficas, por tanto permite reducir gastos, como por
ejemplo: de transporte.

 Permite ahorrar tiempo, esto es porque las unidades a muestrear se encuentran


concentradas en un área específica.

 Pueden introducir mayor error, lo ideal es que en un muestreo por conglomerado


exista heterogeneidad internamente, sin embargo, es inevitable la presencia de un
cierto nivel de homogeneidad dentro de cada conglomerado.

 A medida que aumenta el tamaño de los conglomerados mi , la eficiencia del


muestreo por conglomerados disminuye.

5.3. Ventajas del (MC)

1. A una precisión y confiabilidad predefinida, resulta más barato.

34 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

2. Permite estudiar Universos donde no se conozca el marco de las unidades


elementales, solamente se requiere el marco de conglomerados.

3. El uso de conglomerados facilita la supervisión de las entrevistas y la administración


del trabajo de campo.

4. Es conveniente aclarar que para facilidades de enseñanza, es necesario plantear el


caso de conglomerados de igual tamaño.

5.4. Notación básica

N → número de conglomerados en la población

n → número de conglomerados en la muestra

mi → número de elementos en el conglomerado i

∑n
1 mi
m
̅ = → tamaño medio del conglomerado en la muestra
n

M = ∑N
1 mi → número de elementos en la población

̅ = M → tamaño promedio del conglomerado en la población


M N

yi → total de todas las observaciones en el i − ésimo conglomerado

̅ Puede ser estimado por 𝐦


𝐌 ̅ si se desconoce 𝐌

5.5. Estimaciones

En el muestreo por conglomerado también se puede estimar los valores de los parámetros
poblacionales.

A continuación, se detallan las estimaciones mencionadas.

5.5.1. Estimación de medias

El estimador de la media poblacional 𝛍 viene dada por:

∑𝐧𝟏 𝐲𝐢
𝐲̅ =
∑𝐧𝟏 𝐦𝐢

35 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

La varianza estimada de 𝐲̅ está dada por:

𝐍−𝐧 ∑𝐧𝟏(𝐲𝐢 − 𝐲̅ ∗ 𝐦𝐢 )𝟐
𝐕(𝐲̅) = ( ) ∗
̅𝟐
𝐍∗𝐧∗𝐌 𝐧−𝟏

Estimación del intervalo de confianza con nivel de confianza (1 − α)%:

𝐈𝐂 = 𝐲̅ ± 𝐭 ∗ 𝐃𝐄(𝐲̅)

Donde DE(y̅) = √V(y̅)

5.5.2. Estimación de proporciones

La estimación de la proporción poblacional 𝐩 está dada por la siguiente expresión:

∑𝐧𝟏 𝐚𝐢
𝐩= 𝐧
∑𝟏 𝐦𝐢

a𝑖 : Número total de elementos en el conglomerado i que poseen la característica de interés

La varianza estimada para la proporción es:

𝐍−𝐧 ∑𝐧𝟏(𝐚𝐢 − 𝐩 ∗ 𝐦𝐢 )𝟐
𝐕(𝐩) = ( )∗
̅𝟐
𝐍∗𝐧∗𝐌 𝐧−𝟏

La estimación del intervalo de confianza con nivel de confianza (1 − 𝛼)%:

𝐈𝐂 = 𝐩 ± 𝐭 ∗ 𝐃𝐄(𝐩)

Donde DE(p) = √V(p)

5.5.3. Estimación de totales

 Si 𝐌 es conocido

Estimador del total poblacional:

𝐭 = 𝐌 ∗ 𝐲̅

La varianza estimada del total:

𝐕(𝐭) = 𝐌𝟐 ∗ 𝐕(𝐲̅)

 Si 𝐌 no es conocido

36 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Estimador del total poblacional:


𝐧
𝐍
𝐭̅ = ∗ ∑ 𝐲𝐢
𝐧
𝟏

La varianza estimada del total:

𝐍 − 𝐧 ∑𝐧𝐢=𝟏(𝐲𝐢 − 𝐲̅𝐭 )𝟐
𝟐
𝐕(𝐭) = 𝐍 ∗ ( )∗
𝐍𝐧 𝐧−𝟏
1
Donde y̅t = n ∗ ∑n1 yi el cual es el promedio de los totales de conglomerados para los n
conglomerados muestreados.

Estimación del intervalo de confianza con nivel de confianza (1 − 𝛼)%:

𝐈𝐂 = 𝐭̅ ± 𝐭 ∗ 𝐃𝐄(𝒕)

Donde DE(t̅) = √V(t)

Ejemplo 1.13: Los datos que se muestran en la tabla siguiente se refieren al número de
hogares y el total de personas por cada hogar según ciertos conglomerados seleccionados de
la capital en nuestro país. Para Asunción se estableció un total de 2.000 conglomerados.

a) Estimar el número promedio de personas por hogar.

b) Hacer una estimación de la proporción de hogares con acceso a agua potable

c) Estimar el ingreso total de la población a través de cada hogar analizado.

Tabla 8: Número de hogares y el total de personas por cada hogar según conglomerados
muestreados.

Conglom N° de N° de Acceso a agua Ingreso total en los hogares por cada


erado Hogares personas potable conglomerado en millones de Gs.
Asunción 493 2.176 425 500
1 28 128 25 30
2 26 85 22 28
3 34 157 30 29
4 60 292 50 70
5 33 153 30 25
6 26 127 25 25
7 23 118 23 26
8 27 142 25 22
9 43 176 10 40
10 22 95 22 25

37 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

11 41 163 41 40
12 23 102 21 25
13 17 71 15 20
14 53 197 50 60
15 37 170 36 35
Solución:
a) Rememoremos las notaciones que debemos utilizar para la estimación de la media:

∑𝑛1 y𝑖
y̅ =
∑n1 mi

Dónde:

mi → número de elementos en el conglomerado i

y𝑖 → total de todas las observaciones en el i-ésimo conglomerado

Para este punto tendremos:

yi → en este caso es el n° de personas

m𝑖 → corresponde al n° de hogar en cada conglomerado

Con estas notaciones, entonces tendremos los siguientes datos:

15

∑ mi = 493
1

15

∑ y𝑖 = 2.176
1

Ahora bien,

∑15
1 yi 2.176
y̅ = 15 = =4
∑1 m𝑖 493

En promedio existen aproximadamente 4 personas por cada hogar.

b) Estimación de la proporción de hogares con acceso a agua potable

De la misma forma que el punto anterior, es importante especificar nuestros datos:

m𝑖 → corresponde al n° de hogar en cada conglomerado

38 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

yi → acceso a agua potable

20

∑ mi = 493
1

20

∑ a𝑖 = 425
1

Entonces, la estimación de la proporción sería:

∑𝑛1 a𝑖 425
p= = = 0,86
∑n1 mi 493

Aproximadamente el 86% de los hogares tienen acceso a agua potable.

Como está especificado en las formulas anteriores, existen dos opciones para la estimación
de un total a partir de un muestreo por conglomerado, estas dependen si M (número de
elementos en la población) es conocida o no.

c) Para este punto no conocemos el valor de 𝑀 (la cantidad total de hogares en la


N
población), por ello, debemos usar la fórmula: t̅ = ∗ ∑n1 yi
n

Saquemos los datos proporcionados en el ejercicio para utilizar la fórmula mencionada:

𝑁 → cantidad total de conglomerados en la población

𝑛 → cantidad de conglomerados analizados en la muestra

m𝑖 → corresponde al n° de hogar en cada conglomerado

yi → ingreso total en los hogares por cada conglomerado en millones de Gs.

𝑁 = 2.000 conglomerados

𝑛 = 15 conglomerados

20

∑ yi = 500
1

Reemplazando en la formula especificada arriba, tendremos:

39 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

2.000
t̅ = ∗ 500 = 66.667
15

Aproximadamente el total de ingreso de la población es de 66.667 millones de Gs.

5.6. Muestreo por conglomerado en dos etapas

El muestreo por conglomerado en dos etapas (también llamado muestreo multietápico)


podemos denominar como una extensión del muestreo por conglomerado monoetápico. Si
bien, este último se estudiaba todos los elementos de los conglomerados elegidos en la
muestra, sin embargo, los conglomerados suelen tener muchos elementos para medir cada
una de ellas, es por eso que podemos seleccionar aleatoriamente solo algunos de los
elementos en dichos conglomerados y así obtener una buena estimación de manera más
simple, (Scheaffer, R. L., Mendenhall, W. & Lyman, R., 2007).

Como apenas mencionamos, el muestreo por conglomerado en dos etapas es una


estrategia muy válida a la hora de usar un diseño muestral, es por ello que estaremos
profundizando su estudio en unidades posteriores.

40 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Bibliografía
Lohr, S. L. (2000). Muestreo: Diseño y Análisis. México: International Thomson Editores S.A.

Scheaffer, R. L., Mendenhall, W. & Lyman, R. (2007). Elementos de Muestreo (6a ed.).
Madrid: International Thomson Editores Spain Paraninfo S.A.

Cochran, W. G. (1987). Técnicas de muestreo (4ta ed.). México: CECSA.

41 www.virtual.facen.una.py

También podría gustarte