TMA - Unidad I - ML

Técnicas de muestreo avanzado
Repaso de conceptos
Material elaborado por:
Lic. Roberto Damián Díaz González
Campus Universitario
San Lorenzo, Paraguay
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Índice
1. Muestro Aleatorio Simple (𝐌𝐀𝐒) ....................................................................................................4
1.1. Cómo seleccionar un 𝐌𝐀𝐒 .......................................................................................................4
1.2. Estimaciones.............................................................................................................................7
1.2.1. Media ...........................................................................................................................7
1.2.2. Proporción ....................................................................................................................9
1.2.3. Total........................................................................................................................... 10
1.3. Teorema Central de límite .................................................................................................... 11
1.4. Precisión que se alcanza en las estimaciones ....................................................................... 13
1.4.1. El error estándar “DE (estimación)” .......................................................................... 13
1.4.2. Intervalos de confianza (IC) ....................................................................................... 14
2. El factor costo de una encuesta .................................................................................................... 18
3. Determinación de la muestra ........................................................................................................ 18
3.1. Algunos factores que pueden incidir en el tamaño muestral ............................................... 19
3.2. Precisión Estadística .............................................................................................................. 19
3.2.1. Fracción del muestreo ............................................................................................... 19
3.2.2. Error ¨d¨ .................................................................................................................... 19
3.3. Tamaño de la muestra para la estimación ............................................................................ 20
3.3.1. Tamaño de la muestra para la estimación de Media ................................................ 20
3.3.2. Tamaño de la muestra para la estimación de Total .................................................. 21
3.3.3. Tamaño de la muestra para la estimación de proporción ........................................ 23
4. Muestreo estratificado (ME) ......................................................................................................... 24
4.1. Asignación proporcional al tamaño del estrato .................................................................... 25
4.2. Nomenclatura........................................................................................................................ 25
4.3. Estimación ............................................................................................................................. 26
4.3.1. Media ........................................................................................................................ 26
4.3.2. Total........................................................................................................................... 29
4.3.3. Proporción ................................................................................................................. 30
4.4. Precisión del muestreo estratificado .................................................................................... 32
5. Muestreo por conglomerado (MC) ............................................................................................... 33
5.1. Definición .............................................................................................................................. 33
5.2. Características principales del MC ........................................................................................ 34
5.3. Ventajas del (MC) .................................................................................................................. 34
5.4. Notación básica ..................................................................................................................... 35
2 www.virtual.facen.una.py
5.5. Estimaciones.......................................................................................................................... 35
5.5.1. Estimación de medias................................................................................................ 35
5.5.2. Estimación de proporciones ...................................................................................... 36
5.5.3. Estimación de totales ................................................................................................ 36
5.6. Muestreo por conglomerado en dos etapas ......................................................................... 40
Bibliografía ............................................................................................................................................ 41
1. Muestro Aleatorio Simple (𝐌𝐀𝐒)

Según Lohr (2000), el muestreo aleatorio simple es la forma más sencilla de muestreo de
probabilidad y nos proporciona la base teórica de las formas más complejas. Existen dos
formas de extraer una muestra aleatoria simple: con reemplazo, donde la misma unidad se
puede incluir más de una vez en la muestra; sin reemplazo, donde todas las unidades de la
muestra son distintas, una vez elegida, ya son excluidas del conjunto de datos, por ende
tienen la misma probabilidad de ser seleccionada.
De manera formal, podemos definir de la siguiente manera:
Si se selecciona un tamaño de muestra 𝑛 de una población 𝑁 de tal manera que cada

muestra posible de tamaño 𝑛 tenga la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple. A la muestra así
obtenida se le denomina muestra aleatoria simple.
(Richard L. Scheaffer, Wiliam Mendenhall III y R. Lyman Ott., 2007).
1.1. Cómo seleccionar un 𝐌𝐀𝐒
A continuación, se muestra una serie de pasos para seleccionar una muestra aleatoria
Paso 1: Enumeramos las unidades de la población de 1 a N.
Paso 2: Extraemos la muestra de estas unidades, utilizando una tabla de números aleatorios,
un programa de computación (Excel, SPSS, etc.) o la calculadora.
Paso 3: Realizamos la selección unidad por unidad.
Observaciones:
 En cada selección, el procedimiento que utilicemos debe otorgar la misma

oportunidad a todos y cada uno de los números que no hayan salido aún.
 Debemos asegurarnos de que los números seleccionados sean todos diferentes y que
ninguno de ellos sea mayor que N.
 Una vez que terminemos de seleccionar los números, los elementos de la población
correspondiente a estos números, tomamos como muestra.
Ejemplo 1. 1: A continuación se presenta una base de datos de una población de 20 alumnos

de la Universidad Nacional de Asunción de la asignatura Muestreo de la carrera Matemática
estadística, cuyos datos contiene el número de orden, el nombre, la edad, su situación
laboral actual y su sexo, de esta población de alumnos obtener una muestra aleatoria de 5
alumnos (𝐧 = 𝟓).
Tabla 1. Base de datos de los alumnos

Nº orden Nombre Edad Situación Laboral Sexo
1 Ramona 20 No trabaja Mujer

2 Víctor 21 Trabaja Hombre
3 Juan 18 No trabaja Hombre
4 Elena 19 No trabaja Mujer
5 René 20 Trabaja Hombre
6 Máximo 25 No trabaja Hombre
7 Cynthia 22 Trabaja Mujer
8 Rosario 23 Trabaja Mujer
9 Carlos 25 No trabaja Hombre
10 Carmen 22 Trabaja Mujer
11 María 24 No trabaja Mujer
12 Fernanda 26 No trabaja Mujer
13 Julio 21 No trabaja Hombre
14 Fabián 19 Trabaja Hombre
15 Laura 18 Trabaja Mujer
16 Analía 25 Trabaja Mujer
17 Pedro 22 Trabaja Hombre
18 Jorge 22 No trabaja Hombre
19 Anastasia 23 No trabaja Mujer
20 Marcos 20 Trabaja Hombre
Solución:
Paso 1: En este caso nuestra base de datos ya está numerada del 1 al 20.
Paso 2: Seleccionamos la muestra de 5 números (n = 5) entre el 1 al 20, esto hacemos a

modo de darle la misma probabilidad de selección a cada unidad de la población.
Utilizaremos el método de selección del Excel teniendo en cuenta lo siguiente:
La sintaxis de la función es:
ALEATORIO.ENTRE (inferior; superior)
Donde los argumentos son:
 Inferior: es el menor número entero que la función puede devolver.
 Superior: es el mayor número entero que la función puede devolver.
Considerando el ejemplo, realicemos la selección de la muestra de la población

enumerada del 1 al 20 a partir de la generación de números aleatorios en el Excel, para
ello:
 Creamos una hoja de cálculo en Excel.
 Seleccionamos la celda C1 en la hoja de cálculo.
 Escribimos en la celda =ALEATORIO.ENTRE(1;20) y pulsamos la tecla
De esta manera obtenemos el primer número

aleatorio y es el número 13, el mismo se
encuentra dentro del rango de especificado
(1 al 20).
Como la nuestra solicitada es 5, de la misma manera generamos los restantes números

aleatorios, para ello continuamos con el mismo procedimiento.
De esta manera obtuvimos los 5 números aleatorios, los mismos

son 13, 8, 15, 2 y 7. Como siguiente paso, seleccionamos la
muestra correspondiente a los números aleatorios resultantes.
Paso 3: Seleccionamos la muestra aleatoria.
Tabla 2. Muestra aleatoria de tamaño 5
Nº orden correspondiente a los alumnos Nombre Edad Situación Laboral Sexo
2 Víctor 21 Trabaja Hombre

7 Cynthia 22 Trabaja Mujer
8 Rosario 23 Trabaja Mujer
13 Julio 21 No trabaja Hombre
15 Laura 18 Trabaja Mujer
De esta manera, queda seleccionada la muestra aleatoria de tamaño 5.
1.2. Estimaciones
Imaginémonos que de una población específica, cuyo número de habitante oscila entre
50.000 personas, y que se desea conocer la proporción de estudiantes existente, la edad
promedio de una zona de dicha población, etc. en estos casos, solo bastaría sacar una
muestra aleatoria y a través de un procedimiento matemático al que llamamos
“estimación”, obtener un valor que pueda representar adecuadamente a los valores
deseados de la población. Entonces, podemos decir que la estimación es un procedimiento
de la estadística inferencial por el cual podemos describir las características de una
población a partir de los datos de una muestra. A la característica de la muestra se lo conoce
como estadístico, o simplemente como estimador.
A continuación, desarrollaremos el proceso y las fórmulas de las estimaciones de los

parámetros.
1.2.1. Media
La media muestral 𝐱̅ es un estimador de la media poblacional μ, cuya denotación definimos

∑𝐍
𝐢=𝟏 𝐗 𝐢
de la siguiente manera: 𝛍= 𝐍
Donde
Xi : son los valores para cualquier característica en las unidades poblacionales.
𝑁: es el número de unidades en la población.
De la misma forma la media muestral que utilizamos para estimar la media poblacional μ lo
∑𝐧
𝐢=𝟏 𝐱𝐢
denotamos de la siguiente forma: 𝐱̅ = 𝐧
Donde
xi : Son los valores para cualquier característica en las unidades muestrales.
n: Es el número de unidades en la muestra.
La estimación de la varianza de la media 𝐱̅ de una muestra aleatoria simple está dada por:
𝐒𝟐
̂(𝐱̅) = (𝟏 − 𝐟) ∗
𝐕
𝐧
Donde
(1 − 𝑓) es el ajuste o corrección por población finita.
𝒏
𝑓 = 𝑵 es la fracción de muestreo o proporción de la población que estamos muestreando.
∑n ̅ )2
1 (xi −x
S2 = es la varianza muestral.
n−1
Ejemplo 1. 2: Supongamos ahora que se desea estimar la edad promedio de los alumnos
seleccionados en la muestra del Ejemplo 1.1
Solución:
La muestra aleatoria seleccionada en fue:
Tabla 3: N° de orden y edad de los alumnos

seleccionados en la muestra
Nº orden correspondiente a los alumnos Edad
2 21
7 22
8 23
13 21
15 18
Apliquemos la fórmula correspondiente a la estimación de la media a
∑ni=1 𝑥𝑖 𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 21 + 22 + 23 + 21 + 18 105
x̅ = = = =
n 5 5 5
x̅ = 21
Respuesta: se estima que la edad promedio de los alumnos de la Universidad Nacional de

Asunción es 21 años.
Utilizamos el mismo procedimiento para estimar la varianza:
Como calculo auxiliar, calculemos primeramente S 2
2
∑n1(xi − x̅)2 (21 − 21)2 + (22 − 21)2 + (23 − 21)2 + (21 − 21)2 + (21 − 18)2
S = =
n−1 5−1
14
S2 = = 3,5
4
14
S2 5 3 2
̂(x̅) = (1 − 𝑓) ∗
V = (1 − 20) ∗ 4
= 4∗3 ̂(x̅) = 0,53
V
n 5
1.2.2. Proporción
La proporción muestral 𝐩 ̂ es un estimador puntual de la proporción poblacional P. Para

calcular dicha estimación utilizaremos la siguiente expresión:
𝐍ú𝐦𝐞𝐫𝐨 𝐝𝐞 𝐨𝐛𝐬𝐞𝐫𝐯𝐚𝐜𝐢𝐨𝐧𝐞𝐬 𝐜𝐨𝐧 𝐥𝐚 𝐜𝐚𝐫𝐚𝐜𝐭𝐞𝐫í𝐬𝐭𝐢𝐜𝐚 𝐝𝐞 𝐢𝐧𝐭𝐞𝐫é𝐬

̂=
𝐩
𝐧
∑𝐧𝐢=𝟏 𝐱 𝐢
̂=
𝐩
𝐧
𝑥𝑖 = 1 si ocurre el evento de interés

Donde {
𝑥𝑖 = 0 si no ocurre el eveno de interés
La varianza de la estimación de una proporción está dada por la siguiente expresión:
̂(𝟏 − 𝐩
𝐩 ̂)
̂(𝐩
𝐕 ̂) = (𝟏 − 𝐟) ∗
𝐧−𝟏
n
Donde 𝑓 = N
Ejemplo 1. 3: Sigamos con los mismos datos de los alumnos de los ejemplos anteriores.
Centrémonos ahora en los alumnos que poseen trabajo actualmente, es decir, estamos
interesados en estimar la proporción de los alumnos que poseen trabajo.
Solución:
Definamos primero a las características que presentan los alumnos y el evento de interés.
𝑥𝑖 = 1 los alumnos que trabajan(evento de ínteres)

Sea {
𝑥𝑖 = 0 los alumnos que no trabajan
Eventos 𝑥𝑖 Cantidades
1 4
0 1
Entonces, la proporción estimada queda de la siguiente forma:
Cantidad de alumnos que trabajan

p̂ =
n
4
p̂ = 5 = 0,8  La proporción de alumnos que trabajan es de 0,8, es decir, el 80% de los
alumnos poseen actualmente un trabajo.
La varianza de la estimación quedaría de la siguiente manera:
1
p̂ ∗ (1 − p̂) 5 0,8 ∗ (1 − 0,8) 3 16
̂(p̂) = (1 − 𝑓) ∗
V = (1 − ) ∗ = ∗
n−1 20 5−1 4 4
̂(p̂) = 0,03
V
1.2.3. Total
El total muestral 𝐭̂ es un estimador puntual del total poblacional T. Para estimar un total en
el MAS utilizaremos la siguiente expresión:
∑𝐧𝐢=𝟏 𝐱 𝐢
𝐭̂ = 𝐍 ∗ = 𝐍 ∗ 𝐱̅
𝐧
Donde
x̅: es la media muestral.
N: el número de unidades en la población.
La varianza de la estimación de un total está dada por:
𝐍𝟐 𝐒𝟐
̂(𝐭̂) = (𝟏 − 𝐟) ∗
𝐕
𝐧
∑n ̅ )2
1 (xi −x
Donde S 2 = n−1
Ejemplo 1.4: Se extrae una muestra aleatoria simple de tamaño 7 de un total de 30 alumnos
de la Facultad de Ciencias Exactas y Naturales del segundo semestre del 2017, se les
consulto la cantidad de asignaturas cursadas en el semestre, a continuación los datos
obtenidos:
Tabla 4: Cantidad de asignaturas cursadas en el

semestre
Alumnos 1 2 3 4 5 6 7
Cantidad de
5 6 4 5 6 7 4
asignaturas
Se pide estimar el total de asignaturas cursadas por los 30 alumnos.
Solución:
Es importante especificar la variable aleatoria xi , en este caso será la cantidad de asignaturas

cursadas por los alumnos en el semestre.
Por otro lado, para calcular la estimación de un total por 𝐌𝐀𝐒 debemos primeramente
obtener la media estimada.
Entonces usando la fórmula de la media, tendremos lo siguiente:
∑ni=1 xi x1 + x2 + x3 + x4 + x5 21 + 22 + 23 + 21 + 18 105
x̅ = = = = =2
n 5 5 5
El total estimado será:
∑n
i=1 xi
t̂ = N ∗ = N ∗ x̅ = 30 ∗ 21
n
t̂ = 630
El número total de asignaturas cursadas por los alumnos de la Facultad de Ciencias Exactas y
Naturales del segundo semestre del 2017 en el segundo semestre es aproximadamente 630.
Como veníamos haciendo en los demás ejemplos, calculemos también la varianza del total
estimada.
Y como V(t̂) depende S 2 , calculemos primeramente este valor.
∑n1(xi − x̅)2
S2 =
n−1
S2
(5 − 21)2 + (6 − 21)2 + (4 − 21)2 + (5 − 21)2 + (6 − 21)2 + (7 − 21)2 + (4 − 21)2
=
7−1
1736
S2 = = 289,3
6
Por lo tanto,
N2 S2 7 302 ∗ 289,3
̂(t̂) = (1 − f) ∗
V = (1 − ) ∗
n 30 7
̂(t̂) = 28.520
V
1.3. Teorema Central de límite
Sean X1 , X2 , X3,… Xn un conjunto de variable aleatoria independiente e idénticamente

distribuida de una distribución de probabilidad específica, con una media μ y varianza σ2 ≠
̅ = 1 ∑ni=1 Xi tiene aproximadamente
0. Si n es suficientemente grande, la variable aleatoria X n
𝟐 𝛔𝟐
una distribución normal con 𝛍𝐗̅ = 𝛍 y 𝛔 ̅
𝐗 = .
𝐧
Figura 1: Ilustración del Teorema Central de límite
Para una mejor ilustración de este teorema, veamos el siguiente ejemplo:
Ejemplo 1.5: Supongamos que 𝐗 es una variable aleatoria con una distribución de
probabilidad cualquiera y cuya población sea {𝟐, 𝟒, 𝟓}. Si tomamos una muestra 𝐧 = 𝟐,
calcular 𝛍𝐗̅ y 𝛔𝟐 𝐗̅ .
Solución:
Calculemos primeramente la media μ y la varianza σ2 de la población, cuyas fórmulas son:
1 1
μ = N ∑ni=1 Xi y σ2 = N ∑ni=1(Xi − μ)2
Entonces tendremos lo siguiente:
1 11
μ= ∗ (2 + 4 + 5) =
3 3
1 11 2 11 2 11 2 1 14 14
σ2 = ∗ ((2 − ) + (2 − ) + (2 − ) ) = ∗ ( ) =
3 3 3 3 3 3 9
Ahora bien, debemos extraer todas las muestras posibles de tamaño 2, sin reemplazo.
Las muestras posibles son las siguientes n1 = (2,4) n2 = (2,5) n3 = (4,5):
̅1 = 3
Las medias de las muestras son: X ̅ 2 = 3,5
X ̅ 3 = 4,5
X
Entonces,
1 1 11
μX̅ = ∗ (3 + 3,5 + 4,5) = ∗ 11 =
3 3 3
2
1 11 2 11 2 11 2 2
σ ̅
X = ∗ ((3 − ) + (3,5 − ) + (4,5 − ) ) =
3 3 3 3 5
Como la población es conocida debemos utilizar el Factor de Corrección de Población Finita

𝐍−𝐧
(𝐍−𝟏).
Por tanto, en este caso
14
N − n σ2 3−2 2
σ2
̅
X =( )∗ =( )∗ 9 =
N−1 n 3−1 2 5
Conclusión: El teorema Central de Límite se verifica con una pequeña corrección de la

Varianza de la distribución muestral de la media.
1.4. Precisión que se alcanza en las estimaciones
En el apartado anterior mencionamos a las estimaciones de los distintos parámetros

poblacionales. Es muy importante conocer la precisión y el nivel de confianza que
obtenemos al utilizar estos estimadores.
Según Rodríguez (1991), la precisión de las estimaciones tiene relación inversa con el error
muestral, cuanto menor sea el error menor es la dispersión de la distribución del estimador
y, en consecuencia, la precisión será mayor, pero para lograr una menor dispersión es
necesario aumentar el número de unidades en la muestra hasta que obtengamos los niveles
de precisión aceptables.
Para medir la precisión de un estimador o de los estimadores conozcamos primero los

siguientes conceptos fundamentales: error estándar y nivel de confianza.
1.4.1. El error estándar “DE (estimación)”
Al hacer nuestras estimaciones siempre tendremos errores, a esos errores se los llama “error
estándar” o también “error típico”. Es una medida de variabilidad del estimador con
respecto al parámetro de la población que estemos estimando.
El error estándar se calcula a partir de la varianza de los estimadores, este es la raíz cuadrada
de la misma.
En fórmulas matemáticas se puede expresar de la siguiente manera:
2 ∑n ̅ )2
̂(x̅) = √(1 − f) ∗ S  donde S 2 =
Para la media estimada: DE(x̅) = √V 1 (xi −x
n n−1
̂(1−p
p ̂)
̂(p̂) = √(1 − f) ∗
Para la proporción: DE(p̂) = √V n−1
N 2 S2 ∑n ̅ )2
1 (xi −x
̂ (t̂) = √(1 − f) ∗
Para el total: DE(t̂) = √V  donde S 2 =
n n−1
Según Cochran (1980), los errores estándar de las estimaciones de los parámetros
poblacionales son utilizados generalmente por los siguientes motivos:
 Para comparar la precisión obtenida por el muestreo aleatorio simple.
 Para estimar el tamaño de la muestra que se necesita en una encuesta que esté
siendo planteada.
 Para estimar la precisión realmente obtenida en una encuesta.
1.4.2. Intervalos de confianza (IC)
El intervalo de confianza es un método por el cual podemos medir la precisión de la

estimación.
En ocasiones es más factible estimar un rango de valores (valor mínimo y valor máximo) en
el cual se encuentre el parámetro con un nivel de confianza especificada; a este rango se le
denomina “intervalo de confianza”, y a este procedimiento, ëstimación por intervalo¨.
𝟏 − 𝜶: Representa el nivel de confianza y es la probabilidad de que el método de estimación

nos proporcione un intervalo de confianza que contiene al parámetro.
𝛂: Nivel de significancia
Interpretación de un IC al 95%
Si realizamos el procedimiento de selección de muestras de la población, varias veces, y

construimos un intervalo de confianza a partir de este método, esperamos que el 95% de los
intervalos resultantes contengan al verdadero valor del parámetro, pero en la realidad
extraemos una sola muestra, por lo que ël IC sólo es una afirmación de probabilidad acerca
de la frecuencia con la que esperamos estar en lo correcto¨
(Lohr,2000).
El intervalo de confianza de cualquier estimación viene dada por:
𝐈𝐂: 𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧 ± 𝐃𝐄(𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧) ∗ 𝐭
Margen del error
𝐭 es el valor del desvío normal correspondiente a la

probabilidad de la confianza deseada.
Veamos algunos valores más conmúnmente utilizados:
Nivel de confianza Nivel de significancia Valor de 𝐭
99% 1% 2,58
95% 5% 1,96
90% 10% 1,64
De esta manera, los IC para cada parámetro sería lo siguiente:
IC para la media: IC = x̅ ± DE(x̅) ∗ t
IC para la proporción IC = p̂ ± DE(p̂) ∗ t
IC para la proporción IC = t̂ ± DE(t̂) ∗ t
Consideremos los siguientes ejemplos para una mejor ilustración de la precisión de una
estimación.
Ejemplo 1. 6: Utilizando los datos del Ejemplo 1. 2: Supongamos ahora que se desea estimar
la edad promedio de los alumnos seleccionados en la muestra del Ejemplo 1.1estime el
intervalo de confianza para la edad promedio de los alumnos con las siguientes condiciones:
a) Utilice una confianza del 95%.
b) Utilice una confianza del 99%.
c) Repetir el punto a) utilizando una muestra 𝐧 = 𝟏𝟎.
d) Repetir el punto b) utilizando una muestra 𝐧 = 𝟏𝟎.
e) Hacer una pequeña descripción del resultado de los puntos anteriores.
Observación: para los puntos c) y d) utilizar los mismos datos a excepción del tamaño
muestral.
Solución
a) Calculemos primeramente el DE(estimación):
̂(x̅) = √0,53 = 0,73

DE(x̅) = √V
Calculemos ahora el margen de error, para ello utlizaremos el valor de t al 95%, esto es 1,96.
Entonces,
DE(x̅) ∗ t = 0,73 ∗ 1,96 = 1,42
El intervalo de confianza al 95%,
IC = x̅ ± DE(x̅) ∗ t
IC = 21 ± 1,42
IC(95%) = 19,6 ≤ μ ≤ 22,4
̂(x̅) = √0,53 = 0,73

b) DE(estimación): DE(x̅) = √V
El margen de error de t al 99%, es 2,58.
Entonces,
DE(x̅) ∗ t = 0,73 ∗ 2,58 = 1,87
IC = x̅ ± DE(x̅) ∗ t
IC = 21 ± 1,87
IC(95%) = 19,1 ≤ μ ≤ 22,8
c) Como el tamaño de la muestra fue modificado, debemos tener en cuenta lo siguiente:

 Usaremos la misma media (x̅) y la misma varianza muestral S 2 .
 Calcularemos de nuevo DE(estimación) para el n = 10, entonces debemos
̂(x̅).
conseguir el valor de la varianza estimada V
14
S2 10 1 1 1
̂(x̅) = (1 − f) ∗ = (1 − ) ∗ 4 = ∗ = = 0,18
V
n 20 10 2 3 6
̂ (x̅) = √0,18 = 0,42

DE(x̅) = √V
NC = 95%  t = 1,96
Entonces,
DE(x̅) ∗ t = 0,42 ∗ 1,96 = 0,82
IC = x̅ ± DE(x̅) ∗ t
IC = 21 ± 0,82
IC(95%) = 20,18 ≤ μ ≤ 21,82
d) Nivel de confianza = 99% para n = 10
14
S2 10 1 1 1
̂(x̅) = (1 − f) ∗ = (1 − ) ∗ 4 = ∗ = = 0,18
V
n 20 10 2 3 6
̂ (x̅) = √0,18 = 0,42

DE(x̅) = √V
NC = 99%  t = 2,58
Entonces,
DE(x̅) ∗ t = 0,42 ∗ 2,58 = 1,08
IC = x̅ ± DE(x̅) ∗ t
IC = 21 ± 1,08
IC(95%) = 19,92 ≤ μ ≤ 22,08
e) Este ejemplo nos ayuda a tener un mejor concepto sobre la precisión que pueden tener
los estimadores, si bien, en este caso solo usamos la estimación de la media, de la
misma manera se comportan los estimadores de proporción y total.
Se puede notar que cuando aumentamos el NC de 95% a 99% la amplitud del intervalo se
vuelve un poco más amplio. Esto es simplemente que al aumentar el nivel de confianza
estamos siendo más exigentes con respecto a donde se podría encontrar el verdadero valor
de la media poblacional. Sin embargo, cuando aumentamos el tamaño de la muestra, ocurrió
lo contrario, la amplitud del intervalo es menor comparando para cada nivel de confianza
correspondiente.
De aquí podemos decir que la precisión de un estimador depende exclusivamente del

tamaño de la muestra. En otras palabras, a medida que el tamaño de la muestra sea mayor,
mayor será la precisión de los estimadores.
2. El factor costo de una encuesta

Una de las relaciones sumamente importante de un muestreo es la del costo y la precisión,
lo ideal sería obtener una mayor precisión para un costo mínimo. La precisión podemos
medir a través de intervalos de confianza, mientras que el costo es una restricción que
podremos medir estableciendo funciones de costo.
Cabe destacar que no existe una función que nos proporcione un costo óptimo para todos
los eventos, ya que para ello deberíamos considerar todos los ítems que inciden en
maximizar la precisión y minimizar el costo para cada diseño muestral.
Este punto estaremos viendo de manera más profunda en unidades posteriores.
3. Determinación de la muestra
El muestreo aleatorio simple se caracteriza por ser uno de los métodos más simples en
cuanto al cálculo de las estimaciones, sin embargo, cabe mencionar que hasta ahora hemos
tratado el procedimiento de selección y no acerca del número de observaciones que deben
ser incluidos en la muestra, el cálculo del tamaño muestral es una actividad a priori al
desarrollo de una encuesta y las estimaciones se realizan una vez realizada la encuesta.
Para estimar el tamaño muestral es importante tener en cuenta dos supuestos, el primero
corresponde al nivel de confianza al que queremos trabajar y el segundo, al error máximo
que estamos dispuestos a admitir en nuestra estimación.
Veamos algunos factores que pueden incidir en el cálculo mencionado.
3.1. Algunos factores que pueden incidir en el tamaño muestral
Según Pérez (2010); Rodríguez, Ferreras & Núñez (1991), estos son algunos de los factores
que podrían incidir a la hora de calcular la estimación del tamaño muestral:
 Los recursos económicos disponibles, la mayoría de las veces representa una

limitación fundamental para considerar muestras grandes.
 Disponibilidad del marco muestral.
 El diseño muestral.
 La variable a ser medida, que tan homogéneo o heterogéneo es el comportamiento

de las unidades de la población en relación a la variable considerada, para ello es
importante revisar estudios anteriores, estadísticas disponibles, etc.
 El tipo de estimación a ser calculada.
 El nivel de confianza.
 La precisión.
3.2. Precisión Estadística
Veamos algunas definiciones que nos ayudarán a comprender mejor la precisión estadística
3.2.1. Fracción del muestreo

n
La fracción de muestreo está identificada por f en donde f = N y es la razón del tamaño de la
muestra respecto a la población, es decir, representa la proporción muestreada en la
población. Cuando el tamaño poblacional es grande (N → ∞), la fracción de muestreo es
muy pequeña (f → 0), por lo que los factores o las correcciones por población finita (cpf),
n n
como habíamos especificado (1 − N) para la varianza y √1 − N para el error estándar,
toman valores muy cercanos a la unidad y el tamaño poblacional no tiene un efecto directo
en el error estándar de la estimación.
Según Cochran (1980), la ¨cpf se puede ignorar cuando la fracción de muestreo no exceda un
5%¨.
3.2.2. Error ¨d¨
Como hemos visto, el intervalo de confianza para una estimación está dada por:
𝐈𝐂: 𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧 ± 𝐃𝐄(𝐞𝐬𝐭𝐢𝐦𝐚𝐜𝐢ó𝐧) ∗ 𝐭
Margen del error
Donde el margen de error o el error máximo permisible está representado por 𝐝, al límite o
margen de error también se la denomina precisión.
d = DE(estimación) ∗ t
La precisión hace referencia a la longitud del intervalo, si el intervalo es (a, b), entonces
cuanto menor sea la longitud ℓ = b − a más precisa será la estimación.
3.3. Tamaño de la muestra para la estimación
A continuación veremos las fórmulas para obtener el tamaño de muestra suficiente para la
estimación de los parámetros.
3.3.1. Tamaño de la muestra para la estimación de Media
El tamaño de muestra necesario para estimar μ con un límite para el error de estimación d y
un nivel de confianza prefijado está dado por:
𝐒𝟐 ∗ 𝐭𝟐
𝐧=
𝐝𝟐
Dónde:
t: es el valor correspondiente al nivel de confianza elegido.
S: información acerca de la variabilidad (desviación típica).
d: error máximo permisible o margen de error.
Debemos comprobar si se cumple N > n(n − 1), en caso de que se cumpla, el tamaño
muestral adecuado que debemos considerar es obtenido a partir de la fórmula presentada
más arriba.
Si no se cumple la condición presentada, el tamaño de muestra adecuado es obtenido a

partir de la siguiente fórmula:
𝐧𝟎
𝐧𝐟 = 𝐧
𝟏 + 𝐍𝟎
Observación: Cuando la población es grande (N → ∞), la fracción de muestreo es pequeña

𝐒𝟐 ∗𝐭 𝟐
(f → 0) entonces n → n0 con 𝐧𝟎 = .
𝐝𝟐
Ejemplo 1.7: Supongamos que deseamos estimar la edad promedio de los alumnos que se
encuentran cursando el segundo año de un colegio de la capital, la totalidad de alumnos de
dicho curso es de aproximadamente 300. Para hacer el estudio se accedió a la lista de
matriculados del colegio, así también por un estudio anterior se sabe que la varianza de la
estimación es de 4 y pretendemos cometer un error máximo de hasta 1 al estimar la media.
Si usamos un nivel de confianza del 95%; ¿cuál debe ser el tamaño de la muestra?
Solución
Nuestra variable aleatoria o variable de interés:
xi = edad del estudiante
Tenemos los datos previos a nuestro estudio
S2 = 4
Nivel de confianza = 95% → t = 1,96
d=1
N = 300
Teniendo en cuenta estos datos, ya podemos calcular el tamaño de la muestra.
S2 ∗ t2
n=
d2
4 ∗ (1,96)2 15,3664
n= = = 15,3664 ≈ 15
12 1
Verifiquemos si el tamaño muestral obtenido es adecuado para la estimación de la media:
N > n(n − 1)  300 > 15(15 − 1)  300 > 210
Verificamos que si se cumple la condición especificada, por lo tanto, concluimos que el

tamaño muestral es adecuado.
Conclusión: Para estimar el promedio de edad de los alumnos de la capital, deberíamos

tomar como mínimo a 15 alumnos, considerando un 95% de confianza y un error máximo de
1.
3.3.2. Tamaño de la muestra para la estimación de Total
El tamaño de muestra necesario para estimar 𝐓 con un límite para el error de estimación 𝐝 y
𝐍 𝟐 ∗ 𝐧𝟎 𝐒𝟐 ∗ 𝐭𝟐
𝐧= con 𝐧𝟎 =
𝟏 + 𝐍 ∗ 𝐧𝟎 𝐝𝟐
Dónde:
S: información acerca de la variabilidad (desviación típica).
Ejemplo 1.8: ¿Cuál sería el tamaño de la muestra que debe utilizar el dueño de una fábrica
de cementos que desea estimar el monto total de la ganancia diaria generada por su
producto (esto es de acuerdo a su kg), si para ello pretende realizar una muestra aleatoria
con una confianza del 95%?, los datos siguientes fueron obtenidos a través de un estudio
anterior:
N = 20.000 Unidades
S 2 = 1.000.000 Gs.
d = 2.000.000 Gs.
Solución:
Nuestra variable aleatoria xi =ganancia diaria en Gs. generados por la fábrica.
Utilicemos los datos proporcionados para determinar el tamaño de la muestra.
Nivel de confianza = 95% → t = 1,96
S 2 ∗ t 2 1.000.000 ∗ (1,96)2
n0 = = = 1,9208
d2 (2.000.0000)2
Entonces;
N 2 ∗ n0 20.0002 ∗ 1,9208
n= = = 19999,4794 ≅ 2.000
1 + N ∗ n0 1 + 20.000 ∗ 1,9208
Concluimos que el dueño de la fábrica debería elegir al menos 2.000 unidades de su

producto para estimar la ganancia total diaria, utilizando una confianza del 95% y un error
máximo de 2.000.000 de Gs.
3.3.3. Tamaño de la muestra para la estimación de proporción
El tamaño de muestra necesario para estimar 𝐏 con un límite para el error de estimación 𝐝 y
𝐩 ∗ (𝟏 − 𝐩) ∗ 𝐭 𝟐
𝐧=
𝐝𝟐
Dónde:
Debemos comprobar si se cumple N > n ∗ (n − 1), en caso de que se cumpla el tamaño

muestral adecuado que debemos considerar es obtenido a partir de la fórmula presentada
más arriba.
Si no se cumple la condición presentada, el tamaño de muestra adecuado es obtenido a

𝐧𝟎
partir de la siguiente fórmula: 𝐧𝐟 = 𝐧
𝟏+ 𝟎
𝐍
Cuando la población es grande 𝐍→∞, la fracción de muestreo es pequeña 𝐟→0

𝐩∗(𝟏−𝐩)∗𝐭 𝟐
entonces 𝐧→𝐧𝟎 con 𝐧𝟎 = .
𝐝𝟐
Ejemplo 1. 9: Se desea estudiar el nivel de conocimiento sobre la ley de maternidad en un

barrio especifico de la zona rural, en dicha zona se encuentran 500 casas, de los cuales por
una prueba piloto se obtuvo que el 62% de las amas de casa si tienen conocimiento sobre
esta ley, si se pretende utilizar una confianza del 95% y un error máximo de hasta un 5%.
¿Cuál sería el tamaño de la muestra para dicho estudio?
Solución:
1 conocen la ley
Nuestra variable de interés es: xi = {
0 en otro caso.
p = 0,62 Proporción de amas de casa que conocen la ley de maternidad.
1 − p = 1 − 0,62 = 0,38
d = 5% → 0,05
Nivel de confianza =95% → t = 1,96
Entonces;
p ∗ (1 − p) ∗ t 2 0,62 ∗ 0,38 ∗ (1,96)2
n= = = 362,032384 ≅ 362
d2 (0,05)2
Comprobemos si el tamaño de muestra estimado es adecuado:
N > n ∗ (n − 1) 500 > 362 ∗ (362 − 1)  500 > 130.682
Vemos que no se cumple la condición; por tanto, usemos la fórmula alternativa para este
caso.
Observación: f → 0 implica que podremos obtener el tamaño adecuado para la muestra

usando la corrección para una población finita (cpf).
Por ello;
362
nf = = 209,98 ≈ 210
362
1+
500
Conclusión: como mínimo se debe muestrear a 210 casas para estimar la proporción de
conocimiento de las amas de casa cobre la ley de maternidad, con un nivel de confianza del
95% y un error máximo hasta el 5%.
4. Muestreo estratificado (ME)

Partiendo del objetivo principal del muestreo:
 Obtener la mayor información posible sobre la población.

 El costo de dicho muestreo no sea tan elevado.
En este caso el muestreo estratificado se adecua muy bien a estos objetivos ya que permite
obtener muy buenas informaciones de la población con un costo no tan elevado. Esto ocurre
por el diseño propio, la misma consiste en agrupar a las unidades de muestreo cuyas
características sean bastante similares.
En síntesis, el muestreo estratificado nos permite dividir la población (de tamaño N) en

diferentes grupos, a los cuales denominamos estratos, con la particularidad de que cada una
de las unidades de muestreo pertenezca a uno y solo uno de ellos; así también, estas
unidades deben tener características similares dentro de cada grupo, y diferentes de un
estrato a otro.
Similares dentro del grupo

Diferentes entre los grupos
Dividimos la población de N unidades de muestreo en H estratos, con Nh unidades del

muestreo en el estrato h. Debemos conocer los valores de N1 , N2 , … , Nh .
𝐍𝟏 + 𝐍𝟐 + ⋯ + 𝐍𝐡 = 𝐍
𝐍 → Total de unidades en toda la población
4.1. Asignación proporcional al tamaño del estrato
En la asignación proporcional, la muestra extraída de cada estrato es proporcional al tamaño

de cada uno. Es decir, la cantidad de unidades en la muestra es estrictamente proporcional a
la cantidad de cada estrato, por ende la probabilidad de selección πhj = nh /Nh para cada
grupo (Sharon L. Lohr, 2000)
𝐄𝐧 𝐥𝐚 𝐚𝐬𝐢𝐠𝐧𝐚𝐜𝐢ó𝐧 𝐩𝐫𝐨𝐩𝐨𝐫𝐜𝐢𝐨𝐧𝐚𝐥,
𝐥𝐚 𝐟𝐫𝐚𝐜𝐜𝐢ó𝐧 𝐝𝐞 𝐦𝐮𝐞𝐬𝐭𝐫𝐞𝐨 𝐞𝐬 𝐥𝐚 𝐦𝐢𝐬𝐦𝐚 𝐩𝐚𝐫𝐚 𝐜𝐚𝐝𝐚 𝐞𝐬𝐭𝐫𝐚𝐭𝐨.
𝐧𝐡 𝐍𝐡 𝐧𝐡 𝐧
= ó = ó 𝐟𝐡 = 𝐟
𝐧 𝐍 𝐍𝐡 𝐍
4.2. Nomenclatura
Consideremos estas notaciones para nuestro posterior estudio:
L → número estratos
i → unidad dentro del estrato
N → tamaño de la población
est → estratificado
Nh → número total de unidades en el estrato h
nh → número total de unidades en la muestra del estrato h
xhi → valor obtenido para la i-ésima unidad en el estrato h
Nh
Wh = → ponderación del estrato h
N
n
fh = Nh → fracción de muestreo en el estrato h
h
n
h x
∑i=1 hi
x̅h = → media de la muestra en el estrato h
nh
n
h (x −x 2
∑i=1 hi ̅ h )
Sh 2 = → varianza estimada en el estrato h
nh −1
4.3. Estimación
Desarrollaremos a continuación las estimaciones de los parámetros del muestreo

estratificado.
4.3.1. Media
La estimación utilizada en el muestreo estratificado para la media de una población está

representada por 𝐱̅ 𝐞𝐬𝐭 donde
𝐋 𝐋
𝐍𝐡
𝐱̅ 𝐞𝐬𝐭 =∑ ∗ 𝐱̅ 𝐡 = ∑ 𝐖𝐡 ∗ 𝐱̅ 𝐡
𝐍
𝐡=𝟏 𝐡=𝟏
La estimación de la varianza de la media estratificada 𝐱̅ 𝐞𝐬𝐭 está dada por:
𝐋
𝐍𝐡 𝟐 𝐒𝐡 𝟐
𝐕(𝐱̅ 𝐞𝐬𝐭 ) = ∑ (𝟏 )
∗ − 𝐟𝐡 ∗
𝐍𝟐 𝐧𝐡
𝐡=𝟏
(1 − fh ) → Factor de corrección por población finita.
El error muestral está representado por:
𝐋
𝐍𝐡 𝟐 𝐒𝐡 𝟐
𝐃𝐄(𝐱̅ 𝐞𝐬𝐭 ) = √∑ 𝟐 ∗ (𝟏 − 𝐟𝐡 ) ∗ = √𝐕(𝐱̅ 𝐞𝐬𝐭 )
𝐍 𝐧𝐡
𝐡=𝟏
Estimación del intervalo de confianza con nivel de confianza (𝟏 − 𝛂)%:
𝐈𝐂 = 𝐱̅ 𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐱̅ 𝐞𝐬𝐭 )
Ejemplo 1.10: Usando los datos de la siguiente tabla, estimar lo siguiente:
a) El promedio de gasto por electricidad de los hogares de cada uno de los

departamentos.
b) El promedio estratificado del gasto por electricidad.
Observación: Los datos fueron extraídos en forma aleatoria a través de MAS en cada uno de
los departamentos.
Para San Pedro → n1 = 4 y N1 = 30
Para Central → n1 = 4 y N1 = 25
Para Itapúa → n1 = 5 y N1 = 20
Tabla 5: Gasto en concepto de luz eléctrica por hogar.

Estrato Departamento Pago por electricidad en Gs.
San Pedro 435.500
San Pedro 128.650
Estrato 1
San Pedro 358.400
San Pedro 565.800
Central 276.500
Central 409.200
Estrato 2
Central 565.500
Central 72.900
Itapúa 250.000
Itapúa 100.000
Estrato 3 Itapúa 74.000
Itapúa 168.000
Itapúa 200.000
Solución:
Tenemos como variable de estratificación el departamento (San Pedro, Central e Itapúa),
Saquemos los datos proporcionados en el ejemplo:
L=3
N = N1 + N2 + N3 = 30 + 25 + 20 = 75
a) En este punto debemos hacer la estimación del promedio de gasto por la luz eléctrica
de los hogares en cada departamento, esto podremos hacer mediante la siguiente fórmula:
nh x
∑i=1 hi
x̅h = nh
Entonces tendremos lo siguiente:
Para el departamento San Pedro:
435.500 + 128.650 + 358.400 + 565.800

x̅1 = = 372.088
4
Para el departamento Central:
276.500 + 409.200 + 565.500 + 72.900

x̅2 = = 331.025
4
Para el departamento de Caaguazú:
250.000 + 100.000 + 74.000 + 168.000 + 200.000

x̅3 = = 158.400
5
Podemos decir que si seleccionamos al azar un hogar del departamento de San Pedro,
esperamos que este tenga un gasto por luz eléctrica de Gs. 372.088 aproximadamente; si
escogemos de Central esperamos que tenga un gasto alrededor de Gs. 331.025 y, si
seleccionamos aleatoriamente un hogar de Itapúa esperamos que tenga un gasto
aproximado de Gs. 174.100.
b) Para estimar el promedio de gastos por luz eléctrica, usaremos la siguiente fórmula:
L
Nh
x̅est = ∑ ∗ x̅h
N
h=1
Por tanto:
N1 N2 N3 1
x̅est = ∗ x̅1 + ∗ x̅2 + ∗ x̅3 = ∗ (N1 ∗ x̅1 + N2 ∗ x̅2 + N3 ∗ x̅3 )
N N N N
Usaremos los cálculos resultantes en el punto anterior, donde ya calculamos la estimación

de la media muestral en cada departamento.
Entonces:
1 1
x̅est = ∗ (30 ∗ 372.088 + 20 ∗ 331.025 + 25 ∗ 158.400) = ∗ 21.743.140
75 75
x̅est = 289.909
Esto nos indica que al seleccionar un hogar esperamos que el gasto promedio por la Luz
eléctrica sea Gs. 289.909 aproximadamente.
4.3.2. Total
La estimación del total la realizamos mediante la siguiente expresión:
𝐭 𝐞𝐬𝐭 = ∑ 𝐱̅ 𝐡 ∗ 𝐍𝐡
𝐡=𝟏
La estimación de la varianza del total estratificado 𝐭 𝐞𝐬𝐭 está dada por:
𝐋
𝟐 𝐒𝐡 𝟐
𝐕(𝐭 𝐞𝐬𝐭 ) = ∑ 𝐍𝐡 ∗ (𝟏 − 𝐟𝐡 ) ∗
𝐧𝐡
𝐡=𝟏
𝐋
𝟐 𝐒𝐡 𝟐
𝐃𝐄(𝐭 𝐞𝐬𝐭 ) = √∑ 𝐍𝐡 ∗ (𝟏 − 𝐟𝐡 ) ∗ = √𝐕(𝐭 𝐞𝐬𝐭 )
𝐧𝐡
𝐡=𝟏
𝐈𝐂 = 𝐭 𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐭 𝐞𝐬𝐭 )
Ejemplo 1.11: Se pretende estudiar la disponibilidad total de dinero que poseen los alumnos
de una institución, para ello se utiliza el muestreo estratificado usando los 3 turnos
disponibles (mañana, tarde y noche) como estratos.
Se obtuvo los siguientes datos:
Tabla 6: Disponibilidad de dinero de los alumnos en Gs.

𝑵º Estratos N n Media Muestral
1 Sección 1 120 45 30.000
2 Sección 2 115 35 45.000
3 Sección 3 130 40 50.000
a) Estimar la disponibilidad total de dinero de los alumnos en cada turno disponible

b) Estimar disponibilidad total de dinero de todos los alumnos.
Solución:
a) Debemos estimar la disponibilidad total de dinero de los alumnos por cada turno.
Entonces tendremos:
Para la mañana:
𝑡1 = x̅1 ∗ N1 = 30.000 ∗ 120 = 3.600.000
Para la tarde:
𝑡2 = x̅2 ∗ N2 = 50.000 ∗ 130 = 6.500.000
Para la noche:
𝑡3 = x̅3 ∗ N3 = 45.000 ∗ 115 = 5.175.000
Podemos decir que los alumnos del turno mañana disponen de 3.600.000 Gs., los de
turno tarde tienen disponible aproximadamente 6.500.000 Gs., mientras que los
alumnos del turno noche disponen de 5.175.000 Gs. Aproximadamente.
b) Para estimar el monto total que poseen los alumnos de la institución, debemos usar
la siguiente fórmula:
t est = ∑ x̅h ∗ Nh
h=1
Por tanto:
t est = x̅1 ∗ N1 + x̅2 ∗ N2 = 30.000 ∗ 120 + 45.000 ∗ 115 + 50.000 ∗ 130
t est = 15.275.000
El monto total que disponen los alumnos de dicha institución es aproximadamente de

15.275.000 Gs.
4.3.3. Proporción
La estimación de la proporción estratificada 𝐩𝐞𝐬𝐭 está dada por la siguiente expresión:
𝐋
𝐍𝐡
𝐩𝐞𝐬𝐭 = ∑ ∗ 𝐩𝐡
𝐍
𝐡=𝟏
nh a
∑i=1 hi
Donde ph = nh
→ ahi = 1 Si ocurre el evento de interés
→ ahi = 0 Si no ocurre el evento de interés
La varianza para la proporción estratificada 𝐩𝐞𝐬𝐭
𝐋
𝐍𝐡 𝟐 𝐩𝐡 ∗ (𝟏 − 𝐩𝐡 )
𝐕(𝐩𝐞𝐬𝐭 ) = ∑ 𝟐
∗ (𝟏 − 𝐟𝐡 ) ∗
𝐍 𝐧𝐡 − 𝟏
𝐡=𝟏
𝐋
𝐍𝐡 𝟐 𝐩𝐡 ∗ (𝟏 − 𝐩𝐡 )
𝐃𝐄(𝐩𝐞𝐬𝐭 ) = √∑ ∗ (𝟏 − 𝐟𝐡 ) ∗
𝐍𝟐 𝐧𝐡 − 𝟏
𝐡=𝟏
𝐈𝐂 = 𝐩𝐞𝐬𝐭 ± 𝐭 ∗ 𝐃𝐄(𝐩𝐞𝐬𝐭 )
Ejemplo 4.2:
Ejemplo 1. 12: A partir de los datos de la tabla siguiente, realizar una estimación de la
proporción de personas que no poseen seguro médico.
Observación: en este estudio se aplicó el diseño de muestreo estratificado, teniendo en

cuenta la categoría de ocupación para los estratos.
Tabla 7: Tenencia de seguros médicos por categoría de ocupación

Categoría Ocupacional
Domesticas Docentes
Sí tiene seguro médico 900 10.000
No tiene seguro médico 8.000 800
N 15.000 25.000
n 8.900 10.800
Solución:
Los datos de la tabla son:
NDomésticas = 15.000 NDocentes = 25.000
Por tanto:
N = NDomésticas + NDocentes = 15.000 + 25.000 = 40.000
Para estimar la proporción de personas que no poseen seguro médico, primeramente

debemos calcular los valores de las proporciones estimadas dentro de cada estrato, es decir
la proporción de personas que no poseen seguro médico en cada una de las categorías de
ocupación.
Entonces:
número de personas sin seguro médico 8.000

Para las Domésticas: pDomésticas = = 8.900 = 0,90
nDocentes
número de personas sin seguro médico 800

Para las Docentes: pDocentes = = 10.800 = 0,07
nDomésticas
Ahora bien, teniendo los datos mencionados más arriba, podemos calcular lo solicitado en el
ejemplo.
Debemos utilizar la siguiente fórmula para nuestro cálculo
L
Nh
pest = ∑ ∗ ph
N
h=1
NDomésticas NDocentes
pest = ∗ pDomésticas + ∗ pDocentes
N N
15.000 25.000
pest = ∗ 0,90 + ∗ 0,07 = 0,38
40.000 40.000
pest = 0,38 pest = 38%
Aproximadamente el 38% de las personas no cuentan con seguro médico.
4.4. Precisión del muestreo estratificado
Según Cochran (1987) el muestreo estratificado posee ganancias considerables en cuanto a

la precisión si se dan los siguientes factores:
1. Al estratificar por los valores de la cantidad a muestrear, no habría superposición

entre los estratos y la varianza dentro de ellos, sería mucho menor que la varianza
global.
2. Si la población consta de instituciones que varían mucho en su tamaño.
3. Las principales variables a medir están íntimamente relacionadas con los tamaños de
las instituciones.
4. Se cuenta con una buena medida de tamaños para establecer los estratos.
5. Muestreo por conglomerado (MC)

Es un método en el cual la unidad de muestreo consiste de un grupo de unidades
elementales. Es decir, que cada grupo o conglomerado es un agregado de unidades
elementales. Cada conglomerado es considerado como una unidad de muestreo de
diferente rango a las unidades elementales que son las de interés.
Figura 2: Ilustración del muestreo Conglomerado
5.1. Definición
Según Pérez (2010), en un muestreo monoetápico de conglomerados se considera üna

población finita con M unidades elementales (…) agrupadas en N unidades mayores
llamadas conglomerados o unidades primarias, de tal forma que no exista solapamiento
entre los conglomerados y que éstos contengan en todo caso a la población en estudio¨.
Nota: Entiéndase por muestreo monoetápico (o también denominado muestreo por

conglomerados en una sola etapa) cuando seleccionamos los conglomerados y
consideramos a todas y cada una de las unidades en los mismos, es decir, realizamos un
censo de las unidades en cada conglomerado seleccionado.
Una muestra por conglomerados es una muestra aleatoria en la que cada unidad de
muestreo es un conjunto, o conglomerado de elementos”.
(Scheaffer, Mendenhall y Lyman, 2007)
A diferencia del muestreo estratificado, en el muestreo por conglomerados nos interesa que
las unidades sean heterogéneas dentro de cada conglomerado, y que cada conglomerado
sea homogéneo entre uno y otro (Pérez, 2010).
Diferentes dentro de los conglomerados

Similares entre los conglomerados
5.2. Características principales del MC
Los siguientes puntos son algunas características principales del muestreo por
conglomerado, (Pérez 2010):
 No es necesario tener un marco muestral que liste a todas las unidades de la

población, pues como sabemos, muchas veces resulta difícil obtenerlo, basta con
tener una lista de conglomerados y de ahí realizar la selección de los mismos.
 Cada unidad de muestreo constituye un conjunto de elementos o conglomerado de

elementos.
 Pueden utilizarse como marcos muestrales particiones o divisiones territoriales ya

delimitadas, los cuales generalmente son materiales cartográficos, como por
ejemplo: un plano de una ciudad, donde las manzanas pueden constituir los
conglomerados a muestrear.
 Pueden reducir los costos por observación, esto es debido a que generalmente las
unidades en los conglomerados no están tan dispersos geográficamente, sino, más
bien son agrupaciones geográficas, por tanto permite reducir gastos, como por
ejemplo: de transporte.
 Permite ahorrar tiempo, esto es porque las unidades a muestrear se encuentran

concentradas en un área específica.
 Pueden introducir mayor error, lo ideal es que en un muestreo por conglomerado

exista heterogeneidad internamente, sin embargo, es inevitable la presencia de un
cierto nivel de homogeneidad dentro de cada conglomerado.
 A medida que aumenta el tamaño de los conglomerados mi , la eficiencia del

muestreo por conglomerados disminuye.
5.3. Ventajas del (MC)
1. A una precisión y confiabilidad predefinida, resulta más barato.
2. Permite estudiar Universos donde no se conozca el marco de las unidades

elementales, solamente se requiere el marco de conglomerados.
3. El uso de conglomerados facilita la supervisión de las entrevistas y la administración

del trabajo de campo.
4. Es conveniente aclarar que para facilidades de enseñanza, es necesario plantear el

caso de conglomerados de igual tamaño.
5.4. Notación básica
N → número de conglomerados en la población
n → número de conglomerados en la muestra
mi → número de elementos en el conglomerado i
∑n
1 mi
m
̅ = → tamaño medio del conglomerado en la muestra
n
M = ∑N
1 mi → número de elementos en la población
̅ = M → tamaño promedio del conglomerado en la población

M N
yi → total de todas las observaciones en el i − ésimo conglomerado
̅ Puede ser estimado por 𝐦

𝐌 ̅ si se desconoce 𝐌
5.5. Estimaciones
En el muestreo por conglomerado también se puede estimar los valores de los parámetros
poblacionales.
A continuación, se detallan las estimaciones mencionadas.
5.5.1. Estimación de medias
El estimador de la media poblacional 𝛍 viene dada por:
∑𝐧𝟏 𝐲𝐢
𝐲̅ =
∑𝐧𝟏 𝐦𝐢
La varianza estimada de 𝐲̅ está dada por:
𝐍−𝐧 ∑𝐧𝟏(𝐲𝐢 − 𝐲̅ ∗ 𝐦𝐢 )𝟐
𝐕(𝐲̅) = ( ) ∗
̅𝟐
𝐍∗𝐧∗𝐌 𝐧−𝟏
Estimación del intervalo de confianza con nivel de confianza (1 − α)%:
𝐈𝐂 = 𝐲̅ ± 𝐭 ∗ 𝐃𝐄(𝐲̅)
Donde DE(y̅) = √V(y̅)
5.5.2. Estimación de proporciones
La estimación de la proporción poblacional 𝐩 está dada por la siguiente expresión:
∑𝐧𝟏 𝐚𝐢
𝐩= 𝐧
∑𝟏 𝐦𝐢
a𝑖 : Número total de elementos en el conglomerado i que poseen la característica de interés
La varianza estimada para la proporción es:
𝐍−𝐧 ∑𝐧𝟏(𝐚𝐢 − 𝐩 ∗ 𝐦𝐢 )𝟐
𝐕(𝐩) = ( )∗
̅𝟐
𝐍∗𝐧∗𝐌 𝐧−𝟏
La estimación del intervalo de confianza con nivel de confianza (1 − 𝛼)%:
𝐈𝐂 = 𝐩 ± 𝐭 ∗ 𝐃𝐄(𝐩)
Donde DE(p) = √V(p)
5.5.3. Estimación de totales
 Si 𝐌 es conocido
Estimador del total poblacional:
𝐭 = 𝐌 ∗ 𝐲̅
La varianza estimada del total:
𝐕(𝐭) = 𝐌𝟐 ∗ 𝐕(𝐲̅)
 Si 𝐌 no es conocido
Estimador del total poblacional:

𝐧
𝐍
𝐭̅ = ∗ ∑ 𝐲𝐢
𝐧
𝟏
La varianza estimada del total:
𝐍 − 𝐧 ∑𝐧𝐢=𝟏(𝐲𝐢 − 𝐲̅𝐭 )𝟐
𝟐
𝐕(𝐭) = 𝐍 ∗ ( )∗
𝐍𝐧 𝐧−𝟏
1
Donde y̅t = n ∗ ∑n1 yi el cual es el promedio de los totales de conglomerados para los n
conglomerados muestreados.
Estimación del intervalo de confianza con nivel de confianza (1 − 𝛼)%:
𝐈𝐂 = 𝐭̅ ± 𝐭 ∗ 𝐃𝐄(𝒕)
Donde DE(t̅) = √V(t)
Ejemplo 1.13: Los datos que se muestran en la tabla siguiente se refieren al número de
hogares y el total de personas por cada hogar según ciertos conglomerados seleccionados de
la capital en nuestro país. Para Asunción se estableció un total de 2.000 conglomerados.
a) Estimar el número promedio de personas por hogar.
b) Hacer una estimación de la proporción de hogares con acceso a agua potable
c) Estimar el ingreso total de la población a través de cada hogar analizado.
Tabla 8: Número de hogares y el total de personas por cada hogar según conglomerados
muestreados.
Conglom N° de N° de Acceso a agua Ingreso total en los hogares por cada

erado Hogares personas potable conglomerado en millones de Gs.
Asunción 493 2.176 425 500
1 28 128 25 30
2 26 85 22 28
3 34 157 30 29
4 60 292 50 70
5 33 153 30 25
6 26 127 25 25
7 23 118 23 26
8 27 142 25 22
9 43 176 10 40
10 22 95 22 25
11 41 163 41 40
12 23 102 21 25
13 17 71 15 20
14 53 197 50 60
15 37 170 36 35
Solución:
a) Rememoremos las notaciones que debemos utilizar para la estimación de la media:
∑𝑛1 y𝑖
y̅ =
∑n1 mi
Dónde:
mi → número de elementos en el conglomerado i
y𝑖 → total de todas las observaciones en el i-ésimo conglomerado
Para este punto tendremos:
yi → en este caso es el n° de personas
m𝑖 → corresponde al n° de hogar en cada conglomerado
Con estas notaciones, entonces tendremos los siguientes datos:
15
∑ mi = 493
1
15
∑ y𝑖 = 2.176
1
Ahora bien,
∑15
1 yi 2.176
y̅ = 15 = =4
∑1 m𝑖 493
En promedio existen aproximadamente 4 personas por cada hogar.
b) Estimación de la proporción de hogares con acceso a agua potable
De la misma forma que el punto anterior, es importante especificar nuestros datos:
yi → acceso a agua potable
20
∑ mi = 493
1
20
∑ a𝑖 = 425
1
Entonces, la estimación de la proporción sería:
∑𝑛1 a𝑖 425
p= = = 0,86
∑n1 mi 493
Aproximadamente el 86% de los hogares tienen acceso a agua potable.
Como está especificado en las formulas anteriores, existen dos opciones para la estimación
de un total a partir de un muestreo por conglomerado, estas dependen si M (número de
elementos en la población) es conocida o no.
c) Para este punto no conocemos el valor de 𝑀 (la cantidad total de hogares en la

N
población), por ello, debemos usar la fórmula: t̅ = ∗ ∑n1 yi
n
Saquemos los datos proporcionados en el ejercicio para utilizar la fórmula mencionada:
𝑁 → cantidad total de conglomerados en la población
𝑛 → cantidad de conglomerados analizados en la muestra
yi → ingreso total en los hogares por cada conglomerado en millones de Gs.
𝑁 = 2.000 conglomerados
𝑛 = 15 conglomerados
20
∑ yi = 500
1
Reemplazando en la formula especificada arriba, tendremos:
2.000
t̅ = ∗ 500 = 66.667
15
Aproximadamente el total de ingreso de la población es de 66.667 millones de Gs.
5.6. Muestreo por conglomerado en dos etapas
El muestreo por conglomerado en dos etapas (también llamado muestreo multietápico)

podemos denominar como una extensión del muestreo por conglomerado monoetápico. Si
bien, este último se estudiaba todos los elementos de los conglomerados elegidos en la
muestra, sin embargo, los conglomerados suelen tener muchos elementos para medir cada
una de ellas, es por eso que podemos seleccionar aleatoriamente solo algunos de los
elementos en dichos conglomerados y así obtener una buena estimación de manera más
simple, (Scheaffer, R. L., Mendenhall, W. & Lyman, R., 2007).
Como apenas mencionamos, el muestreo por conglomerado en dos etapas es una

estrategia muy válida a la hora de usar un diseño muestral, es por ello que estaremos
profundizando su estudio en unidades posteriores.
Bibliografía
Lohr, S. L. (2000). Muestreo: Diseño y Análisis. México: International Thomson Editores S.A.
Scheaffer, R. L., Mendenhall, W. & Lyman, R. (2007). Elementos de Muestreo (6a ed.).
Madrid: International Thomson Editores Spain Paraninfo S.A.
Cochran, W. G. (1987). Técnicas de muestreo (4ta ed.). México: CECSA.

TMA - Unidad I - ML

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TMA - Unidad I - ML

Cargado por

Copyright:

Formatos disponibles

Técnicas de muestreo avanzado

1. Muestro Aleatorio Simple (𝐌𝐀𝐒)

De manera formal, podemos definir de la siguiente manera:

Si se selecciona un tamaño de muestra 𝑛 de una población 𝑁 de tal manera que cada

(Richard L. Scheaffer, Wiliam Mendenhall III y R. Lyman Ott., 2007).

1.1. Cómo seleccionar un 𝐌𝐀𝐒

Paso 1: Enumeramos las unidades de la población de 1 a N.

Paso 3: Realizamos la selección unidad por unidad.

 En cada selección, el procedimiento que utilicemos debe otorgar la misma

Ejemplo 1. 1: A continuación se presenta una base de datos de una población de 20 alumnos

Tabla 1. Base de datos de los alumnos

1 Ramona 20 No trabaja Mujer

Paso 2: Seleccionamos la muestra de 5 números (n = 5) entre el 1 al 20, esto hacemos a

La sintaxis de la función es:

ALEATORIO.ENTRE (inferior; superior)

Donde los argumentos son:

 Inferior: es el menor número entero que la función puede devolver.

 Superior: es el mayor número entero que la función puede devolver.

Considerando el ejemplo, realicemos la selección de la muestra de la población

 Creamos una hoja de cálculo en Excel.

 Seleccionamos la celda C1 en la hoja de cálculo.

 Escribimos en la celda =ALEATORIO.ENTRE(1;20) y pulsamos la tecla

De esta manera obtenemos el primer número

Como la nuestra solicitada es 5, de la misma manera generamos los restantes números

De esta manera obtuvimos los 5 números aleatorios, los mismos

Paso 3: Seleccionamos la muestra aleatoria.

Tabla 2. Muestra aleatoria de tamaño 5

Nº orden correspondiente a los alumnos Nombre Edad Situación Laboral Sexo

2 Víctor 21 Trabaja Hombre

A continuación, desarrollaremos el proceso y las fórmulas de las estimaciones de los

La media muestral 𝐱̅ es un estimador de la media poblacional μ, cuya denotación definimos

Xi : son los valores para cualquier característica en las unidades poblacionales.

𝑁: es el número de unidades en la población.

xi : Son los valores para cualquier característica en las unidades muestrales.

n: Es el número de unidades en la muestra.

(1 − 𝑓) es el ajuste o corrección por población finita.

La muestra aleatoria seleccionada en fue:

Tabla 3: N° de orden y edad de los alumnos

Nº orden correspondiente a los alumnos Edad

Apliquemos la fórmula correspondiente a la estimación de la media a

Respuesta: se estima que la edad promedio de los alumnos de la Universidad Nacional de

Utilizamos el mismo procedimiento para estimar la varianza:

Como calculo auxiliar, calculemos primeramente S 2

La proporción muestral 𝐩 ̂ es un estimador puntual de la proporción poblacional P. Para

𝐍ú𝐦𝐞𝐫𝐨 𝐝𝐞 𝐨𝐛𝐬𝐞𝐫𝐯𝐚𝐜𝐢𝐨𝐧𝐞𝐬 𝐜𝐨𝐧 𝐥𝐚 𝐜𝐚𝐫𝐚𝐜𝐭𝐞𝐫í𝐬𝐭𝐢𝐜𝐚 𝐝𝐞 𝐢𝐧𝐭𝐞𝐫é𝐬

𝑥𝑖 = 1 si ocurre el evento de interés

La varianza de la estimación de una proporción está dada por la siguiente expresión:

𝑥𝑖 = 1 los alumnos que trabajan(evento de ínteres)

Entonces, la proporción estimada queda de la siguiente forma:

Cantidad de alumnos que trabajan

La varianza de la estimación quedaría de la siguiente manera:

x̅: es la media muestral.

N: el número de unidades en la población.

La varianza de la estimación de un total está dada por:

Tabla 4: Cantidad de asignaturas cursadas en el

Se pide estimar el total de asignaturas cursadas por los 30 alumnos.

Es importante especificar la variable aleatoria xi , en este caso será la cantidad de asignaturas

Entonces usando la fórmula de la media, tendremos lo siguiente:

El total estimado será:

Y como V(t̂) depende S 2 , calculemos primeramente este valor.

1.3. Teorema Central de límite

Sean X1 , X2 , X3,… Xn un conjunto de variable aleatoria independiente e idénticamente

Figura 1: Ilustración del Teorema Central de límite