Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DOCE
MUESTREO
Cuando se desea realizar un estudio estadístico por lo general no se realiza utilizando todos los
elementos de la población1, es decir haciendo un censo, sino que se acostumbra, por motivos
de tiempo, economía o por que la población es infinita, hacer el estudio con una muestra.2
Es por ello que el proceso de determinar el tamaño de la muestra y si esta es confiable o no, es
muy importante a la hora de realizar el estudio. A este proceso, el hacer la selección de una
muestra, es a lo que se le denomina Muestreo.
Una vez definido el tamaño de la muestra, el método más usual para seleccionar los elementos
de la población con los que se realizará el estudio estadístico, es el del MUESTREO
ALEATORIO SIMPLE.
Para hacer la selección usando un método aleatorio (al azar, en donde todos los elementos
tienen las mismas opciones de ser seleccionados) se construye una tabla de números
aleatorios de varias cifras como el de la tabla 1. A partir de un número cualquiera de la tabla y
continuando con el siguiente (de izquierda a derecha o viceversa) se empiezan a seleccionar
conjuntos de tres dígitos, ya que los elementos de la población consideran posiciones del 1 al
120.
1
Recordemos que la población es el conjunto de todos los elementos de donde se puede obtener la información en
un estudio estadístico.
2
Muestra: Subconjunto de elementos de una población.
Guía de MUESTREO Y DISTRIBUCIÓN MUESTRAL. Documento borrador.
Tutor: CARLOS FERNANDO ZEA HINCAPIÉ 2
189 032 452 315 073 411 001 108 104 190 091 969……
Como en el conjunto de dígitos habrá valores mayores a 120, por ejemplo 189 o 452, éstos
deberán desecharse, pero también están los elementos que si harán parte de la muestra, como
el 32, 73, 1, 108,104, 91,…., que serán las unidades a analizar en el proceso de control de
calidad.
Puede llegar a suceder que algún elemento se vea repetido en la selección, por ejemplo que
volviese a quedar el 91, el estadista deberá decidir si su estudio permite la repetición de
elementos o deberá desecharlo, es decir, hacer un muestreo con sustitución o sin ella.
ACTIVIDAD 1
En un salón de clase de 16 estudiantes se desea tomar una muestra de 3 de ellos para
representar el grupo en una actividad.
DISTRIBUCIÓN MUESTRAL
Volviendo al caso del ejemplo de control de calidad, supongamos que una pieza es aceptada si
su medida está en un rango de 20 a 30 cm. Una vez tomada la muestra se obtuvieron los
siguientes resultados:
Cualquier resultado que se obtenga de esta muestra se le conoce como un estimador puntual
de la población, es decir, los estadígrafos son estimadores puntuales de los parámetros. Por
ejemplo:
x=
∑ x i = 602 =24 ,08 cm
n 25
En este caso podemos decir que la media muestral x es un estimador puntual de la media
poblacional µ, esto significa que la medida promedio de las piezas fabricadas está cercana a
24,08 cm. No obstante si se toma otro grupo de 25 piezas para analizar su calidad pudiese
suceder que el promedio de un poco mayor o menor a 24,08 cm, sin embargo debería ser
cercano.
Se puede hallar otros estimadores, como por ejemplo la desviación estándar estándar muestral
(s) o la proporción muestral ( p).
s=
√ ∑ ( xi −x)2 =
n−1
poblacional σ.
√ 189 , 84
24
=2 , 81 , este valor es el estimador puntual de la desviación estándar
3
p= =12 %
25
Ahora, si se toman todas las posibles muestras de tamaño 25 piezas3 y se les determina su
medida promedio, es decir, su media muestral x i , tendríamos millones de medias muestrales,
cuyo promedio es exactamente la media poblacional µ, es decir,
µ = E ( x )=
∑x
N
Cuando realizamos este proceso, es decir, el de dividir una población en todas las posibles
medias muestras de tamaño “n” y a cada una de ellas le hallamos su promedio, estamos
realizando una DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES DE UNA POBLACIÓN.
3
Se pueden obtener 120C25 muestraas de tamaño 25.
Guía de MUESTREO Y DISTRIBUCIÓN MUESTRAL. Documento borrador.
Tutor: CARLOS FERNANDO ZEA HINCAPIÉ 4
De igual manera como se obtienen todas las medias muestrales x , se pueden obtener las
desviaciones estándar y proporciones muestrales, s y p . En este sentido, se piensa en los
valores de x y pcomo variables aleatorias dentro de una distribución que, como cualquier otra,
tienen su valor esperado y su desviación estándar.
σ x=
√ N −n σ
( ) Para cuando la población es finita
N−1 √ n
σ
σ x= Para cuando la población es infinita.
√n
En donde:
n es el tamaño de la muestra
N tamaño de la población.
Para la distribución de las proporciones muestrales p se tiene algo similar, el valor esperado
de las proporciones muestrales es la proporción poblacional, es decir:
E ( p )=P
En donde:
En forma similar, la desviación estándar de las proporciones muestrales p está dada por:
σ p=
√ √ N −n p (1− p)
N −1 n
Para la población finita y
σ p=
√ p(1− p)
n
Para la población infinita.
Es decir que la media poblacional es de 40,36 minutos, de igual manera hallamos su desviación
estándar:
σ=
√ ∑ ( xi −x ) 2 =
n √ ( 40 , 5−40 , 36 )2 + ( 39 , 8−40 ,36 )2+ ( 41 ,3−40 ,36 )2+ ( 39 , 7−40 , 36 )2 + ( 40 ,5−40 , 36 )2
5
σ=
√ 1,672
5
=0 , 58
4
Se obtienen 5C3 = 10 muestras
Guía de MUESTREO Y DISTRIBUCIÓN MUESTRAL. Documento borrador.
Tutor: CARLOS FERNANDO ZEA HINCAPIÉ 6
Si hallamos el promedio de las medias de las muestras obtenemos:
μ=40 , 36 minutos
σ x=
√ ∑ (x−μ)2 =0,236
n
O también:
σ x=
√ ( )√ ( )
N −n σ
N−1 √ n
=
5−3 0 , 58
5−1 √ 3
=√ 0 ,5 ( 0,335 )=0,236
El gráfico 3 nos muestra cómo queda la distribución de las medias de las 10 muestras.
Obsérvese que para este tamaño de muestra (n = 3), la distribución no es una DISTRIBUCIÓN
NORMAL.
41.00
40.80 40.77
40.40
40.27 40.23 40.27
40.20
40.00 40.00
40.00
39.80
39.60
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
41 41.3
40.15 40.1 40.15 40.1
40.5
40.5 40.5
40 39.75
39.5 39.8 39.7
39
38.5
M1 M2 M3 M4 M5 M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
39.60 39.9
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M1 M2 M3 M4 M5
Observemos que para la distribución de las medias muestrales de muestras tamaño 4, (n = 4),
la distribución se va haciendo un poco más homogénea, es decir, los valores de las medias de
cada muestra se aproximan más al valor de la media poblacional, lo que significa que entre
mayor sea el tamaño de la muestra, más cerca estarán los estimadores muestrales a los
valores paramétricos de la población y la distribución de las medias muestrales se acerca a una
distribución normal.
De esto último es de lo que trata el TEOREMA DEL LÍMITE CENTRAL: Si la distribución de una
población no es normal, la distribución de las medias muestrales de muestras de tamaño mayor
o igual a 30, si tendrán un comportamiento igual al de una distribución normal.
Este teorema del límite central es importante en el sentido de que si se desea estimar los
parámetros de una población, se deben tomar muestras grandes, es decir, muestras mayores o
iguales a 30.
Guía de MUESTREO Y DISTRIBUCIÓN MUESTRAL. Documento borrador.
Tutor: CARLOS FERNANDO ZEA HINCAPIÉ 8
Gráfico 3: DISTRIBUCIÓN PARA EL LANZAMIENTO DE UN DADO EN VARIAS OCASIONES.
(freepng.es, s.f.)
El gráfico 3 muestra que cuando se lanza un dado se obtiene una distribución uniforme, todos
los posibles resultados tienen la misma probabilidad de ocurrencia, pero a medida que el
número de lanzamientos se hace más repetitivo (se lanza el dado dos, tres, cuatro veces y
más) o se lanzan varios dados al mismo tiempo, la distribución de las probabilidades de
ocurrencia de los resultados va tornando cada vez más un comportamiento normal.
Con base en el teorema del límite central se puede estandarizar la distribución de las medias
muestrales de muestras tamaño “n” como una distribución normal, con desviación estándar
σ X−μ
σ x= y el valor de la variable normal Z=
√n σx
Ejemplo 1:
En el norte de Kentucky (The Cincinnati Enquirer, 21 de enero de 2006) el precio promedio de
la gasolina sin plomo era U$2,34. Use este precio como media poblacional y suponga que la
desviación estándar poblacional es U$0,20 (ANDERSON, 2008). Si se toma una muestra de 36
gasolineras, la probabilidad de que el precio promedio de la gasolina sin plomo sea superior a
U$ 2,39 es:
Solución:
En este caso se piensa en tener la población distribuida en las medias o precios promedios de
todas las muestras de tamaño 36 gasolineras, es decir, tener una distribución de las medias
muestrales del precio de la gasolina sin plomo en muestras tamaño 36.
Con base en ello, y aplicando el teorema del límite central, se puede hacer una distribución
normal con todos los precios promedios de cada una de las muestras, en donde se sabe que la
media poblacional es µ=U$2,34 y la desviación estándar σ = U$0,20.
Gráfico 4 : Distribución normal de las medias muestrales del precio de gasolina sin plomo para
muestras tamaño 36.
Ahora bien, para determinar la probabilidad de que el precio promedio de la gasolina sin plomo
sea superior a U$ 2,39; se debe hallar el área de la región que se muestra, siguiendo el proceso
de distribución normal con una desviación estándar muestral de 0,033 y una media poblacional
de U$2,34.
2 , 39−2, 34
Z= =1, 51
0,033
Solución:
4
σ x= =0,516
√ 60
a. Para este caso debemos hallar P(14 ≤ X ≤ 16 , 5) , entonces:
14−15
Z 1= =−1 , 94 A1 = 47,38%
0,516
16 , 5−15
Z 2= =2 ,91 A2 = 49,82%
0,516
b. En este caso se tiene que la media muestral puede ser mayor a 15,5 o menor a 14,5
( Se aleja en más de media hora del promedio poblacional que es 15), es decir se debe
determinar la P( X ≤ 14 , 5 o X ≥ 15 ,5)
14 , 5−15
Z 1= =−0 , 97 A1 = 16,6%
0,516
15 , 5−15
Z 2= =0 , 97 A2 = 16,6%
0,516
En este caso tendremos que la variable normal estandarizada está dada por:
p−P
Z=
√PQ
n
En donde:
n es el tamaño de lamuestra
Ejemplo 3:
El departamento de personal de una compañía considera que el 20% de sus empleados tienen
problemas para cumplir con el horario de llegada. Supóngase que se realiza una observación a
una muestra de 36 empleados (CIRO MARTÍNEZ BENCARDINO, 2011).
a. ¿Qué probabilidad hay de que menos del 16% de los empleados de la muestra llegue
tarde?
b. ¿Qué probabilidad hay de que la proporción de empleados de la muestra que llega tarde
no difiera en más de 5,5% respecto de la proporción poblacional?
Solución:
En este caso tenemos los siguientes datos: P = 0,20; Q = 0,80; n = 36.
0 , 16−0 ,20
Z= =−0 ,6
√
=0,2747
(0 ,20∗0 , 80)
36
A
b. Para este caso se tiene que la proporción de los empleados de la muestra que llegan
tarde, debe estar entre 14,5% y 25,5% ( NO difiera en más de 5,5%, es decir, que no
sea menor ni mayor a una diferencia de 5,5%). Por lo tanto:
0,145−0 , 20
Z 1= =−0 , 82
29,39%
√ (0 , 20∗0 , 80)
36
A1=
29,39%
√ (0 , 20∗0 , 80)
36
, 82 A2=
Ejemplo 4:
El gráfico 5 muestra un informe del periódico El Tiempo de los fallecidos por COVID 19 en
Colombia al 14 de mayo de 2020. En él se puede observar que de los fallecidos el 10,86% tiene
entre 30 y 49 años de edad. Tome este dato como la proporción poblacional de los contagiados
que mueren en este rango de edad en Colombia.
a. Según el ministerio de salud, para el día 14 de julio de 2020, se reportaron 170 nuevas
muertes en el país (País, 2020). ¿Qué probabilidad hay de que en este día el número de
fallecidos entre 30 y 49 años de edad no supere el 13%?
b. A nivel del valle para este día, el número de fallecidos fue de 16 (País, 2020). ¿Qué
probabilidad hay de que para este día el porcentaje de fallecidos entre 30 y 49 años
haya sido superior al 17%?
Solución:
Para este caso se tiene que P = 10,86%, Q= 89,14% y se tienen dos tamaños de muestra, una
de 170 para el literal a y otra de 16 para el literal b.
0 , 13−0,1086
Z= =0,897 ≈ 0 , 9
0,1841
√ 0,1086∗0,8914
170
A =
0 , 17−0,1086
Z= =0,789 ≈ 0 , 79
√
0,2148
0,1086∗0,8914
16
A=
ACTIVIDAD 2
1. En el norte de Kentucky (The Cincinnati Enquirer, 21 de enero de 2006) el precio
promedio de la gasolina sin plomo era $2,34. Use este precio como media poblacional y
suponga que la desviación estándar poblacional es $0,20. Se sabe que el 72% de las
gasolineras cumplen con los estándares de calidad. Se toma una muestra aleatoria de
25 gasolineras. (ANDERSON, 2008)
a. ¿Qué probabilidad existe de que la media muestral no se aleje en más de media hora de
la media poblacional?
b. Si se sabe que la media muestral está por encima del promedio poblacional en más de 1
hora de la media poblacional, ¿Cuál es la probabilidad de que una muestra de tamaño
90 estadounidenses tenga un promedio máximo de 16,2 horas por semana viendo
televisión?
c. Si se hace un estudio con 5 muestras de tamaño 60 estadounidenses, ¿cuál es la
probabilidad de que por lo menos dos de ellas tengan un tiempo promedio menor a 14
horas semanales frente al televisor?
d. Para muestras de tamaño 60 estadounidenses, encuentre un intervalo centrado en 15,5
horas que contenga el 50% de las muestras.
4. Una empresa de investigación de mercado realiza encuestas telefónicas con una tasa
de respuesta del 40%, de acuerdo con la experiencia.
CONTENIDO
7%
2%
4%
Fortaleza alta
Fortaleza muy alta
Riesgo muy alto
25%
Riesgo alto
61% Riesgo bajo