Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEMA
DISTRIBUCIONES EN EL MUESTREO
9.1. INTRODUCCIÓN
9.2. MUESTREO ALEATORIO
9.3. DISTRIBUCIONES MUESTRALES DE ESTADÍGRAFOS
9.4. TEOREMA CENTRAL DEL LÍMITE Y LA DISTRIBUCIÓN MUESTRAL DE LA MEDIA
9.5. DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN MUESTRAL
9.6. DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE DOS ESTADÍGRAFOS
INDEPENDIENTES
9.6.1. Distribución muestral de la diferencia de medias muestrales independientes de dos
poblaciones
9.6.2. Distribución muestral de la diferencia de proporciones de dos poblaciones
9.7. FACTOR DE CORRECCIÓN DE POBLACIÓN FINITA
9.8. LA DISTRIBUCIÓN T DE STUDENT
9.1. INTRODUCCIÓN
En los temas anteriores se obtuvieron las herramientas matemáticas de probabilidad y variables
aleatorias, de modo que ahora se puede responder la pregunta deductiva fundamental de la estadística:
¿qué puede esperarse de una muestra aleatoria extraída de una población conocida?
Sin embargo, antes de abordar esta pregunta, es necesario repetir una advertencia importante: la
manera de recolectar datos es por lo menos tan importante como la forma de analizarlos. En particular,
una muestra debe ser representativa de la población y, a menudo, el muestreo aleatorio es la mejor
manera para lograr lo anterior. Si la muestra no es aleatoria, puede estar tan sesgada que es más que
inútil.
;
1
;
2
;
3
;
4
;
5
6
Si se seleccionara la muestra de manera que las seis muestras tuvieran la misma posibilidad de
ser seleccionadas (probabilidad de 1/6), se llamaría muestra aleatoria simple (o simplemente, muestra
aleatoria).
Se puede probar que el número de maneras de seleccionar = 2 elementos de un conjunto de
= 4, denotado por el símbolo
, es
4! 4∗3∗2∗1
= = = 6 1
2! 2! 2 ∗ 12 ∗ 1
Se deduce entonces que, de forma general, para calcular el número de maneras de seleccionar
muestras de tamaño , de una población de individuos, es
El símbolo n! (léase factorial n) se usa para representar el producto − 1 − 2 … .3 ∗ 2 ∗ 1. El 0!=1.
1
151
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
!
=
! − !
Definición 9.1.
Sean y los números de elementos en la población y en la muestra, respectivamente. Si se realiza el
muestreo de manera que cada una de las muestras tengan la misma probabilidad de ser
seleccionada, se diría que el muestreo es aleatorio simple y la muestra aleatoria.
Es fácil entender el significado de un muestreo aleatorio, pero es mucho más difícil seleccionar
realmente una muestra aleatoria en una situación práctica. Se necesita conocer este concepto de
muestreo para algunos casos en este tema; sin embargo, se desarrollará más adelante el tema de
seleccionar realmente muestras aleatorias.
Definición 9.2.
La distribución de probabilidad de un estadígrafo se llama distribución de muestreo (o muestral) del
mismo.
2
La técnica de simular un proceso que contiene elementos aleatorios y de repetir el proceso una y otra vez
para observar cómo se comporta, se llama método de Montecarlo (muestrear, observar el valor del estadígrafo y
luego, repetir el proceso una y otra vez).
152
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
muestrales ∑#$ # que también tienden a tener una distribución de muestreo normal, con media igual a
El Teorema Central del Límite se puede reformular para aplicarlo a la suma de las mediciones
0,0250 0,0250 +
*
p(x)
1/5
1/6
1/8
0
0
0
1 2 3 4 5 6 x
Gráfico 9.2. Distribución de probabilidad para , el número que aparece en una sola tirada de dado
Ahora, supóngase que queremos aproximar la distribución de muestreo de la media ̅ de una
muestra = 5 observaciones, seleccionadas de la población de las tiradas del dado. Podemos obtener
esta aproximación al llevar a cabo un experimento de Montecarlo. Como primer paso, se saca una
muestra de = 5 mediciones de la población al tirar un dado cinco veces, y observamos los números
= 3, 5, 1, 3 2. Después repetimos este procedimiento de muestreo, haciendo cada vez = 5
observaciones y anotándolas, hasta tener un total de 100 muestras. Se presentan, en la tabla 9.1, estos
100 conjuntos de observaciones con sus sumas y sus medias muestrales.
El histograma de frecuencias absolutas para las 100 medias muestarles, que se ve en el gráfico
9.3, es una aproximación para la distribución muestral de la media ̅ de una muestra aleatoria = 5
tiradas de un dado. La aproximación habría sido mejor, si hubiéramos repetido nuestro procedimiento de
Montecarlo un mayor número de veces, pero los resultados de las 100 repeticiones de la muestra
ilustran las propiedades de la distribución en el muestreo de una media muestral. El histograma de
frecuencias de las 100 tiradas del dado, en el gráfico 9.3, tiene su centro sobre la media poblacional
= 3,5. También se puede observar que el intervalos ± 2(̅ (donde (̅ = ⁄√ = 1,71⁄√5 = 0,76)
incluye la mayoría de las medias muestrales. Pero más sorprendente es la forma de la distribución
muestral. Aunque se muestreó solamente = 5 observaciones de una población con una distribución de
probabilidad perfectamente uniforme (gráfico 9.2), la distribución de las medias muestrales en el gráfico
9.3 tiene forma de montículo y parece ser aproximadamente normal.
153
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
19
17
15
13
Frecuencia
11
= 3,5
Gráfico 9.3. Histograma para las medias muestrales de los 100 experimentos de tirar un dado 5 veces.
154
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
Si realizamos el experimento para n=3 y n=4 este fenómeno seguiría repitiéndose y a medida
que el n va aumentando la distribución de la media sigue teniendo una distribución normal. Este
fenómeno es el resultado del Teorema Central del Límite, tal y como se encuentran en el texto.
Se dan las propiedades de la distribución muestral para la media muestral en el siguiente
recuadro.
+
DISTRIBUCIÓN EN EL MUESTREO DE LA MEDIA MUESTRAL *
1. Si se seleccionara una muestra aleatoria de mediciones de una población con media y
desviación típica , la distribución de muestreo de la media muestral ̅ tendrá una media
34 =
Y un error típico
34 =
√
2. Si la población tiene una distribución normal, entonces la distribución de muestreo de ̅ será
exactamente una distribución normal.
Ejemplo 9.1. Supóngase que se selecciona una muestra aleatoria de = 25 observaciones de una población con
= 8 y = 0,6.
a) Hallar la probabilidad aproximada de que la media muestral ̅ sea menor que 7,9.
b) Obtener la probabilidad aproximada de que la media muestral ̅ sea mayor que 7,9.
c) Hallar la probabilidad aproximada de que la media muestral ̅ esté dentro de 0,1 de la media poblacional
= 8.
Solución
a) La distribución en el muestreo de ̅ tendrá una media (̅ = = 8 y un error típico
0,6
34 = = = 0,12
√ √25
Sin importar la forma de la distribución de la población. Es probable que para una muestra con = 25
(debido al Teorema Central del Límite) la distribución de muestreo de ̅ tenga aproximadamente una
distribución normal. Por lo tanto, la probabilidad de que ̅ sea menor que 7,9 es aproximada por el área
sombreada debajo de la distribución normal en el gráfico 9.4. A fin de encontrar esta área, necesitamos
calcular el valor de 6 que corresponde a ̅ = 7,9. Este valor es la distancia entre ̅ = 7,9 y (̅ = = 8,
expresada en desviación normales tipificadas de la distribución de muestreo.
̅ − 7,9 − 8
6= = = −0,83
(̅ 0,12
De la tabla 3, encontramos que el área correspondiente a 6 = −0,83 es 0,2033. Por lo tanto,
784 < 7,9 ≡ 7; < −0,83 = 0,2033
Densidad
P(X ¯
<7,9)=P(Z<-0,83)
7,9 8
Gráfico 9.4. Probabilidad de que 84 sea menor que 7,9 para el ejemplo 9.1.
b) El evento que ̅ es mayor que 7,9, es el complemento del evento que ̅ es menor que 7,9. Así, la
probabilidad de que ̅ exceda a 7,9 es
784 > 7,9 ≡ 7; > −0,83 = 1 − 7; < −0,83 = 1 − 0,2033 = 0,7967
155
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
c) La probabilidad de que ̅ esté dentro de 0,1 de = 8, es el área sombreada en el gráfico 9.5. Para calcular
dicha probabilidad debemos tener en cuenta las probabilidades de que ̅ > 7,9 y que ̅ < 8,1, y a
continuación obtendremos el área bajo la distribución muestral de la media muestral entre 7,9 y 8,1.
0,9
Densidad
0,6
0,3
0,0
6,27 7,13 8,00 8,87 9,73
Media
Gráfico 9.5. Probabilidad de que la media tenga un valor entre 7,9 y 8,1 ó que la media esté dentro de 0,1
de la media poblacional
Ejemplo 9.2. Para evitar problemas con Defensa al Consumidor, un embotellador de bebidas tiene que estar
razonablemente seguro de que los envases de 250 cc contienen realmente 250 cc de la bebida. Para ello el
embotellador selecciona al azar 10 botellas por hora y mide el volumen de bebida en cada una de ellas para
estimar si una máquina embotelladora funciona satisfactoriamente. Se utiliza la media de las 10 mediciones del
contenido para decidir si hay que reajustar la cantidad de líquido por botella suministrado por la máquina. Si los
registros muestran que la cantidad de la bebida por envase tiene una desviación típica de 5 cc, y si se ajustó la
máquina embotelladora para descargar, en promedio, 253 cc por botella, ¿cuál será la probabilidad aproximada de
que la media muestral de las 10 botellas para la prueba sea menor que 250 cc?
Solución La media de la distribución de muestreo de la media muestral, es idéntica a la media de la
población de los contenidos de las botellas, a saber, = 253 >>, y el error típico de la distribución muestral,
denotada por 34 , es
5
34 = = = 1,58
√ √10
Aunque es apenas 10, es probable – para este tipo de datos – que la distribución muestral de ̅ sea
aproximadamente normal, gracias al Teorema Central del Límite. Entonces la distribución muestral de ̅ aparecerá
como se ilustra en el gráfico 9.7.
0,06
0,04
Densidad
0,03
0,01
0,00
217,29 235,15 253,00 270,85 288,71
Media
Gráfico 9.6. Probabilidad de que el volumen promedio de bebida en el envase sea menor a 250 cc.
La probabilidad de que ̅ sea menor que 250cc es aproximadamente igual al área sombreada debajo de la curva
normal del gráfico 9.6. Esta área será igual a =6. Al expresar la distancia entre 250 cc y 253 cc, en término de
desvíos normales tipificados 6, obtenemos
̅ − 250 − 253
6= = = −1,89
(̅ 1,58
El área se encuentra tabulada en la Tabla 3, que para 6 = −1,89, es 0,0294. Entonces, la probabilidad de que ̅
sea menor que 250 cc, es
784 < 250 >> ≡ 7; < −1,89 = =−1,89 = 0,0294
O bien, si la máquina embotelladora se ajusta para descargar una media de 253 cc, la descarga media ̅ de una
muestra de 10 botellas será menor que 250 cc, con una probabilidad aproximadamente igual a 0,0294. Cuando
ocurre esta señal de peligro (̅ es menor que 250 cc), el embotellador toma una muestra más grande para verificar
156
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
el ajuste de la máquina llenadora. Nótese que el Teorema Central del Límite desempeña un papel en la solución de
este problema, porque justifica la aproximación normal para la distribución muestral de la media muestral.
8
ellas tienen la característica en cuestión, entonces se utiliza la proporción muestral
@A =
>
Para estimar la proporción poblacional @. Como la proporción muestral @A es la variable aleatoria
binomial 8 multiplicada por una constante 1⁄>, su distribución de muestreo tendrá la misma forma que la
distribución de probabilidad binomial para 8. Como la distribución de probabilidad binomial, se puede
aproximar por la normal cuando el tamaño c es grande.
Ya que la media y la desviación típica de una variable aleatoria binomial 8 son
= >@ y = B>@1 − @
Para este caso, se infiere que la media y el error típico de la proporción
3
@A = C , son
1 1
DE = 3 = >@ = @
> >
1 1 @1 − @
DE = 3 = B>@1 − @ = F
> > >
Por lo tanto, para tamaños muestrales grandes, la distribución muestral de @A aparece como se
indica en el gráfico 9.7. Se dan las propiedades de la distribución muestral de @A en el siguiente recuadro.
1. Si se selecciona una muestra aleatoria de > observaciones de una población binomial, con un
parámetro @, la distribución de muestreo de la proporción muestral.
8
@A =
>
Tendrá una media
DE = @
Y un erro típico
@1 − @
DE = F
>
2. Cuando el tamaño muestral es grandes, la distribución en el muestreo de @A será
aproximadamente normal. La aproximación será adecuada si
DE − 2DE y DE + 2DE
Caen en un intervalo de 0 a 1.
157
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
@A
0,0250 0,0250
@
µ
Ejemplo 9.3. Según el INDEC, el 55.5% de los adultos jóvenes (grupo etario entre 20 y 29 años) residentes en la
Argentina han completado la enseñanza media. Si se toma una muestra aleatoria de 200 personas residentes en
Argentina, ¿cuál es la probabilidad que no más del 50% hayan completado la enseñanza media, en dicho grupo
etario?
El valor esperado de la distribución muestral de la proporción es @ = 0,555. Esto, junto con el tamaño de la muestra
de c= 200, se utiliza para determinar el error típico de la distribución muestral y el valor de 6 correspondiente a una
proporción de la muestra de @A = 0,50.
@1 − @ 0,5551 − 0,555
IJJKJ Lí?N>K = @E = F =F = 0,0351
> 200
@E − @ 0,50 − 0,555
6= = = −1,57
@E 0,0351
Al consultar la tabla de la distribución normal estandarizada, el área de 6 = −1,57 es 0,0582. Entonces, la
probabilidad de que nomás del 50% de la población adulto joven de la Argentina haya terminado la enseñanza
media es de 0,0582.
, respectivamente.
Entonces, la distribución muestral de la diferencia de los estadígrafos tendrá las siguientes propiedades.
1. La media de la distribución muestral de la diferencia es:
μPQ RPS = μ − μ
Q RPS
=
+
3. Si 8 y 8
tienen exacta o aproximadamente una distribución normal, entonces la distribución
muestral de la diferencia será exacta o aproximadamente normal.
. Entonces, según las propiedades de la distribución en el muestreo para la diferencia entre dos
estadígrafos, la media de la distribución muestral de ̅ − ̅
es
UV+ W RV+X = UY4W − UY4X = UW − UX
Para encontrar el error típico de la distribución muestral ̅ − ̅
, se necesita evaluar las
varianzas de ̅ y ̅
. Según la distribución en muestreo de la media muestral, el error típico de la media
muestral ̅ de una variable aleatoria de observaciones de una población con varianza
, es
Z
Z[+ =
√\
La varianza de ̅ , el cuadrado de (̅ , es
ZX
ZX[+ =
\
Por lo tanto, para nuestro ejemplo, los errores típicos y las varianzas de ̅ y ̅
son, respectivamente
ZW ZXW
Z[+W = ZX[+W =
√\W \W
ZX ZXX
Z[+X = ZX[+X =
√\X \X
Entonces, como la varianza de la diferencia entre dos variables estadísticas es igual a la suma de sus
varianzas, se tiene
ZXW ZXX
]V
X
= ZX*+W + ZX*+X = +
\W \X
+ W RV
+X
Y su error típico
ZX ZX
]V+ W RV+X = ^ZX*+W + ZX*+X = F W + X
\W \X
La forma de la distribución en el muestreo de ̅ − ̅
dependerá de la naturaleza de la población
muestreada cuando los tamaños muestrales y
son pequeños. Cuando y
son grandes, la
distribución muestral de ̅ − ̅
será aproximadamente normal, ya que ̅ y ̅
tendrán distribuciones
aproximadamente normales cuando y
son grandes, según el Teorema Central del Límite.
Las propiedades de la distribución en el muestreo de la diferencia de dos medias muestrales
independientes se resumen en el recuadro siguiente.
, respectivamente. Entonces, la
distribución muestral de la diferencia de medias muestrales tendrá las siguientes propiedades:
1. La media y el error típico de ̅ − ̅
son:
UV+ W RV+X = UW − UX
ZX ZX
]V+ W RV+X = ^ZX*+W + ZX*+X = F W + X
\W \X
2. La distribución muestral de ̅ − ̅
será aproximadamente normal si
son grandes.
159
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
@A − @A
= _ − `
> >
@ 1 − @ @
1 − @
σDEQ RDES = ^DE
Q + DE
S = F +
> >
p − \
cdefgh ij eghhjeekó\ Ggh Ggmndekó\ ok\kfd = F
p − W
Notese que este factor de corrección será siempre un número menor a 1. Multiplicando el
denominador de la fórmula de transformación por este factor, disminuiremos el valor del error típico (tal
como deseamos). La estandarización de 6, incluyendoe l factor de corrección, está dada por:
tiene una distribución normal con media 0 y varianza 1. Además, la desviación típica muestral estará
cerca de la desviación estándar poblacional. Por esta razón la cantidad 84 − vt⁄√u es
aproximadamente normal con media 0 y varianza 1, por lo que se pueden buscar las probabilidades
relacionadas con esta cantidad en la tabla normal estándar (Tabla 6).
¿Qué se puede hacer si 84 es la media de una muestra pequeña? Si éste es pequeño, podría no
estar cercano a , y 84 puede no tener una distribución aproximadamente normal. Si no se sabe nada
para calcular las probabilidades de 84. Sin embargo, si la población de la cual proviene la muestra es
acerca de la población de la que la muestra pequeña fue extraída, entonces no hay ningún método fácil
aproximadamente normal, 84 lo será incluso cuando el tamaño de la muestra sea pequeño. Lo anterior
propicia que aún se puede utilizar la cantidad 84 − vt⁄√u, pero debido a que no está
necesariamente cercana a , esta cantidad no tendría una distribución normal. En su lugar, tiene la
160
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
distribución t de Student con − 1 grados de libertad, que se denota por LR . El número de grados de
libertad para la distribución L es uno menos que el tamaño muestral.
Sea 8 , 8
, … , 8 una muestra pequeña de una población normal con media . Entonces, la cantidad
84 −
v
√
Tiene una distribución t de Student con − 1 grados de libertad, denotada por f\RW .
Cuando es grande, la distribución de la cantidad 84 − vt⁄√u es muy cercana a la curva normal,
de esta forma la curva normal puede utilizarse en lugar de la t de Student.
Sea Z una variable aleatoria normal estándar y V una variable aleatoria ji cuadrada con
υ grados de libertad. Si Z y V son independientes, entonces la distribución de la variable
aleatoria T, donde
Z
T=
V υ
está dada por
− (υ +1) 2
Γ[(υ + 1) 2] t 2
h(t ) = 1 +
Γ(υ 2 ) πυ υ
Esta se conoce como la distribución t con υ grados de libertad.
6
gráfico 9.8, sería indistinguible de la curva normal.
Lw
L
L
Gráfico 9.8: Gráficos de la función de densidad de probabilidad de la variable L de Student para diferentes
t
gados de libertad. La curva normal con media 0 y varianza 1 (curva de 6) es graficada para comparar. Las curvas
de L están más extendidas que la normal, pero la cantidad de extensión adicional disminuye conforme aumenta el
número de grados de libertad.
Sean X1,X2,…,Xn variables aleatorias independientes que son todas normales con media µ y σ . Sea
n
x ( xi − x ) 2
n
x=∑ i y s =∑2
i =1 n i =1 n −1
Entonces la variable aleatoria
x−µ
t=
s/ n
tiene una distribución t con υ = n − 1 grados de libertad.
161
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
La distribución de t es similar a la distribución de z, pues ambas son simétricas alrededor de una
media de cero. Ambas distribuciones tienen forma de campana, pero la distribución t es más variable,
debido al hecho de que los valores t dependen de las fluctuaciones de dos cantidades, x y s2, mientras
que los valores z dependen sólo de los cambios de x de una muestra a otra. La distribución de t difiere
de la de z en que la varianza de t depende del tamaño de la muestra n y siempre es mayor que 1.
Se acostumbra representar con tα el valor t por arriba del cual encontramos un área igual a α. De
aquí, el valor t con 10 grados de libertad, que deja un área de 0.025 a la derecha, es t = 2.228. Como la
distribución t es simétrica alrededor de una media 0, tenemos t1 - α = -tα; es decir, el valor t que deja un
área de 1 – α a la derecha y por tanto un área de α a la izquierda, es igual al valor t negativo que deja un
área de α en la cola derecha de la distribución (gráfico 9.9). Esto es; t0,95= -t0,05, t0,99=-t0,01, etc. Por
ejemplo, el valor t con υ = 14 grados de libertad que deja un área de 0,025 a la izquierda, y por tanto un
área de 0,975 a la derecha es: t0,975= -t0,025 = -2,145.
162
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015