Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad N⺠V
Unidad N⺠V
UNIDAD V
DISTRIBUCIONES MUESTRALES
En la Unidad I se comento que uno de las principales razones de observar una muestra
en lugar de la población completa es el hecho de que la recogida de toda la información
será, en la mayoría de los casos, exageradamente costosa. Incluso en los casos en que se
dispone de recursos suficientes para analizar la población completa, puede resultar
preferible considerar un subconjunto de la población con la esperanza de obtener
medidas precisas.
2
posibles muestras con el mismo número de observaciones que pueden ser extraídas de la
población es lo que se conoce como distribución muestral.
X i
10
N
X -
2
i
2
8
N
3
Supongamos que elegimos todas las posibles muestras de tamaño n = 2 de la población
de tamaño N = 5. La tabla muestra todas las posibles muestras de tamaño 2. Las
muestras que están por arriba y por debajo de la diagonal principal resultan cuando el
muestreo es sin reemplazo. Las medias de las muestras están entre paréntesis.
2° SELECCION
6 8 10 12 14
1º 6;6 6;8 6;10 6;12 6;14
6
S (6m.m) (7m.m) (8) (9m.m) (10)
E 8;6 8;8 8;10 8;12 8;14
L (7) (8es la (9) (10) (11)
8
E media
C mestrual)
10;6 10;8 10;10 10;12 10;14
C
10
(8) (9) (10) (11) (12)
I
12;6 12;8 12;10 12;12 12;14
O
12
(9) (10) (11) (12) (13)
N
14;6 14;8 14;10 14;12 14;14
14
(10) (11) (12) (13) (14)
Se observa que cuando el muestreo se hace con reemplazos, hay 25 muestras posibles,
en general, cuando el muestreo se lleva a cabo con reemplazos, el número de muestras
posible es igual a N. Puede construirse la distribución muestral de media ordenando los
diferentes valores de media en una columna y sus frecuencias de ocurrencia en la otra,
tal como mostramos a continuación.
4
14 1 1/25
TOTAL 25 1,00
En la tabla se aprecian los datos que satisfacen los requerimientos para la distribución
de probabilidad. Las probabilidades individuales son mayores de 0 y la suma de todas
ellas es igual a 1.
6 7 8 9 10 11 12 13 14
X
f i . Xi
250
10 años
n 25
X 2
i - X 100 2
2
X
4 años
N 25
5
Se puede advertir que la variancia de la distribución muestral no es igual a la variancia
de la población, sin embargo, si se divide a la variancia de la población por el tamaño de
la muestra n utilizada para obtener la distribución muestral, se obtiene la variancia de la
distribución muestral, esto es:
2 8
X2 4
n 2
X
n
Antes de hacer cualquier afirmación general, en la tabla, las medias de la muestra que
resulta cuando el muestreo es sin reemplazo se presentan sobre la diagonal principal que
son las mismas que se presentan por debajo de dicha diagonal, siempre y cuando se
6
ignore el orden en que se hicieron las observaciones. Se observa que hay 10 muestras
posibles. En general, cuando se extraen sin reemplazo muestras de tamaño n a partir de
una población finita de tamaño N y se ignora el orden en que son extraídas las mismas,
se obtiene el número posible mediante la combinación de N casos tomados de n a la
vez.
N! 5!
CN 10
n!. N - n ! 2! . 3!
n
X
f i . Xi
100
10
n 10
X 2
i - X 30
2
X
3
N 10
2 N -n 8 5-2
X2 . . 3
n N -1 2 5 -1
7
que la muestra sea de más de 5% de la población, es decir, la corrección por población
finita generalmente se ignora cuando n/N ≤ 0,05.
Cuando el muestreo se realiza a partir de una población que sigue una distribución
normal, o en caso que la distribución no es normal pero el tamaño muestral n es lo
suficientemente grande, la distribución de la media de la muestra tiene las siguientes
propiedades:
Cuando el muestreo se hace a partir de una población que no sigue una distribución
normal, se utiliza un teorema matemático conocido como teorema central del límite.
8
la distribución muestral de la media X , será casi normal con media X y variancia σ²/n
2
El teorema central del límite permite tomar muestras a partir de poblaciones con
distribución no normal y garantizar que se obtengan aproximadamente los mismos
resultados que si la población tuviera una distribución normal, siempre que se tome una
muestra grande.
Con respecto al tamaño que debe tener la muestra para que sea aplicable el teorema
central de límite, no existe una sola respuesta, pues el tamaño de la muestra depende de
la condición de no normalidad en la población. Una regla empírica establece que, en la
mayoría de las situaciones prácticas, una muestra de tamaño 30 es suficiente. En
general, la aproximación a la normalidad de la distribución muestral de X llega a ser
mucho mejor a medida que crece el tamaño de la muestra.
9
a) Entre 145 y 150.
b) Sea mayor que 145.
c) Sea menor que 150.
Punto a
X 145 150
Z1 1,97
15
n 35
X 150 150
Z2 0
15
n 35
Punto b
X 145 150
Z 1,97
15
n 35
10
La probabilidad de que la media muestral sea mayor que 145 segundos es de 97,56%.
Punto c
X 150 150
Z 0
15
n 35
La probabilidad de que la media muestral sea menor que 150 segundos es de 50%.
11
En el punto 5.2. consideramos el problema de hacer inferencias sobre la media de una
población basándonos en la información de una muestra. Ahora vamos a centrarnos en
la varianza poblacional.
Supongamos que se extrae una muestra de n observaciones de una población con media
y varianza desconocida. La variancia poblacional es:
2 E Xi
2
La media poblacional es desconocida, por lo que en la práctica no puede calcularse,
por lo tanto, se sustituye el valor desconocido de la media poblacional por la media
muestral X . La variancia muestral es:
X 2
i -X
S 2
n -1
Es natural esperar que se use esta variable aleatoria, variancia muestral S 2 , como un
estimador de la variancia poblacional 2 de una distribución normal, cuando no
reconoce esta. Así como en el caso de una variable aleatoria X con distribución normal,
con media y variancia 2 , usamos una transformación para obtener otra variable
aleatoria Z con distribución normal estándar, media 0 y variancia 1, cuyos valores de
probabilidad se encuentran tabulados. En el caso de la variancia muestral S 2 se hace
algo similar. En este caso, la transformación se hace pasando a la variable 2 , chi
cuadrado, cuyas probabilidades se encuentran tabuladas.
n2-1
n - 1 . S 2
2
X 2
-X
2
n -1
i
2
El subíndice de 2 , que es igual al tamaño de la muestra menos uno, son los grados de
libertad, representado comúnmente por nu. La expresión grados de libertad hace
referencia, aquí, al número de cuadrados independientes en el numerador, es decir en
12
X 2
i -X . El número total de cuadrados en esta expresión es n, pero sólo hay n-1
cuadrados independientes, porque una vez calculados los n-1 primeros, el valor del
último queda determinado automáticamente.
La familia de distribuciones de chi cuadrado solo está definida para valores positivos de
la variable ya que la variancia no puede ser negativa, por lo tanto su rango es el
intervalo 0, . La forma de una distribución chi cuadrado depende de los grados de
libertad, por lo tanto hay un número infinito de distribuciones y no son simétricas,
tienen colas estrechas que se extienden a la derecha, es decir, sesgadas a la derecha. La
figura muestra varias distribuciones con diferentes grados de libertad. La media y la
variancia de este tipo de distribución son respectivamente los grados de libertad y el
doble del número de grados de libertad.
Para comprender los grados de libertad, podemos definirlos como el número de valores
que pueden elegirse libremente. Por ejemplo, supongamos que estamos tratando con una
muestra de tamaño 2, los valores de muestra son a y b, y sabemos que tienen una media
de 18. Simbólicamente la situación es:
ab
18
2
Ahora, a y b pueden tomar cualquier valor cuya suma entre los dos sea 36, ya que 36
dividido 2 es 18. Supongamos que sabemos que a tiene el valor 10. Ahora b ya no es
13
libre de tomar cualquier valor, sino que debe de tomar el valor 26. La situación de este
ejemplo se puede generalizar para cualquier tamaño n en donde dada la media de los
valores sólo quedan n-1 elementos que pueden definirse libremente y uno es función de
la media y el resto de los elementos.
Punto a
24
2
25 - 1 . 9,1 36,40
6
Por tabla, para 24 grados de libertad da un área a la derecha de 0,05.
P (S 2 9,1) P ( 2 36,40) 0,05 5%
1,2 24
25 - 1 . 3,462 13,847
6
2,2 24
25 - 1 .10,745 42,980
6
14
P (13,847 24
2
42,980) P ( 24
2
42,980) - P ( 24
2
13,847)
P ( 24
2
42,980) - P ( 24
2
13,847) 0,99 0,05 0,94 94%
15
La media y la varianza de la distribución muestral de la proporción muestral pueden
deducirse fácilmente a partir de la media y la varianza del número de éxitos que vienen
dadas por:
E(X) n . p
2 (X) n . p . (1 - p)
De aquí se deduce:
X 1
E(p) E . n . p p
n n
La media de la proporción muestral es la proporción de éxitos p en la población.
X 1 p . (1 - p)
2 (p) 2 2 . n . p . (1 - p)
n n n
n . P 5 n . (1 - p) 5
Como una consecuencia del teorema central del límite, la distribución de la proporción
muestral` p se puede aproximar con una distribución normal de probabilidad, siempre
que el tamaño de muestra sea grande, por lo tanto, si restamos a la proporción muestral
16
la poblacional y se divide por e error estándar, obtenemos la variable aleatoria normal
estándar Z:
pp
Z
p
Problema 3. Se toma una muestra de 250 casas de una población de edificios antiguos
para estimar la proporción de casas de este tipo cuya instalación eléctrica resulta
insegura. Supongamos que el 30% de todos los edificios de esta población tienen una
instalación insegura. Determinar la probabilidad de que la proporción de edificios de la
muestra con instalación insegura esté entre 0,25 y 0,35.
17
BIBLIOGRAFIA
1. ENCICLOPEDIA DE MATEMÁTICAS
18
OCEANO Grupo Editorial S.A.
2. ESTADÍSTICA
Murria R. Spiegel - Larry J. Stephens
Mc Graw Hill
Año 2002
5. http://es.wikipedia.org/wiki/Wikipedia:Portada
19