Está en la página 1de 19

ESTADISTICA Y PROBABILIDADES

UNIDAD V

DISTRIBUCIONES MUESTRALES

UNIVERSIDAD NACIONAL DE LA RIOJA


5.1. MUESTREO DE UNA POBLACIÓN.

En la Unidad I se comento que uno de las principales razones de observar una muestra
en lugar de la población completa es el hecho de que la recogida de toda la información
será, en la mayoría de los casos, exageradamente costosa. Incluso en los casos en que se
dispone de recursos suficientes para analizar la población completa, puede resultar
preferible considerar un subconjunto de la población con la esperanza de obtener
medidas precisas.

El objetivo de extraer una muestra de la población es, en general, poder hacer


afirmaciones que tengan cierta validez sobre la población completa, por lo tanto es
importante que la muestra sea representativa de la población y que el proceso de
selección de la misma esté basado en el principio de aleatoriedad, en donde todas las
muestras de un tamaño dado tengan la misma probabilidad de ser elegidas.

El principio de aleatorización en la selección de los elemento de la muestra proporciona


cierta protección contra la presencia en la muestra de elementos no representativos de la
población, en el sentido de que, en media, si se extraen repetidas muestras de la
población, ninguna muestra particular debería estar más representada que otra. Además
el concepto de distribución muestral permite determinar la probabilidad de que una
muestra particular no sea representativa en un determinando grado.

Por lo tanto, sobre la base de la información muestral, el objetivo es hacer inferencias


acerca de la población de la que procede la muestra. Es importante distinguir entre las
características poblacionales y sus correspondientes cantidades maestrales, así la media,
que es un atributo de la población, es un número fijo pero desconocido. Para hacer
inferencia sobre este atributo, se extrae una muestra de la población y se calcula la
media muestral. Puesto que para cada muestra que se extriga se obtendrá una media
muestral diferente, se puede pensar en esta cantidad como en una variable aleatoria con
una cierta distribución de probabilidad.

La distribución de probabilidades de los posibles valores que puede tomar alguna


función de la información muestral, denominado estadístico, a lo largo de todas las

2
posibles muestras con el mismo número de observaciones que pueden ser extraídas de la
población es lo que se conoce como distribución muestral.

Las distribuciones muestrales pueden construirse empíricamente a partir de poblaciones


finitas, para ello se procede:

1. De una población finita de tamaño N, se extraen de manera aleatorias todas las


muestras posibles de tamaño n.

2. Se calcula el estadístico de interés para cada muestra.

3. Se ordena en una columna los distintos valores observados del estadístico y en


otra columna, las frecuencias de ocurrencia correspondientes de cada valor
observado.

Elaborar la distribución muestral es una tarea muy complicada si la población es de un


tamaño muy grande e imposible si la población es infinita. En el último caso, es posible
obtener aproximaciones de las distribuciones muestrales tomando un gran número de
muestras de un tamaño dado.

5.2. DISTRIBUCIÓN DE LA MEDIA DE LAS MEDIAS MUESTRALES.

Para ilustrar la distribución de la media muestral, consideremos, por ejemplo, una


población de tamaño N = 5, la cual se compone de los años de antigüedad en la empresa
de cinco empleados. Las antigüedades en años son 6, 8, 10, 12, 14.

La media y la variancia de la población son:


X i
 10
N

X - 
2
i
 2
 8
N

3
Supongamos que elegimos todas las posibles muestras de tamaño n = 2 de la población
de tamaño N = 5. La tabla muestra todas las posibles muestras de tamaño 2. Las
muestras que están por arriba y por debajo de la diagonal principal resultan cuando el
muestreo es sin reemplazo. Las medias de las muestras están entre paréntesis.

  2° SELECCION
  6 8 10 12 14
1º 6;6 6;8 6;10 6;12 6;14
6
S (6m.m) (7m.m) (8) (9m.m) (10)
E 8;6 8;8 8;10 8;12 8;14
L (7) (8es la (9) (10) (11)
8
E media
C mestrual)
10;6 10;8 10;10 10;12 10;14
C
10
(8) (9) (10) (11) (12)
I
12;6 12;8 12;10 12;12 12;14
O
12
(9) (10) (11) (12) (13)
N
14;6 14;8 14;10 14;12 14;14
14
(10) (11) (12) (13) (14)

Se observa que cuando el muestreo se hace con reemplazos, hay 25 muestras posibles,
en general, cuando el muestreo se lleva a cabo con reemplazos, el número de muestras
posible es igual a N. Puede construirse la distribución muestral de media ordenando los
diferentes valores de media en una columna y sus frecuencias de ocurrencia en la otra,
tal como mostramos a continuación.

Medias Frecuencia absoluta f Frecuencia relativa h


6 1 1/25
7 2 2/25
8 3 3/25
9 4 4/25
10 5 5/25
11 4 4/25
12 3 3/25
13 2 2/25

4
14 1 1/25
TOTAL 25 1,00

En la tabla se aprecian los datos que satisfacen los requerimientos para la distribución
de probabilidad. Las probabilidades individuales son mayores de 0 y la suma de todas
ellas es igual a 1.

El interés principal radica en la forma funcional de la distribución, su media y la


variancia o desviación típica.

Distribución muestral de la media

6 7 8 9 10 11 12 13 14

La media de la distribución muestral es:

X 
f i . Xi

250
 10 años
n 25

A partir de este ejemplo, se demuestra que la media de la distribución muestral está


centrada en la media poblacional. En general, esto asegura que si se extrae repetidas
muestras independientes de n observaciones de una población, el promedio de las
medias muestrales se hace muy próximo a la media poblacional. Este resultado es una
importante consecuencia del muestreo aleatorio y refleja la protección que este tipo de
muestreo proporciona frente a observaciones no representativas de la población.

La variancia de la distribución muestral es:

 X  2
i - X 100 2
 2
X
   4 años
N 25

5
Se puede advertir que la variancia de la distribución muestral no es igual a la variancia
de la población, sin embargo, si se divide a la variancia de la población por el tamaño de
la muestra n utilizada para obtener la distribución muestral, se obtiene la variancia de la
distribución muestral, esto es:

2 8
 X2   4
n 2

Esto implica que la variancia de la distribución muestral de la media decrece a medida


que aumenta el tamaño muestral n, por lo tanto, cuantas más observaciones tanga la
muestra, más concentrada estará la distribución muestral de la media alrededor de la
media poblacional, esto indica que cuanto mayor sea la cantidad de información que se
ha extraído de la población, más probable será acertar determinadas características de la
población de estudio.

A la raíz cuadrada de la variancia de la distribución muestral se la denomina error


estándar de la media y viene dada por:


X 
n

Estos resultados son ejemplos de las características de las distribuciones muestrales en


general, cuando el muestreo es con reemplazo o cuando se efectúan a partir de una
población infinita.

En general, no se efectúan muestreo con reemplazo, y en muchos casos prácticos, el


muestreo debe hacerse a partir de una población finita, por lo tanto, es necesario
conocer el comportamiento de la distribución muestral de la media de la muestra en
estas condiciones.

Antes de hacer cualquier afirmación general, en la tabla, las medias de la muestra que
resulta cuando el muestreo es sin reemplazo se presentan sobre la diagonal principal que
son las mismas que se presentan por debajo de dicha diagonal, siempre y cuando se

6
ignore el orden en que se hicieron las observaciones. Se observa que hay 10 muestras
posibles. En general, cuando se extraen sin reemplazo muestras de tamaño n a partir de
una población finita de tamaño N y se ignora el orden en que son extraídas las mismas,
se obtiene el número posible mediante la combinación de N casos tomados de n a la
vez.

N! 5!
CN    10
n!.  N - n ! 2! . 3!
n

La media de la distribución muestral es:

X 
f i . Xi

100
 10
n 10

También aquí se demuestra que la media de la distribución muestral está centrada en la


media poblacional.

La variancia de la distribución muestral es:

 X  2
i - X 30
 2
X
  3
N 10

Se observa que la variancia de la distribución muestral no es igual a la variancia de la


población dividida por el tamaño de la muestra, sin embargo, al multiplicarla por el
factor N - n/N - 1, se obtiene la variancia de la distribución muestral, esto es:

 2 N -n 8 5-2
 X2  .  . 3
n N -1 2 5 -1

Al factor N - n/N - 1 se le llama factor de corrección por población finita y se puede


omitir cuando el tamaño de la muestra es pequeño en comparación con el tamaño de la
población. Cuando la población es mucho mayor que la muestra la diferencia entre usar
o no el factor es insignificante. En la mayoría de los casos, no se usa el factor a menos

7
que la muestra sea de más de 5% de la población, es decir, la corrección por población
finita generalmente se ignora cuando n/N ≤ 0,05.

Cuando el muestreo se realiza a partir de una población que sigue una distribución
normal, o en caso que la distribución no es normal pero el tamaño muestral n es lo
suficientemente grande, la distribución de la media de la muestra tiene las siguientes
propiedades:

1. La media de la media de la distribución muestral será igual a la media de la


población de la cual proviene la muestra.

2. La distribución muestral tiene una desviación típica igual a:



X 
n
Esta cantidad recibe el nombre de error estándar de X .

3. Si el tamaño muestral n no es una fracción pequeña del tamaño poblacional N,


entonces el error estándar de X es:
 N-n
X  .
n N -1

4. La variable aleatoria estándar Z es:


X X
Z 
X 
n

5.3. TEOREMA CENTRAL DEL LÍMITE.

Cuando el muestreo se hace a partir de una población que no sigue una distribución
normal, se utiliza un teorema matemático conocido como teorema central del límite.

La importancia de este teorema en la inferencia estadística radica en que dada una


población de cualquier forma funcional no normal con una media μ y variancia finita σ²,

8
la distribución muestral de la media X , será casi normal con media  X y variancia σ²/n
2

cuando la muestra es muy grande.

El teorema central del límite permite tomar muestras a partir de poblaciones con
distribución no normal y garantizar que se obtengan aproximadamente los mismos
resultados que si la población tuviera una distribución normal, siempre que se tome una
muestra grande.

En el caso de la media de la muestra, se tiene la seguridad de que la distribución


muestral está distribuida en forma aproximadamente normal según tres condiciones:

1. Cuando se hace el muestreo a partir de una población con distribución normal.

2. Cuando se hace el muestreo a partir de una población que no exhibe una


distribución normal y la muestra es grande.

3. Cuando se hace el muestreo a partir de una población cuya forma funcional se


desconoce, siempre que el tamaño de la muestra sea grande.

Con respecto al tamaño que debe tener la muestra para que sea aplicable el teorema
central de límite, no existe una sola respuesta, pues el tamaño de la muestra depende de
la condición de no normalidad en la población. Una regla empírica establece que, en la
mayoría de las situaciones prácticas, una muestra de tamaño 30 es suficiente. En
general, la aproximación a la normalidad de la distribución muestral de X llega a ser
mucho mejor a medida que crece el tamaño de la muestra.

Problema 1. Telecom Satelital es una empresa de telecomunicaciones que presta


servicios en ciertas ciudades. Los ejecutivos de la empresa han aprendido que la
transmisión satelital promedio es de 150 segundos con una desviación estándar de 15
segundos. Los tiempos parecen estar distribuidos normalmente. Se plantea instalar
nuevos equipos que mejorarían la eficiencia de sus operaciones. Sin embargo, antes que
los ejecutivos puedan decidir si dicha inversión será eficaz en función de los costos, se
debe determinar la probabilidad de que la media de la muestra n = 35, se encuentre:

9
a) Entre 145 y 150.
b) Sea mayor que 145.
c) Sea menor que 150.

Punto a
X 145  150
Z1    1,97
 15
n 35

X   150  150
Z2   0
 15
n 35

Por tabla, P( Z1 )  0,0244  P( Z 2 )  0,5


P (145  X  150)  P( Z 2 ) - P( Z1 )  0,5  0,0244  0,4756  47,56%

La probabilidad de que la media muestral se encuentre entre 145 segundos y 150


segundos es de 47,56%.

Punto b
X 145  150
Z   1,97
 15
n 35

Por tabla, P( Z )  0,0244


P ( X  145)  1 - P( Z )  1  0,0244  0,9756  97,56%

10
La probabilidad de que la media muestral sea mayor que 145 segundos es de 97,56%.

Punto c
X   150  150
Z  0
 15
n 35

Por tabla, P( Z )  0,5


P (X  150)  P( Z )  0,5  50%

La probabilidad de que la media muestral sea menor que 150 segundos es de 50%.

5.4. DISTRIBUCIÓN MUESTRAL DE LA VARIANCIA.

11
En el punto 5.2. consideramos el problema de hacer inferencias sobre la media de una
población basándonos en la información de una muestra. Ahora vamos a centrarnos en
la varianza poblacional.

Supongamos que se extrae una muestra de n observaciones de una población con media
y varianza desconocida. La variancia poblacional es:


 2  E  Xi   
2

La media poblacional  es desconocida, por lo que en la práctica no puede calcularse,
por lo tanto, se sustituye el valor desconocido de la media poblacional por la media
muestral X . La variancia muestral es:

 X  2
i -X
S 2

n -1

Es natural esperar que se use esta variable aleatoria, variancia muestral S 2 , como un
estimador de la variancia poblacional  2 de una distribución normal, cuando no
reconoce esta. Así como en el caso de una variable aleatoria X con distribución normal,
con media  y variancia  2 , usamos una transformación para obtener otra variable
aleatoria Z con distribución normal estándar, media 0 y variancia 1, cuyos valores de
probabilidad se encuentran tabulados. En el caso de la variancia muestral S 2 se hace
algo similar. En este caso, la transformación se hace pasando a la variable  2 , chi
cuadrado, cuyas probabilidades se encuentran tabuladas.

 n2-1 
 n - 1 . S 2
2

Una forma equivalente de escribir esta ecuación es:

 X  2
-X
 2
n -1 
i

2

El subíndice de  2 , que es igual al tamaño de la muestra menos uno, son los grados de
libertad, representado comúnmente por  nu. La expresión grados de libertad hace
referencia, aquí, al número de cuadrados independientes en el numerador, es decir en

12
 X  2
i -X . El número total de cuadrados en esta expresión es n, pero sólo hay n-1
cuadrados independientes, porque una vez calculados los n-1 primeros, el valor del
último queda determinado automáticamente.

La familia de distribuciones de chi cuadrado solo está definida para valores positivos de
la variable ya que la variancia no puede ser negativa, por lo tanto su rango es el
intervalo  0,    . La forma de una distribución chi cuadrado depende de los grados de
libertad, por lo tanto hay un número infinito de distribuciones y no son simétricas,
tienen colas estrechas que se extienden a la derecha, es decir, sesgadas a la derecha. La
figura muestra varias distribuciones con diferentes grados de libertad. La media y la
variancia de este tipo de distribución son respectivamente los grados de libertad y el
doble del número de grados de libertad.

Para comprender los grados de libertad, podemos definirlos como el número de valores
que pueden elegirse libremente. Por ejemplo, supongamos que estamos tratando con una
muestra de tamaño 2, los valores de muestra son a y b, y sabemos que tienen una media
de 18. Simbólicamente la situación es:
ab
 18
2

Ahora, a y b pueden tomar cualquier valor cuya suma entre los dos sea 36, ya que 36
dividido 2 es 18. Supongamos que sabemos que a tiene el valor 10. Ahora b ya no es

13
libre de tomar cualquier valor, sino que debe de tomar el valor 26. La situación de este
ejemplo se puede generalizar para cualquier tamaño n en donde dada la media de los
valores sólo quedan n-1 elementos que pueden definirse libremente y uno es función de
la media y el resto de los elementos.

Problema 2. Encontrar la probabilidad de que una muestra aleatoria de 25 observaciones


de una población con varianza 6, tenga una varianza muestral:

a) Mayor que 9,1.


b) Entre 3,462 y 10,745.

Punto a

 24
2

 25 - 1 . 9,1  36,40
6
Por tabla, para 24 grados de libertad da un área a la derecha de 0,05.
P (S 2  9,1)  P (  2  36,40)  0,05  5%

La probabilidad de que la variancia muestral sea mayor que 9,1 es de 5%.


Punto b

1,2 24 
 25 - 1 . 3,462  13,847
6

 2,2 24 
 25 - 1 .10,745  42,980
6

14
P (13,847   24
2
 42,980)  P (  24
2
 42,980) - P (  24
2
 13,847) 
P (  24
2
 42,980) - P (  24
2
 13,847)  0,99  0,05  0,94  94%

La probabilidad de que la variancia muestral se encuentre entre 3,462 y 10,745 es del


94%.

5.5. DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN.

Si se repite n veces un experimento que tiene probabilidad p de éxito, por lo tanto, la


variable aleatoria X, número total de éxitos en las n repeticiones, sigue una distribución
binomial. Un problema común consiste en que el parámetro p sea desconocido. Por
ejemplo, podemos estar interesados en determinar cual es la proporción del electorado
que tiene intención de votar a un determinado candidato o la proporción de lectores de
un determinado diario. En estos casos, será natural basar nuestra inferencia en la
proporción de éxitos en una muestra tomada de la población en estudio.

Sea X el número de éxitos un una muestra binomial de n observaciones donde la


probabilidad de éxito es p. Por lo tanto, la proporción de éxitos en la muestra,
denominada proporción muestral, es:
X
p
n

15
La media y la varianza de la distribución muestral de la proporción muestral pueden
deducirse fácilmente a partir de la media y la varianza del número de éxitos que vienen
dadas por:
E(X)  n . p

 2 (X)  n . p . (1 - p)

De aquí se deduce:
X 1
E(p)  E   . n . p  p
n n
La media de la proporción muestral es la proporción de éxitos p en la población.
X 1 p . (1 - p)
 2 (p)   2    2 . n . p . (1 - p) 
n n n

La raíz cuadrada de la varianza es la desviación típica de la proporción muestral y


recibe el nombre de error estándar.
p . (1 - p)
p 
n

Si el tamaño N de la población no es demasiado grande comparado con el tamaño


muestral n, en la expresión del error estándar de la proporción muestral será necesario
una corrección por población finita:
p . (1 - p) N-n
p  .
n N -1

En el caso de la proporción muestral` p , se puede considerar que el tamaño de muestra


es grande cuando se cumple las siguientes condiciones:

n . P  5  n . (1 - p)  5

Esto es, si la población es infinita y n/N ≤ 0,05 usamos el error estándar de la


proporción sin el factor de corrección, sin embargo, si la población es finita y la relación
es n/N > 0,05 se debe usar el factor de corrección.

Como una consecuencia del teorema central del límite, la distribución de la proporción
muestral` p se puede aproximar con una distribución normal de probabilidad, siempre
que el tamaño de muestra sea grande, por lo tanto, si restamos a la proporción muestral

16
la poblacional y se divide por e error estándar, obtenemos la variable aleatoria normal
estándar Z:
pp
Z 
p

Para una proporción poblacional fija, el error estándar de la proporción muestral


disminuye a medida que aumenta el tamaño muestral n, concentrándose la proporción
muestral p alrededor de su media. Por lo tanto, si tomamos una muestra mayor de la
población, nuestra inferencia sobre la proporción de elementos que posee alguna
característica particular se hará más firme.

Problema 3. Se toma una muestra de 250 casas de una población de edificios antiguos
para estimar la proporción de casas de este tipo cuya instalación eléctrica resulta
insegura. Supongamos que el 30% de todos los edificios de esta población tienen una
instalación insegura. Determinar la probabilidad de que la proporción de edificios de la
muestra con instalación insegura esté entre 0,25 y 0,35.

pp pp 0,25  0,30


Z1     1,72
p p . (1 - p) 0,30 . (1 - 0,30)
n 250

pp pp 0,35  0,30


Z2     1,72
p p . (1 - p) 0,30 . (1 - 0,30)
n 250

Por tabla, P( Z1 )  0,0427  P( Z 2 )  0,9573


P (0,25  p  0,35)  P( Z 2 ) - P( Z1 )  0,9573  0,0427  0,9146  91,46%

La probabilidad de que la proporción muestral de casas con instalación eléctrica


insegura se encuentre entre 0,25 y 0,35 es de 91,46%.

17
BIBLIOGRAFIA

1. ENCICLOPEDIA DE MATEMÁTICAS

18
OCEANO Grupo Editorial S.A.

2. ESTADÍSTICA
Murria R. Spiegel - Larry J. Stephens
Mc Graw Hill
Año 2002

3. Estadística para los Negocios y la Economía


Paul Newbold
Prentice Hall
Año 2005

4. Estadística para Ingeniería - Apuntes de Cátedra


Lic. Mauricio Pierfederici

5. http://es.wikipedia.org/wiki/Wikipedia:Portada

19

También podría gustarte