Está en la página 1de 9

Facultad de Ciencias Naturales, UNSa

Área de Estadística
Material de apoyo didáctico elaborado por Silvia Sühring

DISTRIBUCIONES MUESTRALES

A partir de los datos obtenidos de un muestreo probabilístico podemos calcular


estadísticos (medidas de resumen muestrales), que nos servirán para inferir
(aproximar) los valores de los parámetros de la población bajo estudio lo más
fielmente.

MUESTRA POBLACIÓN
estadísticos o estimadores Parámetros
x o Me µ
x λ
S σ
p π

Los estadísticos o estimadores toman distintos valores para cada muestra


extraída de una misma población, por lo tanto son variables aleatorias y poseen
distribuciones de probabilidad, llamadas distribuciones muestrales.

Distribución muestral: es la distribución de probabilidad de un estadístico


calculada a partir de todas las muestras posibles de tamaño n elegidas al azar
de una población determinada.

forma funcional
De cada distribución muestral nos interesa conocer media
varianza

Es decir, nos interesa saber que distribución teórica tienen y cuanto valen los
parámetros o características más importantes de la misma. Con esta
información podremos calcular el error de estimación.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL

Población n
µ x1
σ

n n
xi . . . x2

Distribuciones muestrales- 2015 1


Para cada muestra aleatoria posible de tamaño n tomadas de esta población
podemos calcular la media muestral x i , la cual variará de muestra a muestra.
Entonces podríamos construir una distribución de medias muestrales que
estaría caracterizada por su valor esperado (la media de la media muestral =
µ x ),y su varianza (la varianza de la media muestral = σ x ). Por supuesto,
2

podríamos calcular la desviación estándar de la media muestral, también


denominada error estándar de la media = σ x .

Ejemplo: supongamos que existe una población compuesta por cuatro


personas con las siguientes alturas en cm: 158 - 159 - 160 - 161. El promedio
de altura de esta población es µ = 159.5 cm, la varianza = 1.25cm2.
Todas las muestras posibles, con reposición, de tamaño 2 que podríamos
tomar de esta población serían:

Muestra Personas Valores de Media Muestra Personas Valores Media


incluidas altura muestral incluidas de altura muestral
1 1-1 158, 158 158 9 3–1 160, 158 159
2 1 –2 158, 159 158.5 10 3–2 160, 159 159.5
3 1–3 158, 160 159 11 3–3 160, 160 160
4 1–4 158, 161 159.5 12 3–4 160, 161 160.5
5 2–1 159, 158 158.5 13 4–1 161, 158 159.5
6 2–2 159, 159 159 14 4-2 161, 159 160
7 2–3 159, 160 159.5 15 4–3 161, 160 160.5
8 2–4 159, 161 160 16 4–4 161, 161 161

Con estos valores podemos construir la distribución de probabilidad para la


media muestral:
xi f(xi) 0,26

158 0.0625
158,5 0.1250 0,20
frecuencia relativa

159 0.1875
159,5 0.2500 0,13

160 0.1875
0,07
160,5 0.1250
161 0.0625
0,00
158 158 159 159 160 160 160 161 161
Columna1

El valor esperado (media) de la media muestral es igual a la media poblacional:

( )
E X = µx = µ
En el ejemplo: E( x ) = ∑ xi .f(xi)
= (158x0,0625 + 158,5x0,125 + …+ 161x0,0625)
= 159.5 cm

Distribuciones muestrales- 2015 2


La varianza de la media muestral se puede calcular usando la fórmula
conocida para varianza poblacional (de todas las muestras posibles):
V( x ) = ∑ (Xi - µ)2 . f (xi)
=[(158 - 159.5)2x0,0625 + (158,5 -159.5)2x0,125 + …+
(161 – 159.5)2x0,0625)] = 0.625cm2

Se puede deducir que, en general, la varianza de la media será igual a la


varianza poblacional dividido el tamaño de la muestra:
σ2 σ
V(X) = ⇒σx =
n n
2
En el ejmplo : V( x ) = 0.125/2 = 0.625 cm

A partir de esta fórmula se puede deducir que el error típico de la media es


siempre menor que el de la población. Además resulta obvio que la varianza de
las medias muestrales es inversamente proporcional al tamaño de la muestra;
si la muestra es grande la variabilidad de la media resultante de esa muestra es
menor.
1) σx ≤ σ 2) σ x → 0 cuando n → ∞

En la distribución de medias muestrales, la forma funcional, así como su


esperanza y su varianza, dependerán de las características de la población de
la cual se extraen las muestras, del tamaño de la muestra y del procedimiento
del muestreo.

Si la población de la cual provienen las muestras tiene distribución


normal con varianza conocida, entonces la media muestral tendrá
distribución normal, cualquiera sea el tamaño de la nuestra n.

Si la población de la cual provienen las muestras tiene otra


distribución, es posible calcular la distribución límite cuando n → ∞ de la
variable aleatoria media muestral, suponiendo únicamente que la varianza de
esta población es finita.

TEOREMA CENTRAL DEL LÍMITE:


Dada una población con cualquier distribución con media µ y varianza finita
σ2, la distribución muestral de la media, calculada a partir de muestras
aleatorias repetidas de tamaño n de esta población, estará distribuida en forma
aproximadamente normal, con media µ y varianza igual a σ /n, cuando el
2

tamaño de la muestra sea suficientemente grande.

Como regla práctica se considera que n es suficientemente grande si es ≥ 30.

Los únicos supuestos que deben cumplirse para aplicar el TCL son: que las
muestras sean tomadas en forma aleatoria y que la varianza sea finita.
Además, se considera que el muestreo repetido se realiza con reposición, o
que el muestro se realiza sin reposición pero la población es infinita.

Distribuciones muestrales- 2015 3


Si la población no es infinita y el muestreo se realiza sin reposición, la
distribución muestral de la media tendrá las mismas características que en el
caso anterior, pero con una varianza mayor dada por:
σ 2 ( N − n)
σ 2
x = ⋅
n ( N − 1)
FCPF (factor de corrección por población finita) = (N - n) / (N -1)

Sabiendo que la media muestral tiene distribución normal, podemos calcular


probabilidades asociadas a valores de esta variable. Para ello deberemos
estandarizar los valores de la media muestral, restando su media y dividiendo
por su desviación estándar:
x−µ
Z=
σx
Ejemplo cálculo de probabilidades asociadas a valores de la media muestral:
Se sabe que en cierta población humana, la longitud craneal está distribuida en
forma aproximadamente normal, con µ = 185,6 mm y σ = 12,7 mm. a) ¿Cuál es
la probabilidad de que una muestra de 35 individuos tomados al azar, tenga
una media mayor a 188 mm? b) Y entre 180 y 185 mm?

Solución:
a) P ( x > 188) = ?
σ
x ≈ n ( µx ;σ x )
12,7
σ xr = = = 2,147
n 35
Normal(185,6,4,61): p(evento)=0,1318
0,20

0,15
Densidad

188 − 185 .6
0,10 Z= = 1.12
2.147
0,05

0,00
175,6 180,6 185,6 190,6 195,6
Variable

P ( x > 188) = P (Z > 1.12) = 0.1314

b) P (180 < x < 185) = ?


Normal(185,6,4,61): p(evento)=0,3854
0,20

180 − 185 .6
0,15 Z= = −2.61
Densidad

2.147
0,10

185 − 185.6
Z= = −0.28
0,05

0,00
2.147
175,6 180,6 185,6 190,6 195,6
Variable

Distribuciones muestrales- 2015 4


P (180 < x < 185) = P (-2.61 < Z < -0.28)
= P(Z > 0.28) - P (Z > 2.61)
= 0.3897 – 0.0045 = 0.3852

Si la población de la cual provienen las muestras tiene distribución


normal con varianza σ2 desconocida y las muestras extraídas son de
tamaño pequeño (n < 30), los valores de S2 varían considerablemente de
muestra a muestra y la distribución de la media muestral no corresponderá
con la distribución normal. En ese caso, podemos aproximar la distribución
de las medias muestrales a la distribución t de Student, con δ = (n – 1)
grados de libertad. Para calcular probabilidades asociadas a valores de la
media podemos utilizar la transformación:

x−µ
t= donde σx = S y t ∼ tδ δ = (n – 1)
σx n

DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL (p)

Si X es una variable con distribución binomial con parámetro π , donde π es la


probabilidad de éxito de la población, podemos tomar muestras repetidas de
tamaño n y para cada una calcular la proporción poblacional p, como p = x/n;
es decir el cociente entre el nº de casos favorables en la muestra y el nº de
casos posibles (tamaño de la muestra).
Los valores de p variarían entre una y otra muestra, por lo que p es una
variable aleatoria.
Si n fuera suficientemente grande, según el teorema central del límite,
esta variable p tendría distribución aproximadamente normal con:

π .(1 − π )
E(p) = π y V ( p ) = σ p2 =
n

Los valores de n requeridos para que se cumpla el teorema dependen del valor
de π. A medida que π se aleja de 0,5, n deberá ser más grande.

Para calcular las probabilidades asociadas a valores particulares de p,


aplicaremos la transformación Z, utilizando luego la tabla de distribución normal
estandarizada.
p −π π (1 − π )
Z= , donde σp =
σp n
Si la población es finita y el muestreo se hace sin reposición, debe aplicarse el
FCPF al cálculo de la varianza de p, quedando:

Distribuciones muestrales- 2015 5


π .(1 − π ) ( N − n)
σp = ⋅
n ( N − 1)

Para mejorar la aproximación, especialmente si el n es chico (entre 10 y 30),


deberemos aplicar el factor de corrección por continuidad (FCC), ajuste que se
hace por estar tomando a una variable con distribución discreta como si fuera
continua. Para ello se debe restar ½ n al valor absoluto de po - π al calcular
el valor Z:
p − π − 1 / 2n
Z=
σp
La corrección por continuidad no produce gran diferencia cuando n es grande.

Ejemplo cálculo de probabilidades asociadas a valores de proporción muestral:


En un depósito de frutos el 40% de los mismos están atacados por un hongo.
Si se extrae una muestra al azar de 200 frutos, cuál es la probabilidad de que:
a) menos del 45 % estén afectados por el hongo.
b) entre 0,47 y 0,50 de los frutos estén afectados por el hongo.
Datos:
p ≈ n (µ p = π = 0,40 ; σ p = 0.0346)
π .(1 − π ) 0.40.(0.60)
π = 0.40 n = 200 σp = = = 0.0346
n 200
Normal(0,4,0,0012): p(evento)=0,9255
12,00
Solución:
9,00
a) P (p < 0.45)
Densidad

6,00

p −π 0.45 − 0.40 3,00


Z= = = 1.45
σp 0.0346 0,00
0,3 0,3 0,4 0,5 0,6
Variable
Normal(0,4,0,0012): p(evento)=0,0197
12,00
P( Z < 1.45) = 1 – P(Z > 1.45) =
= 1 – 0.0735 = 0.9265 9,00
Densidad

6,00
b) P (0.47 < p < 0.50) =
3,00

p −π 0.47 − 0.40
Z= = = 2.02 0,00
σp 0.0346 0,3 0,3 0,4 0,5 0,6
Variable

p −π 0.50 − 0.40
Z= = = 2.89
σp 0.0346
P (2.02 < Z < 2.89) = P (Z > 2.02) – P (Z > 2.89) =
= 0.0217 – 0.0019 = 0.0198

Distribuciones muestrales- 2015 6


DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS PROPORCIONES
MUESTRALES (∆p)
Si se extraen muestras aleatorias independientes de tamaños n1 y n2 , de dos
poblaciones de variables con distribución binomial, donde la proporción de éxito
en las dos poblaciones son π1 y π2 respectivamente, la distribución de las
diferencias entre las proporciones de las muestras, (p1 - p2) , es
aproximadamente normal, si n1 y n2 son suficientemente grandes. La media y
la varianza serán:
µ (p1 - p2) = µ ∆p = π1 - π2 = ∆ π

π 1 (1 − π 1 ) π 2 (1 − π 2 )
V ( p1 − p2 ) = σ ∆2p = σ p21 + σ p22 = +
n1 n2

La estandarización será entonces:

( p1 − p2 ) − (π 1 −π 2) ∆p − ∆π
Z= =
σ ∆p σ ∆p
π 1 (1 − π 1 ) π 2 (1 − π 2 )
Donde : σ ∆p = +
n1 n2

Ejemplo cálculo de probabilidades asociadas a valores de diferencia de


proporciones muestrales:
Para dos variedades de maíz, se sabe que la proporción de plantas atacadas
por un hongo es la misma y vale 0,10. Cuál es la probabilidad de que una
muestra aleatoria de 200 plantas de la primer variedad y 250 plantas de la
segunda den un valor de (p1 - p2) que sea mayor que 0,06?
Datos:
π1 = 0.10 π2 = 0.10 n1 = 200 n2 = 250
∆p ≈ n ( µ ∆p ; σ ∆p )
π 1 (1 − π 1 ) π 2 (1 − π 2 ) 0.10(0.90) 0.10(0.90)
σ ∆p = + = + = 0.028
n1 n2 200 250
Normal(0,1): p(evento)=0.0162
0.40

∆p > 0.06) = ?
P(∆ 0.30

Solución:
Densidad

∆ p − ∆π
0.20

0.06 − 0
Z= = = 2.14 0.10

σ ∆p 0.028 0.00

∆p > 0.06) = P (Z > 2.14) = 0.0162


-3.00 -1.50 0.00 1.50 3.00
P(∆ Variable

Distribuciones muestrales- 2015 7


DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES
( ∆X )
Si se extraen muestras aleatorias independientes de tamaños n1 y n2 , de dos
poblaciones con cualquier distribución, donde las medias de las dos
poblaciones son µ1 y µ2 respectivamente, y las varianzas poblacionales son σ21
y σ22, la distribución de las diferencias entre las medias de las muestras, es
decir ( x1 - x 2 ), será normal si tanto n1 como n2 son suficientemente grandes.
La media µ ∆X y la varianza σ2 ∆X de la diferencia de medias serán:

µ ( x − x ) = µ ∆x = µ1 − µ 2 = ∆µ
1 2

σ 12 σ 22
V (∆x ) = σ 2
∆x = +
n1 n2

Podemos utilizar el procedimiento de estandarización para calcular


probabilidades asociadas a diferentes valores de ∆x, donde:
( x1 − x 2 ) − µ ∆x
Z=
σ ∆x
Esta aproximación es aplicable también en los casos en que las muestras sean
pequeñas siempre y cuando las poblaciones de las cuales se extraen las
muestras tengan distribución normal y las varianzas poblacionales sean
conocidas.
Si las varianzas poblacionales de las dos poblaciones (σ21 y σ22) son
desconocidas, pero sabemos que ambas poblaciones tienen distribución
normal, podemos aproximar la distribución de la diferencia de medias
muestrales a la t de Student. Entonces la media de la distribución ( µ ∆X ) se
calculará como en el caso anterior, y la varianza ( S 2 ∆X o S2d) de esta
distribución se calculará combinando las varianzas muestrales (S21 y S22) de
acuerdo a las fórmulas propuestas para cada caso.
Podremos calcular las probabilidades asociadas a diferentes valores de
∆X utilizando la transformación:
( x1 − x2 ) − µ ∆x
t= ≈ tδ
S ∆x

Los valores de t tendrán una distribución t de Student con δ grados de libertad.


El valor de δ y el será calculado utilizando diferentes fórmulas dependiendo del
caso.
El cálculo de los valores de Sd y δ varían según:
-si las varianzas poblacionales ( σ 1 y σ 2 ) son o no son iguales
2 2

-si los tamaños de las muestras (n1 y n2 ) son o no son iguales

Distribuciones muestrales- 2015 8


Para comprobar si las varianzas poblacionales son o no iguales se realiza la
prueba de homogeneidad de varianzas.

En función de las distintas situaciones, los cálculos de Sd y δ serán:

a) Si σ21 = σ22 ; n1 = n2

S 12 + S 22
Sd = y δ = 2n - 2
n

b) Si σ21 = σ22 ; n1 ≠ n2

(n1 − 1) S12 + (n 2 − 1) S 22 1 1 
Sd = ⋅  +  y δ = n1 + n2 – 2
n1 + n 2 − 2  n1 n 2 

c) Si σ21 ≠ σ22 ; n1 = n2
2
 S 12 S 22 
 + 
S 12 + S 22  n1 n 2 
Sd = y δ = 2 2
− 2
n  S1  2
 S2 2
   
 n1  +  n 2 
n1 − 1 n2 − 1
d) Si σ21 ≠ σ22 ; n1 ≠ n2

S 12 S2
Sd = + 2 y δ se calcula como en c)
n1 n2

Distribuciones muestrales- 2015 9

También podría gustarte