Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 7
Distribución muestral
1
¿Qué tienen en común estos ejemplos?
2
Inferencia estadística N
3
Parámetros y estimadores
Parámetro: Es una cantidad numérica calculada sobre
la población
Estimador: Es una cantidad numérica calculada sobre
la muestra
¿Y en los ejemplos?
Población Muestra
Parámetro Estimador
49 45 52 58 59
frecuencia relativa
0,20
42 67 58 32 39
0,15
48 37 49 47 64
52 33 35 51 41 0,10
45 47 46 55 42
0,05
43 50 61 47 67
57 49 57 52 47 0,00
20 25 30 35 40 45 50 55 60 65 70 575 80
x
Y si sacamos una muestra?
POBLACIÓN
41 44 34 42 53
54 41 61 44 44
52 59 36 57 61
60 53 54 43 48 MUESTRA n=5
57 43 51 51 52 44 52 47 33 42
32 45 55 36 47
49 42 38 71 46 PROMEDIO x = 43.6
54 27 55 45 42
46 45 58 53 43 El promedio de la muestra no coincide
42 54 44 39 49 con el de la población…
62 54 36 61 59
La diferencia entre el valor muestral y
57 43 63 47 49
el poblacional se denomina error
32 56 44 44 53
49 45 52 58 59
muestral.
42 67 58 32 39
En este caso, EM=43.6-50= -6.4
48 37 49 47 64 Es el costo que pagamos por no haber
52 33 35 51 41 efectuado un censo
45 47 46 55 42
43 50 61 47 67
PROMEDIO =50
57 49 57 52 47
DESVÍO STD =10 6
Y si sacamos otra muestra?
POBLACIÓN
41 44 34 42 53
54 41 61 44 44
52 59 36 57 61
60 53 54 43 48 MUESTRA n=5
57 43 51 51 52 61 45 38 67 51
32 45 55 36 47
49 42 38 71 46 PROMEDIO x = 52.4 EM=52.4-50= 2.4
54 27 55 45 42
46 45 58 53 43 Los parámetros se calculan sobre los N
42 54 44 39 49 valores de la población, por lo tanto no
62 54 36 61 59
cambian a menos que cambie la
57 43 63 47 49
población, son constantes.
32 56 44 44 53
49 45 52 58 59
Los estimadores se calculan sobre n
42 67 58 32 39
valores muestrales, por lo tanto varían
48 37 49 47 64 de muestra en muestra y por lo tanto
52 33 35 51 41 son variables aleatorias.
45 47 46 55 42
43 50 61 47 67
PROMEDIO =50
57 49 57 52 47
DESVÍO STD =10 7
Si repitiésemos este proceso muchas
POBLACIÓN veces, ¿qué comportamiento
41
54
44
41
34
61
42
44
53
44
esperaríamos para los 75.287.520
52 59 36 57 61
promedios muestrales posibles?
60 53 54 43 48
57 43 51 51 52 MUESTRAS n=5
32 45 55 36 47
49 42 38 71 46 44 52 47 33 42
x1
54
46
27
45
55
58
45
53
42
43
61 45 38 67 51 x2
42 54 44 39 49 51 54 50 33 71 x3
62 54 36 61 59
........... ...
57 43 63 47 49
32 56 44 44 53 41 58 49 34 49 x75287520
49 45 52 58 59
42 67 58 32 39
48
52
37
33
49
35
47
51
64
41 ?
45 47 46 55 42
43 50 61 47 67
PROMEDIO =50
57 49 57 52 47
DESVÍO STD =10 8
Distribuciones muestrales
Definición: La distribución muestral de un estimador es la
distribución de probabilidades de todos los posibles valores
de un estimador que se pueden obtener extrayendo
infinitas muestras aleatorias de tamaño n de la población.
frecuencia relativa
0,2 0,2
0,1 0,1
0,0 0,0
20 30 40 50 60 70 80 20 30 40 50 60 70 80
x Media(n=5)
PROMEDIO =50
DESVÍO STD =10 10
Distribución muestral de x
¿Y si promediamos todas las medias muestrales?
µx µ ESTIMADOR
INSESGADO
¿Cuál será la variabilidad de las medias muestrales?
x n
El desvío estándar de un estimador se conoce como
error estándar y da idea de la precisión en la
estimación
11
Distribución muestral de x
¿Cuál será la distribución de probabilidades de x?
DATOS ORIGINALES MEDIAS MUESTRALES
0,3 0,3
DISTR. DISTR.
NORMAL NORMAL
frecuencia relativa
frecuencia relativa
0,2 0,2
frecuencia
0,1 0,1
0,0 0,0
20 30 40 50
50 60
60 70
70 80
80 20 30 40 50 60 70 80
x Media(n=5)
=50
relativa
frecuenciarelativa
0,3
=40
0,2
0,2 =9
frecuencia
0,1 0,1
0,1
DISTR.
NORMAL!
ampliando…
0,0 0,0
0,0
0 50 100 150 200 250 25
25 35
35 45
45 55
55 65
65 75
75 85
85
X Media(n=20)
Media(n=20)
0,3 0,3
0,3
frecuencia relativa
frecuencia relativa
frecuencia relativa
0,2 0,2
0,2
14
¿A qué consideramos un n “lo
suficientemente grande”?
Si la variable original es normal, entonces x será
normal, para cualquier n
Si la variable original es aproximadamente simétrica y
unimodal, entonces x tenderá a una distribución
x
15
Algo para pensar…
Una media muestral puede ser considerada como la suma
de n variables aleatorias:
1
x ( x1 x2 ... xn )
n
Por lo que el Teorema central del límite podría
enunciarse: “Si se suman n variables aleatorias e
independientes, la suma de dichas variables seguirá una
distribución normal siempre y cuando n sea lo
suficientemente grande”
Cuando una variable (como la altura) es el resultado de la
acción de muchos factores (variables), genéticos o
ambientales, dicha variable seguirá una distribución
normal
En cambio, cuando es el resultado del efecto de un único
o principal factor, la distribución tenderá a ser
asimétrica o bimodal 16
En resumen:
Distribución muestral de x cuando es conocido
1. La media de x es: µ µ
x
2. El desvío estándar de x (ES) es: x n
3. Si el tamaño de la muestra es lo suficientemente
grande o x es normal, la distribución de x es
normal
18
DATOS ORIGINALES MEDIAS MUESTRALES
0,008 0,057
0,006 0,043
Densidad
Densidad
0,004 0,029
0,002 0,014
0,000 0,000
250 375 500 625 750 250 375 500 625 750
Peso de la placenta peso medio de 50 placentas
0,30
Densidad
0,20
0,10
0.025 0.95 0.025
0,00
-4 -2 0 2 4
Z
21
Distribución muestral de x cuando el desvío
estándar poblacional es desconocido
En la práctica es habitual que TODOS los parámetros
poblacionales son desconocidos, es decir que ni el
promedio ni el desvío estándar poblacional son
conocidos!
Como se desconoce se utiliza su estimador s
mayor incertidumbre
x
No es correcto utilizar la distribución normal para
xµ
z
n
Se demuestra que la media muestral en estos casos
ajusta a una distribución conocida como t de Student
x µ
tGL
s n 22
Distribución t de Student
Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que
al desconocer hay mayor incertidumbre
Es simétrica con respecto al cero, es decir que µ=0
No se trata de una única curva, sino de infinitas curvas,
cada una caracterizada por un parámetro denominado
grados de libertad (GL)
Los GL indican la cantidad de datos independientes, es
decir el número de observaciones de la variable menos el
número de restricciones que verifican
Los GL dependen del tamaño
de la muestra y en este caso valen n-1
A medida que aumentan los GL
más se asemeja a la normal estándar
(porque s converge a )
23
Distribución muestral de x
cuando no se conoce
1. La media de x es: µ µ
x
2. El desvío estándar (ES) de x es: x s n
3. Si el tamaño de la muestra es lo suficientemente
grande o x es normal, la distribución de x es t
de Student, con n-1 grados de libertad
Por lo tanto es posible calcular probabilidades
utilizando:
xµ
t n 1
s n
24
Distribución muestral de p
Si de una población con cierta proporción de éxitos
se extraen infinitas muestras aleatorias de
tamaño n y a cada una de ellas se le calcula la
proporción muestral p, se demuestra que esta se
comporta según una distribución normal siempre y
cuando se cumplan las condiciones de
aproximación de la distribución binomial a la
normal, es decir:
n > 30, n 5 y n(1-) 5
25
Distribución muestral de p
1. La media de p es:
(1 )
2. El desvío estándar (ES) de p es: p
n
3. Si el tamaño de la muestra es lo
suficientemente grande, n 5 y n(1- ) 5, la
distribución de p es normal
26
Propiedades de un buen estimador
Insesgado: Un estimador es insesgado cuando la
esperanza del estimador es igual al valor del
parámetro que se desea estimar. O sea:
( estimador ) parámetro
( x x ) 2
s
2
es un estimador insesgado de 2
n 1
( x x ) 2
s2 no lo es
n
Consistente: A medida que el tamaño de la muestra
aumenta el estimador debe tender al valor del
parámetro y su variancia debe tender a cero
27
Propiedades de un buen estimador
Parámetro