Está en la página 1de 49

INTERVALO DE CONFIANZA

PARA LA MEDIA, DISTRIBUCION


t Y TAMAÑO DE MUESTRA

Mario Briones L.
MV, MSc

2005
Estimador puntual
 El descriptor de tendencia central
que es la media aritmética o
promedio, ocupa una posición
puntual sobre la recta numérica

x
El promedio como variable
aleatoria
 Si una muestra bien tomada sobre
una población dada ha generadoxun
promedio
 Una segunda muestra generará
“probablemente” un promedio
nuevo, diferente del anterior
 PREGUNTA: alguno de los promedios
es incorrecto?
El promedio como variable
aleatoria
 Esto significa que cada vez que se
toma una muestra de tamaño n, el
promedio obtenido puede
considerarse como una observación
perteneciente a una población con
una distribución
 Esta distribución tiene media  y
varianza 2/n
El error estándar de la
media
 La dispersión de la media muestreal para
un tamaño n, fluctua alrededor de  con
una desviación estándar igual a s/n
 Si la muestra es grande, la distribución de
la media muestreal será
aproximadamente normal, sin importar si
la población de origen de los datos no
tiene distribución normal.
Las probabilidades de la curva normal
aplicadas a la distribución del
promedio
 Si la distribución de los promedios
sigue una curva normal, entonces
hay una probabilidad total de
ocurrencia de estos promedios, bajo
la curva normal
Las probabilidades de la curva normal
aplicadas a la distribución del
promedio
100% de probabi-
lidades de todos
los promedios
obtenidos con
muestras
de tamaño n

-3 -2 -1 x +1 +2 +3
Unidades de desviación
Unidades de error estándar
Si la distribución de los promedios sigue una curva
normal, entonces hay una probabilidad total de
ocurrencia de estos promedios, bajo la curva normal
100% de probabi-
lidades de todos
los promedios
obtenidos con
muestras
de tamaño n

-3 -2 -1 x +1 +2 +3
Unidades de desviación
Unidades de error estándar
En resumen:
 El promedio de todos los posibles
promedios de infinidad de muestras de
tamaño n, cae exactamente sobre la
media poblacional .
 Esto se debe a que la probabilidad de
cada promedio de caer por encima o
 por debajo de  es exactamente la
misma, aunque la distribución de la
variable original no sea normal y siempre
que el tamaño de la muestra sea grande.
Por lo tanto:
 Utilizando las propiedades de la
distribución normal, se puede dar una
magnitud a la probabilidad de ocurrencia
de  a partir del promedio calculado.
 Primero que nada, esto significa que entre
menos una y más una unidad de error
estándar (cualquiera sea su magnitud) se
encuentra APROXIMADAMENTE, el 68%
de esas probabilidades.
Promedios y error estándar de peso de
terneros al nacimiento en 43 muestras de
tamaño 10 tomadas sobre un total de 530
pesos (con promedio 38.9)

47.0

45.0
Peso al nacimiento (Kg)

43.0

41.0

39.0

37.0

35.0

33.0
19

34
1

10

13

16

22

25

28

31

37

40

43
Muestra
Histograma de frecuencia de los 43
promedios obtenidos con muestras de
tamaño 10

18
16
14
Frecuencia

12
10
8
6
4
2
0
34.8 36.2 37.6 39 40.4 41.8 y
mayor...
Clase
Promedios y error estándar de peso de
terneros al nacimiento en 43 muestras de
tamaño 40 tomadas sobre un total de 530
pesos (con promedio 38.9)

43.0
42.0
Peso al nacimiento (kgs)

41.0
40.0
39.0
38.0
37.0
36.0
19

28
1

10

13

16

22

25

31

34

37

40

43
Muestras
Histograma de frecuencia de los 43
promedios obtenidos con muestras de
tamaño 40
14

12

10
Frecuencia

0
37.6 38.1 38.7 39.3 39.8 40.4 y
mayor...
Clase
68%

-3 -2 -1 x +1 +2 +3
Probabilidades de 95 y 99%
 Si queremos cubrir, a partir de
nuestro estimador de la media, un
95% de las probabilidades de incluir,
con el mismo tamaño de muestra, la
media real de la población, tenemos
que dividir en dos un área igual a
0.95. Esto da 0.475.
La probabilidad de la media poblacional es
simétrica alrededor de la media de la
muestra

    
? ? ? ? ? ?

x
Límites de la curva normal para dejar sólo un
5% de probabilidad de error de no cubrir con
el intervalo de confianza a la media
poblacional

5%

95%

2.5% 2.5%
z: -0.475 z: + 0.475
Probabilidades de 95 y 99%
 El valor de z que deja hacia entre
cero y z un 0.475 de las
probabilidades es 1.96. Esto
significa que ± 1.96 unidades de
error estándar a partir del
promedio, se ubica ese 95% de
probabilidades.
 El valor respectivo para 99% de
confianza es de 2.58.
Promedios e intervalos de confiaza de 95%
para la media de la población, con muestras
de tamaño 40

44.0
Peso de nacimiento (kgs)

43.0
42.0
41.0
40.0
39.0
38.0
37.0
36.0
35.0
13

17

21

25

29

33

37

41
1

muestras
Estimación de intervalo: el
error estándar de la media
 Para conocer cuanta es la distancia hacia
arriba o hacia debajo de la media,
expresada en las unidades de medición de
la variable, sólo es necesario multiplicar el
error estándar (que está expresado en
unidades de la variable) por el valor de z
que define la probabilidad (ZP). La siguiente
expresión se aplica CUANDO DE CONOCE
LA VARIANZA DE LA POBLACION:
x  zP x /n
EJEMPLO: Los datos siguientes corresponden a los niveles
de Hormona Luteinizante (LH) en nanogramos por ml de
suero de 5 ovejas administradas con Naloxona a las 20
semanas de edad, durante la noche y el día

diurno nocturno
0.72 0.68
0.51 0.48
1.01 0.72
0.49 0.40
0.37 0.41
promedio 0.62 promedio 0.538
desv. est. 0.25 desv. est. 0.15
error est. 0.11 error est. 0.07
Intervalo de confianza para la concentración diurna de LH.

1.96(/n) 1.96(/n)

0.62 conc. LH (ng/ml)


Intervalo de confianza para la concentración diurna de LH.

1.96 x 0.11 1.96 x 0.11

0.62 conc. LH (ng/ml)


Intervalo de confianza de 95% para la media de la
Concentración de LH en la población de referencia,
asumiendo que se conoce la varianza de la población:

0.62  0.22

0.22 0.22

0.40 0.62 0.84 conc. LH (ng/ml)


QUE PASA CUANDO NO SE CONOCE
LA VARIANZA DE LA POBLACION?

Asumir que la desviación estándar de la población se


conoce, significa que, aunque no se conozca la media
poblacional, se conoce la forma de la campana que
es característica de esa variable y por lo tanto se

puede utilizar para estimar la ubicación probable de 


Asumir que la desviación estándar de la población no se
conoce, implica no tener claridad acerca de la forma
real de la campana de la variable, lo cual va a redundar
en una menor exactitud al momento de determinar

un rango para la probable ubicación de 


El significado práctico de la
desviación “típica”
 En la práctica, cuando la muestra es
pequeña, la certeza sobre la
“veracidad” de s2 como estimador
de  es mucho menor que cuando
s2 se ha calculado en una muestra
de gran tamaño; en el primer caso,
lo más conveniente es ASUMIR que
no es  sino s2 (un estimador)
El desconocimiento de la varianza y por ende
de la desviación estándar, agrega incertidumbre
a la estimación del intervalo de confianza
que debería traducirse en un intervalo de mayor
tamaño para la potencial ubicación
de la media poblacional.
Esto significa que la distribución normal
no permite conocer las probabilidades
igual que antes, se necesita corregir la
curva normal.
Distribución de t de student

Distribución t
Distribución para 200, 50
normal y 10 grados
de libertad
Relación entre la estadística
y la cerveza...¿!?
William Sealy Gosset fue el hijo mayor del coronel
Frederic Gosset, R.E. Nació en Canterbury en el año
de 1876 y falleció el 16 de octubre de 1937.
Se educó en Winchester, en donde más tarde fue
profesor, y en el New College de Oxford en donde
estudió química y matemáticas.
En 1899 se inició en trabajos en el departamento de
fermentación de la compañía cervecera de los
Sres. Guinness en Dublin. No se sabe con exactitud
en qué momento empezó a interesarse Gosset en la
estadística, sin embargo en ese época se empezaron a
usar métodos científicos y determinaciones de
laboratorio para técnicas de fermentación, por lo que
es muy posible que siendo Gosset el de mayor
inclinación matemática del departamento de
fermentación recibiera las preguntas que le hacían
sus colegas sobre los métodos estadísticos en uso y
sobre la masa de datos que se colectaban
Su principal herramienta y con la que inició sus estudios
fueron los libros "Teoría de errores de observaciones" de
G.B.Airy y "El método de mínimos cuadrados" de
M. Merriman. Se sabe que ya en 1903 él calculaba el
error probable. Las circunstancias en las que se llevan a
cabo los procesos de fermentación en la producción de
cerveza, con materiales variables, susceptibilidad a
cambio de temperaturas y necesariamente series
pequeñas de experimentos, son tales que pronto
demostraron a Gosset las limitaciones de la teoría de
muestras grandes y le enfatizaron la necesidad de un
método correcto para el tratamiento de muestras
pequeñas. No fue entonces un accidente, sino más bien
las circunstancias de su trabajo, las que dirigieron a
Gosset hacia este problema, y lo condujeron al
descubrimiento de la distribución de la desviación estándar
muestral, lo cual dio origen a lo que en su forma moderna
se conoce como la prueba t.
Debido a que los
administradores de
la empresa Guiness
no autorizaron al
Mr. Gosset a
publicar los
trabajos, él utilizó el
seudónimo Student.
Distribución de t de Student
 Si se observa la tabla de t, se puede
notar que cuando el tamaño de la
muestra es infinito, la probabilidad
es igual que en la tabla de
distribución normal, por ejemplo,
1.96 para la probabilidad de 95%.
Distribución de t de student
INTERVALO DE CONFIANZA PARA
LA MEDIA CUANDO NO SE CONOCE
LA VARIANZA.

La única diferencia, cuando la varianza de la


Población no se conoce, es que el valor de
probabilidad que debe emplearse para determinar
el intervalo de confianza de la media,
es el valor de t para los grados de libertad
correspondientes.
Es fácil observar que asumir conocimiento de la
varianza tiene mucho mayor efecto cuando el
tamaño de la muestra es pequeño.
Distribución de t de student (dos colas) -t 0 +t
grados de Probabilidad de un valor mayor, ignorando el signo
libertad 0.500 0.400 0.200 0.100 0.050 0.025 0.010 0.005 0.001
1 1.0000 1.3764 3.0777 6.3137 12.7062 25.4519 63.6559
2 0.8165 1.0607 1.8856 2.9200 4.3027 6.2054 9.9250 14.0892 31.5998
3 0.7649 0.9785 1.6377 2.3534 3.1824 4.1765 5.8408 7.4532 12.9244
4 0.7407 0.9410 1.5332 2.1318 2.7765 3.4954 4.6041 5.5975 8.6101
5 0.7267 0.9195 1.4759 2.0150 2.5706 3.1634 4.0321 4.7733 6.8685
6 0.7176 0.9057 1.4398 1.9432 2.4469 2.9687 3.7074 4.3168 5.9587
7 0.7111 0.8960 1.4149 1.8946 2.3646 2.8412 3.4995 4.0294 5.4081
8 0.7064 0.8889 1.3968 1.8595 2.3060 2.7515 3.3554 3.8325 5.0414
9 0.7027 0.8834 1.3830 1.8331 2.2622 2.6850 3.2498 3.6896 4.7809
10 0.6998 0.8791 1.3722 1.8125 2.2281 2.6338 3.1693 3.5814 4.5868
11 0.6974 0.8755 1.3634 1.7959 2.2010 2.5931 3.1058 3.4966 4.4369
12 0.6955 0.8726 1.3562 1.7823 2.1788 2.5600 3.0545 3.4284 4.3178
13 0.6938 0.8702 1.3502 1.7709 2.1604 2.5326 3.0123 3.3725 4.2209
14 0.6924 0.8681 1.3450 1.7613 2.1448 2.5096 2.9768 3.3257 4.1403
15 0.6912 0.8662 1.3406 1.7531 2.1315 2.4899 2.9467 3.2860 4.0728
EJEMPLO: Los datos siguientes corresponden a los niveles
de Hormona Luteinizante (LH) en nanogramos por ml de
suero de 5 ovejas administradas con Naloxona a las 20
semanas de edad, durante la noche y el día

diurno nocturno
0.72 0.68
0.51 0.48
1.01 0.72
0.49 0.40
0.37 0.41
promedio 0.62 promedio 0.538
desv. est. 0.25 desv. est. 0.15
error est. 0.11 error est. 0.07
Intervalo de confianza para la concentración diurna de LH.

2.78(s/n) 2.78(s/n)

0.62 conc. LH (ng/ml)


Intervalo de confianza para la concentración diurna de LH.

2.78 x 0.11 2.78 x 0.11

0.62 conc. LH (ng/ml)


Intervalo de confianza de 95% para la media de la
concentración de LH en la población de referencia,
asumiendo que no se conoce la varianza de la población:

0.62  0.31

0.31 0.31

0.31 0.62 0.93 conc. LH (ng/ml)


INTERVALO DE CONFIANZA PARA LA MEDIA
CUANDO SE CONOCE LA VARIANZA
DE LA POBLACION

x  zP x /n

INTERVALO DE CONFIANZA PARA LA MEDIA


CUANDO NO SE CONOCE LA VARIANZA
DE LA POBLACION

x  tP-Gl x s/n
DETERMINACION DEL TAMAÑO DE
LA MUESTRA NECESARIO PARA
DESCRIBIR APROPIADAMENTE UNA
POBLACION

La paradoja del muestreo se resuelve sobre la base


del conocimiento previo de la varianza de
la población y el error admisible que se
desea para el estimador.
Si el intervalo de confianza para la media se define como

x  zP x /n
Al querer determinar a priori un tamaño de
muestra para un error predeterminado,

se puede asumir que zP y 


se conocen y n es la incógnita.
Resolviendo para n:
probabilidad de 95%, y asumiendo 1.96= 2 para
mayor simplicidad

n= 4s2/L2

donde L= error admisible en unidades de medición

para probabilidad de 99%

n= 6.6s2/L2
Ejemplo: asumiendo que la desviación estándar de la población de
los valores de LH diurna después de la inyección de naloxona
es igual a 0.25, los tamaños apropiados de muestra para
diferentes magnitudes de error (con 95% de confianza)
son los siguientes:

Error n

± 0.01 4 x (0.25)2/(0.01)2= 2500

± 0.05 4 x (0.25)2/(0.05)2= 100

± 0.10 4 x (0.25)2/(0.10)2= 25

± 0.15 4 x (0.25)2/(0.15)2= 11

También podría gustarte