Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Inferencia estad
stica. Estimacin.
o
1.1 Introduccin a la inferencia estad
o
stica
1.2 Estimacin puntual
o
1.3 Estimacin por intervalos de conanza: medias, varianzas y proporciones
o
1.1.
La inferencia estad
stica trata los mtodos mediante los cuales podemos hacer inferencias
e
(extraer determinadas conclusiones o generalizaciones) sobre una poblacin, a partir de la inforo
macin extra de una muestra aleatoria de dicha poblacin (como acabamos de repasar en el
o
da
o
tema 0
).
La inferencia estad
stica podr dividirse en dos areas: la estimacin y los contrastes de
a
o
hiptesis. En este tema trataremos la estimacin y en el siguiente
o
o
hiptesis. Veamos algunos ejemplos sencillos como ilustracin:
o
o
los contrastes de
muestra puede emplearse para estimar la media de la poblacin entera (todos los tiempos de
o
ejecucin para todos los posibles valores de entrada), sin embargo debe quedar claro que NO es
o
la media verdadera de la poblacin. Emplearemos la distribucin de muestreo de X para tener
o
o
30
momento. Una estimacin demasiado baja conducir a un servicio inadecuado, mientras que
o
a
una estimacin demasiado alta conducir a un desperdicio de recursos. Supongamos que a una
o
a
compa de distribucin de recursos informticos le interesa el nmero de usuarios interactivos
na
o
a
u
durante una hora dada y desea comprobarse si el nmero medio de usuarios se desv de 110 1 . Se
u
a
considera una muestra de 25 horas observadas y se obtiene una media de 112.2 y una desviacin
o
t
pica de 8.4. Se plantear la hiptesis que el nmero medio de usuarios es 110 y tras las pruea
o
u
bas oportunas, dicha hiptesis podr o no podr ser rechazada. En este ejemplo no se pretende
o
a
a
estimar un parmetro, sino decidir sobre una hiptesis. La teor del muestreo tambin nos ayua
o
a
e
dar a determinar la exactitud de nuestra decisin. (PROBLEMA DE CONTRASTE DE
a
o
HIPOTESIS).
Ejemplo 1.4.: Un proveedor nos suministra una mquina. Este proveedor arma que la proa
porcin de piezas defectuosas que produce la mquina es 0.001. Decidimos comprobarlo, as que
o
a
extraemos una muestra aleatoria de 2.000 unidades, de las cuales 15 resultan defectuosas. Es
aconsejable creer al proveedor o por el contrario, deber
amos recordarle que si no quedbamos
a
1.2.
Estimacin
o
ntese que en realidad la variable es discreta pero que las observaciones se aproximan a una normal
o
1.2. Estimacin
o
31
muestras de una poblacin Normal, cada una de ellas formada por, por ejemplo, 20 observaciones.
o
Cada vez tendremos una media muestral (x) diferente, mientras que no var Entonces, el 95 %
a.
de los intervalos que construysemos contendr a . Por supuesto, en un experimento concreto
e
a
slo disponemos de una muestra (formada por los 20 datos) y esperaremos con conanza que
o
nuestra muestra sea una de las del 95 % (cuidado!: no tiene sentido hablar de la probabilidad
de que est en un intervalo, ya que aunque es desconocida, no es una variable aleatoria, sino
e
entrar
amos en el campo de la inferencia Bayesiana). Vemoslo grcamente:
a
a
32
1.2.1.
Estimacin puntual
o
X
n
= X.
N
2
i=1 (Xi X)
S2 =
N 1
N
2
i=1 (Xi X)
) = (N 1/N ) 2 .
a
iv) Estimador puntual del parmetro de una Poisson:
= X.
1.3.
conocida:
33
[
Nota: deduccin de los intervalos de conanza, para el resto de casos se har anlogao
a a
mente:
Sea X1 , X2 , ..., XN una muestra aleatoria de una poblacin con media desconocida y 2
o
X
mite).
conocida. Z = /N es aproximadamente N(0,1) si N es grande (por el teorema central del l
Por tanto, P( -z/2 Z z/2 ) = 1 - , donde z/2 es tal que P(Z z/2 ) = /2.
Por ejemplo, para = 0.05, P(Z 1.96) = 0.05/2 = 0.025 y P( -1.96 Z 1.96) = 0.95
X
P( -1.96 /N 1.96) = 0.95 P( -1.96/ N X 1.96/ N ) = 0.95
P( -1.96/ N - X 1.96/ N - X) =
0.95 P( X + 1.96/ N X - 1.96/ N ) =
0.95 P( X - 1.96/ N X + 1.96/ N ) = 0.95 ].
(x - t/2 s ) , x + t/2 s ) con P(T t/2 ) = /2, T es t- Student con N 1 grados de libertad
N
N
desconocida y N grande (N
intervalo de conanza para con la varianza desconocida, si la muestra es grande, podemos usar
C). Si la muestra es pequea, usaremos B) si la distribucin es normal.
n
o
Nota: z0,1 = 1.28, z0,05 = 1.64, z0,025 = 1.96, z0,01 = 2.33, z0,005 = 2.56].
IG23 Ampliaci dEstad
o
stica. ETIG. Curs 2003/04
34
F
jate que z/2 cumple: P(Z z/2 ) = /2, Z N(0,1), es decir, la probabilidad que la
i A veces, el inters no est en la estimacin de parmetros, sino en dnde caen las obe
a
o
a
o
servaciones individuales. As pues, debemos distinguir entre intervalos de conanza e intervalos
de tolerancia. Para una distribucin Normal con media y varianza desconocidas, los l
o
mites de
tolerancia estn dados por x ks, donde k est determinado de modo que se pueda establecer
a
a
con una conanza del 100(1 - ) por ciento que los l
mites contienen al menos una proporcin p
o
de la poblacin. En Montgomery (por ejemplo), puedes encontrar las tablas que proporcionan k,
o
con las que calcular estos intervalos de tolerancia.
! i
2
1
N1
2
2
N2 )
2
- 2 , con 1
2
y 2 desconocidas, para muestras aleatorias independientes y tamaos muestrales
n
grandes (N1 = tamao muestral de la muestra de la poblacin 1, N2 = tamao muestral de la
n
o
n
muestra de la poblacin 2):
o
(x1 - x2 z/2
s2
1
N1
s2
2
N2 )
35
retardo introducido por la red sobre el desempeo global de la computadora, los investigadores
n
simularon el tiempo de acceso a la memoria central para instrucciones t
picas ejecutadas por
una versin paralela de un programa meteorolgico de la NASA. Se simularon dos conjuntos de
o
o
tiempos de acceso, uno procesando con 16 elementos de procesamiento y el otro con 48. Con 16
PE, el tiempo medio de acceso a la memoria central fue de 8.94 microsegundos, mientras que
con 48 PE fue de 8.83. Supongamos (informacin que no se proporcion) que se simularon 1000
o
o
instrucciones para cada una de las dos posibilidades, con desviaciones t
picas 3.1 y 3.5 respectivamente. Hay diferencias entre los tiempos de acceso a la memoria central de las instrucciones
procesadas con 16 PE y 48 PE? (usemos = 0.05).
Para el caso de una diferencia entre dos medias, la interpretacin del intervalo de conanza
o
puede extenderse a una compracin de las dos medias. De esta manera, por ejemplo, si teno
emos gran conanza de que una diferencia 1 - 2 es positiva, realmente inferiremos que 1 > 2
con poco riesgo de caer en un error. Por tanto, en la interpretacin de los intervalos de conanza
o
para diferencia de medias nos jaremos si el cero pertenece al intervalo o no].
1
2
1
(x1 - x2 t/2
N1 +N2 2
N1 + N2 2 grados de libertad
N1 +N2
N1 N2 )
x 1 = 68.2
Disco 2: 71, 38, 47, 53, 63, 48, 41, 68, 40, 60, 44, 39, 34, 75, 86
s1 = 18.6
x 2 = 53.8
s2 = 15.8
36
(x1 - x2 t/2
s2
1
N1
s2
2
N2 )
s2
de libertad
s2
( N1 + N2 )2
1
2
(s2 /N1 )2
(s2 /N2 )2
1
2
+ N 1
N1 1
2
grados
s1 = 30 horas
s2 = 17 horas
Ejemplo 1.9.: Se est investigando la utilidad de dos lenguajes diferentes para mejorar
a
la rapidez de programacin. Doce programadores expertos familiarizados con ambos lenguajes,
o
programaron una funcin estndar en ambos lenguajes y el tiempo que tardaron en minutos fue:
o
a
IG23 Ampliaci dEstad
o
stica. ETIG. Curs 2003/04
37
Programador 1
Programador 2
Programador 3
Programador 4
Programador 5
Programador 6
Programador 7
Programador 8
Programador 9
Programador 10
Programador 11
Programador 12
LENGUAJE 1
17
16
21
14
18
24
16
14
21
23
13
18
LENGUAJE 2
18
14
19
11
23
21
10
13
19
24
15
20
d=
sd =
Construyamos el intervalo de conanza de la diferencia de medias al 95 %, para comprobar
si existe diferencia entre los dos lenguajes.
( (N 1)s , (N21)s ) con P(2 > 2 ) = /2, 2 es chi- cuadrado con N 1 grados de libertad
/2
2
/2
1/2
red es la gran varianza del tiempo de respuesta. Una importante empresa est pensando en instaa
lar una nueva red entre sus directivos. Con objeto de estudiar el tiempo de respuesta, se observa
una muestra aleatoria de 30 tiempos, obtenindose una varianza muestral de 25ms 2 . Construye
e
un intervalo de conanza de 99 % para la desviacin t
o pica de la poblacin muestreada (asume
o
condiciones de normalidad).
2
2
de varianzas de dos
s2
1
1
( s2 F 1 , s2 F
2
/2
1
1/2
38
de libertad
pq
N ),
La magnitud del error que cometemos al emplear X/N como estimador de p, viene dada por:
o
n
E = Error = z/2 p(1p) . Esta frmula nos puede servir para determinar el tamao muestral
N
necesario para alcanzar un grado de precisin deseado.
o
N = p(1 p) (
z/2 2
E )
Si no dispusisemos de informacin acerca del valor de p, por ejemplo en base a una muestra
e
o
piloto:
N = p(1 p) (
z/2 2
E )
1
4
z/2 2
E )
Una vez obtenidos los N datos, tendremos un (1 )100 % de conanza que el error no
exceder E.
a
39
o
e
! L) Intervalo de conanza para una proporcin p, si sta es muy cercana
a cero:
1
(0, 2N 2 ) con P(2 > 2 ) = , 2 es chi- cuadrado con 2(X + 1) grados de libertad, X =
nmero de xitos
u
e
N1
N2
- p1 , X1 = nmero de xitos en las N1 pruebas y p2 = X2 /N2 , q2 = 1 - p2 , X2 = nmero de
u
e
u
xitos en las N2 pruebas
e
de proporciones.
IG23 Ampliaci dEstad
o
stica. ETIG. Curs 2003/04
40
Peso despus(Kg.)
e
98
86
85
105
88
93
75
85
96
3. Se ha realizado un experimento para comparar las econom en combustible para dos tipos
as
de camiones diesel equipados de forma similar. Se han usado 12 camiones de la marca A
y 10 de la marca B en pruebas de velocidad constante de 90 km/h. Si los de la marca A
41
42
promedian 16 kilmetros por litro con una desviacin estndar de 1 kilmetro por litro y
o
o
a
o
los de la marca B promedian 11 kilmetros por litro con una desviacin estndar de 0.8
o
o
a
kilmetros por litro. Calcula un intervalo de conanza al 95 % para la diferencia de medias
o
y determina (razonando porqu) si existe diferencia en el consumo entre estas dos marcas
e
de camiones. (Supn normalidad e igualdad de varianzas).
o
(Sol. : (-0.0017,0.0217), como contiene al cero, no hay razn para creer que el nuevo procedo
imiento producir una disminucin signicativa en la produccin de art
a
o
o
culos defectuosos
comparado con el mtodo existente.)
e
6. Se investiga la resistencia a la tensin de ruptura de hilo proporcionado por dos fabrio
cantes. Tomamos una muestra de 50 espec
menes de prueba provenientes de cada fabricante, obtenindose como resultados x1 = 88 psi y x2 = 90 psi con desviaciones respectivas
e
5 psi y 4 psi. Calcula un intervalo de conanza al 95 % para la diferencia entre las medias
de la tensin de ruptura e interprtalo.
o
e
Diseo 1:
n
n1 = 21
x1 = 24.2
s2 = 8
1
43
Diseo 2:
n
n2 = 10
x2 = 23.9
s2 = 25
2
Determina si las varianzas son iguales ( = 0.05) y tras ello calcula el intervalo de conanza
al 95 % correspondiente para la diferencia de medias e interprtalo.
e
(Sol. : (0.485,0.535) )
10. Se lleva cabo un expermiento en que se comparan dos tipos de motores, A y B. Se mide el
rendimiento en millas por galn de gasolina. Se realizan 50 experimentos con el motor A y
o
75 con el B. La gasolina que se utiliza y las dems condiciones se mantienen constantes. El
a
rendimiento promedio de gasolina para el motor A es de 36 millas por galn con desviacin
o
o
t
pica 6, el promedio para el motor B es 42 millas por galn y desviacin t
o
o pica 8. Calcula el
intervalo de conanza de 99 % sobre A - B , donde A y B son el rendimiento de gasolina
medio poblacional para los motores A y B respectivamente. Podemos suponer que ambas
medias poblacionales son iguales?
(Sol. : (-9.211,-2.789), como no contiene al cero s existe diferencia).
11. Se desea conocer si dos aleaciones de alumnio tienen o no igual resistencia. Para ello se
midi la resistencia a la compresin de 58 espec
o
o
menes del primer tipo y 27 del segundo,
obtenindose x1 = 70.7 y x2 = 76.13. Supongamos que se distribuyen normalmente. Sus
e
2
2
varianza muestrales son: s2 = 1,82 y s2 = 2,422 (supongamos que 1 = 2 , comprubalo
e
1
2
tambin, calculando el intervalo de conanza del cociente de varianzas al 95 %). Calcula el
e
intervalo de conanza de la diferencia de medias al 95 %, asumiendo normalidad. Podemos
suponer igualdad de medias poblacionales?
(Sol. : el intervalo de conanza para el cociente de varianzas al 95 % es: (0.256,1.04),
como 1 pertenece al intervalo, no hay razn para armar que las varianzas sean distintas;
o
IG23 Ampliaci dEstad
o
stica. ETIG. Curs 2003/04
44
x1 = 127.33
x2 = 129
s2 = 597.867
1
s2 = 202
2
Roca 1
Roca 2
Roca 3
Roca 4
Roca 5
Roca 6
Roca 7
Roca 8
Roca 9
Roca 10
BASCULA 1
11.23
14.36
8.33
10.50
23.42
9.15
13.47
6.47
12.4
19.38
BASCULA 2
11.27
14.41
8.35
10.52
23.41
9.17
13.52
6.46
12.45
19.35
(Sol. : (-0.04,0.00051), como cero pertenece al intervalo, no podemos concluir que exista
diferencia entre ambas medias).
15. Cinco medidas del contenido de alquitrn de cierta clase de cigarrillos dieron como resula
tado: 14.5, 14.2, 14.4, 14.3 y 14.6 mg. por cigarrillos. Construye un intervalo de conanza
IG23 Ampliaci dEstad
o
stica. ETIG. Curs 2003/04
45
de 99 % para la desviacin t
o pica de la poblacin muestreada (asume condiciones de noro
malidad).
(Sol. : (0.082,0.6951)).
16. En un estudio para comparar dos l
neas de montaje se encontr que: 16 de 200 tractores
o
de la l
nea 1 necesitaron grandes ajustes antes de embarcarlos, mientras que 14 de 400 los
necesitaron en la l
nea 2. Determina el intervalo de conanza al 95 % para la diferencia de
proporciones.
(Sol. : (0.0033,0.08669), como no contiene al cero s existe diferencia entre ambas l
neas).
46
Pogonias cromis se recogieron 61 concentraciones, dando una media de 3.08 y una desviacin
o
t
pica de 1.71.
Calcula el intervalo de conanza para el verdadero promedio de la concentracin de zinc en
o
el h
gado para todos los peces de la especie Mugil liza en la localidad especicada, usando
un nivel de conanza de 95 %.
Repitelo ahora para la especie Pogonias cromis, pero usando un nivel de conanza de 99 %.
Por qu razones el intervalo de conanza para la Pogonias cromis es ms amplio que para
e
a
Mugil liza, pese a que el tamao muestral era mayor?
n
Haz una interpretacin del primero de los intervalos de conanza calculados.
o
Es necesario que la distribucin sea Normal para que los dos intervalos obtenidos sean
o
vlidos?
a
Ejercicio 2: Se comparan dos sistemas segn su tiempo de respuesta a un comando. Se
u
han tomado 13 datos para el sistema 1, obtenindose un tiempo de respuesta medio de 682
e
milisegundos y una desviacin t
o pica de 25 milisegundos. Mientras que para el segundo sistema,
se toman 10 datos obtenindose una media de 675 milisegundos y una desviacin t
e
o pica de 28
milisegundos. Suponiendo que los tiempos son normales:
1. Calcula un intervalo de conanza al 95 % para el cociente de varianzas y determina si existe
diferencia.
2. Calcula un intervalo de conanza al 95 % para la diferencia de medias y determina si existe
diferencia.
3. Calcula un intervalo de conanza al 95 % para la media del sistema 1.
47
48
(a) Podemos suponer que las varianzas de las variables Col 1 y Col 2 son distintas? Razona
tu respuesta.
Comparison of Standard Deviations
--------------------------------Col_1
Col_2
-----------------------------------------------------------Standard deviation 0,918753
0,798088
Variance
0,844107
0,636944
Df
7
8
Ratio of Variances = 1,32524
95,0% Confidence Intervals
Standard deviation of Col_1: [0,607456;1,86991]
Standard deviation of Col_2: [0,539074;1,52895]
Ratio of Variances: [0,292641;6,49282]