Está en la página 1de 67

Estimación.

Estimación Puntual
Propiedades deseables de los estimadores
Estimaciones puntuales (media, proporción, varianza)

Estimación por intervalos


Estimación de la media y diferencias de medias
Estimación de la proporción y diferencia de proporciones
Estimación de la varianza y cociente de varianzas

Relación entre ambas estimaciones


Tamaño de la muestra
Ejercicios
Introducción
Inferencia Estadística, Estadística Inductiva, Teoría de Muestras

que describen
Existe una

de la que el que se usan


investigador para estimar
selecciona una

que genera unos


usados para
evaluar unos
Estimación puntual
Una estimación puntual de algún parámetro poblacional  es un valor
único del estadístico ˆ. Por ejemplo, el valor x de la estadística X calculado
a partir de una muestra de tamaño n, es una estimación puntual del
parámetro poblacional .

El estadístico que se utiliza para obtener una estimación puntual recibe


el nombre de estimador o función de decisión. Generalmente muestras
diferentes conducen a acciones o estimaciones diferentes. No se espera
que un estimador obtenga sin error el valor del parámetro poblacional,
sino que no se aleje mucho del valor real.

Es posible definir muchas estadísticas para estimar un parámetro


desconocido . Entonces, cómo seleccionar un buen estimador de ?
Cúales son los criterios para juzgar cuándo un estimador de  es
"bueno" o "malo"?. Por ejemplo, pudo elegirse la mediana muestral o la
moda para estimar el valor de la media poblacional, en qué nos
basamos para elegir como estimador la media muestral?
Estimación puntual
Propiedades Deseables de los Estimadores Puntuales:
Básicamente para que un estimador sea bueno, se desea que la varianza del
estimador sea lo más pequeña posible, mientras que la distribución de
muestreo debe concentrarse alrededor del valor del parámetro.

Estimadores Insesgados (Centrados):


Se dice que la estadística ˆ = H(X1, X2, ..., Xn) es un estimador insesgado del

ˆ
parámetro , si E    . Es decir, si los valores del estimador se centran
alrededor del parámetro en cuestión.
Estimación puntual
Estimadores Consistentes:
Es razonable esperar que un buen estimador de un parámetro  , sea cada
vez mejor conforme crece el tamaño de la muestra y la información se vuelve
más completa.

La distribución de muestreo de un buen estimador se encuentra cada vez


más concentrada alrededor del parámetro . Si un estimador es consistente,
converge en probabilidad al valor del parámetro que está intentando estimar
conforme el tamaño de la muestra crece. Esto implica que la varianza de un
estimador consistente disminuye conforme n crece.
Se dice que ˆ es un estimador consistente de  si:

lim n ˆ =  que es equivalent e a lim n V( ˆ )  0


Estimación puntual
Estimadores Eficientes (Insesgados de Varianza Mínima):
El hecho de que un estimador sea centrado no garantiza que sus
realizaciones caigan cerca del valor del parámetro, hace falta además que
tenga la varianza pequeña.

La varianza de un estimador insesgado es la cantidad más importante para


decidir qué tan bueno es el estimador para estimar el parámetro .

Sean ˆ1 y ˆ2 cualesquiera dos estimadores insesgados de . Se dice que ˆ1 es un
estimador más eficiente de  que ˆ2, si V (ˆ1 )  V (ˆ2 ) , cumpliéndose la
desigualdad en el sentido estricto para algún valor de . El cociente
V(ˆ1 )
e=
V(ˆ2 )
se llama eficiencia relativa de ˆ1respecto a ˆ2, y su valor está entre 0 y 1
(0  e  1). Si e está próximo aˆ1 0 es mejor que ˆ2 .
Estimación puntual
Estimación puntual
Estimación de la Media Poblacional:

La media muestral es un estimador centrado y consistente de la media


poblacional. Este resultado es válido sin importar la distribución de
probabilidad de la población de interés, siempre y cuando la varianza
tenga un valor finito.
2
E[ X ] =  V( X ) =

n
en donde  y 2 son la media y la varianza de la distribución de la
población, a partir de la cual se obtuvo la muestra. Nótese que
conforme el tamaño de la muestra crece, la precisión de la media
muestral para estimar la media poblacional aumenta (es un estimador
consistente).
Estimación puntual
1 n
X =  xi
n i=1
1 n 1 n
1 n 1
E[ X ] = E[  xi ] = E[  xi ] =  E[ xi ]= n 
n i=1 n i=1 n i=1 n
E[ X ] =  c. q. d Es centrado
1 n 1 n
1 n 1
V( X ) = V(  xi ) = 2 V(  xi ) = 2 V( xi )= 2 n 2
n i=1 n i=1 n i=1 n
1
V( X ) =  2 c. q. d.
n
2

lim n V( X ) = lim n = 0 Es consistent e
n
Estimación puntual
Ejemplo:

Los datos siguientes representan los pesos en gramos del contenido de 16


cajas de cereal que se seleccionaron al azar de un proceso de llenado con
el propósito de verificar el peso promedio.

506 508 499 503 504 510 497 512 514 505 493 496 506 502
509 496

Calcular la estimación puntual para el peso promedio.

Solución:

1 16
X 
16 i 1
xi  503.75
gramos.
Estimación puntual
Estimación de la Varianza Poblacional:
Cuando se desconoce la media poblacional , debemos sustituir este
parámetro por su estimador muestral, y el estimador a usar para la
varianza poblacional, que es centrado o insesgado sin importar cuál sea la
distribución de la población de interés, es la cuasivarianza muestral S 2.
2
n
 n 
n X i    X i 
2

̂ = S =
2 2

n
1 n
- 1
  Xi  X 
2
 i 1  i 1 
n(n  1)
Demostración: i 1

2 2 4 2 2 4
V( S ) = con lo que lim n V( S ) = lim n =0 Es consistent e
n n
Estimación puntual
2  1 n
E[ S ] = E  
2  1 n
( X i - X )   E    2
(X i -  ) - ( X -  )  =
 (n - 1) i=1   (n - 1) i=1 
1  n n n

= E ( xi -  ) + ( X -  ) - 2 ( xi -  )( X -  ) =
2 2

(n - 1)  i=1 i=1 i=1 


1  n n

E ( xi -  ) + n( X -  ) - 2( X -  ) ( xi -  )=
2 2
=
(n - 1)  i=1 i=1 
 n

1  n

  xi 
 E ( xi -  )2 + n( X -  )2 - 2n( X -  )( X -  )  ya que X = i=1 
(n - 1)  i=1   n 

 
1  n 2
E ( xi -  ) - n( X - 
2
= ) =
(n - 1)  i=1 
1 n 2 

2
= E[( x -  ) ] - n E[( X -  ) ] =
(n - 1)  i=1
i

1 
2

2
= (n  - n
2
)= (n - 1) =  2
(n - 1) n (n - 1)

E[ S 2 ] =  2 c. q. d. Es centrado
Estimación puntual
Si hubiésemos utilizado como estimador, la varianza muestral (desconociendo
la media poblacional), no sería una estimación insesgada o centrada:
1
 
n
2 1 n 2
E[ ˆ ] = E   ( xi - X )   E   ( xi -  ) - ( X -  )  =
2

 n i=1   n i 1 
n n n
1
= E[ ( xi -  ) + ( X -  ) -2 ( xi -  )( X -  ) ] =
2 2

n i=1 i=1 i=1


n n
1
= E[ ( xi -  ) +n( X -  ) - 2( X -  ) ( xi -  ) ] =
2 2

n i=1 i=1

 n

1 n
  xi 
= E[ ( xi -  )2+n( X -  )2 - 2n( X -  )( X -  )]  ya que X = i=1 
n i=1
 n 
 
 
n
1
= E[ ( xi -  )2-n( X -  )2 ] =
n i=1

1 n 1
= [  E[( xi -  )2 ] - n E[( X -  )2 ]] =
n i=1 n
1 n  )= 1 n 2 -  = 2 - 
2 2 2
=  i
n i=1
E[( x -  )
2
] -
n n

n

n

2 2
2
E[ ˆ ] =  -2 No es centrado y su sesgo es 
n n
Estimación puntual
Ejemplo:

El cobre es un micronutriente requerido por la mayoría de las plantas. Su


concentración en una planta se mide analizando las cenizas obtenidas al
quemarla completamente. En un estudio de la variabilidad de la
concentración de cobre en las plantas de la cuenca del Jarama, se
seleccionó una muestra de 16 plantas. Se obtuvieron los siguientes datos
(en partes por millón):

5 3 34 18 27 14 8 50 38 43 35 20 70 25 60 19

Calcular una estimación puntual para la variabilidad de la concentración.

Solución: 2
n
 n 
2 n xi    xi 
2

1 n
2
S   X i  X   i 1  i 1   377.2958
n  1 i 1 nn  1
Estimación puntual
Estimación de la Proporción:
Tenemos una población dividida en dos subconjuntos, en función de una
característica determinada, de forma que la proporción de la población
que posee la característica es p, y la de los que no la poseen es 1-p.
Tratamos de estimar el valor de p. El estadístico p̂ dado por la expresión
siguiente, es un estimador centrado y consistente de la proporción
poblacional. casos favorables
pˆ 
casos totales
Demostración:

1  n  1 1 1
E[pˆ ] = E  xi  = n E[ xi ] = p c. q. d. Es centrado  E[pˆ ] = E[X] = n p = p con la binomial
n  i=1  n n n

1  n  1 n 1 p(1 - p)
V(pˆ ) = 2 V   xi  = 2 V( xi )= 2 n p (1 - p) =
n  i=1  n i=1 n n
X 1 p(1 - p) p(1 - p)
V(pˆ ) = V   = 2 n p (1 - p) = con la binomial  lim n = 0 c. q. d. Es consistent e
n
  n n n
Estimación puntual
Ejemplo:

Los huevos de la mosca azul producen infecciones al ser depositados en la


sangre de un animal. Se efectuó un experimento para controlar el
crecimiento de la población de este tipo de moscas. Las pupas fueron
sometidas a radiación al objeto de esterilizar al mayor número posible de
machos. Cada hembra se emparejó con un único macho. Se estudiaron 500
emparejamientos, de los cuales 415 resultaron estériles. Calcular una
estimación puntual de la proporción poblacional de machos estériles.

Solución:
 415
p  0.83
500
Estimación por intervalos
Una estimación por intervalo de un parámetro poblacional  es un intervalo de
la forma L1 <  < L2, donde L1 y L2 dependen del valor del estadístico ˆ para
una muestra particular y también de la distribución muestral de ˆ. Un intervalo
de confianza al nivel de confianza (1-) 100% (donde 0 <  < 1) para el
parámetro poblacional , a partir de una muestra seleccionada, es un intervalo
aleatorio tal que:
P (L1 <  < L2) = 1 - 
El intervalo de estimación indica, por su longitud, la precisión de la estimación
puntual. El intervalo L1 <  < L2, que se calcula a partir de la muestra
seleccionada, se denomina entonces intervalo de confianza del (1 - ) 100%, la
fracción (1- ) recibe el nombre de coeficiente de confianza o grado de
confianza, y los puntos extremos L1 y L2, se llaman límites de confianza inferior
y superior.
ˆ
Ya que muestras distintas generalmente dan valores distintos de y, por tanto,
de L1 y L2, estos puntos extremos del intervalo son los valores de las variables
aleatorias correspondientes L1 y L2.
Estimación por intervalos
A partir de la distribución muestral de será posible determinar L 1 y L2 tales
que P(L1 <  < L2) sea igual para cualquier valor fraccional positivo que se
desee especificar. Si, por ejemplo, se encuentran L1 y L2 tales que,
P (L1 <  < L2) = 1 - 
para 0 <  < 1, entonces se tiene una probabilidad de (1- ) de seleccionar
una muestra aleatoria que produzca un intervalo que contenga a .

En términos generales, la construcción de un intervalo de confianza para un


ˆ
parámetro desconocido  consiste en encontrar un estadístico suficiente y
ˆ
relacionarlo con una v. a. X que involucre a , a , no contenga ningún otro
valor desconocido, y cuya distribución en el muestreo sea conocida.
Entonces se seleccionan dos valores L1 y L2 tales que P(L1<X<L2) = 1 -  y,
despejando, se obtiene la estimación de 
Estimación por intervalos
Estimación de la Media, conocida la Varianza:
Si la muestra se selecciona de una población normal o, a falta de esto, si n es
lo bastante grande, se puede establecer un intervalo de confianza de 
considerando la distribución muestral de X.

De acuerdo con el Teorema del Límite Central, es de esperarse que la


distribución muestral de X sea aproximadamente normal con media  X   y
desviación típica 2 2
x 
n
Al escribir z/2 para el valor z sobre el cual se encuentra un área de /2, se
advierte que:
P(-z/2 < Z < z/2) = 1 - 

donde si x1, x2, ..., xn es una m.a.s. de una población de media  y varianza
2 conocida 2
X-
X  N(  , )
 Z=  N(0,1)
n 
n
Estimación por intervalos
 
 
 
P - z < Z < z = 1 - 
2 2
 P - z  <
 2
X

- 
< z  = 1 - 
2
 
 n 
       
P - z  < X -  < z  = 1 -   P - z  - X < -  < z - X  = 1 - 
 2 n 2 n  2 n 2 n 
       
P - z  + X >  > z + X  = 1 -   P X - z  <  < X + z  = 1 - 
 2 n 2 n   2 n 2 n

Por tanto:
Si X es la media de una m.a.s. de tamaño n de una población, aproximadamente
normal, con varianza conocida 2, el intervalo de confianza de (1 - ) 100% para
la media poblacional  es :  
X - z <  < X + z
2 n 2 n
donde z/2 es el valor de z a la derecha del cual se tiene un área de /2
Estimación por intervalos
Ejemplo:
Los datos siguientes representan los pesos en gramos del contenido de 16
cajas de cereal que se seleccionaron al azar de un proceso de llenado con el
propósito de verificar el peso promedio.
506 508 499 503 504 510 497 512 514 505 493 496 506 502
509 496
Si el peso de cada caja de cereal es una v. a. normal con una desviación
típica  = 5 gr., obtener el intervalo de confianza estimado del 95% para la
media de llenado de este proceso.

Solución:
Para el coeficiente de confianza de 95%, =0.05. El valor de z0.025 se
obtiene de la tabla normal y es de 1.96, ya que P(z >1.96) = 0.025. A partir
de los datos muestrales, se obtiene que:
gramos. 1 16
X  xi  503.75
16 i 1
Estimación por intervalos
Entonces, el intervalo de confianza al 95% para la media del proceso de
llenado es:
 5
L1= x  z = 503.75 - 1.96 * = 501.3
2 n 16

 5
L2= x  z 2 = 503.75 + 1.96 * = 506.2
n 16

P(L1 <  < L2) = 95%


Estimación por intervalos
Estimación de la Media Desconociendo la Varianza:
La mayoría de las veces no se conoce la varianza de la población de la
cual se seleccionan las muestras aleatorias. El valor de S2 proporciona
una buena estimación de 2. ¿Qué le ocurre entonces al estadístico
correspondiente (2) si se reemplaza por S2?
(X -) (X -)
(2) (3)
 S
n n
Si la población de partida era normal, (2) seguía un distribución normal
independientemente del tamaño de la muestra. Si ahora sustituimos 2
por S2, aunque la población de partida sea normal, la distribución del
estadístico (3) puede desviarse de la normalidad.

En este caso, si la n  30 puede seguir suponiéndose que sigue una


distribución normal sin que por ello el error cometido sea muy grande.
Estimación por intervalos
Sin embargo, si el tamaño de la muestra es pequeño, los valores de S2
fluctúan considerablemente de muestra a muestra y la distribución de la
variable aleatoria (3) se desvía en forma apreciable de la normal
estándar, siguiendo entonces una distribución t de Student con (n-1)
grados de libertad.

Al igual que habíamos visto en el apartado anterior:


P(- t  < T < t  ) = 1 - 
2 2

donde t/2 es el valor t con (n-1)


 grados de libertad, sobre el cual se
 
encuentra un área de /2. ( X -  )
P - t  < < t  = 1 - 
 2 S 2
 
 n 
Al multiplicar cada término de la desigualdad por S n y después de
restar X y multiplicar por (-1), se obtiene:
S S
P( X - t  <  < X + t )= 1 - 
2 n 2 n
Estimación por intervalos
Si X y S son la media y la cuadesviación típica de una muestra aleatoria de una
población aproximadamente normal con varianza desconocida 2 (aproximada
por el valor de S2), un intervalo de confianza del (1 - ) 100% para  es:

S S
X - t <  < X + t
2 n 2 n

donde t/2 es el valor t con (n-1) grados de libertad, lo que deja un área de /2 a
la derecha.
Estimación por intervalos
Ejemplo:
Los contenidos de 7 recipientes similares de ácido sulfúrico son: 9.8, 10.2,
10.4, 9.8, 10, 10.2, 9.6 litros. Encuentre un intervalo de confianza del 95%
para la media de todos los recipientes, suponiendo una distribución
aproximadamente normal.

Solución:
La media muestral y su desviación estándar para los datos que se dan son:
X = 10 S=0.283
t0.025 = 2.447 para 6 grados de libertad.

El intervalo de confianza para  es:


0.283 0.283
10 - 2.447 * 7
<  < 10 + 2.447 * 7

lo cual se reduce a: 9.74 <  < 10.26


Estimación por intervalos
Estimación de la Diferencia de Medias:
Seleccionamos dos muestras aleatorias independientes de tamaños n1 y n2
de dos poblaciones normales con medias 1 y 2 y varianzas 21 y 22
respectivamente. El estimador puntual de 1 - 2 lo da el estadístico X 1  .X 2
X1  X
Se puede esperar que la distribución muestral de E X 2 Xesté
 distribuída

Estimación 1 2  1 2
aproximadamente en forma normal, con media y
diferencia de
desviación típica
2 2 medias
= 1 +2
X 1- X 2
n1 n2

Varianzas Varianzas Observaciones


conocidas desconocidas pareadas

Muestras
Muestras grandes
pequeñas
Estimación por intervalos
Varianzas conocidas (12 Y 22) Z=
( X 1 - X 2 ) - ( 1 -  2 )
2 2
La variable normal estándar. 1 +2
n1 n2
caerá entre -z/2 y z/2 con una probabilidad (1 - ).
P(-z/2 < Z < z/2) = 1 - 
sustituyendo Z por la expresión anterior y siguiendo los mismos pasos
queXen casos anteriores, obtenemos:
1 X
Si y 2 son las medias de muestras aleatorias independientes de
tamaños n1 y n2 de poblaciones aproximadamente normales, con
varianzas conocidas 12 y 22 respectivamente, un intervalo de confianza
de (1 - ) 100% para 1 - 2 es:
2 2 2 2
( X 1 - X 2 ) - z  1
+  2
< 1 -  2 < ( X 1 - X 2 ) + z  1
+  2
2 n1 n2 2 n1 n2

donde z/2 es el valor de z que tiene un área de /2 a la derecha.


Si las poblaciones son normales, el grado de confianza es exacto. Para
poblaciones que no son normales, el Teorema del Límite Central
proporciona una buena aproximación para muestras de tamaño
Estimación por intervalos
Varianzas desconocidas y muestras grandes (n1 + n2  30 y n1  n2)
Según especialistas estadísticos se puede seguir utilizando la
aproximación normal, pero utilizando S12 y S22 en lugar de las varianzas
correspondientes.

Varianzas desconocidas pero iguales y muestras pequeñas (n1 + n2 < 30)


 12   22   2
Aquí tenemos que pero se desconoce su valor. El estadístico
( X 1 - X 2 ) - ( 1 -  2 )
a usar en este caso será: T =
1 1
Sp +
n1 n2

donde Sp es 2 ( n1 - 1) S 12 + ( n2 - 1) S 2 2
Sp =
n1 + n2 - 2

La estimación muestral Sp de la varianza poblacional debe ser un


promediado de las estimaciones muestrales S12 y S22, porque aunque las
varianzas poblacionales 12 y 22 se supongan iguales, sus estimaciones
muestrales no tienen por qué serlo, ya que se obtendrán valores
diferentes según las muestras tomadas.
Estimación por intervalos
Si X 1 y X 2 son las medias de muestras aleatorias independientes, de
tamaños n1 y n2 respectivamente, de poblaciones aproximadamente
normales, con varianzas iguales pero desconocidas, un intervalo de
confianza de (1 - ) 100% para 1 - 2 es:
1 1 1 1
( x1 - x 2 ) - t  S p + < (  1 -  2 ) < ( x1 - x 2 ) + t  S p +
2 n1 n2 2 n1 n2
donde
2 ( n1 - 1) S 12 + ( n2 - 1) S 2 2
Sp =
n1 + n2 - 2
y t/2 es el valor de t con (n1 + n2 -2) grados de libertad, con un área /2 a
la derecha.
Estimación por intervalos
Ejemplo:
Biólogos marinos están estudiando dos especies de moluscos. Miden la
longitud de las conchas para obtener información que les permita
comparar las dos especies. Desconocen la variabilidad de la longitud de
las conchas, pero tienen motivos para suponer que son iguales en ambas
especies. La información de muestra da los resultados:
n1= 10 n2=10 X 1  6.71 X 2  4.s72
1 =1.611 s2 =1.533
2 2

Construya un intervalo de confianza al 95% para la diferencia media


entre las longitudes de las conchas de las dos especies.
Solución:
Sp 2

n1  1s 21  n2  1s 2 2 9 * 1.611  9 * 1.533

n1  n2  2 = 18 1.5722
Sp = 1.2538
(1-)100% = 95%   = 0.05 /2 = 0.025 1 1 2
   0.447
t0.025,18 = 2.101 x  x
= 6.71 - 4.72 = 1.99
1 2 10 10 10
Entonces, el intervalo de confianza al 95% para la diferencia de medias es:
Estimación por intervalos
L1 = x
1 
 x2  t Sp
2
1

1
n1 n2
= 1.99 - 2.101*0.5607= 0.812

L2 = x
1 
 x 2  t Sp
2
1

1
n1 n2
= 1.99 + 2.101*0.5607= 3.168

P(0.812 < (1 - 2) < 3.168) = 95%


Estimación por intervalos
Varianzas desconocidas y distintas, muestras pequeñas (n1 + n2 < 30)
El estadístico que con más frecuencia se utiliza en este caso es:
( X 1 - X 2 ) - ( 1 -  2 )
T =
2 2
S1 + S 2
n1 n2
que sigue aproximadamente una distribución t con v grados de
libertad donde
2
 S 12 S 2 2 
 
 n + n 
v=  1 2 
Aproximacion de Welch
2 2
 S1   S2 
2 2
   
 n   n 
 1  + 2 
Dado que v rara vez esn1 -un
1 entero,
n2 - 1 se redondea al entero más
cercano.
Estimación por intervalos
Si X 1 y X 2 y S12 y S22 son las medias y cuasivarianzas de muestras pequeñas
independientes de tamaños n1 y n2 respectivamente, de distribuciones
aproximadamente normales con varianzas diferentes y desconocidas, un
intervalo de confianza aproximado del (1 - ) 100% para 1 - 2 está dado
por:
2 2 2 2
( x1 - x 2 ) - t  S + S 2 <(  -  )<( - )+ 
1 S1 + S 2
1 2 x1 x 2 t
2 n1 n2 2 n1 n2
2
 S 12 S 2 2 
 
donde t/2 es el valor t con  n + n 
v=  1 2 
Aproximacion de Welch
2 2
S 2
 S2 2
 1
  
 n   n 
 1  + 2 
n1 - 1 n2 - 1

grados de libertad, con un área de /2 a la derecha.


Estimación por intervalos
Ejemplo:
Los siguientes datos representan los tiempos de duración de las películas que
producen dos compañías cinematográficas:
Compañía Tiempo (min.)
I 103 94 110 87 98
II 97 82 123 92 175 88 118

Calcule el intervalo de confianza del 90% para la diferencia entre los tiempos
promedio de duración de las películas que producen las dos compañías.
Suponga que el tiempo de duración tiene una distribución aproximadamente
normal.
Solución:
n1 = 5 t0.05,7 = 1.833
n2 = 7 = 98.4 -x1110.7
 x 2 = -12.31
(1-)100% = 90%   = 0.10 /2 = 0.05
1
s12= 4 (21.16+19.36+134.56+129.96+0.16)=76.3
1
s =
2
2 4 (188.08+824.51+151.94+350.22+4132.65+515.94+53.08)=1036.07
Estimación por intervalos
2
 s12 s2 2   76 . 3 1036 . 07 
2
 
n  n    
15.26  148.01
2
26657.09
 1 2   5 7 
v 2 2
 2 2
   7.186  7
 s12   s2 2   76.3   1036.07  58.217  3651.16 3709.38
       
n  n   5   7 
 1   2  
n1  1 n2  1 4 6
2 2

L1= x1  x 2   t 2
s1 s
 2 = -12.314 - 1.833*12.78= -35.74
n1 n2

2 2

L2= x1  x 2   t 2
s1 s
 2 = -12.314 + 1.833*12.78= 11.11
n1 n2

P(-35.74 < (1 - 2) < 11.11) = 90%


Estimación por intervalos
Observaciones pareadas:
En este caso se estima la diferencia de dos medias cuando las muestras no son
independientes. Entonces, cada unidad experimental tiene un par de
observaciones, una para cada población. Consideramos las diferencias d 1,
d2, ..., dn en las observaciones pareadas. Estas diferencias son los valores de
una población de diferencias que se asumirá distribuida normalmente, con
media d = 1 - 2 y varianza 2  1
2
 2
2

d = +
n1 n2

Se estima d2 por Sd2, la varianza de las diferencias que constituyen la


d
muestra. El estimador puntual de d lo representa , la media de las diferencias
que constituyen la muestra. Una vez obtenidas las diferencias, su estudio se
reduce al caso de estimación de la media desconocida de una población
aproximadamente normal, desconocida su varianza (ya visto anteriormente).
Estimación por intervalos
El estadístico a utilizar en esta ocasión es: d - d
T=
Sd
n
que sigue una distribución t con (n-1) grados de libertad. Obtener el intervalo
de confianza es la rutina de siempre.

Si d y Sd son la media y la desviación típica de las diferencias normalmente


distribuídas de n pares aleatorios de mediciones, un intervalo de confianza del
(1 -  ) 100% para d = 1 - 2 es :
Sd S
d - t < d < d + t d
2 n 2 n
donde t/2 es el valor t con (n-1) grados de libertad, con un área de /2 a la
derecha.
Estimación por intervalos
Ejemplo:
Investigadores famosos han formulado la hipótesis de que el fuego puede
cambiar los niveles de calcio presentes en la tierra y entonces afectar la
cantidad de este mineral disponible para los venados. Se seleccionó un área
grande de terreno para un incendio controlado. Se tomaron muestras de la
tierra de 12 parcelas de la misma área antes del incendio y después de este
para verificar su contenido en calcio. Se obtuvieron los resultados indicados
en la tabla que sigue.

Determine un intervalo de confianza al 95% para la diferencia promedio en el


nivel de calcio presente en la tierra antes y después del incendio. Asuma que la
distribución de la diferencia de los niveles de calcio es aproximadamente
normal.
Estimación por intervalos

Nivel de calcio
Parcela Antes Después Diferencia
1 50 9 41
2 50 18 32
3 82 45 37
4 64 18 46
5 82 18 64
6 73 9 64
7 77 32 45
8 54 9 45
9 23 18 5
10 45 9 36
11 36 9 27
12 54 9 45
Estimación por intervalos
Solución:
d = 40.583

S2d = (0.173889 + 73.668 + 12.838 + 29.344 + 548.36 + 548.36 + 19.51 + 19.51


+ 1266.15 + 21.004 + 184.5 + 19.51) = 249.357

Sd =15.79

1- = 0.95   = 0.05  /2 = 0.025


t (n-1),0.025 = t 11, 0.025 = 2.201

Sd 15.79
L1= d - t/2 n= 40.583 - 2.201* 12 = 30.5504
Sd 15.79
d
L2 = + t/2 n = 40.583 + 2.201* 12 = 50.616
Estimación por intervalos
Estimación de la proporción:
Un estimador puntual de la proporción p en un experimento binomial está
dado por el estadístico p̂ = X/n donde X representa el nº de éxitos en n intentos
y sigue una distribución binomial de parámetros n y p.
1 p n
xi =  X =  xi  B(n, p)
0 (1  p ) i=1
X
y p̂ = es justo la media muestral de estos n valores.
n
Por el Teorema del Límite Central, para una n lo bastante grande, p̂ está
distribuida aproximadamente en forma normal, con media:
 X  np
 pˆ = E[pˆ ] = E   = = p
n n
y varianza:
 X   2X n p q p q p (1 - p)
 =   = 2 = 2 = =
2 2

n
  n n n n
Estimación por intervalos
Si p no es cercano a 0 ni a 1 y n grande, X  N (np, npq)
X
-p
X -n p n
 N(0,1) y por tanto  N(0,1) para n grande
n pq p(1 - p)
n
Se puede asegurar que: P(- z 2 < z < z 2 ) = 1 - 
X
donde -p
pˆ - p n
z= =  N(0,1)
pq p (1 - p)
n n

y z/2 es el valor de la curva normal estándar sobre la cual se encuentra un


área de /2. Sustituyendo z obtenemos:
 X 
 -p 
P - z  < n < z    (1 -  ) para n grande
 2 p(1 - p) 2
 
 n 
Estimación por intervalos
Multiplicando ambos términos por p(1 - p)
n
y después de restar X/n y multiplicar por (-1), se obtiene:
X p(1 - p) X p(1 - p) 
P - z  < p < + z = 1-

n 2 n n 2 n 

Por tanto los extremos del intervalo de confianza que obtenemos, dependerían
del parámetro desconocido. ¿Cómo solucionarlo?
p (1 - p) X  p (1 - p)
L1 = pˆ - z 2 = -z
n n 2 n
p (1 - p) X p (1 - p)
L2 = pˆ + z  =  z
2 n n 2 n

Cuando n es grande, se introducen muy pocos errores al sustituir la p bajo el


signo radical por su estimación puntual p̂=X/n. Entonces se puede escribir:
 pˆ (1 - pˆ ) pˆ (1 - pˆ ) 
P pˆ - z  < p < pˆ + z    1-

 2 n 2 n 
Estimación por intervalos
Si p̂ es la proporción de éxitos en una muestra aleatoria de tamaño n, un
intervalo de confianza aproximado de (1-) 100% para el parámetro binomial
p es:
pˆ (1 - pˆ ) pˆ (1 - pˆ )
pˆ - z  < p < pˆ + z 
2 n 2 n
donde z/2 es el valor z con un área /2 a la derecha.

Cuando n es pequeño y se cree que la proporción desconocida p se acerca a 0 o


a 1, el procedimiento establecido para el intervalo de confianza no es confiable
y no debe ser utilizado. Para estos casos se han desarrollado diferentes
métodos gráficos y analíticos, en los que no vamos a entrar, para calcular el
intervalo de confianza de p.
Estimación por intervalos
Ejemplo:
Los huevos de la mosca azul producen infecciones al ser depositados en la
sangre de un animal. Se efectuó un experimento para controlar el crecimiento
de la población de este tipo de moscas. Las pupas fueron sometidas a
radiación al objeto de esterilizar al mayor número posible de machos. Cada
hembra se emparejó con un único macho. Se estudiaron 500 emparejamientos,
de los cuales 415 resultaron estériles. Construir un intervalo de confianza al
95% para la proporción poblacional de machos estériles.

Solución:

415 1- = 0.95   = 0.05  /2 = 0.025  z0.025 = 1.96


pˆ   0.83
500

pˆ 1  pˆ  0.83 * (1  0.83)
L1  pˆ  z  0.83  1.96  0.83  3.2926 * 10  2  0.7971
2 n 500
pˆ 1  pˆ  0.83 * (1  0.83)
L2  pˆ  z  0.83  1.96  0.83  3.2926 *10  2  0.8629
2 n 500
Estimación por intervalos
Estimación de Diferencia de Proporciones:
Deseamos estimar la diferencia entre dos parámetros binomiales p1 y p2. Para
establecer un intervalo de confianza para p1-p2 consideraremos la distribución
pˆ  pˆ 2
muestral de 1

ˆ = X 1 y ˆestán
= X 2 distribuidos cada uno en forma
p1 p2
aproximadamente normal, con medias p1 y p2 y varianzas
n1 n2 p (1 - p ) p (1 - p )
1 1
y 2 2

respectivamente. Al seleccionar muestras n1 n2


independientes de las dos
poblaciones, las variables p1 y p2 serán independientes y entonces estará
pˆ 1  pˆ 2
distribuida aproximadamente normal con media :

 pˆ 1- pˆ 2 = p1 - p 2
y varianza:
p1 (1 - p1 ) p 2 (1 - p 2 )
 pˆ 1- pˆ 2 = +
2

n1 n2
Estimación por intervalos
Por tanto se puede asegurar que P(- z 2 < z < z 2 ) = 1 - 
donde Z = ( pˆ 1 - pˆ 2 ) - ( p1 - p 2 )
p1 (1 - p1 ) p 2 (1 - p 2 )
+
n1 n2
Siguiendo todos los mismos pasos que en los demás casos, obtenemos:

Si p̂1 y p̂ son las proporciones de éxitos en muestras aleatorias de tamaños n 1 y n2


2

respectivamente, un intervalo aproximado de confianza del (1- ) 100% para la


diferencia entre dos parámetros binomiales p1 - p2 es:
pˆ 1 (1 - pˆ 1 ) pˆ 2 (1 - pˆ 2 ) pˆ 1 (1 - pˆ 1 ) pˆ 2 (1 - pˆ 2 )
( pˆ 1 - pˆ 2 ) - z  + < ( p1 - p 2 ) < ( pˆ 1 - pˆ 2 ) + z  +
2 n1 n2 2 n1 n2

donde z/2 es el valor de z con un área de /2 a la derecha.


Estimación por intervalos
Ejemplo:
El departamento de tráfico ha preparado dos exámenes para conductores. Se
desea determinar la diferencia entre las proporciones de conductores que
pasan el examen 1 y los que pasan el examen 2. Su estudio revela lo siguiente:
n1=250 pˆ1  n02.=300
82 pˆ 2  0.77
Construya un intervalo de confianza aproximado del 90% para la verdadera
diferencia entre las proporciones de conductores que pasan los dos exámenes.

Solución:
Con la información suministrada podemos calcular:
pˆ 1 1  pˆ 1  pˆ 2 1  pˆ 2  0.82 * 0.18 0.77 * 0.23
    0.03436
n1 n2 250 300
Además sabemos que 1- = 0.90   = 0.1  /2 = 0.05  z0.05 = 1.645
pˆ 1 1  pˆ 1  pˆ 2 1  pˆ 2 
L1   p1  p 2   z
ˆ ˆ   0.05  1.645 * 0.03436  0.00653
2 n1 n2
pˆ 1 1  pˆ 1  pˆ 2 1  pˆ 2 
L2   pˆ 1  pˆ 2   z   0.05  1.645 * 0.03436  0.10653
2 n1 n2
Estimación por intervalos
Estimación de la Varianza:
Si se toma una muestra de tamaño n de una población normal con varianza 2
y se calcula la cuasivarianza muestral S2, esta varianza calculada se puede
utilizar como estimación puntual de 2. Para establecer una estimación de
intervalo de 2 se utiliza el estadístico
2
2
(n - 1) S
 = 2

que, como ya sabemos, sigue una distribución 2 con (n-1) grados de libertad
cuando las muestras se seleccionan de una población normal. Siguiendo todos
los mismos pasos que en casos anteriores, obtenemos:
 2 2 2   2 (n - 1) S 2 2 
P   <  <    = 1 -   P   < 2
<  
  = 1-
 2 1
2  21
 2

 2   
2
 
 1 1   (n - 1) S 2
(n - 1) S 2
P 2
< < 2
 = 1 -   P  2
< 
2
< 2  = 1-
 (n - 1) 2
S 
2
(n - 1) 2
S       
1
   2 2 
Estimación por intervalos
Si s2 es la cuasivarianza de una muestra aleatoria de tamaño n de una población
normal, un intervalo de confianza del (1-)100% para 2 es:
(n - 1) s 2 (n - 1) s 2
2
< <
2
2
  1-
2 2

donde 2/2 y 21 - /2 son valores de una distribución 2 con (n-1) grados de
libertad, con áreas de /2 y 1- /2 a la derecha, respectivamente.

Un intervalo de confianza del (1-) 100% para , se obtiene sacando la raíz


cuadrada de cada punto extremo del intervalo para 2
Estimación por intervalos
Ejemplo:
El cobre es un micronutriente requerido por la mayoría de las plantas. Su
concentración en una planta se mide analizando las cenizas obtenidas al
quemarla completamente. En un estudio de la variabilidad de la
concentración de cobre en las plantas de la cuenca del Jarama, se seleccionó
una muestra de 16 plantas. Se obtuvieron los siguientes datos (en partes por
millón):
5 3 34 18 27 14 8 50 38 43 35 20 70 25 60 19
Calcular un intervalo de estimación al 90% para la variabilidad de la
concentración. 2
n
 n 
Solución: n x i    xi 
2 16


2 2
1 n
  xi  19407
2
S   xi    
n  1 i 1
i 1 i 1

n n  1
 377.2958 i 1

16

1 -  = 0.9   = 0.1  /2 = 0.05  1 - /2 = 0.95  n = 16 x


i 1
i  469

L1 
n  1S 2

15 * 377.2958
 226.41 L2 
n  1S 2

15 * 377.2958
 779.43
 2 0.05,15 24.996  2 0.95,15 7.261

El intervalo es (226.41, 779.43) para 2, o bien (15.05, 27.92) para 


Estimación por intervalos
Estimación de la Razón de dos Varianzas:
Una estimación puntual del cociente de dos varianzas poblacionales 12/22
está dada por la razón S12/S22 de las cuasivarianzas muestrales. Si 12 y 22 son
las varianzas de poblaciones normales, se puede establecer un intervalo de
2 2 2 2
estimación de 12/22 utilizando el estadístico:  2 S1 S1 / 1 F= 
2 2
S2/ 2
2 2
 S1 2

donde S12 y S22 son las cuasivarianzas muestrales obtenidas de muestras


aleatorias independientes de tamaños n1 y n2 que se sacan de las poblaciones
normales con varianzas 12 y 22. En tal caso el estadístico F anterior, sigue
una distribución
  F de Snedecor
 con (n1 -1)
 y (n2 -1) grados
S 1 / 1
2 2
de libertad.

P f 1 ( v1,v2 ) < F < f 
( v1 ,v2 )  = 1-  P f 1 ( v1,v2 ) < 2 2 < f ( v1 ,v2 )  = 1 - 
 2 2   2 S2/ 2 2 
 2 2
S1  2   2 2
S2  2 S2 
2
P f 1 ( v1,v2 ) < 2 2 < f  ( v1,v2 )  = 1 - 
  P f 1 ( v1,v2 ) 2 < 2 < f ( v1,v2 ) 2  = 1 - 
 
 2 S2 1 2   2 S1  1 2 S1 
 2  2
 1 2
S1  1
2
1 S1   1 2
S1  1
2
S 1
P 2
> 2> 2
= 1-  P 2
< 2 < f  ( v2 ,v1 ) 2  = 1 - 
 f 1 ( v1,v2 ) S 2  2 f ( v1,v2 ) S 2 
   f ( v1,v2 ) S 2  2
 2 S2 
 2 2   2 
Estimación por intervalos
Si s12 y s22 son las cuasivarianzas de muestras independientes de tamaños n1 y n2
respectivamente de poblaciones normales, entonces un intervalo de confianza
del (1-) 100% para 12/22 es:2 2 2
S1 1  1 < S1 
2
< 2 2
f ( v2 ,v1 )
S 2 f ( v1,v2 )  2 S 2 2

2

donde f/2 (v1,v2) es el valor f con v1 = (n1 -1) y v2= (n2-1) grados de libertad con un
área de /2 a la derecha, y f/2 (v2,v1) es un valor similar f con v2= (n2-1) y v1=(n1-1)
grados de libertad.

Un intervalo de confianza del (1-)100% para 1/2 se obtiene al sacar la raíz


cuadrada de cada punto extremo del intervalo para 12/22
Estimación por intervalos
Ejemplo:
Determine un intervalo de confianza del 90% para el cociente de varianzas en
el ejercicio de las compañías cinematográficas visto para la diferencia de
medias. ¿Se debió suponer entonces que las varianzas eran iguales al
determinar el intervalo de confianza para la diferencia de medias?

Solución:
n1 = 5 n2 = 7
1- = 0.90   = 0.1  /2 = 0.05
1 1 1
   0f.0.05
221 = 6.16
f v1,v 2  f0.05 4,6  4.53 (6,4)
2

S12 =276.3  S22 = 1035.9 2


S 1 76.3 S1 76.3
L1  1 2  * 0.221  1.628 *10  2 L2  2
* f v2 ,v1 
 * 6.16  0.454
S 2 f  v1 ,v2  1035.9 S2 2 1035.9
2

El 1 no cae en el intervalo, por tanto no podemos suponer que las varianzas


sean iguales  Bien hecho el problema de diferencia de medias
Relación entre ambas estimaciones
Existe una distinción bastante clara entre los objetivos de las estimaciones
puntuales y las estimaciones del intervalo de confianza. Los primeros proveen
un número único que se extrae a partir de un conjunto de datos
experimentales, y los últimos proporcionan intervalos, dados los datos
experimentales, que son razonables para el parámetro, esto es, el 100 (1- )%
de tales intervalos calculados "cubren" el parámetro.

Sin embargo, a pesar de esta distinción clara, las dos aproximaciones a la


estimación se relacionan una con otra. El "hilo común" es la distribución
muestral del estimador puntual.

Habíamos indicado que una medición de la calidad de un estimador insesgado


era su varianza, y el error estándar de un estimador es su desviación típica.

El límite de confianza lo podemos relacionar con la estimación puntual, de la


siguiente forma.
estimación dist . muestral error estándar
L1, 2   
puntual del est . puntual del est . puntual
Relación entre ambas estimaciones
Para el caso de la estimación de la media  concociendo  tenemos:
Estimador puntual: X
Distribución del estimador puntual:X  N  ,  n 
2

Varianza del estimador puntual: 2/n


Desviación Típica del est. puntual: 
n
Luego, para el caso de X el límite de confianza calculado sería:

L = x  z
2 n
Si desconocemos  y la reemplazamos por S obtenemos:
Estimador puntual X
Distribución del estimador puntual: tn-1
Varianza del estimador puntual: S2/n
Desviación típica de X: S n
S
L = x  t
2 n
Relación entre ambas estimaciones
El intervalo de confianza no es mejor (en términos de anchura) que la
calidad de la estimación puntual. Esto significa que los anchos de los
intervalos de confianza se hacen menores en la medida en que mejora la
calidad de las correspondientes estimaciones puntuales.

Se puede argumentar, en definitiva, que un intervalo de confianza es tan


sólo una ampliación de la estimación puntual para considerar la precisión
de la misma.
Tamaño de la muestra
Muchas veces estamos interesados en determinar el tamaño de la muestra
necesario para obtener, con una confianza del (1-) 100%, una estimación
del parámetro poblacional , de tal manera que el error de estimación no
supere un determinado valor de error permitido .

Hemos comentado que la anchura del intervalo de confianza, alrededor


del estimador puntual del parámetro, nos da una medida de la precisión
de este. Por tanto, para la determinación del tamaño muestral en cuestión
basta coger la semilongitud del intervalo de confianza e igualarlo al error
máximo permitido, despejando cuál será el valor de n que verifique esa
igualdad.

Si se utiliza X como estimación de , se puede tener una confianza del


(1-) 100% de que el error no excederá una cantidad especificada 
cuando el tamaño de la muestra es: 2
 z  
n= 2 
  
 
Tamaño de la muestra
Queremos que X     , es decir X      X  

Con una confianza del (1-) 100% sabemos que


 
X  z    X  z
2 n 2 n

luego z 
2 n

Despejando de esa expresión la n obtenemos:


2
 z  
n= 2 
  
 

Los valores fraccionarios de n se redondean al entero superior.


Tamaño de la muestra
En la estimación de un intervalo de confianza para la proporción, hemos
visto que si pˆ  X n
se utiliza como una estimación de p, se puede tener una confianza del (1-)
100% de que el error cometido no excederá de
pˆ (1 - pˆ )
z 
2 n
Si deseamos determinar qué tan grande debe ser una muestra para
asegurar que el error al estimar p será menor que una cantidad
especificada , tendremos que escoger una n, de tal forma que
pˆ (1 - pˆ )
z  =
2 n

y ese valor de n es: ( Z  )2 pˆ (1 - pˆ )


2
n= 2

Tamaño de la muestra
La expresión anterior puede resultar paradójica ya que para calcular p̂ ya
debemos conocer n porque pˆ  X n . Tenemos entonces dos opciones:
a) Obtener una muestra con n  30 valores, a partir de la cual calcular la
aproximación pˆ yXusar
n esta aproximación para calcular cuantas
observaciones serían necesarias para obtener la precisión deseada.
b) Establecer un límite superior para el valor de n observando que
pˆ  (1  pˆ ) es como máximo ¼, ya que p̂ cae entre 0 y 1. El valor máximo de
n sería entonces:
( Z  )2
2
n=
42
Al utilizar el máximo valor de pˆ  (1  pˆ ) , n aumenta más de lo necesario para
el nivel de confianza deseado, y por tanto aumenta también el nivel de
confianza.
Tamaño de la muestra
Ejemplo:
Se estudia la efectividad de un nuevo medicamento en el tratamiento de
cierta enfermedad. Se suministra el medicamento a 14 pacientes de los
cuales 13 reaccionan positivamente. Dar el tamaño de la muestra necesario
para obtener una confianza del 99% de que el error de estimación de p no
excederá de  2 % (0.02)

Solución:
Si suponemos que tenemos una buena estimación previa de p:
13
pˆ = = 0.9286
14
(1 -  )100% = 99%   = 0.01  z  = 2.58
2

 = 0.02
( z  )2 pˆ (1 - pˆ ) (2.28 )2 (0.9286)(0 .0714)
2
n= = = 1103.33  1104

2
(0.02 )2
Tamaño de la muestra
Si lo hacemos sin considerar la estimación previa de p, sino considerando el
máximo:
( z  )2 (2.58 )2
n= 2
= 2
= 4160.25  4161
42 4 (0.02 )

Como podemos apreciar es un tamaño de muestra considerablemente


superior al caso anterior.
Ejercicios
Ejercicio 6.1
Un fabricante de televisores está desarrollando un nuevo modelo de
televisor en color, y para este fin se pueden utilizar dos tipos de
esquemas transistorizados, cuyos tiempos de vida se suponen
normalmente distribuidos. El fabricante selecciona una muestra de
esquemas transistorizados del primer tipo de tamaño 12, y otra del
segundo tipo de tamaño 11. Los datos muestrales respecto a la vida de
cada esquema son los siguientes:
X 1  1400h S1  30h X 2  1500h S2  17h

Se pide:
a) Construir un intervalo de confianza del 95% para la diferencia de
vida media de cada tipo de esquema.
b) Construir un intervalo de confianza del 90% para el cociente de
varianzas de la vida de cada tipo de esquema.
Ejercicios
Ejercicio 6.2
Una agencia de alquiler de automóviles necesita estimar el número
medio de kilómetros diarios que realiza su flota de automóviles; a tal
fin, en varios días de la semana toma los recorridos de 100 vehículos de
su flota y obtiene que la media muestral es de 165 Km/día, y la
cuasidesviación típica muestral de 6 Km/día. Se pide:
a) Bajo la hipótesis de normalidad de la característica de estudio (nº de
km por día), construir un intervalo de confianza para la media de dicha
distribución a un nivel de confianza del 95%.
b) Bajo la misma hipótesis de normalidad que en a), construir un
intervalo de confianza del 90% para la varianza de dicha distribución.
Ejercicios
Ejercicio 6.3
En un cruce de Melanogaster se han obtenido 60 moscas con alas
vestigiales de un total de 300. Se pide:
a) Encontrar un intervalo de confianza al 95% para la proporción de
moscas con alas vestigiales entre los individuos resultantes de un gran
número de cruces como este.
b) Qué número de cruces hay que realizar de modo que la proporción de
moscas con alas vestigiales entre los individuos resultantes de un gran
número de cruces y la de la muestra difiera en valor absoluto en menos
de 0.01 con una probabilidad del 95%?

También podría gustarte