Está en la página 1de 8

Probabilidad y Estadística Estimación estadística 11

ESTIMACIÓN ESTADÍSTICA

BREVE RESUMEN.

Lo que hemos estudiado hasta ahora son herramientas para desarrollar la estadística
inferencial que permite conocer características de la población a partir de la información
contenida en una muestra.
Se vieron las formas en que pueden describirse un conjunto de datos. Los métodos
gráficos, básicamente la tabla de frecuencias relativas y el histograma, y las medidas
descriptivas numéricas: media, varianza, desviación estándar. La estadística inferencial busca
describir la población con estos gráficos y medidas descriptivas numéricas a partir de conocer
como son para la muestra.
Se estudió el concepto de probabilidad que provee de un método para medir que tan
buena es la inferencia. Además permite razonar de la población a la muestra, pues si se conoce
la distribución de probabilidad (teórica) de una variable aleatoria es posible saber como va a ser
aproximadamente la distribución de frecuencias relativas si se obtiene una muestra de los
valores de esta variable, o la probabilidad de obtener un resultado particular. Se estudiaron dos
tipos de distribución de probabilidad, las discretas y las continuas.
Por último se vieron las distribuciones muestrales que nos dicen como se distribuyen los
valores de las estadísticas (que son las medidas descriptivas numéricas obtenidas de una
muestra) al tomar diferentes muestras del mismo tamaño. En este tema vimos parte de la
importancia que tiene la distribución normal ya que muchas estadísticas tienen distribución de
muestreo aproximadamente normal cuando el tamaño de la muestra es grande. Las estadísticas
se usan para aproximar los parámetros y conocer las distribuciones muestrales de las estadísticas
permite evaluar que tan confiable o buena es la aproximación.
Hay dos formas de realizar inferencias acerca de un parámetro poblacional: podemos
estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hipótesis acerca de su
valor (esto lo vamos a estudiar la próxima clase).


TIPOS DE ESTIMADORES

Los procedimientos de estimación pueden dividirse en dos tipos:

Estimación puntual: la estimación se representa mediante un solo número.

Estimación por intervalo: la estimación se representa mediante dos números que determinan
un intervalo sobre la recta.

Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se puede
dar la estimación diciendo que la altura media es de 1.65 m (estimación puntual) o bien decir
que la altura media estará entre 1.6 m y 1.7 m (estimación por intervalo).

Un estimador es una regla que expresa cómo calcular la estimación, basándose en la


información de la muestra y se enuncia, en general, mediante una fórmula.

Un estimador puntual utiliza los datos de la muestra para obtener un número que estima
el valor del parámetro.
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores
numéricos entre los cuales se supone que está el valor del parámetro estimado.


Probabilidad y Estadística Estimación estadística 12

ESTIMACIÓN PUNTUAL CON MUESTRAS GRANDES

Se pueden usar distintos estimadores para estimar un mismo parámetro. Por ejemplo
para estimar la media poblacional se puede usar la media muestral, la mediana, la moda, el
promedio entre el valor más chico y más grande de la muestra, etc..
Cada estimador obtenido de muestras de tamaño fijo n, varía con cada muestra que se
toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse sus
distribuciones muestrales (similar a los estadísticos que se estudiaron la clase pasada).
La distribuciones de muestreo de los estimadores se usan para compararlos y decidir
cual de todos es el mejor. Se prefiere un estimador que tenga una distribución muestral cuya
media coincida con el parámetro que se desea estimar y cuya extensión o dispersión (medida
con la variancia) sea lo menor posible.

Notación. Si  denota un parámetro entonces  denotará la estadística correspondiente.

Como dijimos anteriormente, se prefiere una estadística que tenga una distribución
muestral cuya media coincida con el parámetro que se desea estimar. Un estimador de este tipo
se llama insesgado.
 
Si  es un estimador de un parámetro  y si la media de la distribución de  es , es decir,

E(  ) = ,
 
entonces se dice que  es un estimador insesgado. De otra manera,  se llama sesgado.

En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos estimadores  ,
  
el primero insesgado, E(  ) =  y el segundo sesgado, E(  ) > . Si se calcula una vez  lo

más probable es que se encuentre cerca de la media E(  ). Entonces en el primer caso lo más
probable es que se encuentre cerca de  y en el segundo que sea más grande que .

Se prefiere una estadística que además tenga una distribución muestral cuya extensión o
dispersión (medida con la variancia) sea lo menor posible. Nota: Para simplificar se habla de
variancia del estimador para referirnos a la variancia de la distribución muestral del estimador.
En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores
  
insesgados  , E(  ) = . Si se calcula una vez  , en ambos casos, lo más probable es que se

encuentre cerca de la media E(  ). Pero como la desviación estándar del primero es menor que
la del segundo, es más probable que en el primer caso se encuentre más cerca de la media que
en el segundo caso.

En base a lo anterior se elige de todas las estadísticas disponibles aquella con el menor
sesgo y variancia posible. Más aún, el mejor estimador posible es aquel que es insesgado y que
de todos los insesgados tiene la menor variancia, a este estimador se lo llama estimador
insesgado de menor variancia (EIMV).
En este curso definiremos poblaciones y los parámetros de interés y se dirá en cada caso
cual es el estimador adecuado, su media y su desviación estándar.

Ejemplos de estimadores insesgados.

Media muestral x (estimador insesgado de la media poblacional )


Probabilidad y Estadística Estimación estadística 13

Si se seleccionan muestras aleatorias de n mediciones de una población con media  y


desviación estándar , la distribución de muestreo de x tendrá media
E( x ) = .
y desviación estándar
x =/ n.

Proporción muestral p̂ (estimador insesgado del parámetro p).


Si se seleccionan muestras aleatorias de n observaciones de una población binomial, con
x
parámetro p, la distribución de muestreo de la proporción muestral p̂ = tendrá media
n
E( p̂ ) = p
y desviación estándar
 p = pq
n

Diferencia de medias x 1  x 2 (estimador insesgado del parámetro 1  2).


Se tienen dos poblaciones I y II con medias y desviaciones estándar (1, 1) y (2, 2),
respectivamente.
Se seleccionan en forma independiente muestras de tamaño n 1 para I y de tamaño n2 para II.
Si x 1 y x 2 son las medias muestrales para tales muestras, entonces la distribución de
muestreo de x 1  x 2 tendrá media
E( x 1  x 2) = 1  2
y desviación estándar

x  12  22
1  x2
= 
n1 n2

Proporción muestral p̂ 1  p̂ 2 (estimador insesgado del parámetro p1  p2)


Se tienen dos poblaciones binomiales I y II con parámetros p 1 y p2, respectivamente.
Se seleccionan en forma independiente muestras de tamaño n 1 para I y de tamaño n2 para II.
Si p̂ 1 y p̂ 2 son las proporciones muestrales de tales muestras, entonces la distribución de
muestreo de p̂ 1  p̂ 2 tendrá media
E( p̂ 1  p̂ 2) = p1  p2
y desviación estándar
p1 q1 p 2 q 2
 p1  p 2 = 
n1 n2

Observar que en cada caso, se toma como estimador la estadística que corresponde al
parámetro que se quiere estimar.
La media muestral, la proporción muestral, la diferencia de medias muestrales y la
diferencia de proporciones muestrales tienen una distribución de muestreo que se aproxima a
una normal cuando el tamaño de la/s muestra/s es grande. Como regla práctica se supone que
esto se cumple cuando n  30.
Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante

supondremos que n  30, y que trabajamos con un estimador insesgado  de  que tiene una
distribución normal.

Una manera de evaluar la bondad de una estimación puntual es a través de la distancia


entre el estimador y el parámetro. Esta cantidad se denomina

Error de estimación. |    |.
Probabilidad y Estadística Estimación estadística 14

Como se desea que este error sea lo menor posible, interesa saber si es menor que una
cierta cota que se suele expresar en términos de la desviación estándar del estimador:
Cota para el error de estimación. c   .

Ahora bien, no se puede saber si |    | < c   pues desconocemos . Sin embargo,

conociendo las características de la distribución de  , se puede calcular la probabilidad de que

|    | < c   , es decir,

P(|    | < c   )

Por ejemplo, si c = 1.96 y suponiendo que la distribución de  es normal,

P(|    | < 1.96   ) = 0.95
En la siguiente figura aparece el área correspondiente.

Ejemplo. Se quiere estimar la media  de una población. Se toma una muestra de tamaño n = 50
y se obtiene x = 9.1, s = 0.24. Dar una estimación para  y evaluar la exactitud de la
estimación con c = 1.96.

Parámetro 
Estimador x (insesgado E( x ) =  y tiene una distribución de muestreo normal si el tamaño de
la muestra es grande).
Estimación para : 9.1.
Cota para el error de estimación (usando s para aproximar ):
1.96  x = 1.96  / n  1.96 s / n = 1.96  0.24 / 50  0.07.
Como
P(| x   | < 1.96  x ) = 0.95  P(| x   | < 0.07) = 0.95
podemos decir que
la probabilidad de que el error de estimación sea menor que 0.07 es de 95%.
En la siguiente figura aparece el área correspondiente.
Probabilidad y Estadística Estimación estadística 15


INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES

Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numéricos
entre los cuales se dice que está el valor del parámetro estimado.
Supongamos que queremos estimar la media  de una población.
Se toma una muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a1, b1]. Se espera que [a1, b1] contenga a , pero puede suceder que esto no ocurra.
Se toma otra muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a2, b2]. Se también en este caso que [a2, b2] contenga a , pero igual que antes puede
suceder que esto no ocurra.
Se puede repetir este procedimiento varias veces, digamos m, obteniéndose un conjunto
de intervalos [a1, b1], [a2, b2], ..., [am, bm].
Se espera que el estimador por intervalo, es decir, el procedimiento que se está usando
para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos contenga a .
El razonamiento anterior se puede hacer con cualquier otro parámetro .

Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el


intervalo contenga a  se llama coeficiente de confianza.

Ahora veremos como se determinan los intervalos de confianza y el coeficiente de


confianza.

Sea  un estimador insesgado de  que tiene una distribución muestral normal o
aproximadamente normal. Se tiene

 Error de estimación. |    |
 Cota para el error de estimación. 1.96   (se expresa en términos de la desviación
estándar).

 P(|    | < 1.96   ) = 0.95 (para obtener este valor de P se tiene en cuenta que la

distribución de  es normal y se usa la tabla 4)

Como P(|    | < 1.96   ) = 0.95 puede escribirse como
 
P(  [   1.96   ,  + 1.96   ]) = 0.95,
podemos decir que la probabilidad de que
 
[   1.96   ,  + 1.96   ] contenga a  es 0.95 = 95%.

De este modo, si  es una estimación particular de , entonces
 
[   1.96   ,  + 1.96   ]
es un intervalo de confianza para  con un coeficiente de confianza de 95%, más brevemente
intervalo de confianza de 95%. Además

límite inferior de confianza: LIC =   1.96  

límite superior de confianza: LSC =  + 1.96  

Más general, para establecer el intervalo de confianza con nivel de confianza (1  )%,

  
sea z la normal estandarizada correspondiente a  : z = .
 

P(|    | < c   ) = 1    P(| z | < c ) = 1  
Probabilidad y Estadística Estimación estadística 16

 P(c < z < c) = 1    2 P(0 < z < c) = 1    P(0 < z < c) = (1  ) / 2


 1/2  P( c < z ) = (1  ) / 2  P( c < z ) = /2.

Por esta razón, si se escribe c = z/2 se tiene



Intervalo de confianza de (1  )% para , usando un estimador insesgado  que tiene
una distribución muestral normal.
 
[  z/2   ,  + z/2   ] es un intervalo de confianza de 1,

límite inferior de confianza: LIC =   z/2  

límite superior de confianza: LSC =  + z/2  
donde z/2 es tal que P(z/2 < z ) = /2, o equivalentemente, P(0 < z < z/2) = (1   (ver
figura 6.8, p. 204)

Nota: Intervalos de confianza para parámetros  particulares aparecen en los recuadros de las
secciones:
6.5 (p. 207) para la media poblacional,
6.6 (p. 211) para la diferencia de dos medias poblacionales,
6.7 (p. 215) para el parámetro de una población binomial,
6.8 (p. 219) para la diferencia entre dos parámetros binomiales.

Estos casos particulares se obtienen reemplazando en cada caso  por el estimador que

corresponda a  y   con la desviación estándar de  . (En Ejemplos de estimadores

insesgados en p. 2 de este apunte aparecen en cada caso las expresiones de  y   , y que
condiciones se deben cumplir. En particular, el tamaño de la/s muestra/s es n  30 para que el
estimador tenga una distribución aproximadamente normal).

Usando la tabla 4 se puede calcular


Coeficiente de confianza (1   z/2 LIC LSC
 
1   c    + c  
 
0.90 0.45 1.645   1.645    + 1.645  
 
0.95 0.475 1.96   1.96    + 1.96  
 
0.99 0.495 2.575   2.575    + 2.575  

Veamos como se obtienen los valores de z /2 para distintos valores de . Por ejemplo, se
quiere determinar el valor de z /2 para obtener un intervalo de confianza que tenga coeficiente de
confianza 1   = 90%= 0.9. Como
(1  0.45,
se debe ubicar en la tabla 4 de la normal, un valor de z /2 tal que
P(0 < z < z/2) = (1  
En la tabla 4, no hay ningún valor de probabilidad igual a 0.45, sin embargo los valores más
cercanos a 0.45 son
0.4495 que corresponde a P(0 < z < 1.64) ( P(0 < z < 1.64) = 0.4495 )
0.4505 que corresponde a P(0 < z < 1.65) ( P(0 < z < 1.65) = 0.4505 )
cumpliéndose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z/2 = (1.64 + 1.65) / 2 = 1.645.
Probabilidad y Estadística Estimación estadística 17

Nota: Se elige el valor de z/2 que dé la probabilidad que esté más cerca de (1  , o bien, si
(1   está a la mitad de dos valores de probabilidad se procede como en el caso anterior.

Ejemplo. Se quiere estimar la media  de una población. Se toma una muestra de tamaño n = 50
y se obtiene
x = 9.1 s = 0.24.
Encontrar un intervalo de confianza de 90% para .

Parámetro 
Estimador x (insesgado E( x ) =  y tiene una distribución de muestreo normal si el tamaño de
la muestra es grande).
Debemos encontrar z/2 tal que P(| x   | < z/2  x ) = 0.90
Según la tabla anterior, z/2 = 1.645. Así P(| x   | < 1.645  x ) = 0.90.
Como
x = 9.1
 x =  / n  s / n = 0.24 / 50  0.034
1.645  x  1.645  0.034  0.056
entonces
P(|9.1   | < 0.056) = 0.90

Conclusión: El intervalo
[9.1  0.056, 9.1 + 0.056] = [9.044, 9.156]
contiene a  con una probabilidad de 90%.

Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar
intervalos de confianza bilaterales. Se pueden determinar también los

Intervalos de confianza unilaterales de (1  )% para , usando un estimador insesgado



 que tiene una distribución muestral normal o aproximadamente normal.

[   z   , ) es un intervalo de confianza unilateral inferior de 1,

límite inferior de confianza: LIC =   z  

(,  + z   ] es un intervalo de confianza unilateral superior de 1,

límite superior de confianza: LSC =  + z  
donde z es tal que P(z < z ) = , o equivalentemente, P(z < z) = 1   (ver figura 6.9. p.
206)


TAMAÑO DE LA MUESTRA

Tal como dijimos la clase anterior, se supone que se trabaja con muestras aleatorias.
Ahora veremos como se determina el tamaño de la muestra de modo tal que el error de
estimación sea menor que una cierta constante B con una probabilidad de 1  , es decir,

P(|    | < B) = 1  

Como la cota para el error de estimación se expresa como z/2   , se busca un tamaño
de muestra n tal que
Probabilidad y Estadística Estimación estadística 18

z/2   = B.
Para la mayoría de los estimadores   depende de n. En particular, esto se cumple para
todos los estimadores que vemos en este curso (recordar expresiones para   para cada
estadística).

Ejemplo. Determinar el tamaño de la muestra para que el error al estimar la media  de una
población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó una muestra
de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24.

Se busca un tamaño de muestra n tal que


P(| x   | < 0.06) = 0.95
O equivalentemente, se busca un tamaño de muestra n tal que
z/2   = 0.06 con 1   = 0.95.
Como (1  )/2 = 0.475, según la tabla 4, P(0 < z < z/2) = (1  )/2 para
z/2 = 1.96
Se busca entonces un tamaño de muestra n tal que
z/2  x = 1.96  x = 1.96  / n = 0.06
de donde
2
 1.96  2
n=   .
 0.06 
 se desconoce pero se puede aproximar con el valor s que corresponde a la muestra de n = 50.
2
 1.96 
n=   2 = 61.5
 0 . 06 
es decir, n = 62.

Nota. Si no hubiéramos tenido la estimación s dada por una muestra anterior, podríamos haber
recurrido a la regla empírica para dar un valor aproximado de , siempre y cuando
conociéramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor valor
posible para las mediciones.
Esta regla nos dice que el intervalo (  2) contendrá aproximadamente 95% de las
mediciones. Este intervalo tiene longitud 4. Además supongamos que sabemos que las
mediciones caen en un intervalo de longitud 1. Luego
4   1    1 / 4 = 0.25.

______________________________________________________________________

También podría gustarte