Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTIMACIÓN ESTADÍSTICA
BREVE RESUMEN.
Lo que hemos estudiado hasta ahora son herramientas para desarrollar la estadística
inferencial que permite conocer características de la población a partir de la información
contenida en una muestra.
Se vieron las formas en que pueden describirse un conjunto de datos. Los métodos
gráficos, básicamente la tabla de frecuencias relativas y el histograma, y las medidas
descriptivas numéricas: media, varianza, desviación estándar. La estadística inferencial busca
describir la población con estos gráficos y medidas descriptivas numéricas a partir de conocer
como son para la muestra.
Se estudió el concepto de probabilidad que provee de un método para medir que tan
buena es la inferencia. Además permite razonar de la población a la muestra, pues si se conoce
la distribución de probabilidad (teórica) de una variable aleatoria es posible saber como va a ser
aproximadamente la distribución de frecuencias relativas si se obtiene una muestra de los
valores de esta variable, o la probabilidad de obtener un resultado particular. Se estudiaron dos
tipos de distribución de probabilidad, las discretas y las continuas.
Por último se vieron las distribuciones muestrales que nos dicen como se distribuyen los
valores de las estadísticas (que son las medidas descriptivas numéricas obtenidas de una
muestra) al tomar diferentes muestras del mismo tamaño. En este tema vimos parte de la
importancia que tiene la distribución normal ya que muchas estadísticas tienen distribución de
muestreo aproximadamente normal cuando el tamaño de la muestra es grande. Las estadísticas
se usan para aproximar los parámetros y conocer las distribuciones muestrales de las estadísticas
permite evaluar que tan confiable o buena es la aproximación.
Hay dos formas de realizar inferencias acerca de un parámetro poblacional: podemos
estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hipótesis acerca de su
valor (esto lo vamos a estudiar la próxima clase).
TIPOS DE ESTIMADORES
Estimación por intervalo: la estimación se representa mediante dos números que determinan
un intervalo sobre la recta.
Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se puede
dar la estimación diciendo que la altura media es de 1.65 m (estimación puntual) o bien decir
que la altura media estará entre 1.6 m y 1.7 m (estimación por intervalo).
Un estimador puntual utiliza los datos de la muestra para obtener un número que estima
el valor del parámetro.
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores
numéricos entre los cuales se supone que está el valor del parámetro estimado.
Probabilidad y Estadística Estimación estadística 12
Se pueden usar distintos estimadores para estimar un mismo parámetro. Por ejemplo
para estimar la media poblacional se puede usar la media muestral, la mediana, la moda, el
promedio entre el valor más chico y más grande de la muestra, etc..
Cada estimador obtenido de muestras de tamaño fijo n, varía con cada muestra que se
toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse sus
distribuciones muestrales (similar a los estadísticos que se estudiaron la clase pasada).
La distribuciones de muestreo de los estimadores se usan para compararlos y decidir
cual de todos es el mejor. Se prefiere un estimador que tenga una distribución muestral cuya
media coincida con el parámetro que se desea estimar y cuya extensión o dispersión (medida
con la variancia) sea lo menor posible.
Notación. Si denota un parámetro entonces denotará la estadística correspondiente.
Como dijimos anteriormente, se prefiere una estadística que tenga una distribución
muestral cuya media coincida con el parámetro que se desea estimar. Un estimador de este tipo
se llama insesgado.
Si es un estimador de un parámetro y si la media de la distribución de es , es decir,
E( ) = ,
entonces se dice que es un estimador insesgado. De otra manera, se llama sesgado.
En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos estimadores ,
el primero insesgado, E( ) = y el segundo sesgado, E( ) > . Si se calcula una vez lo
más probable es que se encuentre cerca de la media E( ). Entonces en el primer caso lo más
probable es que se encuentre cerca de y en el segundo que sea más grande que .
Se prefiere una estadística que además tenga una distribución muestral cuya extensión o
dispersión (medida con la variancia) sea lo menor posible. Nota: Para simplificar se habla de
variancia del estimador para referirnos a la variancia de la distribución muestral del estimador.
En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores
insesgados , E( ) = . Si se calcula una vez , en ambos casos, lo más probable es que se
encuentre cerca de la media E( ). Pero como la desviación estándar del primero es menor que
la del segundo, es más probable que en el primer caso se encuentre más cerca de la media que
en el segundo caso.
En base a lo anterior se elige de todas las estadísticas disponibles aquella con el menor
sesgo y variancia posible. Más aún, el mejor estimador posible es aquel que es insesgado y que
de todos los insesgados tiene la menor variancia, a este estimador se lo llama estimador
insesgado de menor variancia (EIMV).
En este curso definiremos poblaciones y los parámetros de interés y se dirá en cada caso
cual es el estimador adecuado, su media y su desviación estándar.
x 12 22
1 x2
=
n1 n2
Observar que en cada caso, se toma como estimador la estadística que corresponde al
parámetro que se quiere estimar.
La media muestral, la proporción muestral, la diferencia de medias muestrales y la
diferencia de proporciones muestrales tienen una distribución de muestreo que se aproxima a
una normal cuando el tamaño de la/s muestra/s es grande. Como regla práctica se supone que
esto se cumple cuando n 30.
Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante
supondremos que n 30, y que trabajamos con un estimador insesgado de que tiene una
distribución normal.
Como se desea que este error sea lo menor posible, interesa saber si es menor que una
cierta cota que se suele expresar en términos de la desviación estándar del estimador:
Cota para el error de estimación. c .
Ahora bien, no se puede saber si | | < c pues desconocemos . Sin embargo,
conociendo las características de la distribución de , se puede calcular la probabilidad de que
| | < c , es decir,
P(| | < c )
Por ejemplo, si c = 1.96 y suponiendo que la distribución de es normal,
P(| | < 1.96 ) = 0.95
En la siguiente figura aparece el área correspondiente.
Ejemplo. Se quiere estimar la media de una población. Se toma una muestra de tamaño n = 50
y se obtiene x = 9.1, s = 0.24. Dar una estimación para y evaluar la exactitud de la
estimación con c = 1.96.
Parámetro
Estimador x (insesgado E( x ) = y tiene una distribución de muestreo normal si el tamaño de
la muestra es grande).
Estimación para : 9.1.
Cota para el error de estimación (usando s para aproximar ):
1.96 x = 1.96 / n 1.96 s / n = 1.96 0.24 / 50 0.07.
Como
P(| x | < 1.96 x ) = 0.95 P(| x | < 0.07) = 0.95
podemos decir que
la probabilidad de que el error de estimación sea menor que 0.07 es de 95%.
En la siguiente figura aparece el área correspondiente.
Probabilidad y Estadística Estimación estadística 15
INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numéricos
entre los cuales se dice que está el valor del parámetro estimado.
Supongamos que queremos estimar la media de una población.
Se toma una muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a1, b1]. Se espera que [a1, b1] contenga a , pero puede suceder que esto no ocurra.
Se toma otra muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a2, b2]. Se también en este caso que [a2, b2] contenga a , pero igual que antes puede
suceder que esto no ocurra.
Se puede repetir este procedimiento varias veces, digamos m, obteniéndose un conjunto
de intervalos [a1, b1], [a2, b2], ..., [am, bm].
Se espera que el estimador por intervalo, es decir, el procedimiento que se está usando
para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos contenga a .
El razonamiento anterior se puede hacer con cualquier otro parámetro .
Más general, para establecer el intervalo de confianza con nivel de confianza (1 )%,
sea z la normal estandarizada correspondiente a : z = .
P(| | < c ) = 1 P(| z | < c ) = 1
Probabilidad y Estadística Estimación estadística 16
Nota: Intervalos de confianza para parámetros particulares aparecen en los recuadros de las
secciones:
6.5 (p. 207) para la media poblacional,
6.6 (p. 211) para la diferencia de dos medias poblacionales,
6.7 (p. 215) para el parámetro de una población binomial,
6.8 (p. 219) para la diferencia entre dos parámetros binomiales.
Estos casos particulares se obtienen reemplazando en cada caso por el estimador que
corresponda a y con la desviación estándar de . (En Ejemplos de estimadores
insesgados en p. 2 de este apunte aparecen en cada caso las expresiones de y , y que
condiciones se deben cumplir. En particular, el tamaño de la/s muestra/s es n 30 para que el
estimador tenga una distribución aproximadamente normal).
Veamos como se obtienen los valores de z /2 para distintos valores de . Por ejemplo, se
quiere determinar el valor de z /2 para obtener un intervalo de confianza que tenga coeficiente de
confianza 1 = 90%= 0.9. Como
(1 0.45,
se debe ubicar en la tabla 4 de la normal, un valor de z /2 tal que
P(0 < z < z/2) = (1
En la tabla 4, no hay ningún valor de probabilidad igual a 0.45, sin embargo los valores más
cercanos a 0.45 son
0.4495 que corresponde a P(0 < z < 1.64) ( P(0 < z < 1.64) = 0.4495 )
0.4505 que corresponde a P(0 < z < 1.65) ( P(0 < z < 1.65) = 0.4505 )
cumpliéndose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z/2 = (1.64 + 1.65) / 2 = 1.645.
Probabilidad y Estadística Estimación estadística 17
Nota: Se elige el valor de z/2 que dé la probabilidad que esté más cerca de (1 , o bien, si
(1 está a la mitad de dos valores de probabilidad se procede como en el caso anterior.
Ejemplo. Se quiere estimar la media de una población. Se toma una muestra de tamaño n = 50
y se obtiene
x = 9.1 s = 0.24.
Encontrar un intervalo de confianza de 90% para .
Parámetro
Estimador x (insesgado E( x ) = y tiene una distribución de muestreo normal si el tamaño de
la muestra es grande).
Debemos encontrar z/2 tal que P(| x | < z/2 x ) = 0.90
Según la tabla anterior, z/2 = 1.645. Así P(| x | < 1.645 x ) = 0.90.
Como
x = 9.1
x = / n s / n = 0.24 / 50 0.034
1.645 x 1.645 0.034 0.056
entonces
P(|9.1 | < 0.056) = 0.90
Conclusión: El intervalo
[9.1 0.056, 9.1 + 0.056] = [9.044, 9.156]
contiene a con una probabilidad de 90%.
Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar
intervalos de confianza bilaterales. Se pueden determinar también los
TAMAÑO DE LA MUESTRA
Tal como dijimos la clase anterior, se supone que se trabaja con muestras aleatorias.
Ahora veremos como se determina el tamaño de la muestra de modo tal que el error de
estimación sea menor que una cierta constante B con una probabilidad de 1 , es decir,
P(| | < B) = 1
Como la cota para el error de estimación se expresa como z/2 , se busca un tamaño
de muestra n tal que
Probabilidad y Estadística Estimación estadística 18
z/2 = B.
Para la mayoría de los estimadores depende de n. En particular, esto se cumple para
todos los estimadores que vemos en este curso (recordar expresiones para para cada
estadística).
Ejemplo. Determinar el tamaño de la muestra para que el error al estimar la media de una
población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó una muestra
de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24.
Nota. Si no hubiéramos tenido la estimación s dada por una muestra anterior, podríamos haber
recurrido a la regla empírica para dar un valor aproximado de , siempre y cuando
conociéramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor valor
posible para las mediciones.
Esta regla nos dice que el intervalo ( 2) contendrá aproximadamente 95% de las
mediciones. Este intervalo tiene longitud 4. Además supongamos que sabemos que las
mediciones caen en un intervalo de longitud 1. Luego
4 1 1 / 4 = 0.25.
______________________________________________________________________