Está en la página 1de 16

UNIDAD VIII

ESTIMACIÓN DE PARÁMETROS

Antes de comenzar con la unidad, desarrollaremos una distribución para variable aleatoria
continua que es de interés para la compresión de los temas de inferencia estadística.

TEOREMA DEL LÍMITE CENTRAL

Si se obtiene una muestra de una población normal, entonces la media muestral tiene una
distribución normal sin importar el tamaño de la muestra. Sin embargo, se puede demostrar que de
hecho no importa el modelo de probabilidad del cual se obtenga la muestra; mientras la media y la

varianza existan, la distribución de muestreo de se aproximará a una distribución normal


conforme n aumente. Lo anterior constituye uno de los más importantes teoremas en inferencia
estadística y se conoce como TEOREMA DEL LÍMITE CENTRAL.

En muchos casos, puede concluirse en forma segura que la aproximación será buena
mientras n > 30.

DISTRIBUCIÓN MUESTRAL DE MEDIAS

El estudio de variables estudiadas en una población se pueden efectuar a través de diversas


muestras que pueden extraerse de ella.

El muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita o
finita. Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como
infinita. Vamos a estudiar inicialmente una población infinita (o a muestreo con reposición) y luego a
una población finita.

Sean las posibles muestras de tamaño n en una población. Cada muestra puede ser
representada o caracterizada por un estadístico (media, desviación típica, proporción, etc.) cuyo valor
será diferente para cada muestra. Si tomamos como variable aleatoria el valor del estadístico de cada
muestra, tendremos una distribución del estadístico que se llama distribución muestral. En el
ejemplo que desarrollaremos, será distribución muestral de medias (porque caracterizamos a las
muestras a través de sus promedios aritméticos).

Las medidas fundamentales de esta distribución son la media aritmética y la desviación


estándar.
Hay que hacer notar que aplicando el teorema del límite central podemos decir que si el
tamaño de la muestra es lo suficientemente grande las distribuciones muestrales se comportan
normalmente (siguen al modelo de distribución normal) y en esto se basarán todos los resultados que
alcancemos.
-El siguiente ejemplo tiene fines didácticos

Supongamos que podemos saber los valores que toma una variable para la población en
estudio

Tomamos a 2,3,6,8,11; valores de una población. La caracterizamos a través de su media, de su


varianza y desvío.

σ = 3,29

Podríamos estudiar a esta variable a través de muestras, seleccionando a los valores


muestrales con reposición. Podemos decir que la población es infinita (es infinita dado que podemos
realizar infinitas medidas del tamaño elegido). Ejemplo: tomamos muestras con reposición de tamaño
2, para realizar esto, podemos pensar que escribimos cada uno de los cinco valores en respectivos
papeles y los colocamos en una bolsa, sacamos un papel al azar, anotamos el valor y lo reponemos a
la bolsa nuevamente. De esta forma podemos anotar infinitas muestras de tamaño 2.

¿Cuántas muestras distintas de tamaño 2 podemos sacar?. La respuesta se obtiene al aplicar


las técnicas de conteo, en este caso corresponde variación con reposición de cinco elementos tomados
en grupos de dos. Entonces la cantidad de muestras distintas de tamaño 2 es 52 = 25, estas son

(2,2) (2,3) (2,6) (2,8) (2,11)


(3,2) (3,3) (3,6) (3,8) (3,11)
(6,2) (6,3) (6,6) (6,8) (6,11)
(8,2) (8,3) (8,6) (8,8) (8,11)
(11,2) (11,3) (11,6) (11,8) (11,11)

Podemos representar a estas muestras a través de algún estadístico, la elección para esta
distribución es el estadístico media muestral ( ). Las representaciones serán:
Ahora pensemos que nuestra variable es la media muestral. La gráfica de la distribución de
probabilidades es:

Si queremos caracterizar a esta media lo haremos a través de sus estadísticos media y varianza que
por ser una distribución especial tienen sus símbolos identificatorios:

: media de medias muestrales

: varianza de la distribución muestral de medias.

Realizando el cálculo

Con este cálculo podemos comparar la media poblacional con la media muestral de medias y
observamos que son iguales.

Concluimos que podemos estimar al parámetro µ con el estadístico y que esa estimación es
insesgada.

Si calculamos

Observamos que si bien tienen relación el estadístico con el parámetro no es de igualdad. Para
establecerla deberíamos corregir con el factor 2:
Si hubiésemos trabajado con muestras de tamaño n = 3, el factor de corrección sería este número.
Entonces generalizando.

Para el desvío

Si tomáramos a una población finita de tamaño N, se comprueba que también

Pero para la estimación de la medida de dispersión obtenemos un factor de corrección distinto:

ESTIMACIÓN DE PARÁMETROS

El objetivo más importante de la Estadística Inferencial, es obtener información con respecto


a la población basándose en la contenida en una muestra. Las poblaciones se describen mediante
medidas numéricas denominadas parámetros, vamos entonces a deducir a partir de los estadísticos
una inferencia con respecto a uno o más parámetros de la población.

Se han estudiado, hasta el momento, las nociones fundamentales de distribución de


probabilidades; se está en condiciones, entonces, de tratar los métodos de inferencia estadística, los
cuales comprenden los procedimientos para estimar parámetros de poblaciones y probar (contrastar)
si una afirmación sobre un parámetro poblacional se ve apoyada o no ante la evidencia de la muestra.

En general, hay dos tipos de inferencia, una inferencia deductiva que es un juicio o
generalización que se basa en un razonamiento como el que realiza Laplace en la definición clásica
de probabilidad de Laplace o “a priori”.
Por ejemplo, al lanzar dos monedas perfectamente equilibradas, la probabilidad de cada una
de caer "cara" o “cruz” es = 0,5 (premisa). El número esperado de "caras" en el lanzamiento de las
dos monedas deber ser 1. Si las premisas son ciertas, las conclusiones no pueden ser falsas.

La otra inferencia inductiva, es un juicio o generalización derivado de observaciones


empíricas o experimentales, como la correspondiente a la frecuencia relativa de Von Mises o
probabilidad “a posteriori”. Para el mismo ejemplo, la conclusión sobre el número promedio de
"caras" están basados en los resultados de una muestra. Se llega a la inferencia estadística a través de
generalizaciones respecto de las características de una población, al valerse de observaciones
empíricas de la muestra.

Un estadístico muestral será en general diferente del parámetro de la población y sólo por
coincidencia serán iguales. La diferencia entre el valor de un estadístico muestral y el
correspondiente parámetro de la población se suele llamar error de estimación (e). Se sabrá el error
si se conoce el parámetro poblacional, pero éste por lo general se desconoce. La única manera de
tener alguna certeza al respecto es haciendo todas las observaciones posibles de la población, lo cual,
es imposible o impracticable. De hecho, la razón de ser, de la inferencia estadística es la falta de
conocimientos acerca de las características de la población.

Conociendo la media muestral, X o la media muestral de medias, µ X (el promedio de las


medias muestrales), se hacen inferencias sobre la media poblacional, µ.

Los problemas que se tratan en la inferencia estadística se dividen en dos clases:

- problemas de estimación

- pruebas de hipótesis.

Como al inferir un parámetro poblacional desconocido se suele hacer una afirmación o juicio,
este último sólo ofrece una estimación.

En esta unidad trataremos problemas de estimación y en la siguiente, pruebas de hipótesis.

Una estimación, es un valor particular obtenido a partir de observaciones de la muestra. No


hay que confundir este concepto con el de estimador, que se refiere a la regla o método de estimar un
parámetro poblacional.

Se dice que µ X es un estimador de µ porque la media muestral de medias, proporciona un


método para estimar la media de la población. Un estimador es por naturaleza un estadístico y como
tal tiene una distribución probabilidades. El procedimiento mediante el cual se llega a la obtención y
se analizan los estimadores se llama estimación estadística, que a su vez se divide en estimación
puntual y estimación por intervalos.

ESTIMACIÓN
La inferencia estadística, se aplica en la investigación empírica, para lograr conocimiento de
una gran clase de unidades estadísticas (seres humanos, plantas, parcelas de tierra…), a partir de un
número relativamente pequeño de los mismos elementos.

Los métodos de inferencia estadística emplean un razonamiento que va de lo particular a lo


general y de lo observado a lo no observado.

Una colección o agregación grande de elementos que deseamos estudiar, o de los cuales
deseamos hacer inferencias, se llama población. El término población tiene mayor significado
cuando hablamos de muestra de una población, es decir, una parte o subconjunto de ella.

Una muestra de n elementos de la población que consta de N elementos, debería ser


seleccionada de forma tal que las características de la población puedan ser estimadas con un margen
de error conocido.

Los valores de las medidas descriptivas calculadas para las poblaciones, se llaman
parámetros. Para las muestras, estas mismas medidas descriptivas se llaman estadísticos.

Un “parámetro” describe una población mientras que un “estadístico” describe a una


muestra

Se acostumbra simbolizar los estadísticos con letras latinas (romanas) y los parámetros con
letras griegas.

Estadístico Parámetro
Media aritmética X µ
Variancia S2 σ2
Desvío estándar S σ
Coeficiente de correlación R ρ

Un estadístico calculado a partir de una muestra da un estimador del parámetro de la


población.

La media de las medias muestrales, µ X , es un estimador de la media µ en la población.

Las poblaciones pueden ser finitas o infinitas. Para la mayoría de los propósitos de
investigación, se supone que las poblaciones son infinitas.

Una población finita puede ser extremadamente grande. Es posible concebir un proceso de
conteo de los elementos de la población, el cual puede ser computado; luego la población es
técnicamente finita.
Para que una muestra sirva adecuadamente como base para obtener estimadores de
parámetros poblacionales, debe ser representativa de la población. El muestreo aleatorio de una
población producirá muestras que son representativas de la población.

Si una muestra se extrae al azar, es representativa de la población en todos los aspectos, o sea,
el estadístico diferirá del parámetro sólo por azar. La habilidad para estimar el grado de error (error
de muestreo), es un rasgo importante de una muestra aleatoria.

ESTIMACIÓN DE PARÁMETROS

La teoría clásica de la Inferencia Estadística trata los métodos por los que se selecciona una
muestra de una población y, basándonos en las pruebas de las muestras, podemos realizar:

- Estimación de un parámetro, consiste en estimar el valor de un parámetro desconocido,


llamémoslo θ.

- Prueba de una hipótesis acerca de un parámetro, consiste en verificar si θ es o no igual a


cierto valor predeterminado, por ejemplo θ 0.

Estimación puntual

Un estimador puntual es un único valor, el cual se considera va a estimar a un parámetro. La


expresión E ( X ) = µ , sugiere que el único valor de la media es un estimador puntual insesgado de µ.

Estimación por intervalos

Un estimador por intervalo, se construye sobre el concepto de un estimador puntual, pero


además, proporciona algún grado de exactitud del estimador. Como el término lo sugiere, es un rango
o banda dentro del cual se encontrará el parámetro.

PROPIEDADES DE UN BUEN ESTIMADOR

Para poder utilizar la información que se tenga de la mejor manera posible, se necesita que
sean buenos estimadores, para ello se deberá cumplir:

a) Insesgabilidad: Si se utiliza un estadístico muestral, por ejemplo X , se dice que µ X es un


estimador insesgado de µ, si µ X = E[X ] = µ , coincide con el parámetro µ que desea estimar.

x1 + x2
b) Eficiencia: Si se utilizan dos estimadores del mismo parámetro ( X y con x1 y x2 valores
2
extremos de lo muestra), entonces aquel cuya distribución muestral tenga menor variancia, es un
estimador más eficiente o más eficaz que el otro. Es decir:
X es eficiente ⇔ σ X2 es mínima

c) Consistencia: Si X es un estimador muestral calculado a partir de una muestra de tamaño n y µ


es el parámetro de población, entonces X es un estimador consistente de µ, si la probabilidad de que
el valor absoluto de la diferencia entre X y su esperanza iguala o supera a e (error admitido), tenderá
a cero cuando el número de elementos de la muestra tienda a infinito. En símbolos:

P{| X − µ | ≥ e} → 0 si n → ∞

O equivalentemente: P{| X − µ | ≤ e} → 1 si n → ∞

Es decir, para que el estimador sea consistente, es necesario que la probabilidad de X que
esté a menos de cierta distancia "e" del parámetro µ, tienda a 1 al tender n a infinito.

Se sabe que la media muestral y la variancia son estimadores consistentes ya que tienden a
acercarse a los correspondientes valores de la población a medida que aumenta el tamaño de la
muestra. Pero un estadístico muestral puede ser un estimador sin consistencia.

Por ejemplo, si el valor de la primera observación o la media entre la primera y última


observación de una muestra se utilizaran para estimar la esperanza de la población, tal estimador no
sería consistente pues no tiende a acercarse más y más al valor de la población cuando se aumenta el
tamaño de la muestra.

d) Suficiencia: Un estimador suficiente del parámetro µ es aquel que agota toda la información
pertinente sobre µ que se puede disponer en la muestra. Por ejemplo, si se toma una muestra de n =
30 valores, con el fin de estimar µ, pueden utilizarse como estimadores la primera, la décimo quinta o
la última observación, o el promedio entre la primera y la quinta observación. Pero estos estimadores
no son suficientes pues no contienen toda la información disponible de la muestra. La media
aritmética X calculada con las 30 observaciones sí lo es pues las tiene en cuenta a todas.

En definitiva, la media aritmética muestral es un estadístico, ya que satisface los criterios o


propiedades de un "buen” estimador.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a
través de un único valor. Esta estimación no es muy conveniente pues con ella no se puede
determinar el error de muestreo, ni la precisión de la estimación, ni la confianza que merece tal
estimación.

Existen otros métodos para estimar parámetros poblacionales que son mucho más precisos.
Por ejemplo:

Método de los mínimos cuadrados: se verá en Teoría de la Regresión.


Método de los momentos: no se desarrollará.

Método de la máxima verosimilitud: que se basa en el principio de que generalmente ocurre


lo más probable (no se desarrollará)

El tema que trataremos es el “Método de estimación por intervalos de confianza”

El procedimiento de determinar un intervalo [a, b] que comprenda un parámetro de población,


por ejemplo µ, con cierta probabilidad 1 - α, se llama estimación por intervalos. Se verán los casos
paramétricos, es decir aquellos en los que se tiene conocimiento del tipo de distribución de la
población (Binomial, Poisson, Normal, etc.)

Para una distribución muestral de medias de parámetro µ y su correspondiente estimador X ,


el intervalo de confianza será:

P{X − Z cσ X ≤ µ ≤ X + Z cσ X } = 1 − α

Donde:

X − Z cσ X es el límite inferior del intervalo de confianza.

X + Z cσ X es el límite superior del intervalo de confianza.

Z c es una constante no negativa. Es el llamado multiplicador o valor crítico correspondiente a 1-α.

α es la probabilidad de que el intervalo no incluya el verdadero valor del parámetro.

NIVEL DE CONFIANZA: 1-α es una medida de la fiabilidad de la estimación.

Por ejemplo, si se toma α = 0,1, entonces 1-α = 0,9 y se dice que se tiene un intervalo de
confianza del 90% y que la probabilidad de que el intervalo contenga al verdadero valor del
parámetro es del 90%. Es decir, que si repetidamente se muestra y se construye tal intervalo una y
otra vez, 9 de cada 10 de estos intervalos, contendrá al parámetro y 1 de ellos no.

Se puede pensar que 1 significa certeza, seguridad y α significa riesgo. La seguridad menos
el riesgo, es decir 1 - α da, por lo tanto, el coeficiente de confianza de nuestras afirmaciones.

En el caso anterior, se tiene una confianza de que 9 de cada 10 intervalos que se extraigan
como muestra, contendrán el verdadero valor del parámetro. Pero una vez determinado el intervalo,
es decir, una vez calculados numéricamente los extremos, ya no debe hablarse en términos de
confiabilidad ni en términos probabilísticos, pues la situación pasa a ser completamente
determinística. De forma tal que, asociado a un intervalo de confianza ya calculado, se tiene una
probabilidad 0 ó 1 de que contenga al parámetro a estimar y no hay otra opción, ya que lo contiene o
no lo contiene.
Los extremos del intervalo son variables aleatorias, mientras que el parámetro a determinar es
constante.

En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza,
son:

- Fijar el coeficiente de confianza que se desea en la estimación.

- Extraer la muestra y calcular el o los estadísticos necesarios.

- Determinar la distribución en el muestreo que tiene el estadístico empleado.

INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL µ

CASO 1

“ σ conocido”

Sea donde µ es desconocido y σ conocido.


Sea x1, x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea la media muestral.

Estamos estudiando un elemento de una distribución muestral de medias. Para representarla a partir de
la distribución Z, la fórmula de tipificación será:

X − µX X −µ
Z= en función de los valores poblacionales Z =
σX σ
n

Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el cambio medio de presión


sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30 pacientes y se
halló que . Los investigadores saben que la desviación estándar de los cambios de
presión sanguínea para todos los pacientes es según estudios anteriores. Ellos desean
estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza,
suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución
normal de probabilidad.
Respuesta:

Por tabla obtenemos: llamamos a zeta crítico

Para un nivel de confianza del 95%

X = cambio en la presión sanguínea por paciente del sanatorio

n = 30 1 - α = 0,95

Por tabla: Entonces:

Límite inferior (LI) = mHg

Límite superior (LS) = mHg

Por lo tanto resulta el Intervalo del 95% de confianza para la media:


ICM0,95 = (136,4 ; 143,58)
Luego, puede decirse que el cambio medio en la presión sanguínea por paciente, pertenece al
intervalo (136,4 ; 143,58) en mmHg, con un nivel de confianza del 95%.
Observación: Nótese que se cae en un abuso de lenguaje pues se debería decir que el intervalo
(136,4 ; 143,58) mmHg pertenece a la sucesión que ofrece un nivel de confianza del 95% para
estimar el cambio medio de presión sanguínea, pero se simplifica la expresión para hacerla menos
engorrosa o extensa.

Si consideramos un intervalo desde un valor -Zc hasta un valor Zc, de la distribución normal
tipificada Z , tal que al intervalo [-Zc, Zc] le corresponda el 95% del área bajo la curva (llamado nivel
de confianza)

Tamaño óptimo de muestra:


determina el error máximo admitido de muestreo e indica la precisión de la estimación.
Lógicamente se pretende que sea lo más pequeño posible. Por otra parte, (1 - α) es el coeficiente de
confianza y se pretende que sea lo más grande posible. Pero depende del valor de α y al hacer
mayor el coeficiente de confianza (1 - α ), el valor será mayor y por lo tanto el error aumentará.
Esto se puede regular aumentando el tamaño de la muestra con lo que el error disminuirá.
Para el ejemplo , con un nivel de confianza del 95%.
Si se desea elevar el nivel de confianza a 99%, pero sin aumentar el error e de estimación, el tamaño
de la muestra debería ser:

O sea que debe tomarse una muestra de aproximadamente 52 pacientes en lugar de 30. Por el
contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 mmHg,
manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será:

CASO 2 Con σ desconocido

Para estimar σ se debe utilizar el desvío estándar muestral corregido.

, ya que según se ha visto, es un estimador insesgado del correspondiente parámetro

poblacional σ . Reemplazando en la variable tipificada por resulta:

Con γ = n-1 grados de libertad

Por lo tanto:
Ejemplo 2:

Una muestra de 15 aves tomadas al azar en un establecimiento con 5000 aves, (que elabora
alimentos balanceados), permitió establecer un aumento de peso promedio de 90 gf por semana y por
ave, y un desvío típico de 10 gf. Se busca estimar el incremento de peso promedio para las 5000 aves
del establecimiento con un intervalo de confianza del 90%.

Respuesta:

La variable aleatoria X . aumento de peso por ave

n = 15 = 90 g S = 10 g ¿ICM0,90?

Por tabla:

y el intervalo resulta:

Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento
está entre 85,5 y 94,6 gf, con un 90% de confianza.
EJERCITACIÓN

1) Una población consiste de cuatro números 5, 8, 10 y 13. Considere todas las muestras posibles
de tamaño 2 que pueden obtenerse con reemplazo de esta población. Calcule:
a.- la media poblacional.

b.- la desviación estándar poblacional.

c.- la media de la distribución muestral de medias.

d.- la desviación estándar de la distribución muestral de medias.

2) Resuelva el problema anterior si el muestreo fuera sin reemplazo.

3) Hallar la probabilidad de que en 120 lanzamientos de una moneda entre el 40 % y el 60 % sean


caras.

4) Cada persona de un grupo de 500 lanza una moneda 120 veces. ¿Cuántas personas se esperaría
que reportaran que:
a.- entre 40 % y 60 % de sus lanzamientos resultaron caras?

b.- 5/8 o más de sus lanzamientos cayeron caras?

5) Los focos del fabricante A tienen una vida media de 1400 horas, con desviación estándar de 200
horas, mientras que la vida promedio de los focos del fabricante B de 1200 horas, con una
desviación estándar de 100 horas. Si se prueban muestras aleatorias de 125 focos de cada marca,
a.- ¿cuál es la probabilidad de que los focos de la marca A tengan una vida media de por lo
menos 160 horas más que los focos de la marca B?

b.- ¿cuál es la probabilidad de que los focos de la marca A tengan una vida media de por lo
menos 250 horas más que los focos de la marca B?

6) En una muestra de cinco mediciones, los registros de un científico para el diámetro de una
esfera fueron 6,33; 6,37; 6,36; 6,32 y 6,37 cm. Determine estimadores sin sesgo y eficientes
de:
a.- La media poblacional.
b.- La varianza poblacional.

7) Escriba V (verdadero) o F (falso) según corresponda:


8)
a En Estadística, el término población se usa para referirnos al conjunto de personas
que constituyen el grupo en estudio.

b Siempre será posible y no habrá dificultades en disponer del conjunto de todas las
observaciones que constituyen la población estudiada.

c Cualquier subconjunto de una población, constituye una muestra representativa de


la población en estudio.

d Cualquier procedimiento de muestreo que produzca inferencias que sobreestimen o


subestimen de forma consistente alguna característica de la población, se dice que
está insesgado.

e Si tomamos una muestra de una población normal con media µ y varianza σ2


conocida, la distribución muestral de X será normal con media µ y varianza σ 2/n,
donde n es el tamaño de la muestra.

f La aproximación normal para la distribución de la media muestral, en general será


buena si n < 30, sin importar la distribución de la población.

g La distribución muestral de medias se puede utilizar cuando no se conoce el desvío


poblacional y se conoce la media poblacional.

h La teoría de la inferencia estadística consiste en aquellos métodos mediante los


cuales se realizan inferencias o generalizaciones acerca de una población, a partir
de la información de una muestra aleatoria extraída de dicha población.

i Una de las propiedades deseables que debe reunir un estimador, es que sea sesgado.

j La varianza muestral es un estimador insesgado del devío poblacional.

k Todas las estadísticas son estimadores sesgados del parámetro poblacional.

l El estimador más eficiente de un parámetro poblacional θ es el que cumple la


condición de tener varianza nula.

m Al construir un intervalo de confianza para estimar la media de una población, se


debe tener en cuenta la distribución de la población (si es normal, no normal o
desconocida).
n Al construir un intervalo con un nivel de confianza del 95 %, por ejemplo, es
posible conseguir mayor precisión en la estimación, se trabaja con una muestra de
tamaño menor que 30.

También podría gustarte