Está en la página 1de 32

Estimación E Inferencia

ESTIMACION POR INTERVALOS


En el análisis de regresión, nuestro objetivo no sólo consiste
en estimar la función de regresión muestral (FRM), sino
también en utilizarla para obtener inferencias respecto de la
función de regresión poblacional (FRP).

Debido a que el método de MCO no hace ninguna suposición


respecto de la naturaleza probabilística de ui, resulta de poca
ayuda para el propósito de hacer inferencias sobre la FRP
mediante la FRM, a pesar del teorema de Gauss-Markov.

Este vacío puede llenarse si se supone que las u siguen una


determinada distribución de probabilidad.
En el contexto de regresión se supone, por lo general, que las
u tienen la distribución de probabilidad normal.
Si a los supuestos del modelo clásico de regresión lineal
(MCRL) analizados, se añade el supuesto de normalidad para
ui , obtenemos lo que se conoce como modelo clásico de
regresión lineal normal (MCRLN).

Supuesto de normalidad de ui

El modelo clásico de regresión lineal normal supone que cada


ui está normalmente distribuida con:

Media: Varianza:
cov(ui , uj):

Estos supuestos se expresan en forma más compacta


como:

Este teorema del límite central es el que proporciona una


justificación teórica para el supuesto de normalidad de ui “si
existe un gran número de variables aleatorias independientes
con idéntica distribución, entonces, con pocas excepciones,
la distribución de su suma tiende a ser normal a medida que
se incrementa al infinito el número de tales variables”.
Una variante del teorema del límite central establece que,
aunque el número de variables no sea muy grande, o si estas
variables no son estrictamente independientes, su suma
puede estar aun normalmente distribuida.

Con el supuesto de normalidad, se derivan con facilidad las


distribuciones de probabilidad de los estimadores de MCO,
pues, una propiedad de la distribución normal es que
cualquier función lineal de variables normalmente
distribuidas estará también normalmente distribuida.

Como ya analizamos, los estimadores de MCO ߈1 y ߈2 son


funciones lineales de ui . Por consiguiente, si ui está
normalmente distribuida, también lo están, lo cual hace que la
tarea de probar hipótesis sea muy fácil.
En la actualidad hay muchos datos transversales y de series
de tiempo con una cantidad relativamente grande de
observaciones.

Por tanto, el supuesto de normalidad puede no ser tan crucial


en conjuntos grandes de datos.

Advertencia: Como se está “imponiendo” el supuesto de


normalidad, es menester encontrar aplicaciones prácticas que
requieran tamaños pequeños de muestras en las que el
supuesto de normalidad resulte apropiado.
Propiedades de los estimadores de MCO bajo el supuesto
de normalidad
1. Son insesgados.
2. Tienen varianza mínima. En combinación con 1, esto
significa que son estimadores insesgados con varianza
mínima, o eficientes.
3. Presentan consistencia; es decir, a medida que el
tamaño de la muestra aumenta indefinidamente, los
estimadores convergen hacia sus verdaderos valores
poblacionales.
4. ߈1 está normalmente distribuida
Entonces, de acuerdo con las propiedades de la distribución normal,
la variable Z, definida como
sigue la distribución normal
estándar, es decir, una distribución
normal con media cero y varianza
unitaria (= 1), o

5. ߈2 está normalmente distribuida


está distribuida como la distribución
6.
χ2 (ji cuadrada), con (n - 2) gl.
se distribuyen de manera
7. independiente respecto de
tienen varianza mínima entre todas las clases de
estimadores insesgados, lineales o no lineales. Este
8. resultado, desarrollado por Rao, es muy eficaz
porque, a diferencia del teorema de Gauss-Markov,
no se limita a la clase de estimadores lineales.

Luego, se puede decir que los estimadores de mínimos cuadrados son


los mejores estimadores insesgados (MEI); es decir, tienen varianza
mínima en toda la clase de los estimadores insesgados.
tienen varianza mínima entre todas las clases de estimadores
insesgados, lineales o no lineales. Este resultado, desarrollado por
Rao.
Los estimadores de mínimos cuadrados son los mejores estimadores
insesgados (MEI); es decir, tienen varianza mínima en toda la clase
de los estimadores insesgados.
Para resumir: lo importante es que el supuesto de normalidad
permite derivar las distribuciones de probabilidad, o
muestrales, de ߈1 y ߈2 (ambas normales), y de
(relacionada con ji cuadrada).
A propósito, observe que si supone que ui ~ N(0, s2), Yi, al ser una
función lineal de ui , posee también una distribución normal con
una media y una varianza dadas por
BREVE REPASO DE LA ESTADISTICA NORMAL
1.- SI Z1, Z2, …….Zn son Variables aleatorias Normalmente
distribuidas y de forma independiente de modo que:

Entonces la suma Z con donde ki son constantes no


todas nulas, está también
normalmente distribuida
En resumen, las combinaciones lineales de las variables normales
están ellas mismas distribuidas normalmente.

2. Si Z1, Z2 , . . . , Zn están normalmente distribuidas pero no son


independientes, la suma Z = ki Zi , donde las ki son constantes y no
todas igual a cero, también está normalmente distribuida, con una
media ki µi y una varianza [ ki²σi² + 2 kikj cov (Zi, Zj), i ≠j].
3. Si Z1, Z2, . . . , Zn son variables aleatorias distribuidas de manera
normal e independiente de manera que cada Zi ~ N(0, 1), es decir, es
una variable normal estandarizada,
Entonces ƩZi² = Z1² + Z2² +···+ Zn² sigue la distribución ji
cuadrada con n gl.
De manera simbólica, Zi² ~ χ2 n , donde n representa los grados de
libertad, gl.

4. Si Z1 , Z2, . . . , Zn son variables aleatorias distribuidas


independientemente y cada una sigue una distribución ji cuadrada con
k i gl, entonces la suma Ʃ Zi = Z 1 + Z2 + · · · + Zn también sigue
una distribución ji cuadrada, con k = Ʃ k i gl.
5. Si Z1 es una variable normal estandarizada [Z1 ~ N(0, 1)] y otra
variable Z2 sigue la distribución ji cuadrada con k gl y es
independiente de Z1 , entonces la variable definida como

sigue la distribución t de Student, con k gl.

6. Si Z1 y Z2 son variables ji cuadrada independientemente


distribuidas, con k1 y k2 gl, respectivamente, entonces la variable
Tiene la distribución F con k1 y k2 grados
de libertad, donde k1 se conocen como los
grados de libertad del numerador y k2
como los grados de libertad del
denominador.
Estimación por intervalos y pruebas de hipótesis
La estimación y las pruebas de hipótesis constituyen las dos ramas
principales de la estadística clásica. La teoría de la estimación consta
de dos partes: estimación puntual y estimación por intervalos.
Debido a las fluctuaciones muestrales, es probable que una sola
estimación difiera del valor verdadero, aunque en un muestreo
repetido se espera que el promedio de los valores sea igual al valor
verdadero.

En estadística, la confiabilidad de un estimador puntual se mide


por su error estándar.
Por tanto, en lugar de depender de un solo estimador puntual, se
puede construir un intervalo alrededor del estimador puntual, por
ejemplo, dentro de dos o tres errores estándar a cada lado del
estimador puntual, tal que este intervalo tenga, por ejemplo, 95% de
probabilidad de incluir al verdadero valor del parámetro.
Ésta es, a grandes rasgos, la idea básica de la estimación por
intervalos.

Intervalo de confianza para 𝛽2 parámetro poblacional


(verdadero)

Tal intervalo, si existe, se conoce como intervalo de confianza;


a (1 – a) se le denomina coeficiente de confianza; y a (0 < a < 1)
se conoce como nivel de significancia
Los extremos del intervalo de confianza se conocen como límites de
confianza (también denominados valores críticos), con ߈2 - d como
límite de confianza inferior y ߈2 + d como límite de confianza
superior.
En la práctica, alfa y 1 – alfa suelen expresarse en forma
porcentual como 100 a y 100(1 - a)%.
Si a = 0.05, o 5%, debe leerse: la probabilidad de que el intervalo
(aleatorio) que allí aparece incluya al verdadero ß2 es de 0.95, o
95%.
El estimador por intervalo proporciona así una gama de valores
dentro de los cuales puede encontrarse el verdadero ß2.
Como el intervalo de confianza es aleatorio, los enunciados
probabilísticos que le corresponden deben entenderse en un sentido
de largo plazo, es decir, para muestreo repetido
± 1s el área es de un 68% , ± 2s el área es un 95% y ± 3s el área es
cercana a 99.7%.
Pero pocas veces se conoce sigma2 y, en la práctica, está
determinada por el estimador insesgado sˆ2
Si se reemplaza s por sˆ ,

Por consiguiente, en lugar de utilizar la distribución normal, se


puede utilizar la distribución t para construir un intervalo de
confianza para ß2 de la siguiente forma
Intervalo de confianza para ß2 a 100(1 - a)%:
ß* es el valor numérico hipotético de ß .
2 2
Análogamente se puede encontrar un intervalo para
beta 1
Intervalo de confianza para

Se puede usar
directamente
Intervalo de confianza a 95% para χ2 (11 gl).
INTERVALOS DE PREDICCION DE Yi PARA UN Xi DADO
Hay dos clases de predicciones: 1) la predicción del valor de la
media condicional de Y correspondiente a un valor escogido X, por
ejemplo, X0 , que es el punto sobre la línea de regresión poblacional
misma, y 2) la predicción de un valor individual Y correspondiente a
X0 .
Estas dos predicciones se llaman predicción media y predicción
individual.
Como Yˆ0 es un estimador, es probable que éste sea diferente de su
verdadero valor. La diferencia entre los dos valores dará alguna idea
del error de predicción o pronóstico.
Para evaluar este error es necesario encontrar la distribución
muestral de Yˆ0 .
Yˆ0 está normalmente distribuida con media (ß1 + ß2X0) y una
varianza dada por la siguiente fórmula:
Al reemplazar la σ² desconocida por su estimador insesgado σˆ ² ,
vemos que la variable

Sigue una distribución t con n - 2 gl. La distribución t sirve por


consiguiente para construir intervalos de confianza para el verdadero
E(Y0|X0) y pruebas de hipótesis acerca de tal valor de la manera
usual, a saber,
EFECTO DE BANDA DE CONFIANZA PARA LAS ESTIMACIONES

X
Predicción individual
Si lo que interesa es predecir un valor individual Y, Y0
correspondiente a un valor dado de X, digamos, X0 , entonces, el
mejor estimador lineal insesgado de Y0 está dado, por una varianza
que es la siguiente

Al sustituir σˆ² por la desconocida σ² , se colige que

también sigue una distribución t.


TALLER N° 3
SOLUCION GRUPAL EN SALA DE CLASES
SEMANA NIVEL SEMANAL DE VENTAS PRECIO DE VENTA GASTOS EN
(MILES DE LITROS) en centavos de PUBLICIDAD
dólar por litro cientos de dólares
1 10 130 9
2 6 200 7
3 5 170 5
4 12 150 14
5 10 160 15
6 15 120 12
7 5 160 6
8 12 140 10
9 17 100 15
10 20 110 21
SUMA 112 1440 114

a) Confeccione un modelo en dos variables que resulte adecuado


para la situación justifique adecuadamente e interprete
resultados.
b) Para su modelo calcule r y r² . interprete
c) Establezca un intervalo de confianza para cada uno de los
parámetros del modelo.

También podría gustarte