Está en la página 1de 60

ESCUELA DE ESTADISTICA

MODELOS DE REGRESIN
APLICADOS

CAPITULO III CONSTRUCCIN


DEL MODELO

Presentado por Gilbert Brenes Camacho


2014
Contenidos

Transformaciones de Box-Cox.
Mnimos cuadrados ponderados.

Componentes principales.

Regresin robusta.

Regresin polinomial.

Evaluacin de la precisin en casos


no estndar: bootstrap.
Validacin del modelo.
OBJETIVO GENERAL

Comprender y aplicar una serie de


medidas remediales ante la
presencia de violaciones a los
supuestos de MCO
TRANSFORMACIONES EN
GENERAL Y EL CASO ESPECIAL
DE LAS TRANSFORMACIONES
DE BOX-COX
Objetivos

Comprender en qu consisten las transformaciones en


general.
Discutir el procedimiento de la transformacin de Box-
Cox
Supuestos sobre la distribucin de los errores

1. Independencia de errores o no autocorrelacin - dados


dos valores cualesquiera de X (i.e. xi y xj), la correlacin
entre i y j es nula => Cov [i , j]=0.
2. Normalidad - la distribucin de los errores para cada valor
Xi sigue una distribucin normal con valor esperado de la
distribucin condicional igual a 0 (E[ | Xi]=0).
3. Homoscedasticidad - la variancia de los errores para cada
valor Xi es constante => Var[ | Xi]=2.

~ N (0, I ) 2
Supuestos sobre las variables

1. Relacin lineal entre los predictores y la respuesta el


valor esperado de la respuesta sigue una funcin lineal de
X (recta, plano, etc).
2. No multicolinealidad no debe haber una relacin lineal
perfecta entre los predictores.
Transformaciones
Cundo se utilizan las
transformaciones?

Ante la ausencia de linealidad

Presencia de valores extremos

Falta de normalidad de los residuos.

Modelo terico lo requiere.


Diagnsticos de linealidad: Grficos de
residuos: Modelo cuadrtico en x

Incorrecto Correcto
-50 -30 -10 0 -50 -30 -10 0

10
20
V1 V1

10

5
0

0
-10

-5
-30

-10
y1 y1
0

-10 0
-10
-30

-30
-50

-50
10

10
x1 x1
5

5
0

0
-5

-5
-30 -10 0 10 20 -5 0 5 10 -10 -5 0 5 10 -5 0 5 10
Los grficos sugieren la relacin de la variable, pare ver
que tipo de transformacin usamos, lo que queremos
hacer es normalizar los residuos. Los landas lo
encontramos de la verosimilitud, pero como un
parmetro ms, queremos estimar un parmetro ms
Diagnsticos de linealidad: Grficos de
residuos: Modelo logartmico en y

Incorrecto Correcto
0.0e+00 1.0e+08 2.0e+08 0.0e+00 1.0e+08 2.0e+08

10
V1 V1

5
1.0e+08

0
0.0e+00

-5
-10
2.0e+08

2.0e+08
y2 y2
1.0e+08

1.0e+08
0.0e+00

0.0e+00
10

10
x1 x1
5

5
0

0
-5

-5
0.0e+00 1.0e+08 -5 0 5 10 -10 -5 0 5 10 -5 0 5 10
Diagnsticos de linealidad: Grficos de
residuos: Modelo inverso

Incorrecto Correcto
0 2 4 6 0 2 4 6

3
V1 V1

2
1

1
0

0
-1

-1
y3 y3
6

6
4

4
2

2
0

0
10

10
x1 x1
5

5
0

0
-5

-5
-1 0 1 2 -5 0 5 10 -1 0 1 2 3 -5 0 5 10
Transformacin de Box-Cox

Procedimiento diseado para encontrar una


transformacin que normalice los residuos.

El procedimiento trata de buscar un lambda tal


que:
Y = Y

Donde Y sera la variable Y transformada.


Transformacin de Box-Cox
Transformacin
=2 Y = Y2

=0.5

=0 Y = ln(Y)

=-0.5

=-1
Estimacin de va Mxima Verosimilitud

Recurdese que con el mtodo de mxima


verosimilitud, los estimadores se obtenan
maximizando la funcin:

En el mtodo de Box-Cox, la funcin de


verosimilitud tiene un parmetro adicional
Transformacin de Box-Cox
grafico de la log-vero

Lambda para una normal

95%
-100
log-Likelihood

-110
-120
-130

-2 -1 0 1 2
Transformacin de Box-Cox

Lambda para una exponencial

95%
-200
-300
log-Likelihood

-400
-500
-600

-2 -1 0 1 2
Transformacin de Box-Cox

Histogram of yexp Histogram of log(yexp)

15
25
20

10
Frequency

Frequency
15
10

5
5
0

0 10 20 30 40 -6 -4 -2 0 2 4

yexp log(yexp)
Transformacin de Box-Cox
-160
-162
Lambda para una gamma

95%
-164
log-Likelihood

-166
-168
-170
-172

-2 -1 0 1 2
Transformacin de Box-Cox
log vuelve mas asimtrica la distri
Histogram of ygamma Histogram of log(ygamma)
12

15
10

10
8
Frequency

Frequency
6
4

5
2
0

10 15 20 25 2.0 2.4 2.8 3.2

ygamma log(ygamma)
Mnimos Cuadrados Ponderados
ln(y2/y1)=b1
b1=0.02 Por cada aumento en una unidad, y cambia en 0,02 es decir 2%
Objetivo de los Mnimos Cuadrados Ponderados

Estrategia remedial para problemas de


heteroscedasticidad
Se denomina como el mtodo de Mnimos
Cuadrados Ponderados porque las observaciones
se ponderan por alguna funcin de sus
variancias.
En un modelo que supone heteroscedasticidad,
suponemos que los errores i son
independientes y con distribucin normal con
media 0 y desviacin estndar i
Matriz de Var-Covar de los errores i
tengo inde entonces la cov=0
Caso cuando la variancia es conocida.
Si la variancia de los errores se conoce, y se define
como:

Sigma sub i

Entonces, el peso wi sera:

Esto hace que la funcin de verosimilitud se pueda


plantear como, el sigma es la matriz var-cov de esta:
Caso cuando la variancia es conocida.
La ecuacin anterior permitira una estimacin por mxima
verosimilitud.

Sin embargo, como se estudi en clase, maximizar dicha


funcin sera equivalente a minimizar la siguiente
ecuacin:

La ecuacin anterior sera equivalente a la suma de los


errores ponderados, y por tanto se tiene el mtodo de
mnimos cuadrados ponderados.
Estimadores de MCO Ponderados
No son los mejores estimadores, xq no tenemos var min, aunq son
insesgados

Si se definie como W, la matriz de pesos:

Entonces, las ecuaciones normales se pueden


plantear como:
(XWX)w =XWY

w = (XWX)-1 XWY
Y la matriz de variancia covariancia sera:
2[w]= (XWX)-1
Cuando las variancias de los errores no se conocen.

Se tiene que buscar alguna forma de


estimar los pesos
Si los residuos son estimadores de los
errores, entonces se podra considerar
que:

e2i es un estimador de 2i

|ei| es un estimador de |(2i)0.5|, o sea


la sd
Procedimiento para estimar los pesos

Estimar la regresin de yi=f(xi).

Extraer los residuos.

Estimar una regresin de e2i=f(zi) o ||, donde:


zi podra ser las xi, yi, ^yi

Utilizar los valores predichos de esta regresin


como pesos para una nueva de regresin de
yi=f(xi,wi).
Recomendaciones del Neter para los pesos

Si la heteroscedasticidad se observa
en los grficos de x vs los residuos con una
forma de megfono:
Regresin de los residuos absolutos vs. x
en los grficos de predichos contra residuos
con una forma de megfono:
Regresin de los residuos absolutos vs. los
predichos.
en los grficos de x o predichos, vs residuos
al cuadrado con forma creciente,
Regresin de los residuos al cuadrado vs. X o los
predichos
Modelos heteroscedsticos
Objetivo de los Modelos heteroscedsticos

Estrategia remedial para problemas de


heteroscedasticidad
Utiliza el mtodo de mxima verosimilitud
Parametriza no solo la media sino la variancia
Modelos Heteroscedsticos

En el modelo que hemos venido estudiando:


yi EY | xi i 0 1 xi i
Adicionalmente, se plantea que:

= 1 ( )
(i) es una funcin escalar no negativa definida por la
distribucin de probabilidad de la yi | xi
wi es una ponderacin conocida
i es un parmetro de dispersin relativo a la
observacin i.
Modelos Heteroscedsticos

En un modelo heteroscedstico, el parmetro de


dispersin puede ser modelado en funcin de un
conjunto de covariables zi
=

: Vector de parmetros que se desean estimar

h(): Otra funcin de enlace para relacionar al


componente sistemtico con el parmetro de dispersin
Modelos Heteroscedsticos

Se han propuesto 4 mtodos para estimar estos


modelos (Zheng, Yang & Land, 2013):
Mtodo en dos etapas,
Mtodo de mxima verosimilitud,
Mtodo de mxima verosimilitud restringida (REML, tpico
de modelos mixtos en diseo de experimentos)
Mtodo bayesiano

Distintos nombres:
Modelos heteroscedsticos
Modelos lineales generalizados dobles
Regresin Robusta
Objetivo de la Regresin Robusta

Busca controlar el peso de valores extremos o


influyentes en la estimacin del modelo.

Generalmente se basa en ponderaciones


diferenciales por unidad estadstica.

Se estudiar el caso especial del IRLS:


Mnimos Cuadrados Reponderados Iterativamente
(Iterated Reweighted Least Squares).
IRLS: Mnimos Cuadrados Reponderados
Iterativamente

Es el mismo procedimiento usado para controlar


heteroscedasticidad.
No se pondera por una estimacin del inverso de
la variancia.
Se pondera por alguna funcin que vare
inversamente con el tamao propiamente del
residuo.
Casos con residuos grandes (en valor absoluto)
tendrn una ponderacin menor.
Es un proceso iterativo parecido al realizado para
controlar la heteroscedasticidad
Proceso iterativo del IRLS

1. Se escoge una funcin de ponderacin


2. Se calculan los ponderadores para la 1
iteracin.
3. Se estima un modelo lineal ponderado y se
calculan los residuos
4. Se reescalan los residuos
5. Con estos residuos reescalados, se vuelven a
estimar ponderadores.
6. Se repite la iteracin hasta que los pesos de la
iteracin observada y de la anterior cambien
muy poco (o sea, sean prcticamente iguales).
Reescalamiento de residuos

Se podran utilizar los residuos estudentizados


pero an estn afectados por valores extremos.
Se reescalan con base en el MAD, la desviacin
absoluta media:

El residuo escalado ui sera igual a:


IRLS: Funcin de pesos

Las ms utilizadas son:


Huber:
wi=1 si |ui| 1.345
wi= 1.345/|ui| si |ui|>1.345

Bi-cuadrtica (Bisquare):

wi = si |ui| 4.685

wi = 0 si |ui|>4.685
Otros mtodos de Regresin Robusta

El libro del Neter menciona los siguientes


mtodos adicionales de regresin robusta:

Regresin con mnimos residuos absolutos


Se obtiene con un algoritmo de programacin lineal

Regresin de la mnima mediana de cuadrados


Minimiza la mediana de las desviaciones cuadradas.
Bootstrap de modelos de regresin
Objetivo del bootstrap en modelos de regresin

Permite estimar intervalos de confianza para los


coeficientes y dems estimaciones de un modelo
de regresin lineal sin necesidad de contar con
supuestos como normalidad de los residuos o
heteroscedasticidad.

Tanto el Neter como mi persona recomendamos


utilizar los intervalos de confianza no
paramtricos.
Bootstrap para regresin en MODO FCIL

En Mtodos se ense la teora del bootstrap.

En la vida real, se aprovechan las funciones ya


programadas en R (o en cualquier otro paquete
estadstico) para obtener los resultados.
Bootstrap para regresin en MODO FCIL

B3=function(D,d)
{
E=D[d,] objeto= lm(E$y~E$x)
(objeto$coefficients[2])
}
resp3=boot(data,B3,1000)
resp3
Componentes Principales
Objetivo del Mtodo de Componentes Principales
para controlar Multicolinealidad

El Anlisis de Componentes Principales (ACP) es


una tcnica multivariada que busca reducir la
dimensionalidad de un conjunto de datos:
Se pueden crear nuevas variables que son
combinaciones lineales de las variables originales.
Es una forma de crear ndices compuestos a partir
de un conjunto de variables.

La principal caracterstica del ACP es que las


variables creadas son ortogonales entre s:
Tienen correlacin cero (o cercana a cero) por lo que
desaparece el problema de multicolinealidad.
Lgica del ACP
Suponga que se tiene una matriz de datos X con p-1
variables y n casos.
Suponga adems que Z es una matriz con p-1 variables y
casos.
Z se puede definir como una combinacin lineal de X tal
que:
Z=AX

En donde A=a una matriz simtrica (p-1)x(p-1) de


ponderadores de X.
Lgica del ACP
Cada columna Zi se puede representar como:
Zi=ai1*X1+ai2*X2++ai,p-1*Xp-1

O en trminos matriciales:
Zi=aiTX

Los pesos aij estn restringidos a que la suma de sus


cuadrados sea igual a 1 (Normalizados).

a2i1+a2i1++a2i,p-1=1

en trminos matriciales:
aiTai=1
Lgica del ACP
Suponga que la matriz S es la matriz de variancia-
covariancia de la matriz X.
Entonces se tiene que encontrar una matriz A tal que:

Var(Z1)>Var(Z2)>Var(Z3)>>Var(Zp-1)

Para encontrar esta propiedad, A es la matriz tal que:


S=A*V*AT
Donde: V es la matriz con los valores caractersticos i de
la matriz S en la diagonal y ceros afuera de la diagonal y
en la que i =Var(Zi).
Los lambdas se obtienen a partir de la identidad:
det[S-V*I] = 0
Efectos prcticos del ACP
Cada una de estas variables Zi son nuevas variables o
ndices cuya correlacin entre s es igual a 0.

El ACP permite encontrar p-1 nuevas variables, o sea,


tantos componentes como variables tiene.

Sin embargo, solo se escogen la cantidad de nuevas


variables Zi que expliquen un porcentaje alto de la
variabilidad.
Salidas de componentes principales
>nuevos=prcomp(autos[,c(3,5,6,7,8,9,11)],center=TRUE
,scale=TRUE)

> porc.var=nuevos$sdev/sum(nuevos$sdev)

> porc.var
[1] 0.40937206 0.16875772 0.11726747
0.10074550 0.09619392 0.06855036
0.03911297
Salidas de componentes principales
> round(nuevos$rotation,4)
PC1 PC2 PC3 PC4 PC5 PC6 PC7
mpg -0.3800 -0.1979 -0.3942 0.6321 -0.4451 0.2506 0.0240
headroom 0.2821 -0.7701 -0.2180 -0.4303 -0.3070 0.0168 -0.0016
trunk 0.3576 -0.4506 0.1655 0.5959 0.4954 -0.1846 0.0844
weight 0.4263 0.1818 0.0476 0.0270 -0.1103 0.5342 0.6961
length 0.4273 0.0968 0.1923 0.1366 -0.1479 0.4869 -0.7025
turn 0.3974 0.2243 0.1257 0.2017 -0.6029 -0.6074 0.0522
gear_ratio -0.3547 -0.2683 0.8454 0.0045 -0.2542 0.1068 0.1071
Salidas de componentes principales
> summary(modelo.pca)

Call:
lm(formula = price ~ tamanyo + pesados.peq + marcha.poco.millaje +carros.cajuela)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6165.3 307.1 20.075 < 2e-16 ***
tamanyo 575.0 138.5 4.151 9.32e-05 ***
pesados.peq 544.3 336.0 1.620 0.110
marcha.poco.millaje 679.6 483.6 1.405 0.164
carros.cajuela -230.2 562.9 -0.409 0.684
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 2642 on 69 degrees of freedom


Multiple R-squared: 0.2417, Adjusted R-squared: 0.1977
F-statistic: 5.498 on 4 and 69 DF, p-value: 0.000668
Validacin del modelo
Objetivos de la Validacin del Modelo

Si el modelo busca pronosticar valores o servir


como herramienta para futuras aplicaciones, es
conveniente contrastar la capacidad predictiva
del modelo con datos independientes.

Esta etapa se realiza al terminar todo el


diagnstico del modelo y ver si se cumplen todos
los supuestos.
Tres formas de validad el modelo

Recolectar ms datos, usar el modelo con dichos


datos y comparar los valores predichos con los
observados.

Comparar los resultados contra los valores


esperados segn la teora, contra resultados
previos, o contra resultados de simulacin.

Mantener una submuestra de validacin, aplicar


el modelo a dicha submuestra de validacin y
comparar su valor predictivo.
Indicador de validacin

Cuadrado Medio del Error de prediccin MSPR:

Raz del Cuadrado Medio del Error de prediccin


RMSPR:
FIN DEL MODELO
GAUSSIANO

También podría gustarte