Está en la página 1de 15

Regresin lineal Entrega 4

Santiago Hoyos Tuberquia 1020457749 Leidy Cristina Vargas Snchez 1035916120

Mtodos Estadsticos

Profesora: Diana Marcela Prez

Fecha : 23/06/2013 Facultad de Ingeniera

Regresin Mltiple y Multicolinealidad


En este trabajo nos centraremos en la regresin lineal multilple , teniendo como respuesta la variable precio del pasaje intermunicipal . Para empezar se verificara normalidad sobre esta variable , para indagar como se distribuyen los datos consultados .En la revisin de la informacin se encontr un dato atpico el cual si se continuaba trabajando con este influiria en la simetra de la campana por esto fue necesario su eliminacin. Un grfico que nos represente claramente esta distribucin es el histograma :

Como se puede observar en el histograma la variable se distribuye diferente de normal, se muestra con un sesgo a la derecha, esto lo podemos confirmar con los grficos de QQ-plot, adems de la respectiva prueba de Shapiro la cual nos indica la veracidad de la distribucin teniendo como hiptesis nula que la variable precio se distribuye normal e hiptesis alterna que la variable precio se distribuye diferente de normal.

Normal Q-Q Plot


Sample Quantiles

20000
-3

-2

-1

Theoretical Quantiles

precio

20000
-3

-2

-1

0 norm quantiles

Shapiro-Wilk normality test data: precio

W = 0.8324, p-value = 4.857e-16 Se puede notar en los grficos de QQ plot que la distribucin de la variable respuesta no est dentro de los lmites de la recta ideal, confirmando as lo dicho anteriormente en el histograma Ahora bien desde el punto de vista cuantitativo la prueba Shapiro arroja un valor p menor que el nivel de significancia (0.05), eso quiere decir que se rechaza la hiptesis nula y la distribucin del precio es diferente de normal. Ya confirmada la no distribucin normal del precio se procede a transformar la variable respuesta con el fin de encontrar una distribucin lo ms cercano a una campana de Gauss, Para esto hacemos lo siguiente:

Transformacin de potencia

BcPowerTransformationtoNormality

Est.PowerStd.Err. Wald Lower Bound Wald Upper Bound Precio -0.0083 0.08 -0.1652 0.1486

Likelihood ratio tests about transformation parameters LRT df LR test, lambda = (0) pval

0.01081592 1 0.9171696

LR test, lambda = (1) 150.40795191 1 0.0000000 >test Transform (power Transform (precio), lambda=0) LRT DF pval

LR test, lambda = (0) 0.01081592 1 0.9171696

El ms adecuado para hacer la transformacin es -0.0083, el intervalo de confianza de este Es (-0.1652, 0.1486), Dado que el es muy cercano a cero, crearemos una nueva variable respuesta que este asociada a la transformacin de potencia cuando , para ello utilizaremos la transformacin logaritmo natural. )) Con la nueva variable realizamos de nuevo las pruebas de normalidad hechas anteriormente para la variable precio con el fin corroborar si la transformacin de potencia ayudo para que la variable respuesta se distribuya normalmente, Los grficos son los siguientes:

Histogram of precio.new

Frequency

0
8.0

20

40

60

80

8.5

9.0

9.5

10.0

10.5

11.0

11.5

precio.new

precio.new

8.0
-3

9.0

10.0 11.0

-2

-1

0 norm quantiles

En los grficos anteriores vemos que la nueva variable respuesta se distribuye normalmente y se concluye que la transformacin de potencia fue aplicada correctamente, desde ahora trabajaremos con esta nueva variable. Con la variable respuesta transformada el paso siguiente es crear el modelo de regresin lineal mltiple, en este caso representaremos precio.new funcin de las variables cuantitavas, ya que estas tienen diferentes unidades de medida se procede a estandarizar las variables. El modelo queda la siguiente forma

Modelo estandarizado

El summary y el anova de este modelo quedan de la siguiente forma:

La informacin arrojada por el summary indica que las variables predictoras cuantitativas explican en un 83.65% al precio.new y nos muestra que las variables pasajero, vehculo, distancia y tiempo son significativas para el modelo. Por el otro lado el anova nos muestra el efecto que tiene la suma de cuadrados de la regresin sobre el modelo. Para esto se construyen las siguientes pruebas de hiptesis.

Las variables en las que los cuadrados medios de la regresin son estadsticamente iguales que los cuadrados medios del error son peajes, prepea, poblacin y extensin. Esto quiere decir que ests variables no se comportan de manera lineal respecto a la variable precio.new Antes de construir el modelo regresin lineal mltiple ideal debemos verificar si en el modelo estandarizado se presentan problemas de multicolinealidad, para ello sacamos los vif de cada variable, es decir la relacin lineal entre si de las variables predictoras. Un VIF = 1 nos indica que la variable no tiene correlacin con dems Un VIF>1 indica una inflacin de la varianza como resultado de las intercorrelaciones de las p-1 variables restantes

Con los VIF mostrados anteriormente es evidente que existen problemas de multicolinealidad dado que los resultados arrojados nos muestran que las variables predictoras estn correlacionadas entre s Para eliminar esta correlacin utilizaremos el mtodo de combinacin de variables con el fin de encontrar un modelo final en el cual las variables predictoras no tengan una relacin lineal. Creacin de nuevas variables por combinacin y eliminacin El primer paso es encontrar la correlacin entre las variables cuantitativas predictoras para esto sacamos la matriz de correlacin

Se observa que se forman pares de variables correlacionadas (Pasajero, Vehculo), (Distancia, Tiempo), (Poblacin, extensin), (Peajes, Prepea) y (Altura, Temperatura) Se procede a escoger la variable ms correlacionada con la variable respuesta en cada par y a otras se le asigna una relacin entre ellas de la siguiente manera: Representa el porcentaje de ocupacin de cada vehculo Representa la cantidad de personas por metro2 Representa como se comporta la temperatura por cada metro de altura. Las variables escogidas por cada par son: Distancia y Peajes El modelo quedara de la siguiente manera

El summary y el anova se muestran a continuacin:

En las tablas anteriores se muestran que las variables creadas son significativas, y la variable peaje no aporta lo suficiente en el modelo, dado que los medios cuadrados totales del error son estadsticamente iguales a los medios cuadrados de la regresin en esta variable , por lo cual eliminamos del modelo Debido a que Z1, Z2,Z3 y distancia aportan significativamente en el modelo crearemos el modelo final con estas 4 variables.

Se plantea de Nuevo el summary y el anova

Este modelo final nos explica en un 81.12% a la variable respuesta, es decir estas variables combinadas ms la variable distancia son significativas en el modelo, la suma de cuadrados medios de la regresin supera ampliamente a la suma de cuadrados del error, y podemos decir que aportan varianza al modelo Ahora bien, lo importante de combinar variables era eliminar los problemas de multicolinealidad por consiguiente calcularemos el VIF de estas variables combinadas y la distancia

Como los VIF de las variables predictoras no son mayores a 3 podemos confirmar que eliminamos los problemas de multicolinelidad, las variables predictoras combinadas y distancia no tiene relacin lineal entre s. Eliminacin de variables en el modelo final Para empezar definiremos las variables predictoras de la siguiente manera : Nombre Z1 Z2 Z3 X4 X5 X6 X7 Variable Z1 Z2 Z3 Distancia Regin Tipo Terminal

Modelo full inicial


Precio.New = Variables independientes en el modelo R2 ajustado F Valor P Siguiente variable eliminada del modelo Z1 Justificacin de la eliminacin de la variable

Z1,Z2,Z3,X4,X5,X6,X7

0.8405

91.65

2.2e-16

Z2,Z3,X4,X5,X6,X7

0.8412

98.6

2.2e-16

X7

Z2,Z3,X4,X5,X6

0.8417

106.5

2.2e-16

Z3

Z2,X4,X5,X6,X7

0.8401

114

2.2e-16

No se elimina

Debido a que su valor p es el ms superior al nivel de significancia (0.997) Debido a que la medios cuadrados totales de la regresin no explican los medios cuadradados totales Valor p del Anova ms bajo No tiene significancia en el modelo , su valor p es muy alto El proceso de eliminacin acaba

dado que las variables predictoras son significativas para el modelo

Como el modelo final queda con variables cualitativas se crean variables Dummies para ests, siendo as:

Para Regin { { { {

Para tipo: { { {

,k=010

Interpretacin Representa la media de la variable respuesta cuando el tipo de vehculo es Automvil y la regin es el bajo cauca Por cada persona por metro 2 el precio se disminuir en 0.0001 pesos colombianos El precio del pasaje intermunicipal se reduce en 0.0047 pesos por cada vehculo de ms. Este Beta representa la diferencia de medias entre la regin del Magdalena Medio y el del Bajo Cauca La interpretacin de este beta es la resta entre la media de la regin nordeste y la regin del Bajo Cauca respectivamente Es la diferencia entre las medias de la regin Norte y la regin del Bajo Cauca. Las medias de la regin occidente restadas con la media de la regin del bajo cauca crean este beta. La sustraccin entre la regin del oriente y la regin del Bajo Cauca. Este Beta representa la diferencia de medias entre la regin del suroeste y el del Bajo Cauca Es la media de la regin de Uraba menos la media de la regin del Bajo Cauca se interpreta como la diferencia entre el promedio del microbs con el promedio de automvil La resta entre la media de Bus y la media de automvil respectivamente El promedio del Vehculo Van menos El promedio del automvil crean este beta Es el promedio del precio segn la regin k cuando los dems Betas son iguales a cero. Con k variando entre 5 a 11 Es el promedio del precio segn el tipo de vehculo i cuando los dems coeficientes de regresin de las variables predictoras son iguales a cero. Con i Variando entre 12 y 14

En el modelo final la variable cuantitativa que tiene mayor efecto sobre el precio.new es la distancia dado que su intercepto es el mayor entre todas las cuantitativas, adems de ser la variable con mayor significancia del modelo, los medios cuadrados totales de la regresin superan ampliamente a la suma de cuadrados del error, esto lo podemos observar en el summary y anova del modelo final.

Como se observa en el summary y en el anova se rechazan las hiptesis nulas de cada una respectivamente dado que el valor p es menor que 0.05, eso nos indica que la distancia explica de alguna manera el precio intermunicipal en el departamento de Antioquia. A Continuacin Validaremos el modelo mediante los supuestos con el fin de determinar si el modelo es estadsticamente vlido. La informacin aparece en el siguiente cuadro

Supuesto

Hiptesis Nula y Hiptesis alterna


)

Pruebas Grficas

Pruebas Estadsticas

Valor (P)

Conclusin Medida Respecto a H0 remedial

Independencia

Series e.i

Series e.i

-Durbin-Watson

4.205e11

Partial ACF

-Breusch Godfrey
0.0

3.709e10

H0 Se rechaza , es decir no hay independencia entre las variable respuesta y las variables explicativas

Cambiar de Modelo

1.0

0.5

0.5

0.0

ACF

-0.5

-0.5

0.0

e.i

-1.0

-1.0

50

100

150 Index

200

250

10 Lag

15

20

-1.0

-0.5

0.5

1.0

10 Lag

15

20

-Residuales vs Secuencia -Funcin de Autocorrelacin -Funcin de Autocorrelacin Parcial

Varianza Constante
0.5

-Breush -Pagan

0.000581 3

H0 Se rechaza la varianza no es constante

Transformar precio

-Score Test Non Constant

0.000177 0591

e.i -1.0 -0.5

0.0

10 y.gorro.i

11

12

-Residuales vs Valores ajustados

Normalidad

:e~Normal
80

Histogram of e.i

-Shapiro- Wilk
0.5 0.5

5.103e06 1.211e07 1.547e06 7.002e06

-Jarque Bera
0.0 0.0

H0 se rechaza los errores se distribuyen diferente de una distribucin normal

Transformar precio

Frequency

60

-Anderson Darling
-0.5

40

-0.5

e.i

-Cramer -Von Mises


-1.0
-1.0 0.0 e.i 0.5

20

-1.0
-3

-1

norm quantiles

-Histograma -Boxplot -QQplot

Outliers

No hay pruebas de hiptesis en este supuesto


rstandard(modelsantileidy)

No hay pruebas Estadsticas para este supuesto

No se realiz prueba estadstic a

Los puntos atpicos son 206,205 y 219

Eliminar los datos atpicos , analizarlos y luego correr de nuevo el modelo sin estos

-3

-2

-1

206 205 219 9 10 y.gorro.i 11 12

-Valores estandarizados vs Valores ajustados

Como los errores no muestran independencia eso quiere decir que este supuesto no se cumple, la correlacin entre los errores es diferente de cero, dado que este supuesto tiene como medida remedial cambiar la regresin, este modelo final es invlido. Adems de eso ningn supuesto se cumple otra razn ms para confirmar lo dicho anteriormente

-4

También podría gustarte