Está en la página 1de 5

Universidad del Valle Estadstica Aplicada III Cali, Agosto-Diciembre de 2012

Modelo de regresin lineal


Rendimiento de la Gasolina (Millas/Galn) Angela Patricia Cadena a , Cristian Eduardo Garcia b
Escuela de Estadstica, Facultad de Ingeniera, Universidad del Valle, Cali, Colombia

Resumen Con el n de analizar si la variable X1 : Cilindrada de 32 vehculos de diferentes marcas inuye o se relaciona con el Y: Rendimiento de la gasolina en millas por galn, se realiz un anlisis por medio de un modelo lineal, en donde se estimaron los parmetros correspondientes que van a inuir en dicho caso. Para ello se utiliz la herramienta computacional R con la cual se realizaron los diferentes clculos pertinentes para nalmente dar origen a las conclusiones acerca de la hiptesis que se tiene en cuanto a la inuencia de dicha variable sobre el rendimiento de la gasolina al encontrar que el supuesto de homogeneidad de varianzas no se cumple en el modelo se plantea una transformacin la cual cumple con todos los supuestos y de esta manera poder tener una buena estimacin de los parmetros.

1. Introduccin
En la estadstica aplicada se consideran los modelos de regresin lineal, como una herramienta precisa, y muy til a la hora de dar explicacin, o predecir el comportamiento a base de la dependencia de sucesos relacionados con la variable estudiada. Con el n de ilustrar la aplicacin de los modelos de regresin lineal, se observar la relacin entre la variable Cilindrada (pulgadas cbicas) y el Rendimiento medio de gasolina (Millas/Galn).

2. Metodologa
2.1. Denicin del Modelo
Con el n de analizar si el rendimiento medio de millas por galn (Y ) est inuenciado por la variable (X1 ) Cilindrada (pulgadas cubicas) se plantear el siguiente modelo de regresin lineal: Y = 0 + 1 X1 + ; N (0, 2 )
a Estudiante. b Estudiante.

E-mail: angelita.cadena@hotmail.com E-mail: cristian42253@gmail.com

Angela Patricia Cadena & Cristian Eduardo Garcia

2.2. Supuestos del Modelo


El error se distribuye normal con media 0: N (0, 2 I) El error tiene Varianza constante: V ar(i ) = 2 < No correlacin del error: Cov (i , j ) = 0 La relacin entre la variable de respuesta Y y la variable regresora X1 es de forma lineal aproximadamente. Para hacer mas precisa la estimacin del modelo y que se ajuste correctamente se deben cumplir todos los supuestos, ya que si alguno de estos no se cumple la estimacin de la varianza no es correcta al depender sta de los residuales.

2.3. Ajuste del modelo, estimacin de parmetros y Varianza de los errores


Cabe mencionar que para la estimacin de los parmetros y la varianza de los errores se utilizara el mtodo de los mnimos cuadrados . Ahora bien, se har una descripcin detallada de los clculos empleados, como solo se tiene una variable regresora el calculo de los esta dada de la siguiente manera: y = (X T X )1 X T
1

(1)

= 0 =

n xi xi n

xi xi 2

yi xi yi

yi xi yi xi = 33.490010 xi )2 x2 i (

Donde 0 es el intercepto del modelo el cual se traduce como el valor jo que tiene el rendimiento de la gasolina independientemente del valor que tome la variable regresora X1 : Cilindrada (pulgadas cbicas). Indica que el rendimiento medio de la gasolina de los automviles es 33.490010 millas por galn cuando la variable regresora anteriormente mencionada vale cero. 1 = n yi xi xi yi = 0.047026 xi )2 n x2 i (

El coeciente 1 corresponde al cambio absoluto en el rendimiento de la gasolina (Millas/galn) ante un cambio en una unidad de la variable Cilindrada (X1 ). Muestra que el incremento en una unidad de la variable Cilindrada, conlleva una reduccin en el valor esperado del rendimiento de la gasolina (Y) de 0, 0359478 unidades. Modelo Ajustado: y = 33.490010 0.047026x1 Estimacin de parmetros ( yi yi )2 = 9.736062 n2 2.357687951 0.007107765 0.007107765 2.484827e05

2 =

V ar( ) = 2 (X T X )1 =

Estadistica Aplicada III (2012)

Rendimiento de la Gasolina (Millas/Galn)

NORMALIDAD: Para comprobar si el modelo anteriormente planteado cumple con el supuesto de normalidad en los residuales, se observa en la Figura1 Normalidad , que la mayora de los puntos se encuentran cercanos a la recta lo cual evidencia que el supuesto de normalidad se cumple. Para vericar la armacin anterior, se realizo la prueba de bondad de ajuste de Shapiro Wilks al modelo donde se plantean las siguientes hiptesis: Ho = Los datos distribuyen Normal Ha = Los datos no se distribuyen Normal Con el valor P obtenido mediante la prueba realizada, el cual es de 0.8813 se puede armar que los residuales se distribuyen normal ya que dicho valor es mayor al nivel de signicancia asumiendo 5 % conrmando lo evidenciado en la Figura 1 VARIANZA: Para evaluar el supuesto de homogeneidad de varianzas, se grac los residuales vs los valores ajustados; como se puede ver en la Figura 1 Heterocedasticidad ; aunque la mayora de los puntos oscilan alrededor de cero y dentro de un rango denido para el eje de los residuales (entre 4 y -4), se encuentran algunos puntos atpicos por lo cual no se puede armar con exactitud si existe homocedasticidad. Con nimo de corroborar y validar dicho supuesto (Homocedasticidad), se realiz la prueba de Breusch-Pagan asumiendo un nivel de conanza del 95 %. Para la realizacin de dicha prueba se plantearon las siguientes hiptesis: Ho : Existe homocedasticidad de varianzas en los residuales Ha : Existe heterocedasticidad de las varianzas en los residuales Se encontr un el valor-p de 0.01878 el cual es menor al nivel de signicancia con el que se trabajo (5 %), por lo tanto con un 95 % de conanza se rechaza la hiptesis nula planteada, es decir el supuesto de homogeneidad de varianzas de los residuales para este modelo no se cumple. CORRELACIN: En la Figura 1 Correlacin , se puede ver que no hay un patrn de comportamiento por lo tanto se podra pensar que no existe correlacin entre los residuales. Sin embargo para corroborar la conclusin anteriormente dada, se realiza la prueba de Durbin Watson. Las hiptesis que se planteadas son las siguientes: Ho : No hay correlacin entre las variables del modelo ajustado Ha : Hay correlacin entre las variables del modelo ajustado Como el valor p obtenido, 0.205 es mayor al nivel de signicancia (0.05) no se rechaza la hiptesis nula por lo tanto se puede conrmar que no hay correlacin entre los residuales del modelo.

2.4. Resultados y Funciones utilizadas en R


2.4.1. prueba de los supuestos. FUNCIONES UTILIZADAS EN R: Se utilizo la herramienta computacional R para realizar las estimaciones de los parmetros del modelo y los clculos correspondientes. El ajuste a un modelo lineal de las variables asignadas se llevo a cabo mediante la funcin lm; con la opcin summary(ajuste) se estimaron los parmetros del modelo, la varianza y el
Estadistica Aplicada III (2012)

Angela Patricia Cadena & Cristian Eduardo Garcia

coeciente de correlacin para probar el supuesto de normalidad, con la prueba de bondad de ajuste de Shapiro Wilk, se calculo el valor-p de dicha prueba utilizando el cdigo shapiro.test(residuales)$p; para observar la homogeneidad de varianzas se utilizo el cdigo bptest(ajuste)$p que corresponde al valor-p de la prueba de Breusch-Pagan con la funcin dwtest(ajuste)$p se calculo la prueba de Durbin-Watson para corroborar el supuesto de no correlacin de los residuales.
Ajuste de los Residuales a una Normal
10

Diagnostico Varianza

Autocorrelacion de los Residuales

Sample Quantiles

Residuales

residuales 10 15 20 25 30

10

6 0

10

15

20

25

30

Theoretical Quantiles 1.Normalidad

Valores ajustados 2.Heterocedasticidad

Index 3.Correlacion

Figura 1: Validacin supuestos del modelo sin transformacin

Se puede observar en la Figura 2 que despus de realizar la transformacin y = ln(y ) a los datos, los supuestos planteados se satisfacen incluyendo el supuesto de homocedasticidad de la varianza que con el modelo ajustado inicialmente no se cumpla.
Ajuste de los Residuales a una Normal
1.5

Diagnostico Varianza

Autocorrelacion de los Residuales

0.2

0.1

1.0

Sample Quantiles

Residuales

0.5

ResidTrans 2.6 2.8 3.0 3.2 3.4

0.0

0.0

0.1

0.5

0.2

1.0

1.5

0.2 0

0.1

0.0

0.1

0.2

10

15

20

25

30

Theoretical Quantiles 1.Normalidad

Valores ajustados 2.Homocedasticidad

Index 3.Correlacion

Figura 2: Validacin supuestos del modelo con transformacin

El principal problema que presenta el modelo planteado es que el supuesto de homogeneidad de varianzas no se satisface; al ser ste un requisito bsico del anlisis de regresin, se debe tratar de controlarlo ya que si no se elimina dicho problema, los estimadores de mnimos cuadrados seguirn siendo
Estadistica Aplicada III (2012)

Rendimiento de la Gasolina (Millas/Galn)

insesgados, pero ya no tendrn la propiedad de la varianza mnima. Esto quiere decir que los coecientes de regresin tendrn errores estndar mayores que lo necesario. El efecto de la transformacin suele proporcionar estimados ms precisos de los parmetros del modelo y mayor sensibilidad para las pruebas estadsticas. (Montgomery & Peck 2005) Para escoger la transformacin adecuada, se probaron dos transformaciones que se consideraron pertinentes (Y1 = ln(y ), Y2 = y (1/2) ). Las dos transformaciones satisfacen el supuesto de varianza constante buscado; sin embargo, decidimos utilizar la transformacin Y1 ya que sta cuenta con un 2 2 coeciente de determinacin (R1 = 0.7855) mas alto que la transformacin Y2 (R2 = 0.7607), lo cual indica que el modelo propuesto, explica 78.55 % de la variabilidad del Rendimiento de la gasolina en los 2 automviles. Adems, la variabilidad del modelo es mucho ms pequea en el modelo Y1 (1 = 0.10035) 2 que en el modelo Y2 (2 = 0.01848396); nalmente se observ el comportamiento del diagrama de dispersin de las variables Rendimiento de la gasolina en los automviles y Cilindraje con lo que se concluyo que la aplicacin de dicha transformacin es valida. El modelo ajustado de la transformacin sera: y = 3.5847484 0.0021995X

3. Conclusiones:
Las variables Y: Rendimiento de la gasolina y X: Cilindrada presentan una relacin inversamente proporcional, es decir, cuando una de ellas se incrementa, la otra se reduce y viceversa. El modelo lineal general no cumple con el supuesto de homogeneidad de varianza, por lo cual se realizo una transformacin a dicho modelo para que los supuestos bsicos necesarios del anlisis de regresin se cumplieran y de esta manera poder establecer una relacin adecuada entre las variables estudiadas. La transformacin aplicada para lograr la homogeneidad de varianzas fue y = ln(y ). El modelo al que se le realizo la transformacin, presenta un coeciente de determinacin de 0.7855, lo cual signica que el 78.55 % de la variabilidad del modelo es explicado por la variable Y: Rendimiento de la gasolina en los automviles.

Referencias
Faraday, J. J. (2004), Linear Models with R, Chapman & Hall/CRC, London. Montgomery, D. & Peck, E. (2005), Introduccin al Anlisis de Regresin lineal, 1 edn, Mxico. Tusell, F. (2010), Anlisis de Regresin. Introduccin terica y prctica basada en R.

Estadistica Aplicada III (2012)

También podría gustarte