Trabajo Final

Universidad del Valle
Facultad de Ingenierı́a
Escuela de Estadı́stica
Programa Académico de Estadı́stica
Modelo Lineal General I
Alumno: Luis Alberto Rodrı́guez Vélez Cód: 1922682
. Claudia Camila Alvarez Mendez Cód: 1528899
Trabajo Final
La base de datos landrent de la librerı́a alr4 contiene información sobre la renta pagada en 1977
por las tierras agrı́colas plantadas con alfalfa en 67 condados con tierras agrı́colas alquiladas en
Minnesota (Estados Unidos). Las variables que vamos a estudiar son:
Y: renta promedio por acre sembrado de alfalfa (dolares).

X1 : renta promedio pagada por toda la tierra cultivable (dolares).
X2 : densidad de vacas lecheras (número por milla cuadrada).
X3 : proporción de tierra agrı́cola utilizada como pasto.
Pregunta de investigación
Dado su alto contenido proteı́nico, el alfalfa es un alimento adecuado para las vacas lecheras. Se
cree que la renta de la tierra plantada con alfalfa en relación con la renta para otros fines agrı́colas
serı́a mayor en áreas con una alta densidad de vacas lecheras.
R/
Análisis Preliminar
Y X1 X2 X3
Min. : 5.00 Min. : 6.17 Min. : 1.53 Min. :0.0200
1st Qu.:23.50 1st Qu.:24.42 1st Qu.: 7.11 1st Qu.:0.0650
Median :39.17 Median :44.56 Median :16.12 Median :0.1200
Mean :42.17 Mean :43.64 Mean :20.56 Mean :0.1697
3rd Qu.:57.09 3rd Qu.:59.68 3rd Qu.:31.21 3rd Qu.:0.2350
Max. :99.17 Max. :83.90 Max. :58.60 Max. :0.7200
sd=22.58659 sd=21.15051 sd=15.33615 sd=0.1444946
Cuadro 1: Resumen de los datos brutos
En el Cuadro 1 del resumen de los datos originales se observa que la variable de respuesta que es
la renta promedio por acre sembrado tiene la mayor dispersión entre todo el conjunto de datos con
una desviación de 22.58659 y el rango numérico de sus valores es muy amplio; en los datos de X1
se presenta una situación muy similar a la de la variable dependiente y se obtuvieron valores de los
estadı́sticos muy cercanos entre estas dos, en el caso de X2 y X3 se evidenció previamente que sus
datos están dentro de un rango numérico mas acotado y su media es mucho más representativa en
1
esas dos variables explicativas.
Análisis de la relación entre variables
En primer lugar, a la hora de establecer un modelo lineal múltiple el objetivo primario y previo
es estudiar la relación que existe entre variables. Este análisis es fundamental porque se identifica
cuáles pueden ser las variables más adecuadas para el modelo en construcción; se pretende en-
tonces establecer relaciones de tipo lineal entre las variables de observación, observar también la
colinealidad entre los predictores. La siguiente representación esboza estas caracterı́sticas de forma
exploratoria y se incluirá en este informe de forma complementaria para que el lector pueda observar
la naturaleza previa de los datos.
La Figura 1 denominada matriz de correlaciones permite representar funcionalmente los diagramas

de dispersión, la distribución de cada variables mediante histogramas y el valor de la correlación
para cada par de variables.
Se pueden extraer las siguientes conclusiones:
La variable que tiene una mayor relación lineal con la renta promedio por acre (Y) es: Renta
promedio pagada (0.876). Por otra parte, existe una relación inversa entre Y y la variable pro-
porción de tierra agrı́cola (X3 ) indicando que cuando una de ellas aumenta la otra disminuye
proporcionalmente.
La variables X2 y X3 presentan están medianamente correlacionados (r = 0.523) indicando
que posiblemente no conviene utilizarlos conjuntamente en el modelo.
Las variables X2 y X3 según el histograma muestran una distribución exponencial y lo cual
podrı́a incidir en que al presentarse problemas en los supuestos del modelo se podrı́a utilizar
una transformación logarı́tmica para suavizar los datos.
Figura 1: Diagrama de dispersión múltiple
2
Modelo completo:
Yi = β0 + β1 X1i + β2 X2i + β3 X3i + εi
Se tiene interés en determinar si el modelo es o no explicativo, los siguientes contrastes de hipótesis

son necesarios:
H0 : β1 = β2 = β3 = 0 H1 : βk 6= 0 para algún k=1,2,3
Se procese a calcular los coeficientes estimados del modelo, los cuales se resumen en el Cuadro 1.
En cuanto al modelo, con todas las variables introducidas como predictorias tiene un R2 alto (0.84),
el cual es capaz de explicar el 84 % de la variabilidad observada en la renta promedio por acre
sembrado de alfalfa. En nuestro modelo, el R2 ajustado es 0.8324, indicando una coherencia de la
variabilidad del modelo con las covariables.
El Valor-P del modelo es significativo (2.2e−16 ), por lo que podemos decir que el modelo es útil y
que existe una relación entre los predictores y la variable respuesta (al menos uno de los coeficientes
es distinto a 0).
Efecto Est. Err. Std. Valor - t Valor-P

(Intercept) -3.7091 3.9349 -0.94 0.3495
X1 0.8821 0.0684 12.89 0.0000
X2 0.4489 0.0959 4.68 0.0000
X3 -10.9100 11.7374 -0.93 0.3562
Cuadro 2: Coeficientes del modelo completo
En el Cuadro 2 se destaca que el intercepto del modelo es de -3.7091, el cual serı́a el valor de Y
si las demás variables llegasen a tomar un valor de xi = 0. En cuanto al Valor-P se destaca que
las variables predictoras X1 y X2 son significativas al modelo, ya que sus p-valores son 0.0000,
indicando que están relacionadas con cambios en la variable respuesta. Sin embargo, el Valor-P de
X3 ( 0.3562) es mayor que el nivel alfa común de 0.05, lo cual indica que no es estadı́sticamente
significativo.
Se destaca que por cada dolar que se paga en la renta por toda la tierra cultivable, la renta promedio
por acre sembrado de alfalfa aumentara en 0.8821 centavos de dolar. En cuanto a la densidad de las
vacas lecheras, se tiene que el aumento en la renta de acre sembrado de alfalfa aumentará en 0.4489
centavos de dolar por cada vaca que este en una milla cuadrada.
En cuanto a la validación de supuestos, en la Figura 2 se prueba gráficamente la relación lineal entre

los predictores y la variable respuesta, los residuos se distribuyen aleatoriamente en torno a 0 con
una variabilidad constante a lo largo del eje X.
3
Figura 2: Diagrama de dispersión de los residuos por covariable
En la Figura 3 se representan los residuos frente a los valores ajustados por el modelo, los prime-
ros se tienen que distribuir de forma aleatoria en torno a cero, manteniendo aproximadamente la
misma variabilidad a lo largo del eje X. Se observa un patrón especı́fico, mayor dispersión en los
extremos, lo que significa que la variabilidad es dependiente del valor ajustado y por lo tanto no
hay homocedasticidad.
studentized Breusch-Pagan test
data: mod
BP = 19.276, df = 6, p-value = 0.003722
Según la prueba studentized Breusch-Pagan, como 0.003722 < 0.05, se rechaza H0 , por lo tanto hay
evidencia de que la varianza de los residuos no es homocedastica.
4
Figura 3: Diagrama de dispersión de los residuos vs valores ajustados
Figura 4: Diagrama de dispersión de los residuos2 vs valores ajustados
La Figura 4 presenta datos dispersos por lo cual la linea se abre un poco al final y se observa también
datos atı́picos, demostrando la existencia de un problema de heterocedasticidad ya que la varianza
de los errores no es constante en todas sus observaciones.
5
Figura 5: Diagrama de dispersión de los residuos2 por covariable
En la Figura 5 se observa que la covariable X1 es la que presenta datos dispersos por lo cual la linea
se abre un poco al final lo que radica en un problema de heterocedasticidad. La presencia de puntos
atı́picos se observa en todas las covariables.
Figura 6: QQplot
Shapiro-Wilk normality test
6
data: mod$residuals
W = 0.98222, p-value = 0.4527
La distribución normal de los errores, el cual se puede verificar con la Figura 6 y con la prueba
Shapiro-Wilk, se evidencia que es normal y se confirma con la prueba de normalidad, la cual indica
que se presentan normalidad, por lo tanto se cumple este supuesto.
Figura 7: Gráfico de Residuos Parciales
Transformación de BoxCox
Como se debe corregir el problema de heterocedasticidad se propone un nuevo modelo de ajuste

para hacer una transformación el cual va a estar definido.
Yi0.4623116 = β0 + β1 X1i + β2 X2i + β3 X3i + εi
\begin{figure}[h]
\centering
\includegraphics[scale=0.7]{correcciondesupuestos1.jpeg}
\caption{Residuos al cuadrado vs covariables}
\end{figure}
H0 :Los datos son homocedásticos vs H1 :Los datos son heterocedásticos
Por lo tanto, como el valor-p asociado (0.3389) a esta prueba cae por encima del umbral de 0.05,
se llego a la conclusión de que los datos no son heterocedásticos indicando que no se rechaza la
hipotesis nula y la varianza de los errores son constantes alrededor de toda las observaciones.
7
Detección de Multicolinealidad
Se procede a hallar el VIF para verificar si existe o no multicolinealidad.
X1 X2 X3
1.618033 1.669867 2.220679
Cuadro 3: Resumen del VIF
En los modelos lineal múltiple los predictores deben ser independientes, no debe de haber colinea-
lidad entre ellos. La colinealidad ocurre cuando un predictor está linealmente relacionado con uno
o varios de los otros predictores del modelo o cuando es la combinación lineal de otros predictores.
Como consecuencia de la colinealidad no se puede identificar de forma precisa el efecto individual
que tiene cada una de las variables colineales sobre la variable respuesta, lo que se traduce en
un incremento de la varianza de los coeficientes de regresión estimados hasta el punto que resulta
prácticamente imposible establecer su significancia estadı́stica.
Se dice que si 1 < VIF < 5 la regresión puede verse afectada por cierta colinialidad.
En el Cuadro 3 se observa que para las 3 covariables el VIF se encuentra entre 1 y 5 indicando que
no hay multicolinealidad.
Figura 8: Puntos Influyentes

Trabajo Final

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Final

Cargado por

Copyright:

Formatos disponibles

Universidad del Valle

Y: renta promedio por acre sembrado de alfalfa (dolares).

Cuadro 1: Resumen de los datos brutos

Análisis de la relación entre variables

La Figura 1 denominada matriz de correlaciones permite representar funcionalmente los diagramas

Figura 1: Diagrama de dispersión múltiple

Yi = β0 + β1 X1i + β2 X2i + β3 X3i + εi

Se tiene interés en determinar si el modelo es o no explicativo, los siguientes contrastes de hipótesis

H0 : β1 = β2 = β3 = 0 H1 : βk 6= 0 para algún k=1,2,3

Efecto Est. Err. Std. Valor - t Valor-P

Cuadro 2: Coeficientes del modelo completo

En cuanto a la validación de supuestos, en la Figura 2 se prueba gráficamente la relación lineal entre

studentized Breusch-Pagan test

Figura 4: Diagrama de dispersión de los residuos2 vs valores ajustados

Shapiro-Wilk normality test

Figura 7: Gráfico de Residuos Parciales

Como se debe corregir el problema de heterocedasticidad se propone un nuevo modelo de ajuste

Yi0.4623116 = β0 + β1 X1i + β2 X2i + β3 X3i + εi

H0 :Los datos son homocedásticos vs H1 :Los datos son heterocedásticos

Se procede a hallar el VIF para verificar si existe o no multicolinealidad.

Cuadro 3: Resumen del VIF

Figura 8: Puntos Influyentes

También podría gustarte