Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Trabajo Final
Trabajo Final
Facultad de Ingenierı́a
Escuela de Estadı́stica
Programa Académico de Estadı́stica
Modelo Lineal General I
Alumno: Luis Alberto Rodrı́guez Vélez Cód: 1922682
. Claudia Camila Alvarez Mendez Cód: 1528899
Trabajo Final
La base de datos landrent de la librerı́a alr4 contiene información sobre la renta pagada en 1977
por las tierras agrı́colas plantadas con alfalfa en 67 condados con tierras agrı́colas alquiladas en
Minnesota (Estados Unidos). Las variables que vamos a estudiar son:
Pregunta de investigación
Dado su alto contenido proteı́nico, el alfalfa es un alimento adecuado para las vacas lecheras. Se
cree que la renta de la tierra plantada con alfalfa en relación con la renta para otros fines agrı́colas
serı́a mayor en áreas con una alta densidad de vacas lecheras.
R/
Análisis Preliminar
Y X1 X2 X3
Min. : 5.00 Min. : 6.17 Min. : 1.53 Min. :0.0200
1st Qu.:23.50 1st Qu.:24.42 1st Qu.: 7.11 1st Qu.:0.0650
Median :39.17 Median :44.56 Median :16.12 Median :0.1200
Mean :42.17 Mean :43.64 Mean :20.56 Mean :0.1697
3rd Qu.:57.09 3rd Qu.:59.68 3rd Qu.:31.21 3rd Qu.:0.2350
Max. :99.17 Max. :83.90 Max. :58.60 Max. :0.7200
sd=22.58659 sd=21.15051 sd=15.33615 sd=0.1444946
En el Cuadro 1 del resumen de los datos originales se observa que la variable de respuesta que es
la renta promedio por acre sembrado tiene la mayor dispersión entre todo el conjunto de datos con
una desviación de 22.58659 y el rango numérico de sus valores es muy amplio; en los datos de X1
se presenta una situación muy similar a la de la variable dependiente y se obtuvieron valores de los
estadı́sticos muy cercanos entre estas dos, en el caso de X2 y X3 se evidenció previamente que sus
datos están dentro de un rango numérico mas acotado y su media es mucho más representativa en
1
esas dos variables explicativas.
En primer lugar, a la hora de establecer un modelo lineal múltiple el objetivo primario y previo
es estudiar la relación que existe entre variables. Este análisis es fundamental porque se identifica
cuáles pueden ser las variables más adecuadas para el modelo en construcción; se pretende en-
tonces establecer relaciones de tipo lineal entre las variables de observación, observar también la
colinealidad entre los predictores. La siguiente representación esboza estas caracterı́sticas de forma
exploratoria y se incluirá en este informe de forma complementaria para que el lector pueda observar
la naturaleza previa de los datos.
2
Modelo completo:
Se procese a calcular los coeficientes estimados del modelo, los cuales se resumen en el Cuadro 1.
En cuanto al modelo, con todas las variables introducidas como predictorias tiene un R2 alto (0.84),
el cual es capaz de explicar el 84 % de la variabilidad observada en la renta promedio por acre
sembrado de alfalfa. En nuestro modelo, el R2 ajustado es 0.8324, indicando una coherencia de la
variabilidad del modelo con las covariables.
El Valor-P del modelo es significativo (2.2e−16 ), por lo que podemos decir que el modelo es útil y
que existe una relación entre los predictores y la variable respuesta (al menos uno de los coeficientes
es distinto a 0).
En el Cuadro 2 se destaca que el intercepto del modelo es de -3.7091, el cual serı́a el valor de Y
si las demás variables llegasen a tomar un valor de xi = 0. En cuanto al Valor-P se destaca que
las variables predictoras X1 y X2 son significativas al modelo, ya que sus p-valores son 0.0000,
indicando que están relacionadas con cambios en la variable respuesta. Sin embargo, el Valor-P de
X3 ( 0.3562) es mayor que el nivel alfa común de 0.05, lo cual indica que no es estadı́sticamente
significativo.
Se destaca que por cada dolar que se paga en la renta por toda la tierra cultivable, la renta promedio
por acre sembrado de alfalfa aumentara en 0.8821 centavos de dolar. En cuanto a la densidad de las
vacas lecheras, se tiene que el aumento en la renta de acre sembrado de alfalfa aumentará en 0.4489
centavos de dolar por cada vaca que este en una milla cuadrada.
3
Figura 2: Diagrama de dispersión de los residuos por covariable
En la Figura 3 se representan los residuos frente a los valores ajustados por el modelo, los prime-
ros se tienen que distribuir de forma aleatoria en torno a cero, manteniendo aproximadamente la
misma variabilidad a lo largo del eje X. Se observa un patrón especı́fico, mayor dispersión en los
extremos, lo que significa que la variabilidad es dependiente del valor ajustado y por lo tanto no
hay homocedasticidad.
data: mod
BP = 19.276, df = 6, p-value = 0.003722
Según la prueba studentized Breusch-Pagan, como 0.003722 < 0.05, se rechaza H0 , por lo tanto hay
evidencia de que la varianza de los residuos no es homocedastica.
4
Figura 3: Diagrama de dispersión de los residuos vs valores ajustados
La Figura 4 presenta datos dispersos por lo cual la linea se abre un poco al final y se observa también
datos atı́picos, demostrando la existencia de un problema de heterocedasticidad ya que la varianza
de los errores no es constante en todas sus observaciones.
5
Figura 5: Diagrama de dispersión de los residuos2 por covariable
En la Figura 5 se observa que la covariable X1 es la que presenta datos dispersos por lo cual la linea
se abre un poco al final lo que radica en un problema de heterocedasticidad. La presencia de puntos
atı́picos se observa en todas las covariables.
Figura 6: QQplot
6
data: mod$residuals
W = 0.98222, p-value = 0.4527
La distribución normal de los errores, el cual se puede verificar con la Figura 6 y con la prueba
Shapiro-Wilk, se evidencia que es normal y se confirma con la prueba de normalidad, la cual indica
que se presentan normalidad, por lo tanto se cumple este supuesto.
Transformación de BoxCox
\begin{figure}[h]
\centering
\includegraphics[scale=0.7]{correcciondesupuestos1.jpeg}
\caption{Residuos al cuadrado vs covariables}
\end{figure}
Por lo tanto, como el valor-p asociado (0.3389) a esta prueba cae por encima del umbral de 0.05,
se llego a la conclusión de que los datos no son heterocedásticos indicando que no se rechaza la
hipotesis nula y la varianza de los errores son constantes alrededor de toda las observaciones.
7
Detección de Multicolinealidad
X1 X2 X3
1.618033 1.669867 2.220679
En los modelos lineal múltiple los predictores deben ser independientes, no debe de haber colinea-
lidad entre ellos. La colinealidad ocurre cuando un predictor está linealmente relacionado con uno
o varios de los otros predictores del modelo o cuando es la combinación lineal de otros predictores.
Como consecuencia de la colinealidad no se puede identificar de forma precisa el efecto individual
que tiene cada una de las variables colineales sobre la variable respuesta, lo que se traduce en
un incremento de la varianza de los coeficientes de regresión estimados hasta el punto que resulta
prácticamente imposible establecer su significancia estadı́stica.
Se dice que si 1 < VIF < 5 la regresión puede verse afectada por cierta colinialidad.
En el Cuadro 3 se observa que para las 3 covariables el VIF se encuentra entre 1 y 5 indicando que
no hay multicolinealidad.