Está en la página 1de 8

Universidad del Valle

Facultad de Ingenierı́a
Escuela de Estadı́stica
Programa Académico de Estadı́stica
Modelo Lineal General I
Alumno: Luis Alberto Rodrı́guez Vélez Cód: 1922682
. Claudia Camila Alvarez Mendez Cód: 1528899

Trabajo Final

La base de datos landrent de la librerı́a alr4 contiene información sobre la renta pagada en 1977
por las tierras agrı́colas plantadas con alfalfa en 67 condados con tierras agrı́colas alquiladas en
Minnesota (Estados Unidos). Las variables que vamos a estudiar son:

Y: renta promedio por acre sembrado de alfalfa (dolares).


X1 : renta promedio pagada por toda la tierra cultivable (dolares).
X2 : densidad de vacas lecheras (número por milla cuadrada).
X3 : proporción de tierra agrı́cola utilizada como pasto.

Pregunta de investigación

Dado su alto contenido proteı́nico, el alfalfa es un alimento adecuado para las vacas lecheras. Se
cree que la renta de la tierra plantada con alfalfa en relación con la renta para otros fines agrı́colas
serı́a mayor en áreas con una alta densidad de vacas lecheras.

R/

Análisis Preliminar

Y X1 X2 X3
Min. : 5.00 Min. : 6.17 Min. : 1.53 Min. :0.0200
1st Qu.:23.50 1st Qu.:24.42 1st Qu.: 7.11 1st Qu.:0.0650
Median :39.17 Median :44.56 Median :16.12 Median :0.1200
Mean :42.17 Mean :43.64 Mean :20.56 Mean :0.1697
3rd Qu.:57.09 3rd Qu.:59.68 3rd Qu.:31.21 3rd Qu.:0.2350
Max. :99.17 Max. :83.90 Max. :58.60 Max. :0.7200
sd=22.58659 sd=21.15051 sd=15.33615 sd=0.1444946

Cuadro 1: Resumen de los datos brutos

En el Cuadro 1 del resumen de los datos originales se observa que la variable de respuesta que es
la renta promedio por acre sembrado tiene la mayor dispersión entre todo el conjunto de datos con
una desviación de 22.58659 y el rango numérico de sus valores es muy amplio; en los datos de X1
se presenta una situación muy similar a la de la variable dependiente y se obtuvieron valores de los
estadı́sticos muy cercanos entre estas dos, en el caso de X2 y X3 se evidenció previamente que sus
datos están dentro de un rango numérico mas acotado y su media es mucho más representativa en

1
esas dos variables explicativas.

Análisis de la relación entre variables

En primer lugar, a la hora de establecer un modelo lineal múltiple el objetivo primario y previo
es estudiar la relación que existe entre variables. Este análisis es fundamental porque se identifica
cuáles pueden ser las variables más adecuadas para el modelo en construcción; se pretende en-
tonces establecer relaciones de tipo lineal entre las variables de observación, observar también la
colinealidad entre los predictores. La siguiente representación esboza estas caracterı́sticas de forma
exploratoria y se incluirá en este informe de forma complementaria para que el lector pueda observar
la naturaleza previa de los datos.

La Figura 1 denominada matriz de correlaciones permite representar funcionalmente los diagramas


de dispersión, la distribución de cada variables mediante histogramas y el valor de la correlación
para cada par de variables.
Se pueden extraer las siguientes conclusiones:
La variable que tiene una mayor relación lineal con la renta promedio por acre (Y) es: Renta
promedio pagada (0.876). Por otra parte, existe una relación inversa entre Y y la variable pro-
porción de tierra agrı́cola (X3 ) indicando que cuando una de ellas aumenta la otra disminuye
proporcionalmente.
La variables X2 y X3 presentan están medianamente correlacionados (r = 0.523) indicando
que posiblemente no conviene utilizarlos conjuntamente en el modelo.
Las variables X2 y X3 según el histograma muestran una distribución exponencial y lo cual
podrı́a incidir en que al presentarse problemas en los supuestos del modelo se podrı́a utilizar
una transformación logarı́tmica para suavizar los datos.

Figura 1: Diagrama de dispersión múltiple

2
Modelo completo:

Yi = β0 + β1 X1i + β2 X2i + β3 X3i + εi

Se tiene interés en determinar si el modelo es o no explicativo, los siguientes contrastes de hipótesis


son necesarios:

H0 : β1 = β2 = β3 = 0 H1 : βk 6= 0 para algún k=1,2,3

Se procese a calcular los coeficientes estimados del modelo, los cuales se resumen en el Cuadro 1.
En cuanto al modelo, con todas las variables introducidas como predictorias tiene un R2 alto (0.84),
el cual es capaz de explicar el 84 % de la variabilidad observada en la renta promedio por acre
sembrado de alfalfa. En nuestro modelo, el R2 ajustado es 0.8324, indicando una coherencia de la
variabilidad del modelo con las covariables.

El Valor-P del modelo es significativo (2.2e−16 ), por lo que podemos decir que el modelo es útil y
que existe una relación entre los predictores y la variable respuesta (al menos uno de los coeficientes
es distinto a 0).

Efecto Est. Err. Std. Valor - t Valor-P


(Intercept) -3.7091 3.9349 -0.94 0.3495
X1 0.8821 0.0684 12.89 0.0000
X2 0.4489 0.0959 4.68 0.0000
X3 -10.9100 11.7374 -0.93 0.3562

Cuadro 2: Coeficientes del modelo completo

En el Cuadro 2 se destaca que el intercepto del modelo es de -3.7091, el cual serı́a el valor de Y
si las demás variables llegasen a tomar un valor de xi = 0. En cuanto al Valor-P se destaca que
las variables predictoras X1 y X2 son significativas al modelo, ya que sus p-valores son 0.0000,
indicando que están relacionadas con cambios en la variable respuesta. Sin embargo, el Valor-P de
X3 ( 0.3562) es mayor que el nivel alfa común de 0.05, lo cual indica que no es estadı́sticamente
significativo.

Se destaca que por cada dolar que se paga en la renta por toda la tierra cultivable, la renta promedio
por acre sembrado de alfalfa aumentara en 0.8821 centavos de dolar. En cuanto a la densidad de las
vacas lecheras, se tiene que el aumento en la renta de acre sembrado de alfalfa aumentará en 0.4489
centavos de dolar por cada vaca que este en una milla cuadrada.

En cuanto a la validación de supuestos, en la Figura 2 se prueba gráficamente la relación lineal entre


los predictores y la variable respuesta, los residuos se distribuyen aleatoriamente en torno a 0 con
una variabilidad constante a lo largo del eje X.

3
Figura 2: Diagrama de dispersión de los residuos por covariable

En la Figura 3 se representan los residuos frente a los valores ajustados por el modelo, los prime-
ros se tienen que distribuir de forma aleatoria en torno a cero, manteniendo aproximadamente la
misma variabilidad a lo largo del eje X. Se observa un patrón especı́fico, mayor dispersión en los
extremos, lo que significa que la variabilidad es dependiente del valor ajustado y por lo tanto no
hay homocedasticidad.

studentized Breusch-Pagan test

data: mod
BP = 19.276, df = 6, p-value = 0.003722

Según la prueba studentized Breusch-Pagan, como 0.003722 < 0.05, se rechaza H0 , por lo tanto hay
evidencia de que la varianza de los residuos no es homocedastica.

4
Figura 3: Diagrama de dispersión de los residuos vs valores ajustados

Figura 4: Diagrama de dispersión de los residuos2 vs valores ajustados

La Figura 4 presenta datos dispersos por lo cual la linea se abre un poco al final y se observa también
datos atı́picos, demostrando la existencia de un problema de heterocedasticidad ya que la varianza
de los errores no es constante en todas sus observaciones.

5
Figura 5: Diagrama de dispersión de los residuos2 por covariable

En la Figura 5 se observa que la covariable X1 es la que presenta datos dispersos por lo cual la linea
se abre un poco al final lo que radica en un problema de heterocedasticidad. La presencia de puntos
atı́picos se observa en todas las covariables.

Figura 6: QQplot

Shapiro-Wilk normality test

6
data: mod$residuals
W = 0.98222, p-value = 0.4527

La distribución normal de los errores, el cual se puede verificar con la Figura 6 y con la prueba
Shapiro-Wilk, se evidencia que es normal y se confirma con la prueba de normalidad, la cual indica
que se presentan normalidad, por lo tanto se cumple este supuesto.

Figura 7: Gráfico de Residuos Parciales

Transformación de BoxCox

Como se debe corregir el problema de heterocedasticidad se propone un nuevo modelo de ajuste


para hacer una transformación el cual va a estar definido.

Yi0.4623116 = β0 + β1 X1i + β2 X2i + β3 X3i + εi

\begin{figure}[h]
\centering
\includegraphics[scale=0.7]{correcciondesupuestos1.jpeg}
\caption{Residuos al cuadrado vs covariables}
\end{figure}

H0 :Los datos son homocedásticos vs H1 :Los datos son heterocedásticos

Por lo tanto, como el valor-p asociado (0.3389) a esta prueba cae por encima del umbral de 0.05,
se llego a la conclusión de que los datos no son heterocedásticos indicando que no se rechaza la
hipotesis nula y la varianza de los errores son constantes alrededor de toda las observaciones.

7
Detección de Multicolinealidad

Se procede a hallar el VIF para verificar si existe o no multicolinealidad.

X1 X2 X3
1.618033 1.669867 2.220679

Cuadro 3: Resumen del VIF

En los modelos lineal múltiple los predictores deben ser independientes, no debe de haber colinea-
lidad entre ellos. La colinealidad ocurre cuando un predictor está linealmente relacionado con uno
o varios de los otros predictores del modelo o cuando es la combinación lineal de otros predictores.
Como consecuencia de la colinealidad no se puede identificar de forma precisa el efecto individual
que tiene cada una de las variables colineales sobre la variable respuesta, lo que se traduce en
un incremento de la varianza de los coeficientes de regresión estimados hasta el punto que resulta
prácticamente imposible establecer su significancia estadı́stica.

Se dice que si 1 < VIF < 5 la regresión puede verse afectada por cierta colinialidad.

En el Cuadro 3 se observa que para las 3 covariables el VIF se encuentra entre 1 y 5 indicando que
no hay multicolinealidad.

Figura 8: Puntos Influyentes

También podría gustarte