0% encontró este documento útil (0 votos)
37 vistas54 páginas

Análisis de Regresión Lineal en Viviendas

dd

Cargado por

Diana Paredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
37 vistas54 páginas

Análisis de Regresión Lineal en Viviendas

dd

Cargado por

Diana Paredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Regresión

I. Introducción y objetivos

II. Regresión

III. Resumen

IV. Caso práctico con solución

V. Glosario
Lección 1 de 5

I. Introducción y objetivos

1.1. Introducción de la unidad

La regresión lineal es una técnica básica del análisis estadístico que servirá de base para análisis más
complejos. Mediante dicha técnica se determinan las relaciones de dependencia de tipo lineal entre una
variable dependiente cuantitativa respecto de una o varias variables explicativas/independientes que pueden
ser de tipo cuantitativo o categórico.

A través del análisis de regresión se construirán modelos multivariables para predecir los valores de la
variable dependiente a partir de los valores de las variables independientes.
Para los ejemplos de esta unidad, se utilizará una base de datos que
contiene información sobre el precio y otras características de 1 008
viviendas en Estados Unidos.

Las variables incluidas son las siguientes:

price: precio en dólares.


bedrooms: número de habitaciones.
bathrooms: número de baños.
“sqft_living”: tamaño de la vivienda en m2.
floors: número de plantas de la casa.
“Exterior2”: orientación de la vivienda (exterior/no exterior).
“yr_built”: año de construcción de la casa.
“yr_renovated”: año de renovación de la casa.

Tómese como supuesto que se quiere estudiar la relación lineal entre el precio diario de las casas (en miles
de dólares) y el tamaño (en metros cuadrados) de una muestra de hogares en Estados Unidos.

En la unidad uno se presentaron dos herramientas para explorar la relación entre dos variables cuantitativas:

El diagrama de dispersión.

El coeficiente de correlación lineal de Pearson.


El diagrama de dispersión del ejemplo, representado en la figura 1., muestra
la existencia de una relación positiva fuerte entre el tamaño de las casas (eje
x; variable independiente) y el precio (eje y; variable dependiente); valores
altos de tamaño se asocian con valores altos de precio.

Figura 1. Diagrama de dispersión.


Fuente: elaboración propia (2020).

Para calcular el coeficiente de correlación lineal en R se puede utilizar la siguiente función, donde
“sqft_living” indica el tamaño de la vivienda y pricemiles el precio.
En este caso, el valor del coeficiente de correlación lineal entre el tamaño y el precio es 0,62, lo que muestra
una relación lineal positiva entre el tamaño y el precio de los hogares.

La correlación cuantifica la fuerza de la asociación entre dos variables cuantitativas y las trata de modo
simétrico. La regresión lineal permite estudiar la relación entre dos variables cuantitativas y describe el
comportamiento de una variable en función de la otra.

C O NT I NU A R

1.2. Objetivos de la unidad

Los objetivos de esta unidad son:


1 Conocer de forma intuitiva el concepto de regresión lineal simple y múltiple.

2 Aprender el cálculo e interpretación de los parámetros de los modelos de regresión lineal


simple y múltiple.

3 Conocer el cálculo e interpretación del intervalo de confianza y del contraste de hipótesis del
parámetro de la pendiente en la regresión lineal.

4 Aprender las asunciones necesarias que se deben cumplir al usar el modelo de regresión
lineal.

5 Aprender a construir un modelo de regresión lineal múltiple.


Lección 2 de 5

II. Regresión

A continuación, se introducirá de forma intuitiva el modelo de regresión lineal:

2.1. Modelo de regresión lineal


La idea intuitiva de la regresión lineal consiste en intentar resumir la información del diagrama de dispersión
mediante una recta que se ajuste a la nube de puntos, tal y como se muestra en el diagrama de la derecha
de la figura 2.

Figura 2. Diagrama de dispersión.


Fuente: elaboración propia (2020).

El objetivo consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la
relación lineal que existe entre dos variables. En este ejemplo, entre precio y tamaño. A la variable
dependiente o respuesta se la identifica como Y, y a la variable predictora o independiente como X.

Intuitivamente, la recta de regresión será aquella que esté más cerca de todos los puntos. Para determinar
esta recta, se utiliza el método de los mínimos cuadrados, que elige como recta de regresión aquella que
minimiza las distancias verticales de las observaciones a la recta, tal y como se refleja a continuación:

Figura 3. Diagrama de dispersión y residuos.


Fuente: elaboración propia (2020).

La distancia vertical entre el valor observado y el valor ajustado por la recta se denomina residuo (ei). Los
residuos pueden ser positivos o negativos y al sumarlos podrían cancelarse. El método de los mínimos
cuadrados utiliza la minimización de la suma de los residuos al cuadrado (ei2).

A la recta que minimiza la suma de los residuos al cuadrado se le denomina recta de regresión.

El modelo de regresión lineal simple se describe de acuerdo a la siguiente ecuación:


Siendo α la constante o intercepto, β la pendiente y e el error aleatorio. Este último representa la diferencia
entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen
en Y, pero que no se incluyen en el modelo como predictores.

En la gran mayoría de casos, los valores α y β poblacionales son desconocidos, por lo que, a partir de una
muestra, se obtienen sus estimaciones y . Estas estimaciones se conocen como coeficientes de regresión
o least square coefficient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados
residuales, lo que da lugar a la recta que pasa más cerca de todos los puntos. La fórmula de la recta es la
siguiente:

La pendiente ( ) se puede estimar con la siguiente fórmula:

Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de correlación de Pearson que se ha
visto previamente. El intercepto â es el valor de Y cuando X toma el valor 0; se interpreta como la media de la
variable de respuesta cuando el predictor vale 0. Si la variable de exposición no puede tomar el valor 0, el
intercepto no es interpretable.
La pendiente (β ) se interpreta como el cambio por término medio en y por cada aumento de una unidad en x;
el cambio por término medio en la variable respuesta por cada aumento de una unidad en la variable
predictor.

Siguiendo con el ejemplo visto anteriormente, la función “lm()” en R permite estimar un modelo de regresión
lineal por mínimos cuadrados en el que la variable respuesta es precio (“Price_miles”) y el predictor tamaño
(“sqft_living”).

La recta de regresión para el precio de la vivienda respecto al tamaño es:

Como el tamaño no puede tomar el valor cero, el intercepto (â =156,06) no es interpretable.

La pendiente ( β = 0,16) se interpretaría de la siguiente manera: el precio de las viviendas se incrementa, en


media, 0,16 miles de $ por cada aumento de 1 m2 en su tamaño.

Para que el intercepto sea interpretable se deben “centrar” (restarles su media) los valores de la variable
predictora.
C O NT I NU A R

2.1.1. . Inferencia de los parámetros de regresión


En la mayoría de las ocasiones, aunque los parámetros de la recta de regresión se estiman con los datos de
la muestra, el objetivo principal es poder sacar conclusiones de la relación entre dos variables en la
población de la que se extrajo la muestra.

En los individuos de la muestra, se observa una relación positiva entre el precio y el tamaño. Pero, ¿esta
relación puede ser explicada por azar o existe en la población?

Para responder a esta pregunta, se aplican las herramientas aprendidas en la unidad de inferencia para
realizar:

Contraste de hipótesis sobre la pendiente de la recta de regresión en la población, β, para


determinar si existe una relación lineal entre el tamaño y el precio de los hogares de la
población.

Intervalo de confianza al 95 % para la pendiente de la recta de regresión para cuantificar la


magnitud de la asociación entre el tamaño y el precio.

Contraste de hipótesis sobre la pendiente de la recta de regresión


(ß):
1
2
3

Intervalo de confianza al 95 % para la pendiente (ß):

Un intervalo de confianza al 95 % para β se calcula con:

Donde tn-2 es el punto de la distribución t de student con n-2 grados de libertad que deja en las colas una

probabilidad del 5 %.

Para calcular el intervalo de confianza al 95 % con R:


En la población de hogares de una región de Estados Unidos existe una seguridad con un 95 % de confianza

de que el precio de la vivienda aumenta entre 0,15 y 0,17 miles de $ por cada aumento de un m2 en el tamaño
de la vivienda. Como el intervalo de confianza no incluye al cero, podemos concluir con una confianza del 95
% que hay una relación estadísticamente significativa entre el precio y el tamaño.

C O NT I NU A R

2.1.2. Modelo de regresión lineal simple con una variable


independiente categórica de dos categorías
Se quiere estudiar si el precio de las viviendas es igual si la vivienda es exterior o no. En este caso, la variable
de interés es cuantitativa y el predictor es una variable categórica de dos categorías. Si se intenta
representar los datos en un diagrama de dispersión, se obtendría:
Figura 4. Diagrama de dispersión variable x categórica.
Fuente: elaboración propia (2020).

En el gráfico se puede observar la media del medio en las viviendas exteriores (valor uno del eje X) y la media
del precio que no son exteriores (valor cero del eje x). Para comparar la media se puede utilizar el test para la
diferencia de media presentado en la unidad tres, pero también se puede estimar un modelo de regresión.

Sea:
Intercept= 441,27. El precio medio de las viviendas no exteriores es 441,27 miles de euros (IC 95 %: 425,62;
7 456,92).

“exteriorSi=77.94”: las viviendas exteriores valen en media 77,94 (IC 95 %: 52,92; 102,95). Miles de $ más
que las viviendas no exteriores (categoría de referencia).

El p-valor del contraste H0: β=0 es <0,05. Los datos presentan evidencia estadística suficiente para afirmar

que el precio medio en las viviendas exteriores es diferente a las no exteriores.


C O NT I NU A R

2.2. Bondad de ajuste


Una vez que se ha ajustado un modelo, es necesario verificar su eficiencia, ya que aun siendo la línea que
mejor se ajusta a las observaciones de entre todas las posibles, el modelo puede no ser bueno. Las medidas

más utilizadas para medir la calidad del ajuste son el test F y el coeficiente de determinación R2.

Coeficiente de determinación R2

Mide el porcentaje de la variabilidad de y (por ejemplo: precio) explicado por el modelo, es decir, por su
relación lineal con x (por ejemplo: tamaño). Su valor está acotado entre cero y uno.

En los modelos de regresión lineal simple el valor de R2 se corresponde con el cuadrado del coeficiente de
correlación de Pearson (r) entre X e Y, aunque no es así en regresión múltiple. Existe una modificación de R2
llamada como R2 ajustado que se emplea principalmente en los modelos de regresión múltiple. Introduce
una penalización cuantos más predictores se incorporan al modelo.
En los modelos lineales simples no se emplea.

Test F

El test F es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de
la regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.
Se emplea en modelos de regresión múltiple para saber si al menos alguno de los predictores introducidos
en el modelo contribuye de forma significativa.
En modelos lineales simples, dado que solo hay un predictor, el p-valor del test F es igual al p-valor del t-test
del predictor.
En el ejemplo del modelo de regresión del precio de la vivienda sobre el tamaño se encuentra el R cuadrado y
el p-valor del test F (marcados en amarillo a continuación):

El valor de R2 es 0,3793 (37,93 %), es decir, el 37,93 % de la variabilidad de la variable precio está explicada
por la variable tamaño. Además, el p-valor del test F es <0,05 por lo que el predictor es estadísticamente
significativo.

C O NT I NU A R

2.2. Modelo de regresión lineal múltiple


Una extensión natural del modelo de regresión lineal simple consiste en considerar más de una variable
explicativa. Los modelos de regresión múltiple estudian la relación entre una variable de interés Y (variable
respuesta o dependiente) y un conjunto de variables explicativas o regresoras X1, X2, . . ., Xp.

En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable
dependiente con las variables independientes es lineal, es decir:

A continuación, se explica cómo seleccionar las variables que se deben incluir en un modelo de regresión.

C O NT I NU A R

2.3.1. Selección de variables


La construcción del modelo final multivariable depende del objetivo del estudio. Cuando el objetivo del
estudio es identificar los factores pronóstico construimos un modelo predictivo.

El objetivo de un modelo predictivo es identificar qué variables se


asocian a la variable de interés de forma independiente; esto es,
teniendo en cuenta el efecto simultáneo que el resto de las variables
tienen sobre la variable de interés.

Existen determinadas métricas que podemos utilizar para seleccionar el mejor modelo de entre un conjunto
de ellos con distintos predictores o número de ellos. Entre las métricas más comúnmente utilizadas para
comparar modelos están el criterio de información de Akaike (AIC) y criterio de información bayesiano (BIC).
Dados dos modelos estimados, el modelo con el menor valor de BIC/AIC es el que se prefiere. Por lo tanto,
menor BIC/AIC implica un número menor de variables explicativas, mejor ajuste, o ambos. En el ejemplo de
construcción del modelo se ilustrará el uso de estas métricas.

FASES DE LA SELECCIÓN DE VARIABLES:

1. Análisis univariable

Identificar qué variables se asocian a la variable de interés sin tener en cuenta el efecto simultáneo del
resto de variables. Es decir, cada modelo de regresión solo incluye una variable

2. Análisis multivariable

Identificar qué variables se asocian a la variable de interés teniendo en cuenta el efecto simultáneo que
tienen el resto de variables. Es decir, el modelo de regresión incluye dos o más variables. Hay diferentes
métodos para identificar los predictores incluidos en el modelo final:

1. Método jerárquico: basándose en el criterio del analista, se introducen unos predictores


determinados en un orden determinado.

2. Método de entrada forzada: se introducen todos los predictores simultáneamente.

3. Método paso a paso (stepwise): emplea criterios matemáticos para decidir qué predictores
contribuyen significativamente al modelo y en qué orden se introducen. Dentro de este método
existen dos estrategias:
Procedimiento hacia atrás (backguard): empezar con un modelo que incluya las variables de
exposición que se han asociado significativamente a la variable de interés en el análisis
univariable. Se prueba a eliminar una a una cada variable, si se mejora el modelo, queda
excluida. Este método permite evaluar cada variable en presencia de las otras.

Procedimiento hacia adelante (forward):Empezar con un modelo vacío. A partir de este se


generan todos los posibles modelos introduciendo una sola variable de entre las disponibles.
Aquella variable que mejore en mayor medida el modelo se selecciona. A continuación, se
intenta incrementar el modelo probando a introducir una a una las variables restantes. Si
introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo
hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este
proceso se repite hasta llegar al punto en el que ninguna de las variables que quedan por
incorporar mejore el modelo.

En el caso de variables categóricas de más de dos categorías, si al menos uno de sus niveles es
significativo, se considera que la variable lo es.

En R, la función “step()” permite encontrar el mejor modelo basado en AIC utilizando cualquiera de las
tres variantes del método paso a paso.

Retomando el ejemplo utilizado anteriormente, el objetivo es crear el modelo de regresión lineal multivariable
que mejor prediga el precio de la vivienda en una región de Estados Unidos utilizando la información
disponible.

La variable respuesta/dependiente será el precio de la vivienda en miles y como potenciales predictores


vamos a tomar en consideración: tamaño, número de habitaciones, número de baños, año de construcción,
año de renovación y orientación (exterior/no exterior).

En la primera fase se realizarán los modelos univariables. Aunque con la función step de R este paso no
sería imprescindible, es importante realizar esta fase, ya que aportará un mayor conocimiento de los datos.
En la fase uno del proceso de selección de variables vamos a estimar un modelo de regresión para cada
variable predictora.

Fase uno: análisis univariable

Modelo de regresión con el predictor tamaño de la vivienda:

Existe una relación lineal entre el precio de la vivienda y el tamaño (p-valor< 0,001). Por cada aumento del

tamaño de la vivienda en una unidad, el precio aumenta en 1 602 euros. El coeficiente de determinación R2
0,3793, es decir, el tamaño de la vivienda explica casi el 38 % de la variabilidad del precio de la vivienda.
Modelo de regresión con el predictor número de habitaciones:

Se observa también que existe una relación lineal estadísticamente significativa entre el número de
habitaciones y el precio de la vivienda. El precio de la vivienda se incrementa en 75,63 mil euros por cada

aumento de una habitación. La variabilidad explicada (R2) del modelo es el 11,9 %.

Modelo de regresión con el predictor número de baños:


También se observa una relación lineal significativa entre el número de baños y el precio de la vivienda. Por
cada baño más, el precio de la vivienda se incrementa en 117 938 miles de euros. La variabilidad explicada

(R2) del modelo es el 18,2 %.

Modelo de regresión con el predictor año de construcción:


No se observa una relación estadísticamente significativa entre el año de construcción y el precio. Aunque el
p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3 %.

Modelo de regresión con el predictor año de renovación:


No se observa una relación estadísticamente significativa entre el año de renovación y el precio. Aunque el
p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3 %.

Modelo de regresión con el predictor orientación de la vivienda:


Las viviendas exteriores tienen un precio en media 77,93 miles de euros superior a las no exteriores. La
variabilidad explicada es del 3 %.

Fase dos: análisis multivariable

Se va a construir el modelo multivariable predictivo con un enfoque hacia


atrás. En primer lugar, se construirá el modelo con todas las variables
potencialmente predictoras. Aunque el año de renovación y el año de
construcción no resultaron estadísticamente significativos, se incluirán en el
modelo final, ya que están en el límite de la significación estadística (P-valor
<0,1).

El modelo con todas las variables introducidas como predictores tiene un R2 alto (0,4145). Es capaz de
explicar el 41,45 % de la variabilidad observada en el precio de la vivienda. El p-valor del modelo es
significativo (<0,001), por lo que se puede aceptar que la relación no es producto del azar; al menos uno de
los coeficientes parciales de regresión es distinto de cero. Hay dos predictores que no son significativos, lo
que es un indicativo de que podrían no contribuir al modelo.
El siguiente paso es construir un modelo “hacia atrás” para seleccionar el mejor conjunto de predictores. El
valor matemático empleado para determinar la calidad del modelo va a ser Akaike (AIC).

Para construir el modelo hacia atrás se utiliza la función de step de R con la opción backguard.
En la salida de R, se observa que con el método backward se parte del total de las variables, y en función del
AIC se determina qué variables deben abandonar el modelo.
El proceso finaliza cuanto el AIC de referencia es menor que el AIC de las variables predictoras del modelo

El mejor modelo ha sido (AIC más pequeño), es decir, el último de la salida de la función step:
Los factores que predicen de forma simultánea el precio de la vivienda son: el tamaño, el número de baños,
el número de habitaciones y el año de construcción. Por cada aumento de un metro cuadrado en el tamaño
de la vivienda, aumenta el precio en 0,17 miles de $ (intervalo de confianza –IC- 95 %: 0,16; 0,20). Por cada
habitación más de la vivienda el precio disminuye en 20.99 miles de $ (IC 95%: -34.57; -7.41). Para cada baño
más en la vivienda, aumenta el precio en 25,25 miles de $ (IC 95 %: -3,14; 47,36). Por cada aumento en el año
de construcción de la vivienda, el precio disminuye en -1,47 miles de $ (IC 95 %: -1,87; -1,08). El R2del modelo
es 41,37: el 41,37 % de la variabilidad de la variable precio de la vivienda está explicada por el resto de
variables incluidas en el modelo de regresión.

C O NT I NU A R

2.4. Diagnosis y validación del modelo


A continuación, se detallan los aspectos más importantes a revisar tras la realización de un modelo de
regresión lineal.

2.4.1. Asunciones de modelo de regresión lineal

Linealidad

Relación lineal entre la variable predictiva (x) y la variable respuesta (y).

Distribución normal de los residuos



Los residuos se tienen que distribuir de forma normal, con media igual a cero.

Varianza de residuos constante (homocedasticidad)



La varianza de los residuos ha de ser aproximadamente constante a lo largo del eje X.

Independencia

Las observaciones y1, y2, …, yn son independientes. Es importante tener esto en cuenta cuando se trata de
mediciones temporales. Otro caso frecuente es el de tener varias mediciones para un mismo sujeto.

C O NT I NU A R

2.4.2. Observaciones influyentes y outliers


Hay que estudiar con detenimiento las observaciones influyentes y outliers, ya que pueden generar una falsa
correlación que realmente no existe u ocultar una existente. ¿La omisión de una observación particular
provocaría una gran diferencia en la regresión?

En el gráfico se muestra una variable respuesta ficticia y frente a una variable de exposición x, en la que hay
una observación altamente influyente en la parte superior derecha.
Figura 5. Diagrama de dispersión y outlier.
Fuente: elaboración propia (2020).

Para evaluar la influencia de estas observaciones, se calculan las distancias de Cook.

La distancia de Cook del caso i-ésimo consiste en buscar la distancia entre los parámetros estimados si
incluyen la observación i-ésima y si no la incluyen. Cada observación tiene su distancia y se considera
significativa si es mayor que uno.

C O NT I NU A R

2.4.3. Herramientas para valorar las asunciones del modelo de


regresión lineal
Dado que las condiciones se verifican a partir de los residuos, primero se suele generar el modelo y después
se valida.

A continuación, se presentarán cinco herramientas que permitirán evaluar las asunciones del modelo:

Gráfico de dispersión de x e y

Permite detectar no linealidad, heterocedasticidad y outilers.

Figura 6. Asunciones regresión lineal.


Fuente: elaboración propia (2020).

Gráfico de residuos frente a valores ajustados



Permite detectar problemas de heterocedasticidad: si el modelo es apropiado, deberían ser puntos
aleatorios alrededor del cero (formas cónicas son un claro indicio de falta de homocedasticidad).
También es posible detectar problemas de heterocedasticidad a través de o mediante contraste de
hipótesis mediante el test de Breusch-Pagan. La hipótesis nula de este contraste es “Ho: no hay
heterocedasticidad”.

Figura 7. Asunciones regresión lineal.


Fuente: elaboración propia (2020).

Gráfico Q-Q de los residuos estandarizados



La distribución normal de los residuos se puede comprobar con un histograma, con la distribución de
cuantiles (“qqnorm() + qqline()”) o con un test de hipótesis de normalidad (Shapiro-Wilks). Estos gráficos
también son útiles para detectar outliers que suelen ser una causa frecuente por la que se viola la
condición de normalidad.

Ejemplo en R: comprobación de las asunciones del modelo con R


En primer lugar, se representa el gráfico de dispersión x e y (figura 8).

En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que indique no
linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el precio y el tamaño de la
vivienda. Sin embargo, sí que se puede observar un valor outlier en la zona superior derecha del gráfico.

Figura 8. Ejemplo R.
Fuente: elaboración propia (2020).
En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que indique no
linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el precio y el tamaño de la
vivienda. Sin embargo, sí que se puede observar un valor outlier en la zona superior derecha del gráfico.

El resto de las herramientas para la valoración de las asunciones del modelo se basan en los residuos. La
función “lm()” calcula y almacena los valores predichos por el modelo y los residuos.

Además, el objeto devuelto por la función “lm()” puede pasarse como argumento a la función “plot()”, por lo
que se obtienen varios gráficos que permiten evaluar los residuos y los outliers.
Figura 9. Ejemplo R.
Fuente: elaboración propia (2020).

Para comprobar la normalidad de los residuos, se pueden realizar dos contrastes de hipótesis:
Normalidad de los residuos:

Homocedasticidad:

Tanto los gráficos (histograma, normal Q-Q) como el contraste de hipótesis confirman la
normalidad de los residuos.

El gráfico de los residuos versus los valores ajustados y el test de homocedasticidad no


muestran signos de heterocesdasticidad.

Tanto en el gráfico de dispersión como en el gráfico de normalidad se observan algunos


outliers, sin embargo, las distancias de Cook son inferiores a uno.

¿Qué hacer si no se cumplen las asunciones del modelo?



Comprobar si hay errores en la codificación o introducción de los datos que puedan haber ocasionado
la existencia de outliers u observaciones influyentes.

Explorar relaciones no lineales entre la variable respuesta y la variable explicativa.

Análisis de sensibilidad para examinar si las conclusiones cambian cuando las observaciones
influyentes no son consideradas en el análisis.

Transformar la variable respuesta, la variable explicativa o ambas.

Utilizar métodos robustos, como bootstrap, para calcular intervalos de confianza y contrastes de
hipótesis, independientemente de las asunciones del modelo sobre la distribución de la variable
respuesta.

C O NT I NU A R

2.4.4. Multicolinealidad
Cuando en un modelo de regresión lineal existe una fuerte relación lineal entre sus variables independientes,
se dice que existe multicolinealidad aproximada. En esta situación, el estimador por mínimos cuadrados
ordinarios puede ofrecer resultados inestables, por lo que no se recomienda su uso y se hace necesario
disponer de herramientas que permitan detectar este problema de forma adecuada.

Entre estas herramientas, las más usadas son el factor de inflación de la varianza (FIV) y el número de
condición (NC). Estos valores no son test estadísticos que contrasten si la existencia de multicolinealidad
es grave, sino de reglas de decisión que tratan de establecer umbrales a partir de los cuales es necesario
evaluar la inclusión de dichas variables en el modelo. Normalmente, cuando existe valor de FIV > 10 es un
indicativo de multicolinealidad.
No hay predictores que muestren una correlación lineal muy alta ni inflación de varianza.
Lección 3 de 5

III. Resumen

Repasa los conocimientos adquiridos en la unidad

La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para análisis más
complejos. Mediante dicha técnica, se trata de determinar relaciones de dependencia de tipo lineal entre
una variable dependiente cuantitativa respecto de una o varias variables explicativas/independientes que
pueden ser de tipo cuantitativo o categórico.
Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal
que existe entre dos variables. A la recta que minimiza la suma de los residuos al cuadrado (diferencia
entre el valor real y el predicho por la recta) se le denomina recta de regresión.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Las asunciones del modelo de regresión lineal son:

Linealidad: relación lineal entre la variable predictiva (x) y la variable respuesta (y).

Distribución normal de los residuos: los residuos se tiene que distribuir de forma normal, con
media igual a cero.

Varianza de residuos constante (homocedasticidad): la varianza de los residuos ha de ser


aproximadamente constante a lo largo del eje X.

Independencia: las observaciones y1, y2, …, yn son independientes.


Lección 4 de 5

IV. Caso práctico con solución

Aplica los conocimientos adquiridos en esta unidad

I. PROBLEMA

ENUNCIADO

El departamento de asistencial de una aseguradora solicita al actuario que indique una fórmula que
permita la predicción de los gastos médicos mediante el BMI (el índice de masa corporal, que es una
razón matemática que asocia la masa y la talla de un individuo) del asegurado para poder realizar el
business case de negocio.
Para realizar el problema, se usará el siguiente dataset:

SE PIDE

1. Representación gráfica de las observaciones.

2. Cálculo del modelo de regresión lineal simple.

insurance.zip
15.2 KB

II. PROBLEMA
ENUNCIADO

Regresión lineal con una variable independiente categórica de dos categorías:

Para hacer este ejercicio, se usará la base de datos Salaries de la librería carData.
Se da el caso de un departamento de recursos humanos de una consultora especializada en people
analitycs que trabaja para una empresa dedicada a la gestión de colegios privados. Se solicita la
predicción del salario de los profesores durante nueve meses en función de las variables que se darán a
continuación, para analizar una investigación que evite la presencia de posibles problemas de
discriminación.

SE PIDE

¿Influye el sexo del profesor en el salario?

¿Influye el rango del profesor en el salario?

Analizando toda la información disponible, ¿cuáles son las variables más influyentes?
III. PROBLEMA

ENUNCIADO

Utilizar el dataset precargado en R de auto para los siguientes ejercicios:

Para cargar el dataset, se utilizará el dataset Auto que esta precargado en el paquete ISLR.

DATOS

Este conjunto de datos fue tomado de la biblioteca StatLib, que se mantiene en la Universidad Carnegie
Mellon. El conjunto de datos se utilizó en la Exposición de la Asociación Americana de Estadística de
1983.

Un marco de datos con 392 observaciones en las siguientes nueve variables:

MPG: millas por galón.

Cylinders: número de cilindros entre cuatro y ocho.

Displacement: desplazamiento del motor (pulgadas cúbicas).

Horsepower: caballos de fuerza del motor.

Weight: peso del vehículo (lb).

Acceleration: tiempo para acelerar de 0 a 60 mph (seg.)

Year: año modelo (módulo 100).

Origin: origen del automóvil (1. estadounidense, 2. europeo, 3. japonés).


Name: nombre del vehículo.

Los datos originales contenían 408 observaciones, pero se eliminaron 16 observaciones con valores
faltantes.

SE PIDE

Exploración de datos iniciales.

Ajuste del modelo con todas las variables.

Herramientas para comprobar las asunciones del modelo.

Selección de las variables mediante el método backward.

VER SOLUCIÓN

SOLUCIÓN

La solución de este caso práctico se encuentra en el archivo que puedes descargar a continuación.
Caso practico unidad 4.zip
4.4 KB
Lección 5 de 5

V. Glosario

El glosario contiene términos destacados para la


comprensión de la unidad

Modelo de regresión lineal simple



Se describe de acuerdo a la ecuación:
Modelo de regresión lineal múltiple

Se describe de acuerdo a la ecuación:

Intercepto α ̂

Es el valor de Y cuando X toma el valor cero. Se interpreta como la media de la variable de respuesta
cuando el predictor vale cero. Si la variable de exposición no puede tomar el valor 0, el intercepto no es
interpretable.

Pendiente (β ̂)

Se interpreta como el cambio por término medio en y por cada aumento de una unidad en x.

Coeficiente de determinación R2

Mide el porcentaje de la variabilidad de y explicado por el modelo, es decir, por su relación lineal con x. Su
valor está acotado entre cero y uno.

Test F

Es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de la
regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.

También podría gustarte