0% encontró este documento útil (0 votos)

37 vistas54 páginas

Análisis de Regresión Lineal en Viviendas

Cargado por

Diana Paredes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

37 vistas54 páginas

Análisis de Regresión Lineal en Viviendas

Cargado por

Diana Paredes

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Regresión

I. Introducción y objetivos

II. Regresión

III. Resumen

IV. Caso práctico con solución

V. Glosario
Lección 1 de 5

I. Introducción y objetivos

1.1. Introducción de la unidad

La regresión lineal es una técnica básica del análisis estadístico que servirá de base para análisis más
complejos. Mediante dicha técnica se determinan las relaciones de dependencia de tipo lineal entre una
variable dependiente cuantitativa respecto de una o varias variables explicativas/independientes que pueden
ser de tipo cuantitativo o categórico.

A través del análisis de regresión se construirán modelos multivariables para predecir los valores de la
variable dependiente a partir de los valores de las variables independientes.
Para los ejemplos de esta unidad, se utilizará una base de datos que
contiene información sobre el precio y otras características de 1 008
viviendas en Estados Unidos.

Las variables incluidas son las siguientes:

price: precio en dólares.

bedrooms: número de habitaciones.
bathrooms: número de baños.
“sqft_living”: tamaño de la vivienda en m2.
ﬂoors: número de plantas de la casa.
“Exterior2”: orientación de la vivienda (exterior/no exterior).
“yr_built”: año de construcción de la casa.
“yr_renovated”: año de renovación de la casa.

Tómese como supuesto que se quiere estudiar la relación lineal entre el precio diario de las casas (en miles
de dólares) y el tamaño (en metros cuadrados) de una muestra de hogares en Estados Unidos.

En la unidad uno se presentaron dos herramientas para explorar la relación entre dos variables cuantitativas:

El diagrama de dispersión.

El coeﬁciente de correlación lineal de Pearson.

El diagrama de dispersión del ejemplo, representado en la ﬁgura 1., muestra
la existencia de una relación positiva fuerte entre el tamaño de las casas (eje
x; variable independiente) y el precio (eje y; variable dependiente); valores
altos de tamaño se asocian con valores altos de precio.

Figura 1. Diagrama de dispersión.

Fuente: elaboración propia (2020).

Para calcular el coeﬁciente de correlación lineal en R se puede utilizar la siguiente función, donde
“sqft_living” indica el tamaño de la vivienda y pricemiles el precio.
En este caso, el valor del coeﬁciente de correlación lineal entre el tamaño y el precio es 0,62, lo que muestra
una relación lineal positiva entre el tamaño y el precio de los hogares.

La correlación cuantiﬁca la fuerza de la asociación entre dos variables cuantitativas y las trata de modo
simétrico. La regresión lineal permite estudiar la relación entre dos variables cuantitativas y describe el
comportamiento de una variable en función de la otra.

C O NT I NU A R

1.2. Objetivos de la unidad

Los objetivos de esta unidad son:

1 Conocer de forma intuitiva el concepto de regresión lineal simple y múltiple.

2 Aprender el cálculo e interpretación de los parámetros de los modelos de regresión lineal

simple y múltiple.

3 Conocer el cálculo e interpretación del intervalo de conﬁanza y del contraste de hipótesis del
parámetro de la pendiente en la regresión lineal.

4 Aprender las asunciones necesarias que se deben cumplir al usar el modelo de regresión
lineal.

5 Aprender a construir un modelo de regresión lineal múltiple.

Lección 2 de 5

II. Regresión

A continuación, se introducirá de forma intuitiva el modelo de regresión lineal:

2.1. Modelo de regresión lineal

La idea intuitiva de la regresión lineal consiste en intentar resumir la información del diagrama de dispersión
mediante una recta que se ajuste a la nube de puntos, tal y como se muestra en el diagrama de la derecha
de la ﬁgura 2.

Figura 2. Diagrama de dispersión.

Fuente: elaboración propia (2020).

El objetivo consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la
relación lineal que existe entre dos variables. En este ejemplo, entre precio y tamaño. A la variable
dependiente o respuesta se la identiﬁca como Y, y a la variable predictora o independiente como X.

Intuitivamente, la recta de regresión será aquella que esté más cerca de todos los puntos. Para determinar
esta recta, se utiliza el método de los mínimos cuadrados, que elige como recta de regresión aquella que
minimiza las distancias verticales de las observaciones a la recta, tal y como se reﬂeja a continuación:

Figura 3. Diagrama de dispersión y residuos.

Fuente: elaboración propia (2020).

La distancia vertical entre el valor observado y el valor ajustado por la recta se denomina residuo (ei). Los
residuos pueden ser positivos o negativos y al sumarlos podrían cancelarse. El método de los mínimos
cuadrados utiliza la minimización de la suma de los residuos al cuadrado (ei2).

A la recta que minimiza la suma de los residuos al cuadrado se le denomina recta de regresión.

El modelo de regresión lineal simple se describe de acuerdo a la siguiente ecuación:

Siendo α la constante o intercepto, β la pendiente y e el error aleatorio. Este último representa la diferencia
entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que inﬂuyen
en Y, pero que no se incluyen en el modelo como predictores.

En la gran mayoría de casos, los valores α y β poblacionales son desconocidos, por lo que, a partir de una
muestra, se obtienen sus estimaciones y . Estas estimaciones se conocen como coeﬁcientes de regresión
o least square coeﬃcient estimates, ya que toman aquellos valores que minimizan la suma de cuadrados
residuales, lo que da lugar a la recta que pasa más cerca de todos los puntos. La fórmula de la recta es la
siguiente:

La pendiente ( ) se puede estimar con la siguiente fórmula:

Sy y Sx son las desviaciones típicas de cada variable y R el coeﬁciente de correlación de Pearson que se ha
visto previamente. El intercepto â es el valor de Y cuando X toma el valor 0; se interpreta como la media de la
variable de respuesta cuando el predictor vale 0. Si la variable de exposición no puede tomar el valor 0, el
intercepto no es interpretable.
La pendiente (β ) se interpreta como el cambio por término medio en y por cada aumento de una unidad en x;
el cambio por término medio en la variable respuesta por cada aumento de una unidad en la variable
predictor.

Siguiendo con el ejemplo visto anteriormente, la función “lm()” en R permite estimar un modelo de regresión
lineal por mínimos cuadrados en el que la variable respuesta es precio (“Price_miles”) y el predictor tamaño
(“sqft_living”).

La recta de regresión para el precio de la vivienda respecto al tamaño es:

Como el tamaño no puede tomar el valor cero, el intercepto (â =156,06) no es interpretable.

La pendiente ( β = 0,16) se interpretaría de la siguiente manera: el precio de las viviendas se incrementa, en

media, 0,16 miles de $ por cada aumento de 1 m2 en su tamaño.

Para que el intercepto sea interpretable se deben “centrar” (restarles su media) los valores de la variable
predictora.
C O NT I NU A R

2.1.1. . Inferencia de los parámetros de regresión

En la mayoría de las ocasiones, aunque los parámetros de la recta de regresión se estiman con los datos de
la muestra, el objetivo principal es poder sacar conclusiones de la relación entre dos variables en la
población de la que se extrajo la muestra.

En los individuos de la muestra, se observa una relación positiva entre el precio y el tamaño. Pero, ¿esta
relación puede ser explicada por azar o existe en la población?

Para responder a esta pregunta, se aplican las herramientas aprendidas en la unidad de inferencia para
realizar:

Contraste de hipótesis sobre la pendiente de la recta de regresión en la población, β, para

determinar si existe una relación lineal entre el tamaño y el precio de los hogares de la
población.

Intervalo de conﬁanza al 95 % para la pendiente de la recta de regresión para cuantiﬁcar la

magnitud de la asociación entre el tamaño y el precio.

Contraste de hipótesis sobre la pendiente de la recta de regresión

(ß):
1
2
3

Intervalo de conﬁanza al 95 % para la pendiente (ß):

Un intervalo de conﬁanza al 95 % para β se calcula con:

Donde tn-2 es el punto de la distribución t de student con n-2 grados de libertad que deja en las colas una

probabilidad del 5 %.

Para calcular el intervalo de conﬁanza al 95 % con R:

En la población de hogares de una región de Estados Unidos existe una seguridad con un 95 % de conﬁanza

de que el precio de la vivienda aumenta entre 0,15 y 0,17 miles de $ por cada aumento de un m2 en el tamaño
de la vivienda. Como el intervalo de confianza no incluye al cero, podemos concluir con una confianza del 95
% que hay una relación estadísticamente significativa entre el precio y el tamaño.

C O NT I NU A R

2.1.2. Modelo de regresión lineal simple con una variable

independiente categórica de dos categorías
Se quiere estudiar si el precio de las viviendas es igual si la vivienda es exterior o no. En este caso, la variable
de interés es cuantitativa y el predictor es una variable categórica de dos categorías. Si se intenta
representar los datos en un diagrama de dispersión, se obtendría:
Figura 4. Diagrama de dispersión variable x categórica.
Fuente: elaboración propia (2020).

En el gráﬁco se puede observar la media del medio en las viviendas exteriores (valor uno del eje X) y la media
del precio que no son exteriores (valor cero del eje x). Para comparar la media se puede utilizar el test para la
diferencia de media presentado en la unidad tres, pero también se puede estimar un modelo de regresión.

Sea:
Intercept= 441,27. El precio medio de las viviendas no exteriores es 441,27 miles de euros (IC 95 %: 425,62;
7 456,92).

“exteriorSi=77.94”: las viviendas exteriores valen en media 77,94 (IC 95 %: 52,92; 102,95). Miles de $ más
que las viviendas no exteriores (categoría de referencia).

El p-valor del contraste H0: β=0 es <0,05. Los datos presentan evidencia estadística suﬁciente para aﬁrmar

que el precio medio en las viviendas exteriores es diferente a las no exteriores.

C O NT I NU A R

2.2. Bondad de ajuste

Una vez que se ha ajustado un modelo, es necesario veriﬁcar su eﬁciencia, ya que aun siendo la línea que
mejor se ajusta a las observaciones de entre todas las posibles, el modelo puede no ser bueno. Las medidas

más utilizadas para medir la calidad del ajuste son el test F y el coeﬁciente de determinación R2.

Coeﬁciente de determinación R2
–
Mide el porcentaje de la variabilidad de y (por ejemplo: precio) explicado por el modelo, es decir, por su
relación lineal con x (por ejemplo: tamaño). Su valor está acotado entre cero y uno.

En los modelos de regresión lineal simple el valor de R2 se corresponde con el cuadrado del coeﬁciente de
correlación de Pearson (r) entre X e Y, aunque no es así en regresión múltiple. Existe una modiﬁcación de R2
llamada como R2 ajustado que se emplea principalmente en los modelos de regresión múltiple. Introduce
una penalización cuantos más predictores se incorporan al modelo.
En los modelos lineales simples no se emplea.

Test F
–
El test F es un contraste de hipótesis que considera como hipótesis nula que todos los coeﬁcientes beta de
la regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.
Se emplea en modelos de regresión múltiple para saber si al menos alguno de los predictores introducidos
en el modelo contribuye de forma signiﬁcativa.
En modelos lineales simples, dado que solo hay un predictor, el p-valor del test F es igual al p-valor del t-test
del predictor.
En el ejemplo del modelo de regresión del precio de la vivienda sobre el tamaño se encuentra el R cuadrado y
el p-valor del test F (marcados en amarillo a continuación):

El valor de R2 es 0,3793 (37,93 %), es decir, el 37,93 % de la variabilidad de la variable precio está explicada
por la variable tamaño. Además, el p-valor del test F es <0,05 por lo que el predictor es estadísticamente
signiﬁcativo.

C O NT I NU A R

2.2. Modelo de regresión lineal múltiple

Una extensión natural del modelo de regresión lineal simple consiste en considerar más de una variable
explicativa. Los modelos de regresión múltiple estudian la relación entre una variable de interés Y (variable
respuesta o dependiente) y un conjunto de variables explicativas o regresoras X1, X2, . . ., Xp.

En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable
dependiente con las variables independientes es lineal, es decir:

A continuación, se explica cómo seleccionar las variables que se deben incluir en un modelo de regresión.

C O NT I NU A R

2.3.1. Selección de variables

La construcción del modelo ﬁnal multivariable depende del objetivo del estudio. Cuando el objetivo del
estudio es identiﬁcar los factores pronóstico construimos un modelo predictivo.

El objetivo de un modelo predictivo es identiﬁcar qué variables se

asocian a la variable de interés de forma independiente; esto es,
teniendo en cuenta el efecto simultáneo que el resto de las variables
tienen sobre la variable de interés.

Existen determinadas métricas que podemos utilizar para seleccionar el mejor modelo de entre un conjunto
de ellos con distintos predictores o número de ellos. Entre las métricas más comúnmente utilizadas para
comparar modelos están el criterio de información de Akaike (AIC) y criterio de información bayesiano (BIC).
Dados dos modelos estimados, el modelo con el menor valor de BIC/AIC es el que se preﬁere. Por lo tanto,
menor BIC/AIC implica un número menor de variables explicativas, mejor ajuste, o ambos. En el ejemplo de
construcción del modelo se ilustrará el uso de estas métricas.

FASES DE LA SELECCIÓN DE VARIABLES:

1. Análisis univariable

Identiﬁcar qué variables se asocian a la variable de interés sin tener en cuenta el efecto simultáneo del
resto de variables. Es decir, cada modelo de regresión solo incluye una variable

2. Análisis multivariable

Identificar qué variables se asocian a la variable de interés teniendo en cuenta el efecto simultáneo que
tienen el resto de variables. Es decir, el modelo de regresión incluye dos o más variables. Hay diferentes
métodos para identificar los predictores incluidos en el modelo final:

1. Método jerárquico: basándose en el criterio del analista, se introducen unos predictores

determinados en un orden determinado.

2. Método de entrada forzada: se introducen todos los predictores simultáneamente.

3. Método paso a paso (stepwise): emplea criterios matemáticos para decidir qué predictores
contribuyen signiﬁcativamente al modelo y en qué orden se introducen. Dentro de este método
existen dos estrategias:
Procedimiento hacia atrás (backguard): empezar con un modelo que incluya las variables de
exposición que se han asociado signiﬁcativamente a la variable de interés en el análisis
univariable. Se prueba a eliminar una a una cada variable, si se mejora el modelo, queda
excluida. Este método permite evaluar cada variable en presencia de las otras.

Procedimiento hacia adelante (forward):Empezar con un modelo vacío. A partir de este se

generan todos los posibles modelos introduciendo una sola variable de entre las disponibles.
Aquella variable que mejore en mayor medida el modelo se selecciona. A continuación, se
intenta incrementar el modelo probando a introducir una a una las variables restantes. Si
introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo
hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este
proceso se repite hasta llegar al punto en el que ninguna de las variables que quedan por
incorporar mejore el modelo.

En el caso de variables categóricas de más de dos categorías, si al menos uno de sus niveles es
signiﬁcativo, se considera que la variable lo es.

En R, la función “step()” permite encontrar el mejor modelo basado en AIC utilizando cualquiera de las
tres variantes del método paso a paso.

Retomando el ejemplo utilizado anteriormente, el objetivo es crear el modelo de regresión lineal multivariable
que mejor prediga el precio de la vivienda en una región de Estados Unidos utilizando la información
disponible.

La variable respuesta/dependiente será el precio de la vivienda en miles y como potenciales predictores

vamos a tomar en consideración: tamaño, número de habitaciones, número de baños, año de construcción,
año de renovación y orientación (exterior/no exterior).

En la primera fase se realizarán los modelos univariables. Aunque con la función step de R este paso no
sería imprescindible, es importante realizar esta fase, ya que aportará un mayor conocimiento de los datos.
En la fase uno del proceso de selección de variables vamos a estimar un modelo de regresión para cada
variable predictora.

Fase uno: análisis univariable

Modelo de regresión con el predictor tamaño de la vivienda:

Existe una relación lineal entre el precio de la vivienda y el tamaño (p-valor< 0,001). Por cada aumento del

tamaño de la vivienda en una unidad, el precio aumenta en 1 602 euros. El coeﬁciente de determinación R2
0,3793, es decir, el tamaño de la vivienda explica casi el 38 % de la variabilidad del precio de la vivienda.
Modelo de regresión con el predictor número de habitaciones:

Se observa también que existe una relación lineal estadísticamente signiﬁcativa entre el número de
habitaciones y el precio de la vivienda. El precio de la vivienda se incrementa en 75,63 mil euros por cada

aumento de una habitación. La variabilidad explicada (R2) del modelo es el 11,9 %.

Modelo de regresión con el predictor número de baños:

También se observa una relación lineal signiﬁcativa entre el número de baños y el precio de la vivienda. Por
cada baño más, el precio de la vivienda se incrementa en 117 938 miles de euros. La variabilidad explicada

(R2) del modelo es el 18,2 %.

Modelo de regresión con el predictor año de construcción:

No se observa una relación estadísticamente signiﬁcativa entre el año de construcción y el precio. Aunque el
p-valor está en el límite de la signiﬁcación estadística (P-valor <0,1). La variabilidad explicada es del 0,3 %.

Modelo de regresión con el predictor año de renovación:

No se observa una relación estadísticamente signiﬁcativa entre el año de renovación y el precio. Aunque el
p-valor está en el límite de la signiﬁcación estadística (P-valor <0,1). La variabilidad explicada es del 0,3 %.

Modelo de regresión con el predictor orientación de la vivienda:

Las viviendas exteriores tienen un precio en media 77,93 miles de euros superior a las no exteriores. La
variabilidad explicada es del 3 %.

Fase dos: análisis multivariable

Se va a construir el modelo multivariable predictivo con un enfoque hacia

atrás. En primer lugar, se construirá el modelo con todas las variables
potencialmente predictoras. Aunque el año de renovación y el año de
construcción no resultaron estadísticamente significativos, se incluirán en el
modelo final, ya que están en el límite de la significación estadística (P-valor
<0,1).

El modelo con todas las variables introducidas como predictores tiene un R2 alto (0,4145). Es capaz de
explicar el 41,45 % de la variabilidad observada en el precio de la vivienda. El p-valor del modelo es
significativo (<0,001), por lo que se puede aceptar que la relación no es producto del azar; al menos uno de
los coeficientes parciales de regresión es distinto de cero. Hay dos predictores que no son significativos, lo
que es un indicativo de que podrían no contribuir al modelo.
El siguiente paso es construir un modelo “hacia atrás” para seleccionar el mejor conjunto de predictores. El
valor matemático empleado para determinar la calidad del modelo va a ser Akaike (AIC).

Para construir el modelo hacia atrás se utiliza la función de step de R con la opción backguard.
En la salida de R, se observa que con el método backward se parte del total de las variables, y en función del
AIC se determina qué variables deben abandonar el modelo.
El proceso ﬁnaliza cuanto el AIC de referencia es menor que el AIC de las variables predictoras del modelo

El mejor modelo ha sido (AIC más pequeño), es decir, el último de la salida de la función step:
Los factores que predicen de forma simultánea el precio de la vivienda son: el tamaño, el número de baños,
el número de habitaciones y el año de construcción. Por cada aumento de un metro cuadrado en el tamaño
de la vivienda, aumenta el precio en 0,17 miles de $ (intervalo de conﬁanza –IC- 95 %: 0,16; 0,20). Por cada
habitación más de la vivienda el precio disminuye en 20.99 miles de $ (IC 95%: -34.57; -7.41). Para cada baño
más en la vivienda, aumenta el precio en 25,25 miles de $ (IC 95 %: -3,14; 47,36). Por cada aumento en el año
de construcción de la vivienda, el precio disminuye en -1,47 miles de $ (IC 95 %: -1,87; -1,08). El R2del modelo
es 41,37: el 41,37 % de la variabilidad de la variable precio de la vivienda está explicada por el resto de
variables incluidas en el modelo de regresión.

C O NT I NU A R

2.4. Diagnosis y validación del modelo

A continuación, se detallan los aspectos más importantes a revisar tras la realización de un modelo de
regresión lineal.

2.4.1. Asunciones de modelo de regresión lineal

Linealidad
–
Relación lineal entre la variable predictiva (x) y la variable respuesta (y).

Distribución normal de los residuos

–
Los residuos se tienen que distribuir de forma normal, con media igual a cero.

Varianza de residuos constante (homocedasticidad)

–
La varianza de los residuos ha de ser aproximadamente constante a lo largo del eje X.

Independencia
–
Las observaciones y1, y2, …, yn son independientes. Es importante tener esto en cuenta cuando se trata de
mediciones temporales. Otro caso frecuente es el de tener varias mediciones para un mismo sujeto.

C O NT I NU A R

2.4.2. Observaciones inﬂuyentes y outliers

Hay que estudiar con detenimiento las observaciones inﬂuyentes y outliers, ya que pueden generar una falsa
correlación que realmente no existe u ocultar una existente. ¿La omisión de una observación particular
provocaría una gran diferencia en la regresión?

En el gráfico se muestra una variable respuesta ficticia y frente a una variable de exposición x, en la que hay
una observación altamente influyente en la parte superior derecha.
Figura 5. Diagrama de dispersión y outlier.
Fuente: elaboración propia (2020).

Para evaluar la inﬂuencia de estas observaciones, se calculan las distancias de Cook.

La distancia de Cook del caso i-ésimo consiste en buscar la distancia entre los parámetros estimados si
incluyen la observación i-ésima y si no la incluyen. Cada observación tiene su distancia y se considera
signiﬁcativa si es mayor que uno.

C O NT I NU A R

2.4.3. Herramientas para valorar las asunciones del modelo de

regresión lineal
Dado que las condiciones se veriﬁcan a partir de los residuos, primero se suele generar el modelo y después
se valida.

A continuación, se presentarán cinco herramientas que permitirán evaluar las asunciones del modelo:

Gráﬁco de dispersión de x e y
–
Permite detectar no linealidad, heterocedasticidad y outilers.

Figura 6. Asunciones regresión lineal.

Fuente: elaboración propia (2020).

Gráﬁco de residuos frente a valores ajustados

–
Permite detectar problemas de heterocedasticidad: si el modelo es apropiado, deberían ser puntos
aleatorios alrededor del cero (formas cónicas son un claro indicio de falta de homocedasticidad).
También es posible detectar problemas de heterocedasticidad a través de o mediante contraste de
hipótesis mediante el test de Breusch-Pagan. La hipótesis nula de este contraste es “Ho: no hay
heterocedasticidad”.

Figura 7. Asunciones regresión lineal.

Fuente: elaboración propia (2020).

Gráﬁco Q-Q de los residuos estandarizados

–
La distribución normal de los residuos se puede comprobar con un histograma, con la distribución de
cuantiles (“qqnorm() + qqline()”) o con un test de hipótesis de normalidad (Shapiro-Wilks). Estos gráﬁcos
también son útiles para detectar outliers que suelen ser una causa frecuente por la que se viola la
condición de normalidad.

Ejemplo en R: comprobación de las asunciones del modelo con R

En primer lugar, se representa el gráﬁco de dispersión x e y (ﬁgura 8).

En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que indique no
linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el precio y el tamaño de la
vivienda. Sin embargo, sí que se puede observar un valor outlier en la zona superior derecha del gráﬁco.

Figura 8. Ejemplo R.
Fuente: elaboración propia (2020).
En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que indique no
linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el precio y el tamaño de la
vivienda. Sin embargo, sí que se puede observar un valor outlier en la zona superior derecha del gráﬁco.

El resto de las herramientas para la valoración de las asunciones del modelo se basan en los residuos. La
función “lm()” calcula y almacena los valores predichos por el modelo y los residuos.

Además, el objeto devuelto por la función “lm()” puede pasarse como argumento a la función “plot()”, por lo
que se obtienen varios gráﬁcos que permiten evaluar los residuos y los outliers.
Figura 9. Ejemplo R.
Fuente: elaboración propia (2020).

Para comprobar la normalidad de los residuos, se pueden realizar dos contrastes de hipótesis:
Normalidad de los residuos:

Homocedasticidad:

Tanto los gráﬁcos (histograma, normal Q-Q) como el contraste de hipótesis conﬁrman la
normalidad de los residuos.

El gráﬁco de los residuos versus los valores ajustados y el test de homocedasticidad no

muestran signos de heterocesdasticidad.

Tanto en el gráﬁco de dispersión como en el gráﬁco de normalidad se observan algunos

outliers, sin embargo, las distancias de Cook son inferiores a uno.

¿Qué hacer si no se cumplen las asunciones del modelo?

–
Comprobar si hay errores en la codiﬁcación o introducción de los datos que puedan haber ocasionado
la existencia de outliers u observaciones inﬂuyentes.

Explorar relaciones no lineales entre la variable respuesta y la variable explicativa.

Análisis de sensibilidad para examinar si las conclusiones cambian cuando las observaciones
inﬂuyentes no son consideradas en el análisis.

Transformar la variable respuesta, la variable explicativa o ambas.

Utilizar métodos robustos, como bootstrap, para calcular intervalos de conﬁanza y contrastes de
hipótesis, independientemente de las asunciones del modelo sobre la distribución de la variable
respuesta.

C O NT I NU A R

2.4.4. Multicolinealidad
Cuando en un modelo de regresión lineal existe una fuerte relación lineal entre sus variables independientes,
se dice que existe multicolinealidad aproximada. En esta situación, el estimador por mínimos cuadrados
ordinarios puede ofrecer resultados inestables, por lo que no se recomienda su uso y se hace necesario
disponer de herramientas que permitan detectar este problema de forma adecuada.

Entre estas herramientas, las más usadas son el factor de inﬂación de la varianza (FIV) y el número de
condición (NC). Estos valores no son test estadísticos que contrasten si la existencia de multicolinealidad
es grave, sino de reglas de decisión que tratan de establecer umbrales a partir de los cuales es necesario
evaluar la inclusión de dichas variables en el modelo. Normalmente, cuando existe valor de FIV > 10 es un
indicativo de multicolinealidad.
No hay predictores que muestren una correlación lineal muy alta ni inﬂación de varianza.
Lección 3 de 5

III. Resumen

Repasa los conocimientos adquiridos en la unidad

La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para análisis más
complejos. Mediante dicha técnica, se trata de determinar relaciones de dependencia de tipo lineal entre
una variable dependiente cuantitativa respecto de una o varias variables explicativas/independientes que
pueden ser de tipo cuantitativo o categórico.
Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal
que existe entre dos variables. A la recta que minimiza la suma de los residuos al cuadrado (diferencia
entre el valor real y el predicho por la recta) se le denomina recta de regresión.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:

Las asunciones del modelo de regresión lineal son:

Linealidad: relación lineal entre la variable predictiva (x) y la variable respuesta (y).

Distribución normal de los residuos: los residuos se tiene que distribuir de forma normal, con
media igual a cero.

Varianza de residuos constante (homocedasticidad): la varianza de los residuos ha de ser

aproximadamente constante a lo largo del eje X.

Independencia: las observaciones y1, y2, …, yn son independientes.

Lección 4 de 5

IV. Caso práctico con solución

Aplica los conocimientos adquiridos en esta unidad

I. PROBLEMA

ENUNCIADO

El departamento de asistencial de una aseguradora solicita al actuario que indique una fórmula que
permita la predicción de los gastos médicos mediante el BMI (el índice de masa corporal, que es una
razón matemática que asocia la masa y la talla de un individuo) del asegurado para poder realizar el
business case de negocio.
Para realizar el problema, se usará el siguiente dataset:

SE PIDE

1. Representación gráﬁca de las observaciones.

2. Cálculo del modelo de regresión lineal simple.

insurance.zip
15.2 KB

II. PROBLEMA
ENUNCIADO

Regresión lineal con una variable independiente categórica de dos categorías:

Para hacer este ejercicio, se usará la base de datos Salaries de la librería carData.
Se da el caso de un departamento de recursos humanos de una consultora especializada en people
analitycs que trabaja para una empresa dedicada a la gestión de colegios privados. Se solicita la
predicción del salario de los profesores durante nueve meses en función de las variables que se darán a
continuación, para analizar una investigación que evite la presencia de posibles problemas de
discriminación.

SE PIDE

¿Inﬂuye el sexo del profesor en el salario?

¿Inﬂuye el rango del profesor en el salario?

Analizando toda la información disponible, ¿cuáles son las variables más inﬂuyentes?
III. PROBLEMA

ENUNCIADO

Utilizar el dataset precargado en R de auto para los siguientes ejercicios:

Para cargar el dataset, se utilizará el dataset Auto que esta precargado en el paquete ISLR.

DATOS

Este conjunto de datos fue tomado de la biblioteca StatLib, que se mantiene en la Universidad Carnegie
Mellon. El conjunto de datos se utilizó en la Exposición de la Asociación Americana de Estadística de
1983.

Un marco de datos con 392 observaciones en las siguientes nueve variables:

MPG: millas por galón.

Cylinders: número de cilindros entre cuatro y ocho.

Displacement: desplazamiento del motor (pulgadas cúbicas).

Horsepower: caballos de fuerza del motor.

Weight: peso del vehículo (lb).

Acceleration: tiempo para acelerar de 0 a 60 mph (seg.)

Year: año modelo (módulo 100).

Origin: origen del automóvil (1. estadounidense, 2. europeo, 3. japonés).

Name: nombre del vehículo.

Los datos originales contenían 408 observaciones, pero se eliminaron 16 observaciones con valores
faltantes.

SE PIDE

Exploración de datos iniciales.

Ajuste del modelo con todas las variables.

Herramientas para comprobar las asunciones del modelo.

Selección de las variables mediante el método backward.

VER SOLUCIÓN

SOLUCIÓN

La solución de este caso práctico se encuentra en el archivo que puedes descargar a continuación.
Caso practico unidad 4.zip
4.4 KB
Lección 5 de 5

V. Glosario

El glosario contiene términos destacados para la

comprensión de la unidad

Modelo de regresión lineal simple

–
Se describe de acuerdo a la ecuación:
Modelo de regresión lineal múltiple
–
Se describe de acuerdo a la ecuación:

Intercepto α ̂
–
Es el valor de Y cuando X toma el valor cero. Se interpreta como la media de la variable de respuesta
cuando el predictor vale cero. Si la variable de exposición no puede tomar el valor 0, el intercepto no es
interpretable.

Pendiente (β ̂)
–
Se interpreta como el cambio por término medio en y por cada aumento de una unidad en x.

Coeﬁciente de determinación R2
–
Mide el porcentaje de la variabilidad de y explicado por el modelo, es decir, por su relación lineal con x. Su
valor está acotado entre cero y uno.

Test F
–
Es un contraste de hipótesis que considera como hipótesis nula que todos los coeﬁcientes beta de la
regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.

También podría gustarte

Fundamentos de Regresión Lineal Simple
Aún no hay calificaciones
Fundamentos de Regresión Lineal Simple
56 páginas
Análisis de Regresión y Correlación
Aún no hay calificaciones
Análisis de Regresión y Correlación
39 páginas
Regresión Lineal Simple en Estadística
Aún no hay calificaciones
Regresión Lineal Simple en Estadística
5 páginas
Introducción a la Regresión Lineal Simple
Aún no hay calificaciones
Introducción a la Regresión Lineal Simple
27 páginas
Regresión Lineal.2900
Aún no hay calificaciones
Regresión Lineal.2900
14 páginas
Introducción a la Regresión Lineal
Aún no hay calificaciones
Introducción a la Regresión Lineal
21 páginas
Regresión Lineal y Correlación en Estadística
Aún no hay calificaciones
Regresión Lineal y Correlación en Estadística
26 páginas
Análisis de Regresión en Estadística
Aún no hay calificaciones
Análisis de Regresión en Estadística
21 páginas
Introducción a la Regresión Lineal Simple
100% (1)
Introducción a la Regresión Lineal Simple
14 páginas
Pid 00212753-3 PDF
Aún no hay calificaciones
Pid 00212753-3 PDF
104 páginas
Trabajo de EstadiÌ Stica
Aún no hay calificaciones
Trabajo de EstadiÌ Stica
15 páginas
Análisis de Regresión Lineal en AVCORP
Aún no hay calificaciones
Análisis de Regresión Lineal en AVCORP
25 páginas
Modelos Estocásticos en Regresión Lineal
Aún no hay calificaciones
Modelos Estocásticos en Regresión Lineal
5 páginas
Análisis de Regresión Lineal y Tipos
Aún no hay calificaciones
Análisis de Regresión Lineal y Tipos
15 páginas
Análisis de Regresión Lineal Simple
Aún no hay calificaciones
Análisis de Regresión Lineal Simple
31 páginas
Módulo 10. Regresión Lineal Simple
Aún no hay calificaciones
Módulo 10. Regresión Lineal Simple
54 páginas
Tema 10
Aún no hay calificaciones
Tema 10
88 páginas
Regresión y Correlación en Estadística
Aún no hay calificaciones
Regresión y Correlación en Estadística
16 páginas
Comunicación
Aún no hay calificaciones
Comunicación
29 páginas
Regresion Lineal Simple PDF
Aún no hay calificaciones
Regresion Lineal Simple PDF
49 páginas
Regresión Lineal Simple
96% (23)
Regresión Lineal Simple
49 páginas
Introducción a la Regresión Lineal
Aún no hay calificaciones
Introducción a la Regresión Lineal
44 páginas
Modelo de Regresión Lineal Simple
Aún no hay calificaciones
Modelo de Regresión Lineal Simple
4 páginas
VF Amd101 Apunte Semana 7
Aún no hay calificaciones
VF Amd101 Apunte Semana 7
41 páginas
Ea 3 Regresion Lineal
Aún no hay calificaciones
Ea 3 Regresion Lineal
104 páginas
Introducción a la Regresión Lineal Simple
Aún no hay calificaciones
Introducción a la Regresión Lineal Simple
56 páginas
Guía Práctica de Regresión Lineal
Aún no hay calificaciones
Guía Práctica de Regresión Lineal
24 páginas
Investigacion Estadistica Inferencial
Aún no hay calificaciones
Investigacion Estadistica Inferencial
12 páginas
Regresión y Correlación Lineal Simple
Aún no hay calificaciones
Regresión y Correlación Lineal Simple
21 páginas
UNidad 7
Aún no hay calificaciones
UNidad 7
50 páginas
Requisitos y Modelización de Regresión Múltiple
Aún no hay calificaciones
Requisitos y Modelización de Regresión Múltiple
8 páginas
Correlacion
Aún no hay calificaciones
Correlacion
12 páginas
Análisis de Regresión Lineal Simple
Aún no hay calificaciones
Análisis de Regresión Lineal Simple
10 páginas
Semana 14 - Sesión 40 - Regresión Lineal Simple.
Aún no hay calificaciones
Semana 14 - Sesión 40 - Regresión Lineal Simple.
27 páginas
Unidad Vii - Regresión y Correlación Lineal - Primera Parte - 2c2024
Aún no hay calificaciones
Unidad Vii - Regresión y Correlación Lineal - Primera Parte - 2c2024
24 páginas
Regresión Lineal Simple en Estadística
Aún no hay calificaciones
Regresión Lineal Simple en Estadística
25 páginas
Reporte Sobre Regresión Lineal Simple
Aún no hay calificaciones
Reporte Sobre Regresión Lineal Simple
7 páginas
Introducción a la Regresión Lineal Simple
Aún no hay calificaciones
Introducción a la Regresión Lineal Simple
4 páginas
09 Regresion y Correlacion Lineal Simple
Aún no hay calificaciones
09 Regresion y Correlacion Lineal Simple
30 páginas
Regresión Lineal Simple
Aún no hay calificaciones
Regresión Lineal Simple
26 páginas
Regresión Lineal Simple: Conceptos Clave
Aún no hay calificaciones
Regresión Lineal Simple: Conceptos Clave
45 páginas
Modelamiento Estadístico: Regresión Lineal
Aún no hay calificaciones
Modelamiento Estadístico: Regresión Lineal
11 páginas
MÓDULO 4 Regresion Lineal y Correlacion
Aún no hay calificaciones
MÓDULO 4 Regresion Lineal y Correlacion
16 páginas
A9 OFVL-Estadistica
Aún no hay calificaciones
A9 OFVL-Estadistica
8 páginas
Regresión Lineal Simple en SPSS
Aún no hay calificaciones
Regresión Lineal Simple en SPSS
10 páginas
Regresión Lineal - Estadística
Aún no hay calificaciones
Regresión Lineal - Estadística
17 páginas
Resumen de Regresión Lineal Simple
Aún no hay calificaciones
Resumen de Regresión Lineal Simple
6 páginas
Material de
Aún no hay calificaciones
Material de
57 páginas
Regresion Lineal Simple
Aún no hay calificaciones
Regresion Lineal Simple
54 páginas
Regresión Lineal Múltiple en Estadística
100% (2)
Regresión Lineal Múltiple en Estadística
38 páginas
Regresión Lineal Simple y Múltiple
Aún no hay calificaciones
Regresión Lineal Simple y Múltiple
10 páginas
Guía de Regresión y Correlación
Aún no hay calificaciones
Guía de Regresión y Correlación
16 páginas
Regresión Lineal Simple para Predicción
Aún no hay calificaciones
Regresión Lineal Simple para Predicción
12 páginas
Correlación vs Causalidad y Regresión
Aún no hay calificaciones
Correlación vs Causalidad y Regresión
43 páginas
Diseño de Experimentos y ANOVA
Aún no hay calificaciones
Diseño de Experimentos y ANOVA
44 páginas
UD4 Inferencia
Aún no hay calificaciones
UD4 Inferencia
68 páginas
Repaso de Estadística Aplicada en Decisiones
Aún no hay calificaciones
Repaso de Estadística Aplicada en Decisiones
16 páginas
Guía de la Maestría en Data Science
Aún no hay calificaciones
Guía de la Maestría en Data Science
19 páginas
Sistema Contra Incendios UL/FM Ambato
Aún no hay calificaciones
Sistema Contra Incendios UL/FM Ambato
5 páginas
Torque y Velocidad en Motores Eléctricos
Aún no hay calificaciones
Torque y Velocidad en Motores Eléctricos
41 páginas
Ecología y Ambiente. Tríptico. Contaminación Acústica
Aún no hay calificaciones
Ecología y Ambiente. Tríptico. Contaminación Acústica
2 páginas
Estrategia para Estudiar Religiones y Herejías
Aún no hay calificaciones
Estrategia para Estudiar Religiones y Herejías
32 páginas
Mecánica de Fluidos en Ingeniería Civil
100% (1)
Mecánica de Fluidos en Ingeniería Civil
9 páginas
Currículum de Enfermera General Cinthia Castro
Aún no hay calificaciones
Currículum de Enfermera General Cinthia Castro
3 páginas
Obesidad y Sobrepeso en Atizapán
Aún no hay calificaciones
Obesidad y Sobrepeso en Atizapán
22 páginas
Comentarios sobre "El Mensaje de Silo"
Aún no hay calificaciones
Comentarios sobre "El Mensaje de Silo"
77 páginas
Ficha Sunarp 49730
Aún no hay calificaciones
Ficha Sunarp 49730
2 páginas
Técnicas y Objetivos del Subrayado
Aún no hay calificaciones
Técnicas y Objetivos del Subrayado
4 páginas
Pae Embarazo Ectopico
100% (4)
Pae Embarazo Ectopico
29 páginas
Guía Rápida Cama Hospitalaria Stryker
Aún no hay calificaciones
Guía Rápida Cama Hospitalaria Stryker
8 páginas
Infección Del Tracto Urinario
Aún no hay calificaciones
Infección Del Tracto Urinario
19 páginas
Educación Nutricional y Análisis de Encuestas
Aún no hay calificaciones
Educación Nutricional y Análisis de Encuestas
8 páginas
Ley de Contrataciones del Estado: Guía Completa
Aún no hay calificaciones
Ley de Contrataciones del Estado: Guía Completa
31 páginas
Hoja de Seguridad Tinta IT5157L
Aún no hay calificaciones
Hoja de Seguridad Tinta IT5157L
3 páginas
La Ciénaga de La Virgen
Aún no hay calificaciones
La Ciénaga de La Virgen
3 páginas
Detalles de Cimentación y Estructuras
Aún no hay calificaciones
Detalles de Cimentación y Estructuras
1 página
Definición Extensional en Lógica
Aún no hay calificaciones
Definición Extensional en Lógica
2 páginas
Formación en Educación Ambiental en I.E. Humberto Jordán Mazuera
Aún no hay calificaciones
Formación en Educación Ambiental en I.E. Humberto Jordán Mazuera
159 páginas
Diseño y Planificación de La Red, Documentos y Montaje
Aún no hay calificaciones
Diseño y Planificación de La Red, Documentos y Montaje
23 páginas
Guia No 3 - Queso Petit Suisse-Arequipe
Aún no hay calificaciones
Guia No 3 - Queso Petit Suisse-Arequipe
5 páginas
Antología-Planeación y Diseño de Instalaciones
100% (1)
Antología-Planeación y Diseño de Instalaciones
274 páginas
Listado de Solicitudes FONIFA abril 2018
Aún no hay calificaciones
Listado de Solicitudes FONIFA abril 2018
21 páginas
Diseño de Empacadora Semiautomática CAD
100% (2)
Diseño de Empacadora Semiautomática CAD
125 páginas
El Jefe de Mis Sueños. Romance de Oficina - Carmina D.PDF - PDF Versión 1.pdf Versión 1
Aún no hay calificaciones
El Jefe de Mis Sueños. Romance de Oficina - Carmina D.PDF - PDF Versión 1.pdf Versión 1
322 páginas
Derecho Civil - Parentesco
Aún no hay calificaciones
Derecho Civil - Parentesco
14 páginas
Exposición de QUIMICA 4to Año
Aún no hay calificaciones
Exposición de QUIMICA 4to Año
19 páginas
Esquemas 01 Sistema Cardiocirculatorio Aux Enfer SAS
Aún no hay calificaciones
Esquemas 01 Sistema Cardiocirculatorio Aux Enfer SAS
1 página
Prismas Topográficos
100% (1)
Prismas Topográficos
5 páginas