Documentos de Académico
Documentos de Profesional
Documentos de Cultura
05 Regresion
05 Regresion
2/38
Regresión
Regresión
I. Introducción
La regresión lineal
Es una técnica básica del análisis estadístico que servirá de base para análisis más complejos. Mediante dicha
técnica se determinan las relaciones de dependencia de tipo lineal entre una variable dependiente cuantitativa
respecto de una o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o categórico.
A través del análisis de regresión se construirán modelos multivariables para predecir los valores de la variable
dependiente a partir de los valores de las variables independientes.
Para los ejemplos de esta unidad, se utilizará una base de datos que contiene información
sobre el precio y otras características de 1 008 viviendas en Estados Unidos.
price
Precio en dólares.
bedrooms
Número de habitaciones.
bathrooms
Número de baños.
“sqft_living”
floors
“Exterior2”
“yr_built”
“yr_renovated”
3/38
Regresión
Supuesto
Tómese como supuesto que se quiere estudiar la relación lineal entre el precio diario de las casas (en miles
de dólares) y el tamaño (en metros cuadrados) de una muestra de hogares en Estados Unidos. En la unidad
uno se presentaron dos herramientas para explorar la relación entre dos variables cuantitativas:
El diagrama de dispersión.
El diagrama de dispersión del ejemplo, representado en la figura 1, muestra la existencia de una relación
positiva fuerte entre el tamaño de las casas (eje x; variable independiente) y el precio (eje y; variable
dependiente); valores altos de tamaño se asocian con valores altos de precio.
Para calcular el coeficiente de correlación lineal en R se puede utilizar la siguiente función, donde “sqft_living”
indica el tamaño de la vivienda y pricemiles el precio.
> attach(houses)
[1] 0.6158454
En este caso, el valor del coeficiente de correlación lineal entre el tamaño y el precio es 0,62, lo que muestra una
relación lineal positiva entre el tamaño y el precio de los hogares.
4/38
Regresión
La correlación
Cuantifica la fuerza de la asociación entre dos variables cuantitativas y las trata de modo simétrico.
La regresión lineal
Permite estudiar la relación entre dos variables cuantitativas y describe el comportamiento de una variable en
función de la otra.
II. Objetivos
Los objetivos de esta unidad son:
Aprender el cálculo e interpretación de los parámetros de los modelos de regresión lineal simple y múltiple.
Conocer el cálculo e interpretación del intervalo de confianza y del contraste de hipótesis del parámetro de la
pendiente en la regresión lineal.
Aprender las asunciones necesarias que se deben cumplir al usar el modelo de regresión lineal.
III. Regresión
A continuación, se introducirá de forma intuitiva el modelo de regresión lineal:
5/38
Regresión
Consiste en intentar resumir la información del diagrama de dispersión mediante una recta que se ajuste a la
nube de puntos, tal y como se muestra en el diagrama de la derecha de la figura 2.
La recta de regresión
Intuitivamente, la recta de regresión será aquella que esté más cerca de todos los puntos. Para
determinar esta recta, se utiliza el método de los mínimos cuadrados, que elige como recta de regresión aquella
que minimiza las distancias verticales de las observaciones a la recta, tal y como se refleja a continuación:
6/38
Regresión
La distancia vertical entre el valor observado y el valor ajustado por la recta se denomina
residuo (ei). Los residuos pueden ser positivos o negativos y al sumarlos podrían
cancelarse. El método de los mínimos cuadrados utiliza la minimización de la suma de los
residuos al cuadrado (ei2).
A la recta que minimiza la suma de los residuos al cuadrado se le denomina recta de regresión. El modelo de
regresión lineal simple se describe de acuerdo a la siguiente ecuación: Y=α+βX+e
Siendo α la constante o intercepto, β la pendiente y e el error aleatorio. Este último representa la diferencia
entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en Y,
pero que no se incluyen en el modelo como predictores.
7/38
Regresión
En la gran mayoría de casos, los valores α y β poblacionales son desconocidos, por lo que,
a partir de una muestra, se obtienen sus estimaciones α y β. Estas estimaciones se
conocen como coeficientes de regresión o least square coefficient estimates, ya que toman
aquellos valores que minimizan la suma de cuadrados residuales, lo que da lugar a la recta
que pasa más cerca de todos los puntos. La fórmula de la recta es la siguiente:
8/38
Regresión
Siguiendo con el ejemplo visto anteriormente, la función “lm()” en R permite estimar un modelo
de regresión lineal por mínimos cuadrados en el que la variable respuesta es precio
(“Price_miles”) y el predictor tamaño (“sqft_living”).
Call:
Coefficients:
(Intercept) sqft_living
156.0601 0.1602
Para que el intercepto sea interpretable se deben “centrar” (restarles su media) los valores de la
variable predictora.
En la mayoría de las ocasiones, aunque los parámetros de la recta de regresión se estiman con
los datos de la muestra, el objetivo principal es poder sacar conclusiones de la relación entre
dos variables en la población de la que se extrajo la muestra.
En los individuos de la muestra, se observa una relación positiva entre el precio y el tamaño. Pero, ¿esta relación
puede ser explicada por azar o existe en la población?
Para responder a esta pregunta, se aplican las herramientas aprendidas en la unidad de inferencia para realizar:
Contraste de hipótesis sobre la pendiente de la recta de regresión en la población, β, para determinar si existe
una relación lineal entre el tamaño y el precio de los hogares de la población.
9/38
Regresión
Hipótesis nula
En la población de la que se extrajo la muestra, no hay una relación lineal entre el tamaño y el precio de la
vivienda. H 0: β=0
Hipótesis alternativa
En la población de la que se extrajo la muestra hay una relación lineal entre el tamaño y el precio de la
vivienda. H a: β≠0
Para poder calcular el valor del test estadístico y el p-valor, es necesario estimar el error estándar (EE( )):
> summary(regresion)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
10/38
Regresión
Bajo la hipótesis nula, el estadístico t sigue una distribución t de student con n-2 grados de libertad. El p-valor del
contraste es <0.05. Los datos muestran evidencia estadística suficiente para rechazar la hipótesis nula, es decir:
para afirmar que existe una relación lineal entre el tamaño y el precio de las viviendas de una región de Estados
Unidos.
Donde tn-2 es el punto de la distribución t de student con n-2 grados de libertad que deja en las colas una
probabilidad del 5 %. Para calcular el intervalo de confianza al 95 % con R:
2.5 % 97.5 %
En la población de hogares de una región de Estados Unidos existe una seguridad con un 95 % de confianza de
que el precio de la vivienda aumenta entre 0,15 y 0,17 miles de $ por cada aumento de un m2 en el tamaño de la
vivienda. Como el intervalo de confianza no incluye al cero, podemos concluir con una confianza del 95 % que
hay una relación estadísticamente significativa entre el precio y el tamaño.
Se quiere estudiar si el precio de las viviendas es igual si la vivienda es exterior o no. En este caso, la variable de
interés es cuantitativa y el predictor es una variable categórica de dos categorías. Si se intenta representar los
datos en un diagrama de dispersión, se obtendría:
11/38
Regresión
En el gráfico se puede observar la media del medio en las viviendas exteriores (valor uno del eje X) y la media
del precio que no son exteriores (valor cero del eje x). Para comparar la media se puede utilizar el test para la
diferencia de media presentado en la unidad tres, pero también se puede estimar un modelo de regresión.
Sea:
Y=α+βX+e
Valor medio de y cuando x vale 0 (por ejemplo: precio medio en las viviendas no exteriores).
Diferencia entre las medias del grupo 1 y grupo 0 (por ejemplo: diferencia entre la media de precio en las
viviendas exteriores y la media de precio en las no exteriores).
Código en R
Call:
12/38
Regresión
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
2.5 % 97.5 %
Intercept= 441,27
El precio medio de las viviendas no exteriores es 441,27 miles de euros (IC 95 %: 425,62; 7 456,92).
“exteriorSi=77.94”
Las viviendas exteriores valen en media 77,94 (IC 95 %: 52,92; 102,95). Miles de $ más que las viviendas no
exteriores (categoría de referencia).
13/38
Regresión
El p-valor del contraste H 0: β=0 es <0.05. Los datos presentan evidencia estadística
suficiente para afirmar que el precio medio en las viviendas exteriores es diferente a las no
exteriores.
Coeficiente de determinación R 2
Mide el porcentaje de la variabilidad de y (por ejemplo: precio) explicado por el modelo, es decir, por su relación
lineal con x (por ejemplo: tamaño). Su valor está acotado entre cero y uno. En los modelos de regresión lineal
simple el valor de R2 se corresponde con el cuadrado del coeficiente de correlación de Pearson (r) entre X e Y,
aunque no es así en regresión múltiple. Existe una modificación de R2 llamada como R2 ajustado que se emplea
principalmente en los modelos de regresión múltiple. Introduce una penalización cuantos más predictores se
incorporan al modelo. En los modelos lineales simples no se emplea.
Test F
Es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de la regresión
estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es. Se emplea en
modelos de regresión múltiple para saber si al menos alguno de los predictores introducidos en el modelo
contribuye de forma significativa. En modelos lineales simples, dado que solo hay un predictor, el p-valor del test
F es igual al p-valor del t-test del predictor.
14/38
Regresión
En el ejemplo del modelo de regresión del precio de la vivienda sobre el tamaño se encuentra
el R cuadrado y el p-valor del test F (marcados en amarillo a continuación):
> summary(regresion)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Consiste en considerar más de una variable explicativa. Los modelos de regresión múltiple estudian la relación
entre una variable de interés Y (variable respuesta o dependiente) y un conjunto de variables explicativas o
regresoras X1, X2, . . ., Xp.
15/38
Regresión
En el modelo de regresión lineal múltiple se supone que la función de regresión que relaciona la variable
dependiente con las variables independientes es lineal, es decir:
A continuación, se explica cómo seleccionar las variables que se deben incluir en un modelo de regresión.
L a construcción del modelo final multivariable depende del objetivo del estudio. Cuando el objetivo del
estudio es identificar los factores pronóstico construimos un modelo predictivo.
Existen determinadas métricas que podemos utilizar para seleccionar el mejor modelo de entre un conjunto de
ellos con distintos predictores o número de ellos. Entre las métricas más comúnmente utilizadas para comparar
modelos están el criterio de información de Akaike (AIC) y criterio de información bayesiano (BIC).
Dados dos modelos estimados, el modelo con el menor valor de BIC/AIC es el que se prefiere.
Por lo tanto, menor BIC/AIC implica un número menor de variables explicativas, mejor ajuste, o
ambos. En el ejemplo de construcción del modelo se ilustrará el uso de estas métricas.
Análisis univariable
Identificar qué variables se asocian a la variable de interés sin tener en cuenta el efecto simultáneo del resto de
variables. Es decir, cada modelo de regresión solo incluye una variable.
Análisis multivariable
Identificar qué variables se asocian a la variable de interés teniendo en cuenta el efecto simultáneo que tienen el
resto de variables. Es decir, el modelo de regresión incluye dos o más variables. Hay diferentes métodos para
identificar los predictores incluidos en el modelo final:
Método jerárquico
Basándose en el criterio del analista, se introducen unos predictores determinados en un orden determinado.
16/38
Regresión
Emplea criterios matemáticos para decidir qué predictores contribuyen significativamente al modelo y en qué
orden se introducen. Dentro de este método existen dos estrategias:
Procedimiento hacia atrás (backguard)
Empezar con un modelo que incluya las variables de exposición que se han asociado significativamente a
la variable de interés en el análisis univariable. Se prueba a eliminar una a una cada variable, si se mejora
el modelo, queda excluida. Este método permite evaluar cada variable en presencia de las otras.
Empezar con un modelo vacío. A partir de este se generan todos los posibles modelos introduciendo una
sola variable de entre las disponibles. Aquella variable que mejore en mayor medida el modelo se
selecciona. A continuación, se intenta incrementar el modelo probando a introducir una a una las variables
restantes. Si introduciendo alguna de ellas mejora, también se selecciona. En el caso de que varias lo
hagan, se selecciona la que incremente en mayor medida la capacidad del modelo. Este proceso se
repite hasta llegar al punto en el que ninguna de las variables que quedan por incorporar mejore el
modelo.
En el caso de variables categóricas de más de dos categorías, si al menos uno de sus niveles
es significativo, se considera que la variable lo es. En R, la función “step()” permite encontrar el
mejor modelo basado en AIC utilizando cualquiera de las tres variantes del método paso a
paso.
Ejemplo
La variable respuesta/dependiente será el precio de la vivienda en miles y como potenciales predictores vamos
a tomar en consideración: tamaño, número de habitaciones, número de baños, año de construcción, año de
renovación y orientación (exterior/no exterior).
En la primera fase se realizarán los modelos univariables. Aunque con la función step de R
este paso no sería imprescindible, es importante realizar esta fase, ya que aportará un
mayor conocimiento de los datos. En la fase uno del proceso de selección de variables
vamos a estimar un modelo de regresión para cada variable predictora.
17/38
Regresión
> summary(Modelo)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Existe una relación lineal entre el precio de la vivienda y el tamaño (p-valor< 0.05). Por cada aumento del
tamaño de la vivienda en una unidad, el precio aumenta en 1 602 euros. El coeficiente de determinación
R2 0,3793, es decir, el tamaño de la vivienda explica casi el 38 % de la variabilidad del precio de la
vivienda.
> summary(Modelo)
Call:
Residuals:
18/38
Regresión
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Se observa también que existe una relación lineal estadísticamente significativa entre el número de
habitaciones y el precio de la vivienda. El precio de la vivienda se incrementa en 75,63 mil euros por cada
aumento de una habitación. La variabilidad explicada (R2) del modelo es el 11,9 %.
> summary(Modelo)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
19/38
Regresión
También se observa una relación lineal significativa entre el número de baños y el precio de la vivienda.
Por cada baño más, el precio de la vivienda se incrementa en 117 938 miles de euros. La variabilidad
explicada (R2) del modelo es el 18,2 %.
> summary(Modelo)
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
No se observa una relación estadísticamente significativa entre el año de construcción y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.
> summary(Modelo)
20/38
Regresión
Call:
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
No se observa una relación estadísticamente significativa entre el año de renovación y el precio. Aunque
el p-valor está en el límite de la significación estadística (P-valor <0,1). La variabilidad explicada es del 0,3
%.
> summary(Modelo)
Call:
Residuals:
Coefficients:
21/38
Regresión
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Las viviendas exteriores tienen un precio en media 77,93 miles de euros superior a las no exteriores. La
variabilidad explicada es del 3 %.
Se va a construir el modelo multivariable predictivo con un enfoque hacia atrás. En primer lugar, se construirá
el modelo con todas las variables potencialmente predictoras. Aunque el año de renovación y el año de
construcción no resultaron estadísticamente significativos, se incluirán en el modelo final, ya que están en el
límite de la significación estadística (P-valor <0,1).
> summary(Modelo)
Call:
Residuals:
Coefficients:
22/38
Regresión
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El modelo con todas las variables introducidas como predictores tiene un R2 alto (0,4145). Es capaz de
explicar el 41,45 % de la variabilidad observada en el precio de la vivienda. El p-valor del modelo es
significativo (<0.05), por lo que se puede aceptar que la relación no es producto del azar; al menos uno de los
coeficientes parciales de regresión es distinto de cero. Hay dos predictores que no son significativos, lo que
es un indicativo de que podrían no contribuir al modelo.
El siguiente paso es construir un modelo “hacia atrás” para seleccionar el mejor conjunto de predictores. El
valor matemático empleado para determinar la calidad del modelo va a ser Akaike (AIC). Para construir el
modelo hacia atrás se utiliza la función de step de R con la opción backguard.
Start: AIC=10154.41
yr_renovated + exterior
Step: AIC=10152.41
exterior
23/38
Regresión
Step: AIC=10151.78
Call:
yr_built)
Coefficients:
En la salida de R, se observa que con el método backward se parte del total de las variables, y en función del
AIC se determina qué variables deben abandonar el modelo.
El proceso finaliza cuanto el AIC de referencia es menor que el AIC de las variables predictoras del modelo
El mejor modelo ha sido (AIC más pequeño), es decir, el último de la salida de la función step:
> summary(Modelo_final)
24/38
Regresión
Call:
yr_built)
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> confint(Modelo_final)
2.5 % 97.5 %
Los factores que predicen de forma simultánea el precio de la vivienda son: el tamaño, el número de baños,
el número de habitaciones y el año de construcción. Por cada aumento de un metro cuadrado en el tamaño
25/38
Regresión
de la vivienda, aumenta el precio en 0,17 miles de $ (intervalo de confianza –IC- 95 %: 0,16; 0,20). Por cada
habitación más de la vivienda el precio disminuye en 20.99 miles de $ (IC 95%: -34.57; -7.41). Para cada
baño más en la vivienda, aumenta el precio en 25,25 miles de $ (IC 95 %: -3,14; 47,36). Por cada aumento
en el año de construcción de la vivienda, el precio disminuye en -1,47 miles de $ (IC 95 %: -1,87; -1,08). El
R2del modelo es 41,37: el 41,37 % de la variabilidad de la variable precio de la vivienda está explicada por
el resto de variables incluidas en el modelo de regresión.
Linealidad
Los residuos se tienen que distribuir de forma normal, con media igual a cero.
Independencia
Las observaciones y1, y2, …, yn son independientes. Es importante tener esto en cuenta cuando se trata de
mediciones temporales. Otro caso frecuente es el de tener varias mediciones para un mismo sujeto.
Hay que estudiar con detenimiento las observaciones influyentes y outliers, ya que pueden generar una falsa
correlación que realmente no existe u ocultar una existente. ¿La omisión de una observación particular provocaría
una gran diferencia en la regresión?
En el gráfico se muestra una variable respuesta ficticia y frente a una variable de exposición x, en la que hay una
observación altamente influyente en la parte superior derecha.
26/38
Regresión
Distancia de Cook
La distancia de Cook del caso i-ésimo consiste en buscar la distancia entre los parámetros estimados si
incluyen la observación i-ésima y si no la incluyen. Cada observación tiene su distancia y se considera
significativa si es mayor que uno.
3.4.3. Herramientas para valorar las asunciones del modelo de regresión lineal
Dado que las condiciones se verifican a partir de los residuos, primero se suele generar el modelo y después se
valida. A continuación, se presentarán cinco herramientas que permitirán evaluar las asunciones del modelo:
27/38
Regresión
Gráfico de dispersión de x e y
28/38
Regresión
Permite detectar problemas de heterocedasticidad: si el modelo es apropiado, deberían ser puntos aleatorios
alrededor del cero (formas cónicas son un claro indicio de falta de homocedasticidad).
La distribución normal de los residuos se puede comprobar con un histograma, con la distribución de cuantiles
(“qqnorm() + qqline()”) o con un test de hipótesis de normalidad (Shapiro-Wilks). Estos gráficos también son
útiles para detectar outliers que suelen ser una causa frecuente por la que se viola la condición de normalidad.
29/38
Regresión
Figura 8. Ejemplo R.
En el diagrama de dispersión con los datos del ejemplo, no se observa ningún patrón que
indique no linealidad o heterocedasticidad. Se observa que existe una relación lineal entre el
precio y el tamaño de la vivienda. Sin embargo, sí que se puede observar un valor outlier en
la zona superior derecha del gráfico.
El resto de las herramientas para la valoración de las asunciones del modelo se basan en los residuos.
Función “lm()”
> cook<-cooks.distance(regresion)
Además, el objeto devuelto por la función “lm()” puede pasarse como argumento a la función “plot()”, por lo que
se obtienen varios gráficos que permiten evaluar los residuos y los outliers.
30/38
Regresión
> plot(regresion)
> hist(residuos)
Figura 9. Ejemplo R.
Para comprobar la normalidad de los residuos, se pueden realizar dos contrastes de hipótesis:
31/38
Regresión
> shapiro.test(residuos)
data: residuos
Homocedasticidad
>library(lmtest)
>bptest(regresion)
data: modeloR
Tanto los gráficos (histograma, normal Q-Q) como el contraste de hipótesis confirman la normalidad de los
residuos.
El gráfico de los residuos versus los valores ajustados y el test de homocedasticidad no muestran signos de
heterocesdasticidad.
Tanto en el gráfico de dispersión como en el gráfico de normalidad se observan algunos outliers, sin embargo,
las distancias de Cook son inferiores a uno.
Comprobar si hay errores en la codificación o introducción de los datos que puedan haber ocasionado la
existencia de outliers u observaciones influyentes.
Explorar relaciones no lineales entre la variable respuesta y la variable explicativa.
Análisis de sensibilidad para examinar si las conclusiones cambian cuando las observaciones
influyentes no son consideradas en el análisis.
Transformar la variable respuesta, la variable explicativa o ambas.
Utilizar métodos robustos, como bootstrap, para calcular intervalos de confianza y contrastes de
hipótesis, independientemente de las asunciones del modelo sobre la distribución de la variable
respuesta.
3.4.4. Multicolinealidad
32/38
Regresión
Cuando en un modelo de regresión lineal existe una fuerte relación lineal entre sus variables independientes,
se dice que existe multicolinealidad aproximada.
En esta situación, el estimador por mínimos cuadrados ordinarios puede ofrecer resultados
inestables, por lo que no se recomienda su uso y se hace necesario disponer de herramientas
que permitan detectar este problema de forma adecuada.
Entre estas herramientas, las más usadas son el factor de inflación de la varianza (FIV) y el número de
condición (NC). Estos valores no son test estadísticos que contrasten si la existencia de multicolinealidad es
grave, sino de reglas de decisión que tratan de establecer umbrales a partir de los cuales es necesario evaluar la
inclusión de dichas variables en el modelo. Normalmente, cuando existe valor de FIV > 10 es un indicativo de
multicolinealidad.
> library(car)
> vif(modelo_final)
No hay predictores que muestren una correlación lineal muy alta ni inflación de varianza.
IV. Resumen
33/38
Regresión
La regresión lineal es una técnica básica del análisis estadístico y que servirá de base para
análisis más complejos. Mediante dicha técnica, se trata de determinar relaciones de
dependencia de tipo lineal entre una variable dependiente cuantitativa respecto de una
o varias variables explicativas/independientes que pueden ser de tipo cuantitativo o
categórico.
Se trata de generar un modelo de regresión (ecuación de una recta) que permita explicar la
relación lineal que existe entre dos variables. A la recta que minimiza la suma de los residuos al
cuadrado (diferencia entre el valor real y el predicho por la recta) se le denomina recta de
regresión.
Linealidad: relación lineal entre la variable predictiva (x) y la variable respuesta (y).
Distribución normal de los residuos: los residuos se tiene que distribuir de forma
normal, con media igual a cero.
Varianza de residuos constante (homocedasticidad): la varianza de los residuos ha
de ser aproximadamente constante a lo largo del eje X.
Independencia: las observaciones y1, y2, …, yn son independientes.
34/38
Regresión
Ejercicios
Caso práctico
I. PROBLEMA
El departamento de asistencial de una aseguradora solicita al actuario que indique una fórmula que permita la
predicción de los gastos médicos mediante el BMI (el índice de masa corporal, que es una razón matemática
que asocia la masa y la talla de un individuo) del asegurado para poder realizar el business case de negocio.
```{r}
library(tidyverse)
```
Se pide
II. PROBLEMA
Para hacer este ejercicio, se usará la base de datos Salaries de la librería carData.
```{r}
library(carData)
```
35/38
Regresión
Se pide
III. PROBLEMA
Para cargar el dataset, se utilizará el dataset Auto que esta precargado en el paquete ISLR.
```{r}
library(ISLR)
head(Auto)
```
Este conjunto de datos fue tomado de la biblioteca StatLib, que se mantiene en la Universidad Carnegie Mellon.
El conjunto de datos se utilizó en la Exposición de la Asociación Americana de Estadística de 1983.
MPG
Cylinders
Displacement
Horsepower
Weight
Acceleration
Year
36/38
Regresión
Origin
Name
Los datos originales contenían 408 observaciones, pero se eliminaron 16 observaciones con valores faltantes.
Se pide
Solución
37/38
Regresión
Recursos
Glosario.
Coeficiente de determinación R2: mide el porcentaje de la variabilidad de y explicado por el modelo, es
decir, por su relación lineal con x. Su valor está acotado entre cero y uno.
Intercepto: es el valor de Y cuando X toma el valor cero. Se interpreta como la media de la variable de
respuesta cuando el predictor vale cero. Si la variable de exposición no puede tomar el valor 0, el intercepto
no es interpretable.
Pendiente: se interpreta como el cambio por término medio en y por cada aumento de una unidad en x.
Test F: es un contraste de hipótesis que considera como hipótesis nula que todos los coeficientes beta de
la regresión estimados son cero, frente a la hipótesis alternativa de que al menos uno de ellos no lo es.
38/38