Regresión Lineal Múltiple

REGRESIÓN LINEAL
MÚLTIPLE
ESTADÍSTICA APLICADA
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de realizar el

análisis de regresión lineal múltiple, e interpretar sus resultados
a partir de data contextualizada a su carrera.
Actividad
Un estudio reciente evaluó cómo el consumo de café afecta la mortalidad. Inicialmente, los
resultados mostraron que un mayor consumo de café se relacionaba con un mayor riesgo
de muerte. Sin embargo, muchos bebedores de café también fumaban. Cuando los
investigadores incluyeron una variable para los hábitos de fumar en su modelo,
descubrieron que el consumo de café reducía el riesgo de muerte mientras que el fumar lo
aumentaba. Entonces, al incluir los hábitos de fumar, los investigadores controlaron su
efecto y pudieron centrarse en el papel del consumo de café.
La regresión múltiple estima cómo los cambios en cada variable predictora se relacionan
con los cambios en la variable de respuesta.
¿Qué significa controlar las variables del modelo? Significa que cuando se mira el efecto
de una variable en el modelo, se mantienen constantes todos los demás predictores en el
modelo.
Regresión Lineal Múltiple
Antes de comenzar, ejecuta esta orden para obtener aquellos paquetes
que aún no tienes instalados en tu computadora y que necesitaremos
para desarrollar este tema.
list.of.packages <- c("plot3D", "rsq", "heplots", "caret", "MASS",
"leaps", "car", "relaimpo", "hier.part")
new.packages <- list.of.packages[!(list.of.packages %in%
installed.packages()[,"Package"])]
if(length(new.packages)) install.packages(new.packages)
¿Cómo visualizamos el modelo RLM ?
A diferencia de la regresión lineal simple que podíamos representar
mediante una línea recta en un diagrama de dispersión, visualizar la
ecuación de la regresión lineal múltiple es más complicado. Para el caso
de dos predictores, podemos representar un plano en un gráfico 3D,
pero cuando nos encontremos con más de 2 predictores tendremos
que utilizar gráficos parciales si queremos visualizar el modelo. Veamos
a continuación algunos ejemplos en R.
Podemos obtener un gráfico 3D con la nube de puntos
mediante la función scatter3D del paquete plot3D. Para
ello debemos ingresar principalmente las variables
(vectores) de cada eje (x, y, z). Podemos personalizar el
gráfico seleccionando que el color de los puntos
corresponda a los valores de una variable, y eligiendo el
nombre de los ejes y leyenda.
¿Qué podemos interpretar de esta primera vista?

Otra opción es realizar un gráfico 2D y utilizar uno de
los predictores (numérico) para determinar la escala de
color de la nube de puntos. Por ejemplo, con la función
ggplot del paquete ggplot2 que ya hemos utilizado
antes, podemos indicar la escala de color en el
argumento estético (aes) llamado color de la función
geompoint que grafica los puntos:
En ambos gráficos vemos que en general a mayor

inversión en youtube y f acebook obtenemos mayores
ventas (sales).
¿Cómo modelamos un RLM?
Para k variables explicativas (Xj , con j = 1, ..., k), el modelo de RLM para predecir Y se expresa
mediante la siguiente ecuación:
Y = β0 + β1X1 + ... + βj Xj + ... + βk Xk + ϵ

donde βj son los coeficientes de regresión y ϵ los errores del modelo.
Los coeficientes del modelo son:

• β0, el intercepto. Representa la respuesta media cuando todos los predictores valen cero.
• βj , las pendientes (o gradientes). Representan el cambio en la respuesta media por unidad de
aumento en la variable explicativa asociada, cuando todos los otros predictores se mantienen
constantes. Es decir, nos dicen en qué medida cada variable explicativa afecta a la variable respuesta si
aislamos los efectos de todos los demás predictores.
• ϵ, los errores. Representan la diferencia entre los valores predichos o ajustados por el modelo y los
valores realmente observados de Y . Para que el análisis de regresión lineal sea adecuado, los errores
deben seguir una distribución normal con media 0 y varianza σ (se escribe ∼ N(0, σ)).
Construcción del modelo
Al igual que en el RLS utilizaremos el método de mínimos cuadrados para estimar el modelo
haciendo uso del R.
Comandos: lm() y summary()

Continuando con nuestro ejemplo de datos de marketing, vamos a construir un modelo para
analizar las ventas según el presupuesto de publicidad invertido en youtube, facebook y periódico,
de la siguiente manera:
sales = β0 + β1 ∗ youtube + β2 ∗ f acebook + β3 ∗ newspaper

Para estimar los coeficientes β del modelo en R utilizamos la función lm() en su
formato fórmula lm(respuesta ∼ explicativas, datos):
El modelo se guarda en el objeto model_all. La función names() nos muestra

la información que hemos creado (e.g. la estimación de los coeficientes, los
residuos, etc.).
Mediante la función summary() podemos resumir el modelo, así:
Al igual que en la RLS, la salida muestra 4 componentes:
• Call. Muestra la llamada a la función utilizada para calcular el modelo de regresión. Aquí podemos ver
los predictores que hemos incluido en el modelo.
• Residuals. Nos da una vista rápida de la distribución de los residuos, que por definición tienen una
media de cero. Por lo tanto, la mediana no debe estar lejos de cero, y el mínimo y el máximo deben ser
aproximadamente iguales en valor absoluto.
• Coefficients. Muestra los valores de los coeficientes β y su significación estadística. Las variables
predictoras, que están significativamente asociadas a la variable respuesta, están marcadas con
asteriscos en el margen derecho de la tabla.
• Residual standard error (RSE), R-squared (R2 ) múltiple y ajustado, y la prueba F, son métricas
que se utilizan para verificar qué tan bien se ajusta el modelo a nuestros datos.
Bondad de ajuste (global) del modelo
Antes de interpretar o utilizar el modelo, debes verificar si el modelo funciona bien para los datos
disponibles. La calidad general del modelo puede evaluarse con: el Error estándar residual (RSE), el
coeficiente de determinación R cuadrado (R2 ) y la prueba F.
RSE y tasa de error
En nuestro ejemplo de regresión múltiple, el RSE es 2.02 que corresponde a una tasa de error del
12%. Nuevamente, esto es mejor que el modelo simple, donde con solo la variable de youtube, el RSE
fue 3.9 y la de tasa de error del 23%.
Coeficiente
múltiple
ajustado
parcial

Es el cuadrado de la correlación Ajusta
el al número de variables Para
ver qué proporción de
entre los valores observados de predictoras incluidas en el variación residual es explicada al
Y y los valores de Y predichos modelo. Es decir, penaliza el valor agregar un predictor en
por el modelo de regresión del R2 para un número mayor de particular utilizamos el valor del
múltiple. Se trata de un predictores. coeficiente de determinación
indicador de qué tan bien el Puedes calcular el R2 ajustado parcial.
modelo predice los datos para comparar modelos con El parcial nos da una medida de
observados en una escala [0,1] diferentes números de qué cantidad de la variación de
(o en porcentaje). predictores. Nos dice qué la respuesta (sumas de
porcentaje de variación de la cuadrados) puede explicar
variable respuesta es explicado nuestro término (predictor) del
colectivamente por todas las modelo.
variables explicativas.
Prueba F
La prueba F global evalúa la significación global del modelo. Para ello, evalúa si al menos una de las
variables predictoras está significativamente relacionada -linealmente- con la variable respuesta (i.e. si al
menos un predictor tiene un coeficiente distinto de cero).
• Hipótesis nula: el ajuste del modelo que solo incluye el Para nuestro modelo, observamos al final
intercepto y nuestro modelo son iguales. Esto equivale a de la tabla de resumen el valor de la prueba
decir que todos los coeficientes de pendiente valen cero, F para la significación global.
o que β1 = ... = βj = ... = βk = 0.
• Hipótesis alternativa: el ajuste del modelo de solo
intercepto es significativamente peor que el de nuestro
modelo. Lo que equivale a decir que al menos uno de los podemos concluir que el modelo de
coeficientes de pendiente es distinto de cero βj ≠ 0 para regresión predice las ventas
algún j. significativamente bien (F(3, 196) = 570, p
< .001).
Interpretación del modelo
La tabla de coeficientes muestra la estimación de los coeficientes β de la regresión, las pruebas t que los
evalúa (contrasta si son significativamente distintos de cero) y sus p-valores asociados.
Prueba t
En la RLS, un valor significativo de la prueba t indica que la pendiente de la línea de regresión no vale
cero, lo que equivale a decir que no es horizontal. Sin embargo, en RLM no es tan fácil visualizar lo que
nos dice este valor. En este caso, es más fácil conceptualizar las pruebas t como medidas de si el
predictor está haciendo una contribución significativa al modelo.
Hipótesis nula: los cambios en

el predictor no están asociados
con cambios en la respuesta.
Hipótesis alternativa: los
cambios en el valor del predictor
Encontramos que el efecto de la inversión en publicidad de periódicos
están relacionados con cambios
no es significativa en el modelo de regresión múltiple. Es decir, para
en la variable de respuesta. una cantidad fija de presupuesto de publicidad de Facebook y
Youtube, los cambios en el presupuesto de publicidad del periódico no
afectarán significativamente las unidades de ventas.
Coeficientes β y modelo final
Los coeficientes β representan el cambio medio en la respuesta para una unidad de cambio en el
predictor mientras se mantienen constantes los demás predictores del modelo. Esta propiedad de
mantener las otras variables constantes es crucial porque nos permite evaluar el efecto de cada predictor
controlando los demás.
Sustituimos los valores estimados para los coeficientes β en la regresión:

sales = 3.53 + 0.0458 ∗ youtube + 0.189 ∗ facebook − 0.00104 ∗
newspaper
Para una cantidad fija de presupuesto de publicidad en youtube y periódico, gastar 1000 dólares adicionales en
publicidad en Facebook lleva a un aumento en las ventas -en promedio- de 0.189 * 1000 = 189 unidades.
Por cada 1000 dólares de aumento en el presupuesto de publicidad de Youtube, manteniendo constante la inversión en
Facebook y periódico, podemos esperar un aumento de 0.0458 * 1000 = 45.8 unidades de ventas, en promedio.
Intervalos de confianza para los coeficientes:
Por ejemplo, con un 95% de confianza podemos decir que el coeficiente de regresión de la variable
youtube se encontrará en el intervalo [0.043, 0.0485].
Comparación de modelos
Si la prueba t nos indica que el predictor no se relaciona con la respuesta, dado el resto de predictores
del modelo, podemos preguntarnos si deberíamos eliminarlo del modelo para quedarnos con uno más
sencillo y con mejores predicciones.
El Criterio de Información de Akaike (“Akaike’s Information Criterion”, AIC) se basa en la teoría de la
información. Cuando se utiliza un modelo estadístico para representar el proceso que generó los datos, la
representación casi nunca será exacta; por lo que se perderá cierta información al utilizar el modelo para
representar el proceso.
El AIC calcula la cantidad relativa de información perdida por un modelo dado: cuanta menos información
pierde un modelo, mayor es la calidad de ese modelo. Dado un conjunto de modelos candidatos para los
datos, el modelo preferido será aquel que tiene el menor valor de AIC. Incluso puede tomar valores
negativos.
Vemos que el modelo reducido
(model_red), sin el predictor
newspaper, obtiene un menor
AIC y es más simple, por lo
tanto es mejor modelo.
Selección por pasos
Este método agrega o elimina automáticamente cada variable explicativa, paso a paso, en función de
un criterio seleccionado. El resultado final es un único modelo de regresión.
El método hacia atrás (backward) realiza el proceso opuesto al método hacia adelante. Comienza
con un modelo que considera todos los predictores y va eliminando uno a uno aquellos que
contribuyen en mayor medida al modelo. El proceso se detiene cuando ya no quedan predictores
por eliminar.
Vemos que el mejor modelo

incluye los predictores youtube
y facebook para modelar las
ventas, es decir, se omite la
inversión en periódicos. El
resultado coincide con las
comparaciones anteriores que
hemos realizado.
Ejercicio
Utiliza la data stackloss para predecir la pérdida de pila (y=stack.loss)
Generen el mejor modelo utilizando los pasos trabajados en el ejemplo.

Referencias Bibliográficas
• Aldas, J. y Uriel, E. (2017). Análisis multivariante aplicado con R.

Madrid: Paraninfo.
• Montgomery y Runger. (2012). Probabilidad y estadística aplicada a la
ingeniería. México: Limusa.
• Jhonson,R. (2012). Probabilidad y estadística para ingenieros. México:
Pearson.
• Triola,M. (2018). Estadística. México: Pearson
• Teetor,P (2011). R Cookbook. EEUU: O’really Media

Regresión Lineal Múltiple

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Lineal Múltiple

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL

Al finalizar la unidad, el estudiante será capaz de realizar el

¿Qué podemos interpretar de esta primera vista?

En ambos gráficos vemos que en general a mayor

Y = β0 + β1X1 + ... + βj Xj + ... + βk Xk + ϵ

Los coeficientes del modelo son:

Comandos: lm() y summary()

sales = β0 + β1 ∗ youtube + β2 ∗ f acebook + β3 ∗ newspaper

El modelo se guarda en el objeto model_all. La función names() nos muestra

Al igual que en la RLS, la salida muestra 4 componentes:

RSE y tasa de error

Hipótesis nula: los cambios en

Sustituimos los valores estimados para los coeficientes β en la regresión:

Intervalos de confianza para los coeficientes:

Vemos que el mejor modelo

Utiliza la data stackloss para predecir la pérdida de pila (y=stack.loss)

Generen el mejor modelo utilizando los pasos trabajados en el ejemplo.

• Aldas, J. y Uriel, E. (2017). Análisis multivariante aplicado con R.

También podría gustarte