Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MÚLTIPLE
ESTADÍSTICA APLICADA
Propósito de la Clase
• Call. Muestra la llamada a la función utilizada para calcular el modelo de regresión. Aquí podemos ver
los predictores que hemos incluido en el modelo.
• Residuals. Nos da una vista rápida de la distribución de los residuos, que por definición tienen una
media de cero. Por lo tanto, la mediana no debe estar lejos de cero, y el mínimo y el máximo deben ser
aproximadamente iguales en valor absoluto.
• Coefficients. Muestra los valores de los coeficientes β y su significación estadística. Las variables
predictoras, que están significativamente asociadas a la variable respuesta, están marcadas con
asteriscos en el margen derecho de la tabla.
• Residual standard error (RSE), R-squared (R2 ) múltiple y ajustado, y la prueba F, son métricas
que se utilizan para verificar qué tan bien se ajusta el modelo a nuestros datos.
Regresión Lineal Múltiple
Bondad de ajuste (global) del modelo
Antes de interpretar o utilizar el modelo, debes verificar si el modelo funciona bien para los datos
disponibles. La calidad general del modelo puede evaluarse con: el Error estándar residual (RSE), el
coeficiente de determinación R cuadrado (R2 ) y la prueba F.
En nuestro ejemplo de regresión múltiple, el RSE es 2.02 que corresponde a una tasa de error del
12%. Nuevamente, esto es mejor que el modelo simple, donde con solo la variable de youtube, el RSE
fue 3.9 y la de tasa de error del 23%.
Regresión Lineal Múltiple
Coeficiente
múltiple
ajustado
parcial
Es el cuadrado de la correlación Ajusta
el al número de variables Para
ver qué proporción de
entre los valores observados de predictoras incluidas en el variación residual es explicada al
Y y los valores de Y predichos modelo. Es decir, penaliza el valor agregar un predictor en
por el modelo de regresión del R2 para un número mayor de particular utilizamos el valor del
múltiple. Se trata de un predictores. coeficiente de determinación
indicador de qué tan bien el Puedes calcular el R2 ajustado parcial.
modelo predice los datos para comparar modelos con El parcial nos da una medida de
observados en una escala [0,1] diferentes números de qué cantidad de la variación de
(o en porcentaje). predictores. Nos dice qué la respuesta (sumas de
porcentaje de variación de la cuadrados) puede explicar
variable respuesta es explicado nuestro término (predictor) del
colectivamente por todas las modelo.
variables explicativas.
Regresión Lineal Múltiple
Prueba F
La prueba F global evalúa la significación global del modelo. Para ello, evalúa si al menos una de las
variables predictoras está significativamente relacionada -linealmente- con la variable respuesta (i.e. si al
menos un predictor tiene un coeficiente distinto de cero).
• Hipótesis nula: el ajuste del modelo que solo incluye el Para nuestro modelo, observamos al final
intercepto y nuestro modelo son iguales. Esto equivale a de la tabla de resumen el valor de la prueba
decir que todos los coeficientes de pendiente valen cero, F para la significación global.
o que β1 = ... = βj = ... = βk = 0.
• Hipótesis alternativa: el ajuste del modelo de solo
intercepto es significativamente peor que el de nuestro
modelo. Lo que equivale a decir que al menos uno de los podemos concluir que el modelo de
coeficientes de pendiente es distinto de cero βj ≠ 0 para regresión predice las ventas
algún j. significativamente bien (F(3, 196) = 570, p
< .001).
Regresión Lineal Múltiple
Interpretación del modelo
La tabla de coeficientes muestra la estimación de los coeficientes β de la regresión, las pruebas t que los
evalúa (contrasta si son significativamente distintos de cero) y sus p-valores asociados.
Prueba t
En la RLS, un valor significativo de la prueba t indica que la pendiente de la línea de regresión no vale
cero, lo que equivale a decir que no es horizontal. Sin embargo, en RLM no es tan fácil visualizar lo que
nos dice este valor. En este caso, es más fácil conceptualizar las pruebas t como medidas de si el
predictor está haciendo una contribución significativa al modelo.
Por ejemplo, con un 95% de confianza podemos decir que el coeficiente de regresión de la variable
youtube se encontrará en el intervalo [0.043, 0.0485].
Regresión Lineal Múltiple
Comparación de modelos
Si la prueba t nos indica que el predictor no se relaciona con la respuesta, dado el resto de predictores
del modelo, podemos preguntarnos si deberíamos eliminarlo del modelo para quedarnos con uno más
sencillo y con mejores predicciones.
El Criterio de Información de Akaike (“Akaike’s Information Criterion”, AIC) se basa en la teoría de la
información. Cuando se utiliza un modelo estadístico para representar el proceso que generó los datos, la
representación casi nunca será exacta; por lo que se perderá cierta información al utilizar el modelo para
representar el proceso.
El AIC calcula la cantidad relativa de información perdida por un modelo dado: cuanta menos información
pierde un modelo, mayor es la calidad de ese modelo. Dado un conjunto de modelos candidatos para los
datos, el modelo preferido será aquel que tiene el menor valor de AIC. Incluso puede tomar valores
negativos.
Vemos que el modelo reducido
(model_red), sin el predictor
newspaper, obtiene un menor
AIC y es más simple, por lo
tanto es mejor modelo.
Regresión Lineal Múltiple
Selección por pasos
Este método agrega o elimina automáticamente cada variable explicativa, paso a paso, en función de
un criterio seleccionado. El resultado final es un único modelo de regresión.
El método hacia atrás (backward) realiza el proceso opuesto al método hacia adelante. Comienza
con un modelo que considera todos los predictores y va eliminando uno a uno aquellos que
contribuyen en mayor medida al modelo. El proceso se detiene cuando ya no quedan predictores
por eliminar.
Regresión Lineal Múltiple