Está en la página 1de 56

REGRESIÓN

LINEAL MÚLTIPLE
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝟏𝒊 + 𝜷𝟐𝒙𝟐𝒊 + . . . 𝜷𝒌𝒙𝒌𝒊 + 𝒖𝒊

𝒚𝒊 = 𝜷𝟎 + ෍ 𝜷𝒋𝒙𝒋𝒊 + 𝒖𝒊
𝒋

𝒊 = 𝟏 , 𝟐, 𝟑, … , 𝒏
REGRESIÓN LINEAL MÚLTIPLE
La regresión lineal múltiple es una
extensión de regresión lineal simple para
tomar en cuenta más de una variable
independiente.
Busca predecir una variable dependiente
a través de 2 o más variables
independientes.
Con el uso de más de una variable
independiente, se debe hacer un mejor
trabajo de explicar la variación en y, en
consecuencia hacer predicciones más
precisas.
Modelo de la regresión
múltiple
𝑦ො = 𝛽መ0 + 𝛽መ1𝑥1 + 𝛽መ2𝑥2 + ⋯ + 𝛽መ𝑘𝑥𝑘
de modo que

Δ𝑦ො = Δ𝛽መ1𝑥1 + Δ𝛽መ2𝑥2 + ⋯ + Δ𝛽መ𝑘𝑥𝑘

y si mantenemos 𝑥2 , . . . , 𝑥𝑘 constantes, implica que


Δ𝑦ො = Δ𝛽መ1 𝑥1

Cada 𝛽 tiene una interpretación 𝑐𝑒𝑡𝑒𝑟𝑖𝑠 𝑝𝑎𝑟𝑖𝑏𝑢𝑠


4
Similitudes con regresión
simple
 b0 es el intercepto
 b1 a bk son k parámetros de pendiente
 u es el término de error o residual
 El supuesto de media condicional cero se
mantiene:
E(u|x1,x2, …,xk) = 0
 Igual que antes, minimizamos la suma de
residuales cuadrados, de modo que
tenemos k+1 condiciones de primer orden
(o k+1 parámetros a estimar)

5
ESTIMADORES MCO
𝛽መ0 = 𝑌ത − 𝛽መ1 𝑋ത1 − 𝛽መ2 𝑋ത2

2
σ 𝑦𝑖 𝑥1𝑖 σ 𝑥2𝑖 2 2
− σ 𝑦𝑖 𝑥2𝑖 σ 𝑥1𝑖 𝑥2𝑖
𝛽መ1 =
2
σ 𝑥1𝑖 2
σ 𝑥2𝑖 2
σ 𝑥1𝑖 2 2
− 𝑥2𝑖

2
σ 𝑦𝑖 𝑥2𝑖 σ 𝑥1𝑖 2 2
− σ 𝑦𝑖 𝑥1𝑖 σ 𝑥1𝑖 𝑥2𝑖
𝛽መ2 =
2
σ 𝑥1𝑖 2
σ 𝑥2𝑖 2
σ 𝑥1𝑖 2 2
− 𝑥2𝑖
EJEMPLO

¿En qué forma los vendedores de bienes


raíces determinan el precio de venta
para un condominio recién inscrito en
lista? La base de datos de una
computadora en una pequeña comunidad
contiene el precio de venta de lista (y -
en miles de dólares), la cantidad de área
de vivienda (x1 - en cientos de pies
cuadrados), así como los números de
pisos (x2),recámaras (x3) y baños (x4),
para 15 (n) condominios seleccionados al
azar actualmente en el mercado.
EJEMPLO
Observación Precio de lista Área de Pisos (x2) Recámaras Baños (x4)
(y) vivienda (x1) (x3)

1 169 6 1 2 1
2 218,5 10 1 2 2
3 216,5 10 1 3 2
4 225 11 1 3 2
5 229,9 13 1 3 1,7
6 235 13 2 3 2,5
7 239,9 13 1 3 2
8 247,9 17 2 3 2,5
9 260 19 2 3 2
10 269,9 18 1 3 2
11 234,9 13 1 4 2
12 255 18 1 4 2
13 269,9 17 2 4 3
14 294,5 20 2 4 3
15 309,9 21 2 4 3
REGRESIÓN LINEAL MÚLTIPLE
En la regresión lineal múltiple aparecen
varias preguntas, muy similares al caso de
regresión lineal simple:
 ¿Qué tan bien se ajusta el modelo?
 ¿Qué tan fuerte es la relación entre y y
las variables predictoras?
 ¿Se han violado suposiciones importantes?
 ¿Qué tan buenas son las estimaciones y
predicciones?
UNA RECOMENDACIÓN
Mantenga el número de variables
predictoras lo suficientemente
pequeño para que sea efectivo pero
manejable.
Es necesario estar conscientes que
el número de observaciones del
conjunto de datos debe exceder el
número de términos del modelo;
cuanto mayor el exceso, mejor.
Varianza de los estimadores
MCO
 La “distribución muestral” de los estimadores está
centrada en torno a los “verdaderos” parámetros
(insesgamiento).

 ¿Qué tan dispersa será la distribución de los estimadores?

 Para analizar esto, requerimos el supuesto Gauss-Markov:


Var(u|x1, x2,…, xk) = s2 conocido como
homoscedasticidad (homoskedasticity): varianza
constante.

11
Varianza de MCO
2 2
1 𝑋ത12 σ 𝑥2𝑖 + 𝑋ത22 σ 𝑥1𝑖 − 2𝑋ത1 𝑋ത2 σ 𝑥1𝑖 𝑥2𝑖 2
𝑉𝑎𝑟 𝛽መ0 = + 2 σ 2 𝜎
𝑛 σ 𝑥1𝑖 𝑥2𝑖 − 𝑥1𝑖 𝑥2𝑖 2

2
σ 𝑥2𝑖
𝑉𝑎𝑟 𝛽መ1 = 2 2 2
𝜎2
σ 𝑥1𝑖 σ 𝑥2𝑖 − 𝑥1𝑖 𝑥2𝑖

𝜎2
𝑉𝑎𝑟 𝛽መ1 = 2 (1−𝑟 2 )
σ 𝑥1𝑖 12

2
σ 𝑥1𝑖
𝑉𝑎𝑟 𝛽መ2 = 2 2 2
𝜎2
σ 𝑥1𝑖 σ 𝑥2𝑖 − 𝑥1𝑖 𝑥2𝑖

𝜎2
𝑉𝑎𝑟 𝛽መ2 = 2 (1−𝑟 2 )
σ 𝑥2𝑖 12 12

2
𝑟12 es el coeficiente de correlación entre 𝑥1 y 𝑥2
Varianza de MCO (cont.)
Dados los supuestos Gauss−Markov:
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝐶𝑇𝑗 1 − 𝑅𝑗2

donde

2
𝑆𝐶𝑇𝑗 = ෍ 𝑥𝑖𝑗 − 𝑥𝑗lj

𝑅𝑗2 es la 𝑅2 de una regresión de 𝑥𝑗 en todas las otras 𝑥

Es decir, SCTj captura la varianza de xi, mientras que R2j


captura la correlación entre xj y las otras x del modelo.
13
Componentes de la Varianza
de MCO
 Varianza del error: a mayor s2, mayor
varianza de los estimadores MCO.
 Varianza muestral: a mayor SCTj, menor
varianza de los estimadores MCO.
 A mayor tamaño de muestra, mayor SCTj y
mayor precisión de los estimadores.
 Correlación entre las variables explicativas: a
mayor Rj2, mayor varianza de los estimadores
MCO.
 Si dos variables x son altamente
correlacionadas, sus β serán poco precisas.
 Mayor varianza de los estimadores equivale a
decir menor precisión o menor eficiencia.
14
ESTIMACIÓN DE σ Y 𝜎 2
𝑆𝐶𝐸
𝜎ො 2 =
𝑛−𝑘−1

Error estándar
𝑆𝐶𝐸
𝜎ො =
𝑛−𝑘−1
𝑘 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑟𝑒𝑔𝑟𝑒𝑠𝑜𝑟𝑎𝑠

𝑆𝐶𝐸 = ෍ 𝑢ෝ𝑖 = ෍ 𝑦𝑖2 − ෍ 𝛽𝑗 ෍ 𝑦𝑖 𝑥𝑗𝑖

Con k=2
෢1 ෍ 𝑦𝑖 𝑥1𝑖 − 𝛽
෍ 𝑢ො 𝑖2 = ෍ 𝑦𝑖2 − 𝛽 ෢2 ෍ 𝑦𝑖 𝑥2𝑖
PRUEBA DE UTILIDAD DEL MODELO
DE REGRESIÓN MÚLTIPLE

Para determinar la utilidad del modelo de


regresión múltiple se pueden usar las
siguientes pruebas:

 El coeficiente de determinación R2.


 Prueba de significancia de los coeficientes.
 El análisis de varianza de la Prueba F
Coeficiente de
Determinación: R2
 ¿Cómo saber qué tan bueno es el
ajuste entre la regresión y los datos
de la muestra?
 Podemos calcular la proporción de
la Suma de cuadrados totales (SCT)
que es “explicada” por el modelo.
 Esto es la llamada R-cuadrada de
una regresión:
R2 = SCR/SCT = 1 – SCE/SCT

17
Coeficiente de correlación
múltiple

Es la raíz cuadrada del


coeficiente de determinación
𝑅2 , y mide la intensidad de la
relación entre la variable
dependiente y las variables o
términos en el modelo.
R-cuadrada: discusión

 Muestra el porcentaje de variabilidad de los


datos que son explicados por el modelo
 R2 nunca decrecerá conforme incluyamos más
variables explicativas a la regresión, y por lo
general aumentará (así sea marginalmente).
 ¿Por qué? Incluir variables adicionales aumenta
la SCE aunque no sean significativas.
 Dado que R2 típicamente aumenta con el
número de variables independientes, no es por
sí sola un buen criterio para comparar modelos.

19
R cuadrado ajustado

Se cumple que 0 < 𝑅𝑎2  R < 1, cuando en el


modelo hay términos que no contribuyen de
manera significativa a este, el coeficiente
ajustado tiende a ser menor que el coeficiente
de determinación, por lo tanto es mejor
depurar el modelo.
Prueba de significancia de los
coeficientes

𝛽෡𝑗 − 𝛽𝑗∗
𝑡0 =
𝑆𝐸(𝛽෡𝑗 )

Se rechaza H0 si
Depuración del modelo
 El procedimiento descrito para probar la significancia de
un coeficiente individual en el modelo no es
completamente decisiva, debido a que en ocasiones los
estimadores no son independientes entre sí, como se
puede apreciar en los elementos fuera dela diagonal de
la matriz de correlación. Esto hace que un coeficiente
aparente ser significativo porque su estimador está
correlacionado con otro estimador de otro coeficiente
que sí tiene una contribución significativa.
 A pesar de lo anterior, la prueba t sobre la significancia
de los términos del modelo, combinada con los
coeficientes de determinación y el error estándar de la
regresión, puede ser de utilidad para tener un modelo
depurado en el cual la mayoría de los términos
realmente ayuden a explicar la variable de respuesta.
PRUEBA DE UTILIDAD DEL
MODELO DE REGRESIÓN
MÚLTIPLE
El análisis de varianza de la Prueba F
Se realiza para resolver la interrogante: ¿Al
menos una de las variables predictoras está
aportando información significativa para la
predicción de la variable y?

Se realiza a través de una prueba de


hipótesis del análisis de varianza.
PRUEBA DE UTILIDAD DEL
MODELO DE REGRESIÓN
MÚLTIPLE
El análisis de varianza de la Prueba F

El estadístico de prueba se encuentra en la tabla ANOVA.


PRUEBA DE UTILIDAD DEL
MODELO DE REGRESIÓN
MÚLTIPLE
El análisis de varianza de la Prueba F
ANOVA
b no sesgadas:
supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = b0 + b1x1 + b2x2 +…+ bkxk + u
2. El valor medio de la pertubación es cero
3. Homocedasticidad
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
5. El número de observaciones n debe ser mayor que
los parámetros por estimar
6. Debe haber variación entre los valores de X.
7. No hay sesgo de especificación
27
Teorema Gauss-Markov

 Dados los supuestos Gauss-Markov,


puede demostrarse que MCO es “MELI”
: Mejor Estimador Lineal Insesgado
 De modo que, si los supuestos G-M se
sostienen, usar MCO es una buena
idea.
 Si, además de estos supuestos,
u ~ N(0, s2) → MCO es el mejor
estimador (lineal o no lineal)
insesgado.

28
MULTICOLINEALIDAD

La multicolinealidad es un fenómeno que se


da cuando, dos o más variables tienen
«mucho de lo mismo» o información
compartida.

La multicolinealidad se presenta cuando dos


o más de las variables predictoras están
altamente correlacionadas entre sí.
MULTICOLINEALIDAD
¿Cómo saber si un análisis de regresión exhibe
multicolinealidad?

 El valor de R2 es grande, lo cual indica un buen ajuste,


pero las pruebas t individuales no son significativas.
 Los signos de los coeficientes de regresión son contrarios a
lo que intuitivamente se esperaría fueran las
contribuciones de esas variables.
 Una matriz de correlaciones, generada por computadora,
muestra cuáles variables predictoras están altamente
correlacionadas entre sí y con la respuesta y.
MULTICOLINEALIDAD
En el análisis de regresión múltiple, ni el
tamaño del coeficiente de regresión, ni su
valor t indican la importancia de la variable
como contribuyente de información.

Como existe multicolinealidad en alguna


medida en todos los problemas de regresión,
debemos considerar los términos
individuales como aportadores de
información, en lugar de tratar de medir la
importancia práctica de cada término.
MULTICOLINEALIDAD
Observación Precio de Área de Pisos Recámaras Baños
lista y vivienda
1 169 6 1 2 1
2 218,5 10 1 2 2
 EJEMPLO:
3 216,5 10 1 3 2
4 225 11 1 3 2
5 229,9 13 1 3 1,7
6 235 13 2 3 2,5
7 239,9 13 1 3 2
8 247,9 17 2 3 2,5
9 260 19 2 3 2
10 269,9 18 1 3 2
11 234,9 13 1 4 2
12 255 18 1 4 2
13 269,9 17 2 4 3
14 294,5 20 2 4 3
15 309,9 21 2 4 3
INTERPRETACIÓN DE
GRÁFICAS DE RESIDUALES
Se pueden usar gráficas residuales
para descubrir posibles violaciones en
las suposiciones requeridas para un
análisis de regresión. Hay varios
patrones comunes que se deben
reconocer porque se presentan con
frecuencia en aplicaciones prácticas.
INTERPRETACIÓN DE
GRÁFICAS DE RESIDUALES
Si el rango de los residuales aumenta
cuando 𝑦ො aumenta, se puede estabilizar la
varianza de la respuesta al correr el
análisis de regresión en 𝑦 ∗ = 𝑥

la gráfica residual de la figura mostraría


que la variación no explicada exhibe un
patrón curvado, que sugiere que hay un
efecto cuadrático que no se ha incluido en
el modelo.

Se puede ajustar el modelo ajustando una


ecuación de segundo orden.
INTERPRETACIÓN DE
GRÁFICAS DE RESIDUALES
Para los datos del ejemplo, mostraría un
conjunto distinto de residuales positivos
correspondientes a dos comportamientos.
Este patrón señala que una «variable
cualitativa» no estaba incluida en el
modelo.

Desafortunadamente, no todas las gráficas residuales dan una indicación tan


clara del problema. Con todo cuidado deben examinarse las gráficas
residuales, buscando que no haya aleatoriedad en el modelo de residuales. Si
se puede hallar una explicación para el comportamiento de los residuales, se
puede modificar el modelo para eliminar el problema.
Demanda de rosas de un mayorista en el área metropolitana
de Detroit
Cantidad de rosas vendidas en
Y decenas
Precio promedio al mayoreo de las rosas, en
X2 dolares por docena
Precio promedio al mayoreo de los claveles,
X3 en dólares por docenas
Ingreso familiar disponible promedio semanal en
X4 dólares por semana
Variable de tendencia que toma valores de 1, 2 y así
X5 sucesivamente, durante el periodo de 1971.3 a 1975.2

EJEMPLO
EJEMPLO
Ventas Precio Precio Ingreso
Rosas Rosas Claveles Familiar Periodo
11484 2,26 3,49 158,11 1
9348 2,54 2,85 173,36 2
8429 3,07 4,06 165,26 3
10079 2,91 3,64 172,92 4
9240 2,73 3,21 178,46 5
8862 2,77 3,66 198,62 6
6216 3,59 3,76 186,28 7
8253 3,23 3,49 188,98 8
8038 2,6 3,13 180,49 9
7476 2,89 3,2 183,33 10
5911 3,77 3,65 181,87 11
7950 3,64 3,6 185 12
6134 2,82 2,94 184 13
5868 2,96 3,12 188,2 14
3160 4,24 3,58 175,67 15
5872 3,69 3,53 188 16
EJEMPLO
Gráfica de dispersión de Ventas Rosas vs. Precio Rosas; Precio Clave;
Precio Rosas Precio Claveles
12000

10000

8000

6000
Ventas Rosas

4000

2,0 2,5 3,0 3,5 4,0 3,00 3,25 3,50 3,75 4,00

Ingreso Familiar Periodo


12000

10000

8000

6000

4000

160 170 180 190 2000 4 8 12 16


RESIDUOS
Resumen del modelo

R-cuad.
S R-cuad. (ajustado)
969,874 83,47% 77,46%
Fuente GL SC Sec. Contribución SC Ajust. MC Ajust. Valor F Valor p
Regresión 4 52249136 83,47% 52249136 13062284 13,89 0,000
Precio 1 38490403 61,49% 5509737 5509737 5,86 0,034
Rosas
Precio 1 9749329 15,57% 1099921 1099921 1,17 0,303
Claveles
Ingreso 1 455799 0,73% 39601 39601 0,04 0,841
Familiar
Periodo 1 3553605 5,68% 3553605 3553605 3,78 0,078
Error 11 10347220 16,53% 10347220 940656
Total 15 62596356 100,00%

Análisis de regresión: Ventas Rosas vs.


Precio Rosas; Precio Claveles; Ingreso
Familiar; Periodo
Fuente GL SC Sec. Contribución SC Ajust. MC Ajust. Valor F Valor p
Regresión 4 52249136 83,47% 52249136 13062284 13,89 0,000
Error 11 10347220 16,53% 10347220 940656
Total 15 62596356 100,00%

Análisis de regresión: Ventas Rosas vs.


Precio Rosas; Precio Claveles; Ingreso
Familiar; Periodo
EE DEL VALOR VALOR
TÉRMINO COEF COEF. IC DE 95% T P FIV

Constante 10816 5988 (-236; 24) 1,81 0,098

Precio Rosas -2228 920 (-425; -202) -2,42 0,034 3,91

Precio 1251 1157 (-13; 38) 1,08 0,303 2,25


Claveles

Ingreso 6,3 30,6 (-61,1; 73,7) 0,21 0,841 1,46


Familiar

Periodo -197 102 (-421; 26) -1,94 0,078 3,73

Coeficientes
FIV

El factor de inflación de la
varianza (FIV) indica cuánto se
infla la varianza de un
coeficiente debido a las
correlaciones entre los
predictores incluidos en el
modelo.
FIV

Utilice los FIV para describir cuánta


multicolinealidad (que es la correlación
entre los predictores) existe en un
análisis de regresión. La
multicolinealidad es problemática
porque puede aumentar la varianza de
los coeficientes de regresión, lo que
hace difícil evaluar el impacto individual
que cada uno de los predictores
correlacionados tiene sobre la respuesta.
Un valor de FIV
mayor que 5 sugiere
que el coeficiente

FIV de regresión se
estimó de manera
deficiente debido a
una fuerte
multicolinealidad.
FIV Estado del predictor

FIV = 1 No correlacionados

1 < FIV < 5 Moderadamente


correlacionados

FIV > 5 Altamente correlacionados

FIV
Ecuación

Ventas Rosas = 10816 -


2228 Precio Rosas
+ 1251 Precio Claveles
+ 6,3 Ingreso Familiar
- 197 Periodo
Observaciones influyentes: Ajustes y
diagnósticos para observaciones poco
comunes

Vent EE de
as Ajust ajust IC de Resid Resid D de
Obs Rosas e e 95% Resid est. elim. AA Cook DFITS
12 7950 6005 352 (5230 1945 2,15 2,70 0,131 0,14 1,051 R
; 918 66
6780)

Residuo grande R
Valor de
Variable configuración
Precio Rosas 2,26
Precio Claveles 3,49
Ingreso Familiar 158,11
Periodo 1

Predicción
Configuración
EE de IC de IP de
Ajuste ajuste 95% 95%

10943,9 701,130 (9400,74; (8309,86;


12487,1) 13578,0)

Predicción
Valor de
Variable configuración
Precio Rosas 2,26
Precio Claveles 4,06
Ingreso Familiar 198,62
Periodo 1

Predicción de respuesta
múltiple
EE de IC de IP de
Respuesta Ajuste ajuste 95% 95%
Ventas 11912 1233 (9197; (8458;
Rosas 14626) 15365)

Predicción de respuesta
múltiple
EE de IC de IP de
Respuesta Ajuste ajuste 95% 95%
Ventas 11912 1233 (9197; (8458;
Rosas 14626) 15365)

Predicción de respuesta
multiple
Predicción de respuesta
múltiple
Correlación
Ventas Precio Precio Ingreso
Rosas Rosas Claveles Familiar
Precio -0,784
Rosas
0,000
Precio -0,023 0,472
Claveles
0,934 0,065
Ingreso -0,413 0,289 -0,104
Familiar
0,112 0,277 0,700
Periodo -0,852 0,653 -0,127 0,550
0,000 0,006 0,638 0,027

También podría gustarte