Está en la página 1de 45

Titulo REGRESIÓN

del material
LINEAL MÚLTIPLE (RLM)
Tema:

Análisis de Regresión Lineal


Múltiple
Logro de la sesión

Al término de la sesión, el
estudiante conoce cómo construir y
seleccionar el mejor modelo de
regresión lineal múltiple, para
realizar pronósticos en el campo de
su especialidad.
Temario

Análisis de Regresión Lineal Múltiple (RLM).


 El modelo de regresión lineal múltiple
 Estimación de los parámetros del modelo
 Modelo de regresión estimado
 Descomposición de la varianza total (ANOVA)
 Error estándar de la estimación
 Coeficiente de determinación múltiple
 Adecuación del modelo
 Intervalos de predicción para un valor medio e individual
Pasos para el análisis de regresión

Interpretación 1. Identificación y 2. Marco teórico /proceso


exposición del problema

Representación
3. Selección de las
4. Modelo funcional variables

5. Recolección de datos
Cálculos

Argumentación
7. Conclusiones y
6. Análisis estadístico recomendaciones
de los datos
Temario
Temario
¿De que dependerá el precio de venta de una
propiedad Inmueble?

¿Del área total?


¿De la ubicación?

¿De la antigüedad de la
construcción?

¿De los acabados de construcción?


¿De las instalaciones como calefacción, aire acondicionado?
¿Cómo se relacionan estas variables?
• El modelo de regresión lineal múltiple

Considerando “k” variables regresoras, el modelo de regresión


múltiple se expresa por:
y   0  1 x1   2 x2   3 x3  ...   k xk  
donde:
y Es la variable dependiente que se quiere predecir

 0 , 1 ,...,  k Son parámetros (coeficientes de la regresión)

x1 , x2 ,..., xk Son las variables independientes que se miden


sin error
 Es el error asociado a cada variable independiente
k: Nro. variables independientes
p=k+1 :Nro. parámetros del modelo
• Estimación de los parámetros del modelo
• Modelo de regresión estimado

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk

Un coeficiente de regresión estimado (βi), mide el


cambio promedio en la variable dependiente debido
a un cambio de una unidad en la variable
independiente, manteniendo constantes las otras
variables predictoras.

(Nota: 𝛽መ0 no tiene esta misma interpretación)


• Descomposición de la varianza Total (ANOVA)
• El error estándar de la estimación.

El error estándar de la estimación mide 𝑆𝐶𝐸


𝑠= 𝑛−𝑝 = 𝐶𝑀𝐸
la variabilidad o dispersión de los valores
muestrales y observados alrededor del Donde:
plano de regresión P es el número de parámetros
a estimar (p = k + 1)

Tipos de residuales
Residual: 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
𝑒𝑖 𝑒
Residual estandarizado: 𝑑𝑖 = = 𝑖
𝐶𝑀𝐸 𝜎 ෝ2
𝑒𝑖
Residual estudentizado: 𝑟𝑖 =
ෝ 2 (1−ℎ𝑖𝑗
𝜎
Donde:
Hij es el elemento i-ésimo de la diagonal de la matriz
𝐻 = 𝑋(𝑋´𝑋)−1 𝑋´
• Coeficiente de determinación múltiple.
El coeficiente de regresión múltiple mide el porcentaje de la
variabilidad de Y que se explica mediante la variabilidad de las
variables de predicción.

𝑆𝐶𝑅
𝑟2 =
𝑆𝐶𝑇

Si se introducen excesivas variables al modelo, el


coeficiente de determinación incrementará su valor, por
tal razón, se suele calcular el coeficiente de determinación
ajustado.

2 𝑛−1 Compara modelos con diferente


𝑟𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1 − 𝑟 2 )
𝑛−𝑝 cantidad de variables regresoras
• Aspectos por evaluar en la adecuación del modelo.
• Tamaño mínimo de la muestra.
• Ajuste del modelo.
1. Prueba de significación de la regresión (Prueba global)
(Prueba F – ANOVA)  Determinar si
Estadístico de prueba: existe relación
H o : 1   2  ...   k  0 entre la variable
CMR respuesta y un
H1 : Al menos un i  0 F ~ F( p 1, n p ) subconjunto de
CME las regresoras

2. Pruebas para los coeficiente de regresión individuales.


(Pruebas t – Coeficientes)

H 0 : i  0 Estadístico de prueba:  Determinar el


valor
H1 :  i  0 ˆ i  i potencial de
t ~ t ( n p) cada
ˆ C jj
2
regresora

donde:
• p=k+1
• Cjj es el elemento de la diagonal de la matriz (X’X)-1 que corresponde a j
• Cumplimiento de los supuestos del modelo.
a) Normalidad de los errores
Ho: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Estadístico de prueba: Anderson Darling, Kolmogorov Smirnov
Si valor p ≥ , DE: No rechazar Ho
• Cumplimiento de los supuestos del modelo.
b) Independencia de errores
Supuesto: No existe autocorrelación entre los residuos

Regla práctica:

Durbin – Watson (d)  [1,5; 2,5]

σ𝑇𝑡=2 𝑒𝑡 − 𝑒𝑡−1 2
𝑑=
σ𝑇𝑡=1 𝑒𝑡2
• Cumplimiento de los supuestos del modelo.
c) Homocedasticidad o igualdad de varianzas de los errores

Durbin – Watson  [1,5; 2,5]


c) La media de los errores es cero
• Cumplimiento de los supuestos del modelo.
d) Ausencia de colinealidad
Método del factor de inflación de varianza (VIF)
VIF = 1: No hay multicolinealidad
VIF entre 4 y 10: Sospecha de multicolinealidad (despreciable)
VIF > 10: Problema serio de multicolinealidad
1
𝑉𝐼𝐹 𝛽෠𝑗 = 𝑗 = 1,2, … . . 𝑘
1 − 𝑟𝑗2

Donde 𝑟𝑗2 es el coeficiente de determinación múltiple de la regresión


de 𝑥𝑗 sobre las k – 1 regresoras restantes.

Nota: Se considerará que no hay problemas de colinealidad si el VIF ≤ 10.


• Cumplimiento de los supuestos del modelo.
e) Linealidad
Este supuesto se cumple cuando los residuos (estandarizados o
estudentizados) se distribuyen aleatoriamente, próximos a la línea
horizontal que parte del cero.
• Observaciones influyentes.
Intervalo de confianza del (1 - )% en el punto 𝑋01 , 𝑋02 , … 𝑋0𝑘 𝑝𝑎𝑟𝑎:

• Intervalo de predicción para la respuesta individual.

𝑦ො0 − 𝑡 𝛼 𝑆 1 + 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝑦ො0 + 𝑡(𝛼 ,𝑛−𝑝) 𝑆 1 + 𝑋0 (𝑋´𝑋)−1 𝑋0


,𝑛−𝑝 0
2 2

• Intervalo de predicción para la respuesta media

𝜇Ƹ 𝑌/𝑥0 − 𝑡 𝛼 𝑆 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝜇Ƹ 𝑌/𝑥0 + 𝑡(𝛼,𝑛−𝑝) 𝑆 𝑋0 (𝑋´𝑋)−1 𝑋0


,𝑛−𝑝 0
2 2

Donde:
𝑦ො0 = 𝑥0 𝛽መ
𝑥0 = 1 𝑥01 𝑥02 … … . 𝑥0𝑘
“Método paso a paso”
De la teoría a la práctica: Valor de una propiedad
Juan Li es un ingeniero que se desempeña
como analista para una empresa
inmobiliaria . Revisando investigaciones en
el sector inmobiliario, encontró que el valor
de las propiedades está relacionado con la
antigüedad de la propiedad, el área de
calefacción y el tamaño de lote y algunas
otras variables. La inmobiliaria le ha
encargado estimar cual será el valor de una
propiedad de 16 años de antigüedad, cuya
área de calefacción es de 1,55 miles de
pies2 y el tamaño del lote es de 2,60 miles
de pies2.
Por eso, Juan analiza cuidadosamente la
metodología que han utilizado y decide
seleccionar al azar 40 propiedades de la
misma zona geográfica y registra los datos
que se muestran a continuación:
Área con
Valuación (miles de Antigüedad, x2
Popiedad calefacción, x1 Tamaño del lote,
dólares), y (años)
(miles de pie2) x3 (miles de p
1
2
70,4
79,3
1,6
1,39
32
1
2,5
1,8 También se solicita a Juan,
3 75,7 1,45 8,33 1,5
4 79,2 1,5 2,75 2,3 comunicar a los corredores
5 74,5 1,54 12,58 1,8
6 75,8 1,55 16 2,3 inmobiliarios, que para las
7 78,5 1,59 1,75 1,8
8
9
76,8
77,4
1,59
1,71
7,17
11,5
1,8
3,5
ventas de las próximas
10
11
85,9
84,4
1,76
1,85
0
3,42
1,95
3
propiedades se ofrece una
12
13
83,8
86,7
1,89
1,9
2,75
0
2,05
2,5
ganancia del 8% si la
14
15
79,1
85,9
1,93
1,93
7,42
2
2,65
3 estimación del intervalo para el
16 79,2 1,5 2,75 2,3
17 74,5 1,54 12,58 1,8 valor de la propiedad es mayor
18 75,8 1,55 16 2,3
19 78,5 1,59 1,75 1,8 a 60 mil dólares.
20 76,8 1,59 7,17 1,8
21
22
77,4
85,9
1,71
1,76
11,5
0
2,5
1,95
Juan Li, lo contrata a Usted
23
24
86,7
79,1
1,9
1,93
0
7,42
2,5
2,65
para ayudarlo en la búsqueda
25
26
85,9
79,2
1,93
1,5
2
2,75
3
2,3
de una solución al problema
27
28
74,5
70,4
1,54
1,6
12,58
32
1,8
2,5 propuesto.
29 79,3 1,39 1 1,8
30 75,7 1,45 8,33 1,5 Para el análisis, utilice un nivel
31 79,2 1,5 2,75 2,3
32 74,5 1,54 12,58 1,8 de significación de 5% y un
33 75,8 1,55 16 2,3
34
35
78,5
76,8
1,59
1,59
1,75
7,17
1,8
1,8
nivel de confianza del 95%.
36 79,1 1,93 7,42 2,65
37 85,9 1,93 2 3
38 79,2 1,5 2,75 2,3
39 74,5 1,54 12,58 1,8
40 70,4 1,6 32 2,5
Interpretación

Determinar si Juan comunicará a los corredores inmobiliarios que


para las ventas de las próximas propiedades se ofrecerá una
ganancia del 8%.
Representación
Y: Valor de la propiedad (miles de US$)
X1: Área de calefacción (miles de pies2)
X2: Antigüedad de la propiedad (años)
X3: Tamaño del lote (miles de pies2)

El modelo será: 𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀
Plan de análisis: Estimación del modelo completo, selección del
mejor modelo por el método paso a paso, adecuación del modelo y
cálculo de pronósticos.
Cálculo: Gráfica de dispersión de Y vs. X1, X2, X3
X1 X2

85

80

75

1. Diagrama matricial 70
1.4 1.6 1.8 2.0 0 10 20 30

Y
de dispersión 85
X3

80

75

70
1.5 2.0 2.5 3.0

Correlaciones: Y, X1, X2, X3

2. Matriz de Y X1 X2
correlaciones X1 0.636
X2 -0.808 -0.223
X3 0.329 0.650 0.080
3. Estimación del modelo completo
Análisis de regresión: y vs x1, x2, x3
Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 705.937 235.312 89.58 0.000
X1 1 58.613 58.613 22.31 0.000
X2 1 371.710 371.710 141.51 0.000
X3 1 8.083 8.083 3.08 0.088
Error 36 94.562 2.627
Falta de 12 94.562 7.880 * *
ajuste
Error puro 24 0.000 0.000
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.62072 88.19% 87.20% 84.98%
3. Estimación del modelo completo: Análisis de las variables
independientes

Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 62.37 2.73 22.87 0.000
X1 9.99 2.12 4.72 0.000 2.00
X2 -0.3911 0.0329 -11.90 0.000 1.16
X3 1.335 0.761 1.75 0.088 1.91

Ecuación de regresión
𝑌 = 62,37 + 9,99𝑋1 − 0,3911𝑋2 + 1,335𝑋3

Estadístico de Durbin – Watson: DW = 2,30789


4. Selección del mejor modelo: Método paso a paso
Análisis de regresión: Y vs. x1, x2, x3
Selección de términos escalonada
Términos candidatos: x1, x2, x3

-----Paso 1----- -----Paso 2-----


Coef P Coef P
Constante 82.138 61.00
X2 -0.4307 0.000 -0.3736 0.000
X1 12.54 0.000

S 2.70344 1.66559
R-cuad. 65.31% 87.18%
R-cuad.(ajustado) 64.39% 86.48%
R-cuad. (pred) 61.53% 84.76%
Cp de Mallows 69.73 5.08
α a entrar = 0.05, α a retirar = 0.1
4. Selección del mejor modelo: Método paso a paso
Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 697.854 348.927 125.78 0.000
X1 1 175.081 175.081 63.11 0.000
X2 1 373.662 373.662 134.69 0.000
Error 37 102.645 2.774
Falta de 12 102.645 8.554 * *
ajuste
Error 25 0.000 0.000
puro
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.66559 87.18% 86.48% 84.76%
4. Selección del mejor modelo: Método paso a paso

Coeficientes

EE del
Coef Valor T Valor p FIV
Término coef.
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05

Ecuación de regresión
𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2

Estadístico de Durbin – Watson: DW = 2,34607


4. Selección del mejor modelo: Método paso a paso

𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2


Interpretación de los coeficientes:

𝛽መ1 = 12,54: Cuando el área de calefacción se incrementa en


1000 pies2, el valor de la propiedad se incrementa en 12,54 miles
de $ en promedio, manteniendo constante la antigüedad de la
propiedad.

𝛽መ2 = −0,3736: Cuando la antigüedad de la propiedad se


incrementa en un año, el valor de la propiedad disminuye en
0,3736 miles de $ en promedio, manteniendo constante el área
de calefacción.
5. Adecuación del modelo: Ajuste global
a) Prueba conjunta Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 697.854 348.927 125.78 0.000
X1 1 175.081 175.081 63.11 0.000
X2 1 373.662 373.662 134.69 0.000
Error 37 102.645 2.774
Falta de 12 102.645 8.554 * *
ajuste
Error puro 25 0.000 0.000
Total 39 800.499

𝐻𝑜: 𝛽1 = 𝛽2 = 0 Estadístico de prueba: 𝐹𝑐𝑎𝑙 = 125,78


H1: Al menos un 𝛽𝑖 ≠ 0
Valor p = 0,000 < α = 0,05 => Se Rechaza Ho (RHo)
Conclusión: Con un nivel de significación del 5%, al menos un
coeficiente de regresión es diferente de cero. El modelo en su
conjunto se valida
5. Adecuación del modelo: Pruebas individuales
b) Pruebas individuales
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05

Ho: 𝛽1 = 0 Ho: 𝛽2 = 0
H1: 𝛽1 ≠ 0 H1: 𝛽2 ≠ 0
E. Prueba: 𝑡𝑐𝑎𝑙 = 7,94 E. Prueba: 𝑡𝑐𝑎𝑙 = −11,61
Valor p = 0 < α = 0,05 Valor p = 0 < α = 0,05
DE: RHO DE: RHO
Con un nivel de significación del 1%, el área de calefacción y la
antigüedad de la propiedad son significativos al modelo.
5. Adecuación del modelo: Análisis de supuestos

a) Normalidad

b) Linealidad y
homocedasticidad
5. Adecuación del modelo: Análisis de supuestos
Histograma
(la respuesta es Y)

10

Frecuencia
c) Promedio de los errores es cero 6

0
-3 -2 -1 0 1 2 3
Residuo

d) Ausencia de colinealidad
EE del
Término Coef coef. Valor T Valor p FIV
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05

e) Independencia
Estadístico de Durbin - Watson: DW = 2,34607
de los errores
5. Adecuación del modelo: Observaciones influyentes
𝑒𝑖 2

𝑟𝑖2 ℎ𝑖𝑖 𝐶𝑀𝐸(1 − ℎ𝑖𝑖 ℎ𝑖𝑖 CME = 2,774


𝐷𝑖 = . = .
𝑝 1 − ℎ𝑖𝑖 𝑝 1 − ℎ𝑖𝑖

Ejemplo de como se calcula la distancia de Cook D1


2
1,2836
2,774(1 − 0,2312 0,2312
𝐷1 = ∙ = 0,0774 Propiedad RESID HI COOK
3 1 − 0,2312
1 1,2836 0,2312 0,0774
2 1,2360 0,1187 0,0280
3 -0,3780 0,0599 0,0012
Como D1 < 1, entonces la
4 0,4103 0,0619 0,0014
observación no es influyente
5 -1,1190 0,0391 0,0064
6 1,3332 0,0507 0,0120
7 -1,7921 0,0461 0,0195
8 -1,4672 0,0288 0,0079
9 -0,7546 0,0345 0,0025
10 2,8221 0,0533 0,0569
8. Pronóstico

Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
74.4668 0.375015 (73.7069, 75.2266) (71.0075, 77.9261)
6. Pronóstico
Estimar el valor de una propiedad, cuando el área de calefacción
es de 1,55 miles de pies2 y tiene una antigüedad de 16 años.
Estimación puntual
𝑌෠ = 61,00 + 12,54(1,55) − 0,3736 16 = 74,4668

Estimación por intervalo de confianza para un valor individual

Estimar con 95% de confianza, el valor de una propiedad, cuando


el área de calefacción es de 1,55 pies2 y tiene una antigüedad de
16 años.

𝑰𝑪 𝒀𝒊𝒏𝒅𝒊𝒗 Τ𝑿𝟏 = 𝟏, 𝟓𝟓; 𝑿𝟐 = 𝟏𝟔 : 𝟕𝟏, 𝟎𝟎𝟕𝟓; 𝟕𝟕, 𝟗𝟐𝟔𝟏


Análisis
Con un nivel de confianza del 95%, se estima que el valor de una propiedad,
cuando el área de calefacción es de 1,55 pies2 y tiene una antigüedad de 16
años, se encuentra contenido en el intervalo [71,0075; 77,9261] miles de
dólares.
También se puede concluir que el valor de una propiedad presenta una
relación directa con el área de calefacción e inversa con los años de
antigüedad .
El porcentaje de variabilidad del valor de una propiedad que es explicado
por la variabilidad de las variables área de calefacción y años de antigüedad
es 86,48%, que nos indica que es un buen ajuste.
Los cinco supuestos del modelo se cumplen y que no hay valores influyentes.
En el modelo YX1X2, tanto la prueba global, como la prueba de coeficientes
son significativos, a un nivel de significación del 5%.
Argumentación
De los resultados obtenidos, se concluye que el precio de una propiedad,
cuando el área de calefacciones es de 1,55 pies2 y una antigüedad de 16
años es mayor a 60 mil dólares; por lo tanto, Juan Li deberá ofrecer a los
corredores inmobiliarios una ganancia del 8% para la venta de los
próximos inmuebles.

También podría gustarte