Documentos de Académico
Documentos de Profesional
Documentos de Cultura
del material
LINEAL MÚLTIPLE (RLM)
Tema:
Al término de la sesión, el
estudiante conoce cómo construir y
seleccionar el mejor modelo de
regresión lineal múltiple, para
realizar pronósticos en el campo de
su especialidad.
Temario
Representación
3. Selección de las
4. Modelo funcional variables
5. Recolección de datos
Cálculos
Argumentación
7. Conclusiones y
6. Análisis estadístico recomendaciones
de los datos
Temario
Temario
¿De que dependerá el precio de venta de una
propiedad Inmueble?
¿De la antigüedad de la
construcción?
Tipos de residuales
Residual: 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
𝑒𝑖 𝑒
Residual estandarizado: 𝑑𝑖 = = 𝑖
𝐶𝑀𝐸 𝜎 ෝ2
𝑒𝑖
Residual estudentizado: 𝑟𝑖 =
ෝ 2 (1−ℎ𝑖𝑗
𝜎
Donde:
Hij es el elemento i-ésimo de la diagonal de la matriz
𝐻 = 𝑋(𝑋´𝑋)−1 𝑋´
• Coeficiente de determinación múltiple.
El coeficiente de regresión múltiple mide el porcentaje de la
variabilidad de Y que se explica mediante la variabilidad de las
variables de predicción.
𝑆𝐶𝑅
𝑟2 =
𝑆𝐶𝑇
donde:
• p=k+1
• Cjj es el elemento de la diagonal de la matriz (X’X)-1 que corresponde a j
• Cumplimiento de los supuestos del modelo.
a) Normalidad de los errores
Ho: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Estadístico de prueba: Anderson Darling, Kolmogorov Smirnov
Si valor p ≥ , DE: No rechazar Ho
• Cumplimiento de los supuestos del modelo.
b) Independencia de errores
Supuesto: No existe autocorrelación entre los residuos
Regla práctica:
σ𝑇𝑡=2 𝑒𝑡 − 𝑒𝑡−1 2
𝑑=
σ𝑇𝑡=1 𝑒𝑡2
• Cumplimiento de los supuestos del modelo.
c) Homocedasticidad o igualdad de varianzas de los errores
Donde:
𝑦ො0 = 𝑥0 𝛽መ
𝑥0 = 1 𝑥01 𝑥02 … … . 𝑥0𝑘
“Método paso a paso”
De la teoría a la práctica: Valor de una propiedad
Juan Li es un ingeniero que se desempeña
como analista para una empresa
inmobiliaria . Revisando investigaciones en
el sector inmobiliario, encontró que el valor
de las propiedades está relacionado con la
antigüedad de la propiedad, el área de
calefacción y el tamaño de lote y algunas
otras variables. La inmobiliaria le ha
encargado estimar cual será el valor de una
propiedad de 16 años de antigüedad, cuya
área de calefacción es de 1,55 miles de
pies2 y el tamaño del lote es de 2,60 miles
de pies2.
Por eso, Juan analiza cuidadosamente la
metodología que han utilizado y decide
seleccionar al azar 40 propiedades de la
misma zona geográfica y registra los datos
que se muestran a continuación:
Área con
Valuación (miles de Antigüedad, x2
Popiedad calefacción, x1 Tamaño del lote,
dólares), y (años)
(miles de pie2) x3 (miles de p
1
2
70,4
79,3
1,6
1,39
32
1
2,5
1,8 También se solicita a Juan,
3 75,7 1,45 8,33 1,5
4 79,2 1,5 2,75 2,3 comunicar a los corredores
5 74,5 1,54 12,58 1,8
6 75,8 1,55 16 2,3 inmobiliarios, que para las
7 78,5 1,59 1,75 1,8
8
9
76,8
77,4
1,59
1,71
7,17
11,5
1,8
3,5
ventas de las próximas
10
11
85,9
84,4
1,76
1,85
0
3,42
1,95
3
propiedades se ofrece una
12
13
83,8
86,7
1,89
1,9
2,75
0
2,05
2,5
ganancia del 8% si la
14
15
79,1
85,9
1,93
1,93
7,42
2
2,65
3 estimación del intervalo para el
16 79,2 1,5 2,75 2,3
17 74,5 1,54 12,58 1,8 valor de la propiedad es mayor
18 75,8 1,55 16 2,3
19 78,5 1,59 1,75 1,8 a 60 mil dólares.
20 76,8 1,59 7,17 1,8
21
22
77,4
85,9
1,71
1,76
11,5
0
2,5
1,95
Juan Li, lo contrata a Usted
23
24
86,7
79,1
1,9
1,93
0
7,42
2,5
2,65
para ayudarlo en la búsqueda
25
26
85,9
79,2
1,93
1,5
2
2,75
3
2,3
de una solución al problema
27
28
74,5
70,4
1,54
1,6
12,58
32
1,8
2,5 propuesto.
29 79,3 1,39 1 1,8
30 75,7 1,45 8,33 1,5 Para el análisis, utilice un nivel
31 79,2 1,5 2,75 2,3
32 74,5 1,54 12,58 1,8 de significación de 5% y un
33 75,8 1,55 16 2,3
34
35
78,5
76,8
1,59
1,59
1,75
7,17
1,8
1,8
nivel de confianza del 95%.
36 79,1 1,93 7,42 2,65
37 85,9 1,93 2 3
38 79,2 1,5 2,75 2,3
39 74,5 1,54 12,58 1,8
40 70,4 1,6 32 2,5
Interpretación
El modelo será: 𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀
Plan de análisis: Estimación del modelo completo, selección del
mejor modelo por el método paso a paso, adecuación del modelo y
cálculo de pronósticos.
Cálculo: Gráfica de dispersión de Y vs. X1, X2, X3
X1 X2
85
80
75
1. Diagrama matricial 70
1.4 1.6 1.8 2.0 0 10 20 30
Y
de dispersión 85
X3
80
75
70
1.5 2.0 2.5 3.0
2. Matriz de Y X1 X2
correlaciones X1 0.636
X2 -0.808 -0.223
X3 0.329 0.650 0.080
3. Estimación del modelo completo
Análisis de regresión: y vs x1, x2, x3
Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 705.937 235.312 89.58 0.000
X1 1 58.613 58.613 22.31 0.000
X2 1 371.710 371.710 141.51 0.000
X3 1 8.083 8.083 3.08 0.088
Error 36 94.562 2.627
Falta de 12 94.562 7.880 * *
ajuste
Error puro 24 0.000 0.000
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.62072 88.19% 87.20% 84.98%
3. Estimación del modelo completo: Análisis de las variables
independientes
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 62.37 2.73 22.87 0.000
X1 9.99 2.12 4.72 0.000 2.00
X2 -0.3911 0.0329 -11.90 0.000 1.16
X3 1.335 0.761 1.75 0.088 1.91
Ecuación de regresión
𝑌 = 62,37 + 9,99𝑋1 − 0,3911𝑋2 + 1,335𝑋3
S 2.70344 1.66559
R-cuad. 65.31% 87.18%
R-cuad.(ajustado) 64.39% 86.48%
R-cuad. (pred) 61.53% 84.76%
Cp de Mallows 69.73 5.08
α a entrar = 0.05, α a retirar = 0.1
4. Selección del mejor modelo: Método paso a paso
Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 2 697.854 348.927 125.78 0.000
X1 1 175.081 175.081 63.11 0.000
X2 1 373.662 373.662 134.69 0.000
Error 37 102.645 2.774
Falta de 12 102.645 8.554 * *
ajuste
Error 25 0.000 0.000
puro
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.66559 87.18% 86.48% 84.76%
4. Selección del mejor modelo: Método paso a paso
Coeficientes
EE del
Coef Valor T Valor p FIV
Término coef.
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05
Ecuación de regresión
𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2
Ho: 𝛽1 = 0 Ho: 𝛽2 = 0
H1: 𝛽1 ≠ 0 H1: 𝛽2 ≠ 0
E. Prueba: 𝑡𝑐𝑎𝑙 = 7,94 E. Prueba: 𝑡𝑐𝑎𝑙 = −11,61
Valor p = 0 < α = 0,05 Valor p = 0 < α = 0,05
DE: RHO DE: RHO
Con un nivel de significación del 1%, el área de calefacción y la
antigüedad de la propiedad son significativos al modelo.
5. Adecuación del modelo: Análisis de supuestos
a) Normalidad
b) Linealidad y
homocedasticidad
5. Adecuación del modelo: Análisis de supuestos
Histograma
(la respuesta es Y)
10
Frecuencia
c) Promedio de los errores es cero 6
0
-3 -2 -1 0 1 2 3
Residuo
d) Ausencia de colinealidad
EE del
Término Coef coef. Valor T Valor p FIV
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05
e) Independencia
Estadístico de Durbin - Watson: DW = 2,34607
de los errores
5. Adecuación del modelo: Observaciones influyentes
𝑒𝑖 2
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
74.4668 0.375015 (73.7069, 75.2266) (71.0075, 77.9261)
6. Pronóstico
Estimar el valor de una propiedad, cuando el área de calefacción
es de 1,55 miles de pies2 y tiene una antigüedad de 16 años.
Estimación puntual
𝑌 = 61,00 + 12,54(1,55) − 0,3736 16 = 74,4668