Estadistica Regresion Lineal Upb

Titulo REGRESIÓN
del material
LINEAL MÚLTIPLE (RLM)
Tema:
Análisis de Regresión Lineal

Múltiple
Logro de la sesión
Al término de la sesión, el
estudiante conoce cómo construir y
seleccionar el mejor modelo de
regresión lineal múltiple, para
realizar pronósticos en el campo de
su especialidad.
Temario
Análisis de Regresión Lineal Múltiple (RLM).

 El modelo de regresión lineal múltiple
 Estimación de los parámetros del modelo
 Modelo de regresión estimado
 Descomposición de la varianza total (ANOVA)
 Error estándar de la estimación
 Coeficiente de determinación múltiple
 Adecuación del modelo
 Intervalos de predicción para un valor medio e individual
Pasos para el análisis de regresión
Interpretación 1. Identificación y 2. Marco teórico /proceso

exposición del problema
Representación
3. Selección de las
4. Modelo funcional variables
5. Recolección de datos
Cálculos
Argumentación
7. Conclusiones y
6. Análisis estadístico recomendaciones
de los datos
Temario
Temario
¿De que dependerá el precio de venta de una
propiedad Inmueble?
¿Del área total?

¿De la ubicación?
¿De la antigüedad de la
construcción?
¿De los acabados de construcción?

¿De las instalaciones como calefacción, aire acondicionado?
¿Cómo se relacionan estas variables?
• El modelo de regresión lineal múltiple
Considerando “k” variables regresoras, el modelo de regresión

múltiple se expresa por:
y   0  1 x1   2 x2   3 x3  ...   k xk  
donde:
y Es la variable dependiente que se quiere predecir
 0 , 1 ,...,  k Son parámetros (coeficientes de la regresión)
x1 , x2 ,..., xk Son las variables independientes que se miden

sin error
 Es el error asociado a cada variable independiente
k: Nro. variables independientes
p=k+1 :Nro. parámetros del modelo
• Estimación de los parámetros del modelo
• Modelo de regresión estimado
yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk
Un coeficiente de regresión estimado (βi), mide el

cambio promedio en la variable dependiente debido
a un cambio de una unidad en la variable
independiente, manteniendo constantes las otras
variables predictoras.
(Nota: 𝛽መ0 no tiene esta misma interpretación)

• Descomposición de la varianza Total (ANOVA)
• El error estándar de la estimación.
El error estándar de la estimación mide 𝑆𝐶𝐸

𝑠= 𝑛−𝑝 = 𝐶𝑀𝐸
la variabilidad o dispersión de los valores
muestrales y observados alrededor del Donde:
plano de regresión P es el número de parámetros
a estimar (p = k + 1)
Tipos de residuales
Residual: 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖
𝑒𝑖 𝑒
Residual estandarizado: 𝑑𝑖 = = 𝑖
𝐶𝑀𝐸 𝜎 ෝ2
𝑒𝑖
Residual estudentizado: 𝑟𝑖 =
ෝ 2 (1−ℎ𝑖𝑗
𝜎
Donde:
Hij es el elemento i-ésimo de la diagonal de la matriz
𝐻 = 𝑋(𝑋´𝑋)−1 𝑋´
• Coeficiente de determinación múltiple.
El coeficiente de regresión múltiple mide el porcentaje de la
variabilidad de Y que se explica mediante la variabilidad de las
variables de predicción.
𝑆𝐶𝑅
𝑟2 =
𝑆𝐶𝑇
Si se introducen excesivas variables al modelo, el

coeficiente de determinación incrementará su valor, por
tal razón, se suele calcular el coeficiente de determinación
ajustado.
2 𝑛−1 Compara modelos con diferente

𝑟𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1 − 𝑟 2 )
𝑛−𝑝 cantidad de variables regresoras
• Aspectos por evaluar en la adecuación del modelo.
• Tamaño mínimo de la muestra.
• Ajuste del modelo.
1. Prueba de significación de la regresión (Prueba global)
(Prueba F – ANOVA)  Determinar si
Estadístico de prueba: existe relación
H o : 1   2  ...   k  0 entre la variable
CMR respuesta y un
H1 : Al menos un i  0 F ~ F( p 1, n p ) subconjunto de
CME las regresoras
2. Pruebas para los coeficiente de regresión individuales.

(Pruebas t – Coeficientes)
H 0 : i  0 Estadístico de prueba:  Determinar el

valor
H1 :  i  0 ˆ i  i potencial de
t ~ t ( n p) cada
ˆ C jj
2
regresora
donde:
• p=k+1
• Cjj es el elemento de la diagonal de la matriz (X’X)-1 que corresponde a j
• Cumplimiento de los supuestos del modelo.
a) Normalidad de los errores
Ho: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
Estadístico de prueba: Anderson Darling, Kolmogorov Smirnov
Si valor p ≥ , DE: No rechazar Ho
b) Independencia de errores
Supuesto: No existe autocorrelación entre los residuos
Regla práctica:
Durbin – Watson (d)  [1,5; 2,5]
σ𝑇𝑡=2 𝑒𝑡 − 𝑒𝑡−1 2
𝑑=
σ𝑇𝑡=1 𝑒𝑡2
c) Homocedasticidad o igualdad de varianzas de los errores
Durbin – Watson  [1,5; 2,5]

c) La media de los errores es cero
d) Ausencia de colinealidad
Método del factor de inflación de varianza (VIF)
VIF = 1: No hay multicolinealidad
VIF entre 4 y 10: Sospecha de multicolinealidad (despreciable)
VIF > 10: Problema serio de multicolinealidad
1
𝑉𝐼𝐹 𝛽෠𝑗 = 𝑗 = 1,2, … . . 𝑘
1 − 𝑟𝑗2
Donde 𝑟𝑗2 es el coeficiente de determinación múltiple de la regresión

de 𝑥𝑗 sobre las k – 1 regresoras restantes.
Nota: Se considerará que no hay problemas de colinealidad si el VIF ≤ 10.

e) Linealidad
Este supuesto se cumple cuando los residuos (estandarizados o
estudentizados) se distribuyen aleatoriamente, próximos a la línea
horizontal que parte del cero.
• Observaciones influyentes.
Intervalo de confianza del (1 - )% en el punto 𝑋01 , 𝑋02 , … 𝑋0𝑘 𝑝𝑎𝑟𝑎:
• Intervalo de predicción para la respuesta individual.
𝑦ො0 − 𝑡 𝛼 𝑆 1 + 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝑦ො0 + 𝑡(𝛼 ,𝑛−𝑝) 𝑆 1 + 𝑋0 (𝑋´𝑋)−1 𝑋0

,𝑛−𝑝 0
2 2
• Intervalo de predicción para la respuesta media
𝜇Ƹ 𝑌/𝑥0 − 𝑡 𝛼 𝑆 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝜇Ƹ 𝑌/𝑥0 + 𝑡(𝛼,𝑛−𝑝) 𝑆 𝑋0 (𝑋´𝑋)−1 𝑋0

,𝑛−𝑝 0
2 2
Donde:
𝑦ො0 = 𝑥0 𝛽መ
𝑥0 = 1 𝑥01 𝑥02 … … . 𝑥0𝑘
“Método paso a paso”
De la teoría a la práctica: Valor de una propiedad
Juan Li es un ingeniero que se desempeña
como analista para una empresa
inmobiliaria . Revisando investigaciones en
el sector inmobiliario, encontró que el valor
de las propiedades está relacionado con la
antigüedad de la propiedad, el área de
calefacción y el tamaño de lote y algunas
otras variables. La inmobiliaria le ha
encargado estimar cual será el valor de una
propiedad de 16 años de antigüedad, cuya
área de calefacción es de 1,55 miles de
pies2 y el tamaño del lote es de 2,60 miles
de pies2.
Por eso, Juan analiza cuidadosamente la
metodología que han utilizado y decide
seleccionar al azar 40 propiedades de la
misma zona geográfica y registra los datos
que se muestran a continuación:
Área con
Valuación (miles de Antigüedad, x2
Popiedad calefacción, x1 Tamaño del lote,
dólares), y (años)
(miles de pie2) x3 (miles de p
1
2
70,4
79,3
1,6
1,39
32
1
2,5
1,8 También se solicita a Juan,
3 75,7 1,45 8,33 1,5
4 79,2 1,5 2,75 2,3 comunicar a los corredores
5 74,5 1,54 12,58 1,8
6 75,8 1,55 16 2,3 inmobiliarios, que para las
7 78,5 1,59 1,75 1,8
8
9
76,8
77,4
1,59
1,71
7,17
11,5
1,8
3,5
ventas de las próximas
10
11
85,9
84,4
1,76
1,85
0
3,42
1,95
3
propiedades se ofrece una
12
13
83,8
86,7
1,89
1,9
2,75
0
2,05
2,5
ganancia del 8% si la
14
15
79,1
85,9
1,93
1,93
7,42
2
2,65
3 estimación del intervalo para el
16 79,2 1,5 2,75 2,3
17 74,5 1,54 12,58 1,8 valor de la propiedad es mayor
18 75,8 1,55 16 2,3
19 78,5 1,59 1,75 1,8 a 60 mil dólares.
20 76,8 1,59 7,17 1,8
21
22
77,4
85,9
1,71
1,76
11,5
0
2,5
1,95
Juan Li, lo contrata a Usted
23
24
86,7
79,1
1,9
1,93
0
7,42
2,5
2,65
para ayudarlo en la búsqueda
25
26
85,9
79,2
1,93
1,5
2
2,75
3
2,3
de una solución al problema
27
28
74,5
70,4
1,54
1,6
12,58
32
1,8
2,5 propuesto.
29 79,3 1,39 1 1,8
30 75,7 1,45 8,33 1,5 Para el análisis, utilice un nivel
31 79,2 1,5 2,75 2,3
32 74,5 1,54 12,58 1,8 de significación de 5% y un
33 75,8 1,55 16 2,3
34
35
78,5
76,8
1,59
1,59
1,75
7,17
1,8
1,8
nivel de confianza del 95%.
36 79,1 1,93 7,42 2,65
37 85,9 1,93 2 3
38 79,2 1,5 2,75 2,3
39 74,5 1,54 12,58 1,8
40 70,4 1,6 32 2,5
Interpretación
Determinar si Juan comunicará a los corredores inmobiliarios que

para las ventas de las próximas propiedades se ofrecerá una
ganancia del 8%.
Representación
Y: Valor de la propiedad (miles de US$)
X1: Área de calefacción (miles de pies2)
X2: Antigüedad de la propiedad (años)
X3: Tamaño del lote (miles de pies2)
El modelo será: 𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀
Plan de análisis: Estimación del modelo completo, selección del
mejor modelo por el método paso a paso, adecuación del modelo y
cálculo de pronósticos.
Cálculo: Gráfica de dispersión de Y vs. X1, X2, X3
X1 X2
85
80
75
1. Diagrama matricial 70
1.4 1.6 1.8 2.0 0 10 20 30
Y
de dispersión 85
X3
80
75
70
1.5 2.0 2.5 3.0
Correlaciones: Y, X1, X2, X3
2. Matriz de Y X1 X2
correlaciones X1 0.636
X2 -0.808 -0.223
X3 0.329 0.650 0.080
3. Estimación del modelo completo
Análisis de regresión: y vs x1, x2, x3
Análisis de varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 705.937 235.312 89.58 0.000
X1 1 58.613 58.613 22.31 0.000
X2 1 371.710 371.710 141.51 0.000
X3 1 8.083 8.083 3.08 0.088
Error 36 94.562 2.627
Falta de 12 94.562 7.880 * *
ajuste
Error puro 24 0.000 0.000
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.62072 88.19% 87.20% 84.98%
3. Estimación del modelo completo: Análisis de las variables
independientes
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 62.37 2.73 22.87 0.000
X1 9.99 2.12 4.72 0.000 2.00
X2 -0.3911 0.0329 -11.90 0.000 1.16
X3 1.335 0.761 1.75 0.088 1.91
Ecuación de regresión
𝑌 = 62,37 + 9,99𝑋1 − 0,3911𝑋2 + 1,335𝑋3
Estadístico de Durbin – Watson: DW = 2,30789

4. Selección del mejor modelo: Método paso a paso
Análisis de regresión: Y vs. x1, x2, x3
Selección de términos escalonada
Términos candidatos: x1, x2, x3
-----Paso 1----- -----Paso 2-----

Coef P Coef P
Constante 82.138 61.00
X2 -0.4307 0.000 -0.3736 0.000
X1 12.54 0.000
S 2.70344 1.66559
R-cuad. 65.31% 87.18%
R-cuad.(ajustado) 64.39% 86.48%
R-cuad. (pred) 61.53% 84.76%
Cp de Mallows 69.73 5.08
α a entrar = 0.05, α a retirar = 0.1
Análisis de varianza
Regresión 2 697.854 348.927 125.78 0.000
X1 1 175.081 175.081 63.11 0.000
X2 1 373.662 373.662 134.69 0.000
Error 37 102.645 2.774
Falta de 12 102.645 8.554 * *
ajuste
Error 25 0.000 0.000
puro
Total 39 800.499
Resumen del modelo
R-cuad. R-cuad.
S R-cuad.
(ajustado) (pred)
1.66559 87.18% 86.48% 84.76%
Coeficientes
EE del
Coef Valor T Valor p FIV
Término coef.
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05
Ecuación de regresión
𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2
Estadístico de Durbin – Watson: DW = 2,34607

𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2

Interpretación de los coeficientes:
𝛽መ1 = 12,54: Cuando el área de calefacción se incrementa en

1000 pies2, el valor de la propiedad se incrementa en 12,54 miles
de $ en promedio, manteniendo constante la antigüedad de la
propiedad.
𝛽መ2 = −0,3736: Cuando la antigüedad de la propiedad se

incrementa en un año, el valor de la propiedad disminuye en
0,3736 miles de $ en promedio, manteniendo constante el área
de calefacción.
5. Adecuación del modelo: Ajuste global
a) Prueba conjunta Análisis de varianza
Regresión 2 697.854 348.927 125.78 0.000
X1 1 175.081 175.081 63.11 0.000
X2 1 373.662 373.662 134.69 0.000
Error 37 102.645 2.774
Falta de 12 102.645 8.554 * *
ajuste
Error puro 25 0.000 0.000
Total 39 800.499
𝐻𝑜: 𝛽1 = 𝛽2 = 0 Estadístico de prueba: 𝐹𝑐𝑎𝑙 = 125,78

H1: Al menos un 𝛽𝑖 ≠ 0
Valor p = 0,000 < α = 0,05 => Se Rechaza Ho (RHo)
Conclusión: Con un nivel de significación del 5%, al menos un
coeficiente de regresión es diferente de cero. El modelo en su
conjunto se valida
5. Adecuación del modelo: Pruebas individuales
b) Pruebas individuales
Coeficientes
EE del
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05
Ho: 𝛽1 = 0 Ho: 𝛽2 = 0
H1: 𝛽1 ≠ 0 H1: 𝛽2 ≠ 0
E. Prueba: 𝑡𝑐𝑎𝑙 = 7,94 E. Prueba: 𝑡𝑐𝑎𝑙 = −11,61
Valor p = 0 < α = 0,05 Valor p = 0 < α = 0,05
DE: RHO DE: RHO
Con un nivel de significación del 1%, el área de calefacción y la
antigüedad de la propiedad son significativos al modelo.
5. Adecuación del modelo: Análisis de supuestos
a) Normalidad
b) Linealidad y
homocedasticidad
5. Adecuación del modelo: Análisis de supuestos
Histograma
(la respuesta es Y)
10
Frecuencia
c) Promedio de los errores es cero 6
0
-3 -2 -1 0 1 2 3
Residuo
d) Ausencia de colinealidad
EE del
Constante 61.00 2.69 22.72 0.000
X1 12.54 1.58 7.94 0.000 1.05
X2 -0.3736 0.0322 -11.61 0.000 1.05
e) Independencia
Estadístico de Durbin - Watson: DW = 2,34607
de los errores
5. Adecuación del modelo: Observaciones influyentes
𝑒𝑖 2
𝑟𝑖2 ℎ𝑖𝑖 𝐶𝑀𝐸(1 − ℎ𝑖𝑖 ℎ𝑖𝑖 CME = 2,774

𝐷𝑖 = . = .
𝑝 1 − ℎ𝑖𝑖 𝑝 1 − ℎ𝑖𝑖
Ejemplo de como se calcula la distancia de Cook D1

2
1,2836
2,774(1 − 0,2312 0,2312
𝐷1 = ∙ = 0,0774 Propiedad RESID HI COOK
3 1 − 0,2312
1 1,2836 0,2312 0,0774
2 1,2360 0,1187 0,0280
3 -0,3780 0,0599 0,0012
Como D1 < 1, entonces la
4 0,4103 0,0619 0,0014
observación no es influyente
5 -1,1190 0,0391 0,0064
6 1,3332 0,0507 0,0120
7 -1,7921 0,0461 0,0195
8 -1,4672 0,0288 0,0079
9 -0,7546 0,0345 0,0025
10 2,8221 0,0533 0,0569
8. Pronóstico
Predicción
Ajuste EE de ajuste IC de 95% IP de 95%
74.4668 0.375015 (73.7069, 75.2266) (71.0075, 77.9261)
6. Pronóstico
Estimar el valor de una propiedad, cuando el área de calefacción
es de 1,55 miles de pies2 y tiene una antigüedad de 16 años.
Estimación puntual
𝑌෠ = 61,00 + 12,54(1,55) − 0,3736 16 = 74,4668
Estimación por intervalo de confianza para un valor individual
Estimar con 95% de confianza, el valor de una propiedad, cuando

el área de calefacción es de 1,55 pies2 y tiene una antigüedad de
16 años.
𝑰𝑪 𝒀𝒊𝒏𝒅𝒊𝒗 Τ𝑿𝟏 = 𝟏, 𝟓𝟓; 𝑿𝟐 = 𝟏𝟔 : 𝟕𝟏, 𝟎𝟎𝟕𝟓; 𝟕𝟕, 𝟗𝟐𝟔𝟏

Análisis
Con un nivel de confianza del 95%, se estima que el valor de una propiedad,
cuando el área de calefacción es de 1,55 pies2 y tiene una antigüedad de 16
años, se encuentra contenido en el intervalo [71,0075; 77,9261] miles de
dólares.
También se puede concluir que el valor de una propiedad presenta una
relación directa con el área de calefacción e inversa con los años de
antigüedad .
El porcentaje de variabilidad del valor de una propiedad que es explicado
por la variabilidad de las variables área de calefacción y años de antigüedad
es 86,48%, que nos indica que es un buen ajuste.
Los cinco supuestos del modelo se cumplen y que no hay valores influyentes.
En el modelo YX1X2, tanto la prueba global, como la prueba de coeficientes
son significativos, a un nivel de significación del 5%.
Argumentación
De los resultados obtenidos, se concluye que el precio de una propiedad,
cuando el área de calefacciones es de 1,55 pies2 y una antigüedad de 16
años es mayor a 60 mil dólares; por lo tanto, Juan Li deberá ofrecer a los
corredores inmobiliarios una ganancia del 8% para la venta de los
próximos inmuebles.

Estadistica Regresion Lineal Upb

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Regresion Lineal Upb

Cargado por

Copyright:

Formatos disponibles

Titulo REGRESIÓN

Análisis de Regresión Lineal

Análisis de Regresión Lineal Múltiple (RLM).

Interpretación 1. Identificación y 2. Marco teórico /proceso

¿Del área total?

¿De los acabados de construcción?

Considerando “k” variables regresoras, el modelo de regresión

 0 , 1 ,...,  k Son parámetros (coeficientes de la regresión)

x1 , x2 ,..., xk Son las variables independientes que se miden

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk

Un coeficiente de regresión estimado (βi), mide el

(Nota: 𝛽መ0 no tiene esta misma interpretación)

El error estándar de la estimación mide 𝑆𝐶𝐸

Si se introducen excesivas variables al modelo, el

2 𝑛−1 Compara modelos con diferente

2. Pruebas para los coeficiente de regresión individuales.

H 0 : i  0 Estadístico de prueba:  Determinar el

Durbin – Watson (d)  [1,5; 2,5]

Durbin – Watson  [1,5; 2,5]

Donde 𝑟𝑗2 es el coeficiente de determinación múltiple de la regresión

Nota: Se considerará que no hay problemas de colinealidad si el VIF ≤ 10.

• Intervalo de predicción para la respuesta individual.

𝑦ො0 − 𝑡 𝛼 𝑆 1 + 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝑦ො0 + 𝑡(𝛼 ,𝑛−𝑝) 𝑆 1 + 𝑋0 (𝑋´𝑋)−1 𝑋0

• Intervalo de predicción para la respuesta media

𝜇Ƹ 𝑌/𝑥0 − 𝑡 𝛼 𝑆 𝑋0 𝑋´𝑋 −1 𝑋 ≤ 𝑌𝑖𝑛𝑑 ≤ 𝜇Ƹ 𝑌/𝑥0 + 𝑡(𝛼,𝑛−𝑝) 𝑆 𝑋0 (𝑋´𝑋)−1 𝑋0

Determinar si Juan comunicará a los corredores inmobiliarios que

Correlaciones: Y, X1, X2, X3

Estadístico de Durbin – Watson: DW = 2,30789

-----Paso 1----- -----Paso 2-----

Estadístico de Durbin – Watson: DW = 2,34607

𝑌 = 61,00 + 12,54𝑋1 − 0,3736𝑋2

𝛽መ1 = 12,54: Cuando el área de calefacción se incrementa en

𝛽መ2 = −0,3736: Cuando la antigüedad de la propiedad se

𝐻𝑜: 𝛽1 = 𝛽2 = 0 Estadístico de prueba: 𝐹𝑐𝑎𝑙 = 125,78

𝑟𝑖2 ℎ𝑖𝑖 𝐶𝑀𝐸(1 − ℎ𝑖𝑖 ℎ𝑖𝑖 CME = 2,774

Ejemplo de como se calcula la distancia de Cook D1

Estimación por intervalo de confianza para un valor individual

Estimar con 95% de confianza, el valor de una propiedad, cuando

𝑰𝑪 𝒀𝒊𝒏𝒅𝒊𝒗 Τ𝑿𝟏 = 𝟏, 𝟓𝟓; 𝑿𝟐 = 𝟏𝟔 : 𝟕𝟏, 𝟎𝟎𝟕𝟓; 𝟕𝟕, 𝟗𝟐𝟔𝟏

También podría gustarte