Está en la página 1de 27

Estadística

Regresión Lineal Múltiple

Ing. Sandra González


I termino, 2018
Modelo de regresión Lineal Multiple
 Un modelo de regresión lineal múltiple tiene la forma:

𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 … + 𝛽𝑝−1 𝑋𝑖𝑝−1 + 𝜀𝑖

• 𝛽𝑜 , 𝛽1 , 𝛽2 , … , 𝛽𝑝−1 p parámetros del modelo


• 𝑋𝑖1 , 𝑋𝑖2 … 𝑋𝑖𝑝−1 constantes conocidas
• 𝜀𝑖 Variable aleatoria normal con media cero y varianza 𝜎 2 𝐼𝑛 , donde
i=1,2,….n
• Cov(𝜀𝑖 , 𝜀𝑗 ) = 0 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
Regresión Lineal Múltiple: Tabla de Datos
 X1,X2,….Xp-1 Variables de explicación
 Y Variable respuesta o variable ha ser explicada o pronosticada

caso Y X1 X2 ……. Xp-1


1 𝑦1 𝑥11 𝑥12 … 𝑥1𝑝−1
2 𝑦2 𝑥21 𝑥22 … 𝑥2𝑝−1
3 𝑦3 𝑥31 𝑥32 … 𝑥3𝑝−1
. . . . .
. . . . .
. . . . .

n 𝑦𝑛 𝑥𝑛1 𝑥𝑛2 𝑥𝑛𝑝−1


Forma matricial del modelo de Regresión
Lineal Múltiple
 El modelo de regresión lineal múltiple es representado en forma matricial como:

𝕐 = 𝕏𝛽 + 𝜀
En el cual:

𝑦1 𝛽0 𝜀1
𝑦2 𝛽1 𝜀2
. 𝛽2 .
Y= . 𝛽= ε= .
.
. . .
𝑦𝑛 𝜀𝑛
𝛽𝑝−1

1 𝑥11 . . 𝑥1𝑝−1
1 𝑥21 . . 𝑥2𝑝−1
𝑋= . . . . . La matriz X es llamada matriz de diseño
. . . . .
1 𝑥𝑛1 . . 𝑥𝑛𝑝−1
Ejemplo 1:
 Considere los siguientes tabla de Escriba los datos en la forma matricial
datos:
x1 x2 Y 𝒀 = 𝑋𝛽 + 𝜀
4 1.5 160
3 2,2 112
160 1 4 1,5 𝜀1
1,6 1,0 69
112 1 3 2,2 𝛽𝑜 𝜀2
1,2 2 90 69 1 1,6 1,0 𝜀3
= 𝛽1 + 𝜀
90 1 1,2 2 4
3,4 0,8 123 𝛽2 𝜀5
123 1 3,4 0,8
4,8 1,6 186 186 1 4,8 1,6 𝜀6
Supuestos del modelo
 Para el modelo , 𝕐 = 𝕏𝛽 + 𝜀 nosotros asumimos que,
𝜀 ∼ 𝑁(0, 𝜎 2 𝐼𝑛 ) 𝑐𝑜𝑣 𝜀𝑖 , 𝜀𝑗 = 0 i≠𝑗

Es decir que:
𝐸(𝜀1 ) 0
𝐸(𝜀2 ) 0.
.
𝐸 𝜀 = . = . = 0, 0𝜖ℜ𝑛
. .
𝐸(𝜀𝑛 ) 0

𝜎2 … 0
0 0
𝑣𝑎𝑟 𝜀 = Σ𝑒 = ⋱ = 𝜎 2 𝐼𝑛
⋮ ⋮
0 … 𝜎2
Estimador de mínimos cuadrados
ordinarios
𝛽 = (𝕏𝑡 𝕏)−1 𝕏𝑡 𝕐

• 𝕏𝑡 𝕏𝜖 𝑀𝑝𝑥𝑝

• Un supuesto es que la matriz (𝕏𝑡 𝕏)−1 exista, es decir, 𝕏𝑡 𝕏 no


sea singular

• (𝑋 𝑡 𝑋)−1 existe siempre y cuando el rango de 𝕏 sea p, es


decir, 𝕏 tenga p columnas linealmente independientes

• 𝕏𝑡 𝕏 es una matriz simétrica, al igual que lo es su inversa.


Ejemplo 2:
 Para el modelo 𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖 se tienen los siguientes datos:

0,6477 −0,041 −0,0639


(𝕏𝑡 𝕏)−1 = −0,041 0,0071 −0,0011
−0,0639 −0,0011 0,0152

a) Ajustar el modelo por el método de MCO (Encontrar los


𝛽0 , 𝛽1 , 𝛽2 y escribirlo )
Función Respuesta del modelo o parte
sistemática del modelo
 La función de respuesta:

𝐸(𝑌𝑖 ) = 𝐸(𝛽𝑜 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 … + 𝛽𝑝−1 𝑋𝑖𝑝−1 + 𝜀𝑖 )

𝐸(𝑌𝑖 ) = 𝐸(𝛽𝑜 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 … + 𝛽𝑝−1 𝑋𝑖𝑝−1 )

𝐸(𝑌𝑖 ) = 𝛽𝑜 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 … + 𝛽𝑝−1 𝑋𝑖𝑝−1

𝑌 = 𝕏𝛽
Estimaciones 𝑦𝑖
Los valores estimados 𝑦𝑖

𝛽0
.
𝑦𝑖 =(1, 𝑥𝑖1 … 𝑥𝑖𝑝−1 ) . = 𝑥𝑖𝑡 𝛽
.
𝛽𝑝−1

En el cual se define como 𝑥𝑖𝑡 es la i-ésima fila de la matriz de diseño 𝕏. Por lo que
los valores estimados o pronosticados para todos los n casos es :

𝑌 = 𝕏𝛽
Ejemplo 3:
Dado el siguiente modelo encuentre los valores estimados 𝑦𝑖

x1 x2 Y 𝑦𝑖 =15 +3 0 𝑥1 + 13𝑥2
4 1.5 160
1 4 1,5
3 2,2 112 1 3 2,2
15
1,6 1,0 69 1 1,6 1,0
𝑦𝑖 = 30 =
1 1,2 2
1,2 2 90 1 3,4 0,8 13
1 4,8 1,6
3,4 0,8 123
4,8 1,6 186
Tabla de Análisis de Varianza (ANOVA)
 El teorema de Cochran estableces que si cada una de las n observaciones 𝑦𝑖 son
tomadas de una misma Población Normal con parámetros 𝜇 y 𝜎 2 , la Suma
Cuadrática Total (SCT) se descompone en k sumas cuadráticas que denotaremos
como SCq, q=1,21…k. Cada una de ellas con 𝑔𝑙𝑞 grados de libertad, por lo que el
𝑆𝐶𝑞
cociente 𝜎2 tiene una distribución ji-cuadrado con 𝑔𝑙𝑞 grados de libertad.

 La Suma Cuadrática Total (SCT), se descompone en Suma Cuadrática de Regresión


(SCR) y la Suma Cuadrática del error (SCE)
Tabla de Análisis de Varianza (ANOVA)
Fuentes de Grados de Sumas Cuadráticas Medias Estadístico de
Variación Libertad Cuadráticas Prueba
𝑛
Regresión p-1 𝑆𝐶𝑅
𝑆𝐶𝑅 = (𝑦𝑖 − 𝑦)2 𝑀𝐶𝑅 = 𝑀𝐶𝑅
𝑝−1
𝐹𝑜 =
𝑖=1 𝑀𝐶𝐸
𝑛
Error (Residuos) n-p 𝑆𝐶𝐸
𝑆𝐶𝐸 = (𝑦𝑖 − 𝑦)2 𝑀𝐶𝐸 =
𝑛−𝑝
𝑖=1
𝑛
Total n-1
𝑆𝐶𝑇 = (𝑦𝑖 − 𝑦)2
𝑖=1

𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅


Ejemplo 4:
Encuentre la tabla Anova para el siguiente ejemplo:

x1 x2 Y 𝑦𝑖 =15 +3 0 𝑥1 + 13𝑥2
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186
Estimador de la varianza 𝜎 2 del error
𝑆𝐶𝐸
 La Media Cuadratica del Error 𝑀𝐶𝐸 = 𝑛−𝑝, es un estimador insesgado de la
varianza 𝜎 2 del error

 Los residuos pueden ser expresados como:


𝜀 =𝑌−𝑌
La suma de cuadrados del error en regresión lineal múltiple es igual a:
SCE=𝜀 𝑡 𝜀 = (𝑌 − 𝑌)𝑡 (𝑌 − 𝑌)
𝑡
SCE= 𝑌 − 𝑋𝛽 𝑌 − 𝑋𝛽 = 𝑌 𝑡 𝑌 − 𝛽 𝑇 𝑋 𝑡 𝑋 𝛽 =
SCE= 𝑌 𝑡 𝑌 − 𝛽 𝑇 𝑋 𝑡 𝑌
Con n-(# de parametros a estimar del modelo)
Ejemplo 4:
Encuentre un estimador de la varianza del error para el siguiente ejemplo:

x1 x2 Y 𝑀𝐶𝐸 =
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186
Prueba Global del modelo de regresion
𝐻0 ; 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝−1 = 0
Vs
𝐻1 ; 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑏𝑒𝑡𝑎𝑠 𝑛𝑜 𝑒𝑠 𝑐𝑒𝑟𝑜

𝑀𝐶𝑅
El estadistico de prueba es : 𝐹𝑜 = 𝑀𝐶𝐸 ∼ 𝐹(𝑝 − 1, 𝑛 − 𝑝)

Con (1-𝛼)100% de confianza rechace 𝐻0 en favor de 𝐻1 si 𝐹𝑜 > 𝐹𝛼 (𝑝 − 1, 𝑛 − 𝑝)

Si la Hipotesis Nula del Contraste es rechazada, como en general es la expectativa del


investigador, queda por delante verificar cual o cuales de los betas no es cero, lo que
significa de que el termino del que el tal beta es coeficiente, aporta
significativamente a explicar la variable Y
Ejemplo 5:
Realice la prueba global del modelo utilizando la tabla Anova:

x1 x2 Y
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186
Propiedades de los 𝛽
 𝐸 𝛽 =𝛽
 𝑣 𝛽 = 𝜎 2 (𝕏𝑡 𝕏)−1
Un estimador de la matriz de varianzas y covarianzas de 𝛽 es:

𝑣𝑎𝑟 𝛽 = 𝜎 2 (𝕏𝑡 𝕏)−1

𝑣𝑎𝑟 𝛽 = 𝑀𝐶𝐸 (𝕏𝑡 𝕏)−1


Ejemplo 6:
Calcule la matriz de varianza y covarianzas de los 𝛽:

x1 x2 Y
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186
Contrastes de hipótesis para cada 𝛽𝑖
Bajo los supuestos de Normalidad e Independencia de los residuos 𝑒𝑖 , la
variable muestral
𝛽𝑖 − 𝛽𝑖
~ 𝑇(𝑛 − 𝑝)
𝑆𝛽𝑖

𝛽𝑖 −𝛽𝑖
En otras palabras el estadístico tiene una distribución T de Student con
𝑆𝛽
𝑖
n-p grados de Libertad.

Bajo este supuesto se propone el siguiente contraste de hipótesis individual


para cada 𝛽𝑖
Contrastes de hipótesis para cada 𝛽𝑖
𝐻𝑜 : 𝛽𝑖 = 0
Vs
𝐻𝑜 : 𝛽𝑖 ≠ 0

𝛽
El estadistico de prueba es : T = 𝑆 𝑖 ∼ 𝑡(𝛼 2 𝑛 − 𝑝)
𝛽𝑖

Con (1-𝛼)100% de confianza rechace 𝐻0 en favor de 𝐻1 si 𝑇 > 𝑡 𝛼


2 𝑛−𝑝

Siendo 𝑡 𝛼
2 𝑛 − 𝑝 el percentil (1- 𝛼 2)100 de la distribución T de student con n-p
grados de libertad
Ejemplo 7:
Realice las pruebas de hipótesis individual para los 𝛽𝑖 del modelo

x1 x2 Y
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186
Coeficiente de Determinación

𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇

0 ≤ 𝑅2 ≤ 1
𝑅2 indica la proporción de variabilidad de Y, explicada a través del modelo por las
variables de explicación; o si trabajamos con la potencia de explicación del modelo
𝑅2 x(100%), se cambia el valor de proporción a porcentaje

• Un valor cercano a cero indica que no se capto casi nada de la variación total de Y,
• Un valor cercano a uno señala que casi 100% de la variabilidad fue captada
• Lo que interesa de un modelo es que capte la mayor variación, entonces es
preferible que sea cercano a 1
Ejemplo 8:
Calcule el 𝑅2 del modelo e interprete su valor.

x1 x2 Y
4 1.5 160
3 2,2 112
1,6 1,0 69
1,2 2 90
3,4 0,8 123
4,8 1,6 186

También podría gustarte