Está en la página 1de 61

MG.

Fátima Medina Merino 1


Los objetivos del Análisis de regresión lineal
múltiple son:
• Pronosticar el valor de una variable
dependiente (Y, también llamada respuesta)
con un valor de las variables
independientes (xi, o también llamadas
predictoras o explicativas).
• Analizar la relación específica entre las
variables independientes y la variable
dependiente. MG. Fátima Medina Merino 2
Y   o  1 X 1   2 X 2  ...... p X p  

Y : variable dependiente o respuesta


X1, X2, X3,...,Xp : variables independientes o
explicativas

 0 , 1 ,  2 ,...,  p : Parámetros del Modelo


: error aleatorio
MG. Fátima Medina Merino 3
• El error es una parte crítica del modelo de regresión.
• Se deben cumplir cuatro condiciones con respecto a la
distribución de  .
– La distribución de probabilidad de  es normal.
– La media de  es cero: E() = 0.
– La desvíación estándar de  es  .( )
– Cov (i, j) = 0 (son independientes). Var ( i )   2   2

MG. Fátima Medina Merino 4


Tabla 1: i=1,2,...,n
Datos para la regresión lineal múltiple
Observación Respuesta Independientes
i Y X1 X2 ... Xp
1 y1 x11 x12 x1p
2 y2 x21 x22 ... x2p
... ... ... ... ... ...
n yn xn1 xn2 ... xnp
MG. Fátima Medina Merino 5
• Objetivo: Buscar los valores de ,,…,p que
estimen mejor nuestros datos.
• Ecuación estimada:
Yˆ  ˆo  ˆ1 X 1  ˆ2 X 2  ......ˆ p X p

• Residuo:
ei  yi  yˆ i  yi   ˆ0  ˆ1 X 1  ...  ˆ p X p 
n
• Minimizar: SSE   ei2
i 1
MG. Fátima Medina Merino 6
La diferencia entre el valor observado y el valor
estimado correspondiente es el residuo
ei  yi  yˆ i
Los n residuales se pueden escribir en notación
vectorial
e  y  yˆ
Otras formas de escribir el vector de residuales

e  y  x̂
MG. Fátima Medina Merino 7
• Una gran empresa de bienes raíces desea estudiar en qué medida el
costo de calefacción de las casas pequeñas que tienen listas para su
venta, está relacionada, con la temperatura exterior mínima, pulgadas de
aislante utilizados en las paredes, número de ventanas y la antigüedad
del calefactor. Para esto toma una muestra de 20 de estas casas.
• A continuación se presentan los datos recolectados

MG. Fátima Medina Merino 8


Ejemplo:
Pulgadas de
Costo de Temperatura
aislante Número de Antigüedad
Casa calefacción exterior
(X2 ) ventanas (X3) (X4)
(dólares) (Y) mínima (X1)
1 250 35 3 10 6
2 360 29 4 1 10
3 165 36 7 9 3
4 43 60 6 8 9
5 92 65 5 8 6
6 200 30 5 9 5
7 355 10 6 14 7
8 290 7 10 9 10
9 230 21 9 11 11
10 120 55 2 9 5
11 73 54 12 11 4
12 205 48 5 10 1
13 400 20 5 12 15
14 320 39 4 10 7
15 72 60 8 8 6
16 272 20 5 10 8
17 94 58 7 10 3
18 190 40 8 11 11
19 235 27 9 14 8
20 139 30 7 9 5

MG. Fátima Medina Merino 9


a) Verifique gráficamente si las variables
predictoras tienen relación lineal con la
respuesta.

b) Ajuste una ecuación de regresión lineal


considerando todas las variables
predictoras. Interprete los coeficientes
obtenidos

MG. Fátima Medina Merino 10


MG. Fátima Medina Merino 11
MG. Fátima Medina Merino 12
MG. Fátima Medina Merino 13
MG. Fátima Medina Merino 14
STAT / REGRESSION/ REGRESSION/

En response considere la variable


dependiente

y en predictors las variables

independientes

OK MG. Fátima Medina Merino 15


ˆo  424,74
ˆ1  4,5719
ˆ2  14,906
ˆ3  0,244
ˆ4  6,126

El modelo de regresión múltiple estimado es :


Yˆ  424,74  4,5719 X 1  14,906 X 2  0,244 X 3  6,126 X 4
MG. Fátima Medina Merino 16
Yˆ  424,74  4,5719 X 1  14,906 X 2  0,244 X 3  6,126 X 4
El costo promedio Y: Costo de calefacción
de calefacción X1 : Temperatura exterior mínima
X2: Pulgadas de aislante
ˆo  424,74 mínimo es 424,74
X3 : Número de ventanas
dólares
X4: Antigüedad del calefactor

ˆ1  4,5719
Al aumentar 1 grado a la temperatura, cuando las pulgadas de aislante,
número de ventanas y la antigüedad del calefactor permanecen
constantes, el costo de calefacción disminuye en 4,5719 dólares.

ˆ2  14,906
Al aumentar 1 pulgada de aislante, cuando la temperatura exterior
mínima, el número de ventanas y la antigüedad del calefactor
permanecen constantes, el costo de calefacción disminuye en 14,906
dólares.
MG. Fátima Medina Merino 17
Yˆ  424,74  4,5719 X 1  14,906 X 2  0,244 X 3  6,126 X 4
Y: Costo de calefacción
X1 : Temperatura exterior mínima
X2: Pulgadas de aislante
X3 : Número de ventanas
ˆ3  0,244
X4: Antigüedad del calefactor
Al aumentar 1 ventana, cuando la temperatura exterior
mínima, las pulgadas de aislante, y la antigüedad del
calefactor permanecen constantes, el costo de calefacción
aumenta en 0,244 dólares.
ˆ4  6,126
Al aumentar en 1 mes la antigüedad del calefactor, cuando la
temperatura exterior mínima, las pulgadas de aislante, el
número de ventanas y la antigüedad del calefactor
permanecen constantes, el costo de calefacción aumenta en
MG. Fátima Medina Merino 18
6,126 dólares.
2

• La suma de cuadrados de residuales tienen n-k grados


de libertad asociado con ella, porque se estima k
parámetros del modelo de regresión. El cuadrado
medio residual, o cuadrado de residuales es

SCE
CME 
nk
La varianza del error se estima a partir de :

ˆ  S  CME  MSE
2 2
e
MG. Fátima Medina Merino 19
Estime la varianza del error, para el ajuste del modelo de regresión
múltiple a los datos del costo de calefacción de las casas

Solución
Con los resultado del análisis de varianza
del MINITAB

MG. Fátima Medina Merino 20


SCE 41689
S 2
e  CME    2779
nk 15
MG. Fátima Medina Merino 21
• Una vez estimados los parámetros del modelo,
surgen de inmediato dos preguntas:

1.¿Cuál es la adecuación general del modelo?

2. ¿Qué variables independientes son


importantes?

MG. Fátima Medina Merino 22


La prueba de la significancia de la regresión es para
determinar si hay una relación lineal entre la variable
respuesta y cualquiera de las variables independientes . Este
procedimiento suele considerarse como una prueba general o
global de la adecuación del modelo.

1.Hipótesis
H o : 1   2  ...   p  (El
0 Modelo no es adecuado)

H1 :  j  0 al menos para ( jEl Modelo es adecuado )

MG. Fátima Medina Merino 23


2. El estadístico de prueba es:

SCR k  1 CMR
Fc  
SCE  n  k  CME

– SCR : suma de cuadrados debido a la regresión


– SCE : Suma de cuadrados debido al error
– K : Nº de parámetros a estimar

MG. Fátima Medina Merino 24


3. Criterio de decisión
A un nivel de significación ,Rechazamos Ho si

Fc  F( k 1,n  k ;1 )

Ó p-valor < α. Rechazamos Ho.

MG. Fátima Medina Merino 25


Análisis de varianza para determinar la significancia en la
regresión múltiple
         
Fuente de Grados de Suma de Cuadrado Fo
variación libertad cuadrados Medio  
Regresión k-1 SCR CMR  
Residual n-k SCE CME CMR/CME
Total n-1 SCT    

Observe que:
Cuadrados Medios = (Suma de cuadrados) / (grados de libertad)
SCT=SCE+SCR
K = Número de parámetros a estimar
SCT: Suma de cuadrados debido al total
SCR: Suma de cuadrados debido a la regresión
SCE : Suma de cuadrados
MG.residual
Fátima Medina Merino 26
Utilice los datos del ejemplo anterior y
pruebe la hipótesis global de la adecuación
del modelo ( o prueba de la significación
del modelo), use un nivel de significancia
del 0,05.

MG. Fátima Medina Merino 27


1.Hipótesis
(El Modelo no es
adecuado)

(El Modelo es
adecuado )

H o  1   2  ...   p  0

H1   j  0 al menos para j

MG. Fátima Medina Merino 28


Análisis de varianza para determinar la significancia en la regresión
múltiple
         
Fuente de Grados de Suma de Cuadrado n  k  20  5  15
Fc
variación libertad cuadrados Medio  
Regresión k-1= 5-1=4 SCR=171 227 n  1  20  1  19
CMR= 171 227/4  
Residual n-k=20-5=15 SCE=41 689 CME= 41 689/15 CMR/CME =42 807/2779
Total n-1=20-1=19 SCT=212 916    

SCT=SCE+SCR=41 689+171 227=212 916


MG. Fátima Medina Merino 29
2. El estadístico de prueba es:

SCR k  1 CMR 42807


F0     15,40
SCE  n  k  CME 2779

MG. Fátima Medina Merino 30


3. Criterio de decisión
A un nivel de significación   0,05

F( k 1,n  k ;1 )  F( 4,15;0.95)  3,06

Fc  15,40  F( 4,15;0.95)  3,06


RECHAZAMOS Ho y concluimos que el modelo de regresión es
adecuado.

Ó p-valor = 0 < 0,05 rechazamos Ho.

MG. Fátima Medina Merino 31


Las hipótesis para probar la significancia de cualquier parámetro
individual de regresión, como por ejemplo j
1.Hipótesis
Ho :  j  0 (  j no es significativo en el MRLM)
H1 :  j  0 (  j es significativo en el MRLM)
2. El estadístico de prueba es:
ˆ j
tc 
S ˆ j
Donde S ̂ es
j
la desviación estándar de βj estimado.
MG. Fátima Medina Merino 32
3. Criterio de decisión

A un nivel de significancia α , rechazamos Ho si

tc  t1 / 2,n  k

Ó si p-valor < α rechazamos Ho.

MG. Fátima Medina Merino 33


Utilice los datos del ejemplo y pruebe la
hipótesis de la significancia de los parámetros
individuales utilice un nivel de significación
del 5%.

MG. Fátima Medina Merino 34


Las hipótesis para probar la significancia del
parámetro βo es

1.Hipótesis

H o : 0  0 (  0 no es significativo en el MRLM)
H1 :  0  0 (  0 es significativo en el MRLM)
2. El estadístico de prueba es:
ˆ0 424,74
tc    5,36
S ˆ 0
79,23

MG. Fátima Medina Merino 35


ˆ0 424,74
tc    5,36
S ˆ0 79,23
MG. Fátima Medina Merino 36
3. Criterio de decisión
A un nivel de significancia α , el t teórico es
t( n  k ;1 / 2 )  t(15;0.975)  2,1314
Como
t c  5,36  t (15; 0.975)  2,1314
Rechazamos Ho y concluimos que 0
es significativo (importante) y debo
considerarlo en el MRLM estimado.
MG. Fátima Medina Merino 37
OTRA FORMA DE TOMAR UNA DECISIÓN ES

Como p = 0,0000 < 0,05 rechazamos Ho.

MG. Fátima Medina Merino 38


Las hipótesis para probar la significancia del
parámetro B1 es

1.Hipótesis

H o : 1  0 ( 1 no es significativo en el MRLM)
H1 : 1  0 ( 1 es significativo en el MRLM)
2. El estadístico de prueba es
ˆ1  4,5719
tc    5,53
S ˆ1 0,8272
MG. Fátima Medina Merino 39
ˆ1  4,5719
tc    5,53
S ˆ1 0,8272

MG. Fátima Medina Merino 40


3. Criterio de decisión
A un nivel de significancia α=0,05 , el t teórico es

t( n  k ;1 / 2 )  t(15;0.975)  2,1314


Como
tc   5,53  5,53  t(15;0.975)  2,1314

Rechazamos Ho y concluimos que 1


es significativo (importante) y debo
considerarlo en elMG.MRLM estimado.
Fátima Medina Merino 41
Las hipótesis para probar la significancia del
parámetro β2 es

1.Hipótesis

Ho : 2  0 (  2 no es significativo en el MRLM)
H1 :  2  0 (  2 es significativo en el MRLM)
2. El estadístico de prueba es:
ˆ2  14,906
tc    2,90
S ˆ2 5,140

MG. Fátima Medina Merino 42


ˆ2  14,906
tc    2,90
S ˆ2 5,140

MG. Fátima Medina Merino 43


3. Criterio de decisión

A un nivel de significancia α , el t teórico es

t( n  k ;1 / 2 )  t(15;0.975)  2,1314


Como

t c   2,9  2,90  t (15; 0.975)  2,1314


Rechazamos Ho y concluimos que 2
es significativo (importante) y debo
considerarlo en elMG.MRLM estimado.
Fátima Medina Merino 44
OTRA FORMA DE TOMAR UNA DECISIÓN ES

Como p = 0,011 < 0,05 rechazamos Ho.

MG. Fátima Medina Merino 45


Las hipótesis para probar la significancia del
parámetro β3 es

1.Hipótesis

H o : 3  0 (  3 no es significativo en el MRLM)
H1 :  3  0 (  3 es significativo en el MRLM)
2. El estadístico de prueba es
ˆ3 0,244
tc    0,05
S ˆ3 4,953

MG. Fátima Medina Merino 46


ˆ3 0,244
tc    0,05
S ˆ3 4,953

MG. Fátima Medina Merino 47


3. Criterio de decisión

A un nivel de significancia α , el t teórico es

t( n  k ;1 / 2 )  t(15;0.975)  2,1314

Como
t c  0,05  t (15; 0.975)  2,1314
Aceptamos Ho y concluimos que 3
No es significativo (importante) y no debo
considerarlo en elMG.MRLM estimado.
Fátima Medina Merino 48
OTRA FORMA DE TOMAR UNA DECISIÓN ES

Como p = 0,961 > 0,05 No rechazamos Ho.

MG. Fátima Medina Merino 49


Las hipótesis para probar la significancia del
parámetro β4 es

1.Hipótesis

Ho : 4  0 (  4 no es significativo en el MRLM)
H1 :  4  0 (  4 es significativo en el MRLM)
2. El estadístico de prueba es:
ˆ4 6,126
tc    1,47
S ˆ4 4,175
MG. Fátima Medina Merino 50
ˆ4 6,126
tc    1,47
S ˆ4 4,175

MG. Fátima Medina Merino 51


3. Criterio de decisión

A un nivel de significancia α , el t teórico es

t( n  k ;1 / 2 )  t(15;0.975)  2,1314

Como
t c  1,47  t(15; 0.975)  2,1314
Aceptamos Ho y concluimos que 4
No es significativo (importante) y no debo
considerarlo en elMG.MRLM estimado.
Fátima Medina Merino 52
OTRA FORMA DE TOMAR UNA DECISIÓN ES

Como p = 0,163 > 0,05 Aceptamos Ho.

MG. Fátima Medina Merino 53


Las variables importantes en el MRLM son:
Temperatura exterior mínima (X1)
Pulgadas de aislante (X2 )

Nuevamente hacemos la corrida en el MINITAB con las


variables significativas

MG. Fátima Medina Merino 54


El Modelo de regresión lineal múltiple estimado es

Yˆ  490  5,15 X 1  14,7 X 2

MG. Fátima Medina Merino 55


Mide el porcentaje de explicación de la variable
dependiente (Y) debida a las variables
independientes, X1, X2, …Xp.

SCR
SCR
RR 
22
SCT
SCT
SCR : Suma de cuadrados debido a la regresión
SCT : Suma de cuadrados debido al total
MG. Fátima Medina Merino 56
Este valor sirve para medir la fuerza de la relación
lineal entre las variables independientes y la
variable dependiente Y.

SCR
SCR
rryy..1212......pp 
SCT
SCT
SCR : Suma de cuadrados debido a la regresión
SCT : Suma de cuadrados debido al total
MG. Fátima Medina Merino 57
Utilice los datos del ejemplo y calcule el
coeficiente de determinación y el coeficiente de
correlación múltiple.

MG. Fátima Medina Merino 58


El coeficiente de determinación múltiple es:

SCR 165195
SCR 165195

R 
R 22 
  00,,776
 776
SCT
SCT 212916
212916
MG. Fátima Medina Merino 59
 00,,776
22
R 
R 776

El 77,6% de las variaciones observadas en el


costo de calefacción se deben a las
variaciones en las variables predictoras o
independientes , temperatura exterior
mínima y pulgadas de aislante.

MG. Fátima Medina Merino 60


El coeficiente de correlación múltiple es:

rryy.12 
.12  00,,776  00,,88
776  88

Existe una relación lineal muy fuerte entre


las variables predictoras, temperatura
exterior mínima, pulgadas de aislante y la
variable dependiente, costo de calefacción.

MG. Fátima Medina Merino 61

También podría gustarte