Está en la página 1de 46

Anlisis de Datos - 1

Regresin Mltiple

Sesin 14

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 2

Modelo de Regresin Mltiple


Un Modelo de Regresin Mltiple es una ecuacin
que describe cmo se relacionan la variable
dependiente y con las variables independientes x1,
x2, . . . xp y un trmino aleatorio de error.
y = 0 + 1x1 + 2x2 + . . . + pxp +
donde:

0, 1, 2, . . . , p son los parmetros, y


es una variable aleatoria llamada error

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 3

Ecuacin de Regresin Mltiple


La Ecuacin de Regresin Lineal Mltiple es:
E(y) = 0 + 1x1 + 2x2 + . . . + pxp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 4

Ecuacin de Regresin
Lineal Mltiple Estimada
Usamos una muestra aleatoria simple para calcular
los estadsticos muestrales b0, b1, b2, . . . , bp que se
usan como estimados puntuales de los parmetros
0, 1, 2, . . . , p.
La ecuacin de regresin lineal mltiple es:
y^ = b0 + b1x1 + b2x2 + . . . + bpxp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 5

Proceso de Estimacin
Modelo de Regresin Mltiple

y = 0 + 1x1 + 2x2 +. . .+ pxp +


Ecuacin de Regresin Mltiple
E(y) = 0 + 1x1 + 2x2 +. . .+ pxp
Parmetros desconocidos

Data Muestral:
x 1 x 2 . . . xp y
. .
. .
. .
. .

0, 1, 2, . . . , p

b0, b1, b2, . . . , bp

Son estimadores de

0, 1, 2, . . . , p

Ecuacin de Regresin
Mltiple Estimada

y = b0 + b1 x1 + b2 x2 + ... + bp x p
Los Estadsticos muestrales
son: b0, b1, b2, . . . , bp

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 6

Mtodo de los Mnimos Cuadrados


Criterio de los mnimos cuadrados
min ( y i y$ i ) 2

Clculo de los valores de los Coeficientes


Las frmulas para el clculo de los coeficientes de
la regresin b0, b1, b2, . . . bp se obtienen por
lgebra matricial.
Nosotros usaremos el Excel para hacerlo.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 7

Ejemplo: Estudio Salarial


Una empresa que produce software est interesada en
hacer un estudio de los salarios que reciben los
programadores. Le han sugerido que use el
anlisis de Regresin para determinar si el
salario est relacionado con la experiencia
y con el resultado de una prueba de
aptitudes que se toma al los programadores.
Los aos de experiencia, el puntaje de la prueba de
aptitudes, y su correspondiente salario ($1000s) para
una muestra de 20 programadores se muestra en la
siguiente tabla.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 8

Ejemplo: Estudio Salarial


Exper. Puntaje Salario
4
7
1
5
8
10
0
1
6
6

78
100
86
82
86
84
75
80
83
91

24
43
23.7
34.3
35.8
38
22.2
23.1
30
33

Exper. Puntaje Salario


9
2
10
5
6
8
4
6
3
3

88
73
75
81
74
87
79
94
70
89

38
26.6
36.2
31.6
29
34
30.1
33.9
28.2
30

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 9

Modelo de Regresin Mltiple


Supongamos que creemos que el salario (y) est
relacionado con los aos de experiencia (x1) y el
puntaje en la prueba de aptitudes que se toma a los
programadores (x2) por el siguiente modelo de
regresin:
y = 0 + 1x1 + 2x2 +
donde
y = salario anual ($1000)
x1 = aos de experiencia
x2 = puntaje en la prueba de aptitudes

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 10

Encontrando los estimados


de 0, 1, 2
Resultados por
Mnimos cuadrados

Datos
x1 x2 y
4 78 24
7 100 43
. . .
. . .
3 89 30

Resolvemos
el problema
de Regresin
Mltiple
Con Excel

b0 =
b1 =
b2 =
R2 =
etc.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 11

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
1
2
3
4
5
6
7
8
9

A
B
Programador Experiencia(aos)
1
4
2
7
3
1
4
5
5
8
6
10
7
0
8
1

C
Puntaje
78
100
86
82
86
84
75
80

D
Salario ($K)
24.0
43.0
23.7
34.3
35.8
38.0
22.2
23.1

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 12

Usando Excel para trabajar el


Anlisis de Regresin
Paso 1
Paso 2
Paso 3
Paso 4

Seleccionar men de Herramientas


Escoger la opcin de Anlisis de datos
Escoger en el listado Regresin
Cuando aparezca la caja de Regresin:
Ingresar D1:D21 en Rango Y de entrada
Ingresar B1:C21 en Rango X de entrada
escoger Rtulos
Seleccionar Nivel de Confianza
Ingrese 95 esta casilla
Seleccione Rango de salida
Ingrese A9 en la casilla correspondiente
Oprima Aceptar para hacer el anlisis de
regresin.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 13

Usando Excel para trabajar el


Anlisis de Regresin Mltiple

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 14

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A

38
39
Coeffic. Std. Err. t Stat P-value
40 Intercepto
3.17394 6.15607 0.5156 0.61279
41 Experiencia 1.4039 0.19857 7.0702 1.9E-06
42 Puntaje
0.25089 0.07735 3.2433 0.00478
43

SALARIO
SALARIO == 3.174
3.174 ++ 1.404(EXPER)
1.404(EXPER) ++ 0.251(PUNTAJE)
0.251(PUNTAJE)
Nota: El salario se expresa en miles de dlares.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 15

Interpretacin de los Coeficientes


En el anlisis de regresin mltiple, cada coeficiente
de regresin se interpreta como:
bbiirepresenta
representa un
un estimado
estimado de
de los
los cambios
cambios en
en
YY por
por cambio
cambio en
en 11 unidad
unidad en
en XXii manteniendo
manteniendo
todas
todas las
las otras
otras variables
variables independientes
independientes
constantes.
constantes.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 16

Interpretacin de los Coeficientes


bb11 == 1.
1. 404
404
Se espera que el salario aumente en $1,404 por
cada ao adicional de experiencia (cuando la
variable puntaje se mantiene constante).
bb22 == 0.251
0.251
Se espera que el salario aumente en $251 por
cada punto adicional en la prueba de aptitudes
(cuando la variable experiencia se mantiene
constante).
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 17

Coeficiente de Determinacin Mltiple


Relacin entre SST, SSR, SSE
SST = SSR + SSE

(yi y)2 = (yi y)2+ (yi yi)2


donde:
SST = suma de cuadrados total
SSR = suma de cuadrados debido a la regresin
SSE = suma de cuadrados debido al error

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 18

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
32
33
34
35
36
37
38

ANOVA
df
SS
MS
F
Significance F
Regression
2 500.3285 250.1643 42.76013 2.32774E-07
Residual
17 99.45697 5.85041
Total
19 599.7855

SST

SSR

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 19

Coeficiente de Determinacin Mltiple


R2 = SSR/SST
R2 = 500.3285/599.7855 = .83418
Ra2 = 1 ( 1 R 2 )

Ra = 1 (1 - .834179)

n1
np1

20 - 1
20 - 2 - 1

= .814671

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 20

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
23
24
25
26
27
28
29
30
31
32

SUMMARY OUTPUT
Regression Statistics
Multiple R
0.913334059
R Square
0.834179103
Adjusted R Square
0.814670762
Standard Error
2.418762076
Observations
20

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 21

Supuestos acerca del Trmino Error


1.
1. El
El error
error es
es una
una variable
variable aleatoria
aleatoria con
con media
media cero.
cero.
2.
2. La
La varianza
varianza de
de ,, denotada
denotada por
por 22,, es
es la
la misma
misma
para
para todos
todos los
los valores
valores de
de la
la variable
variable independiente.
independiente.
3.
son independientes.
independientes.
3. Los
Los valores
valores de
de son
4.
4. El
El error
error es
es una
una variable
variable aleatoria
aleatoria destribuida
destribuida
normalmente,
normalmente, yy refleja
refleja la
la diferencia
diferencia entre
entre el
el valor
valor
de
de yy con
con el
el valor
valor esperado
esperado de
de yy dado
dado por
por 00 ++ 11xx11
++ 22xx22 ++ .. .. ++ ppxxpp..

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 22

Pruebas de Significacin: Prueba F


La
La prueba
prueba FF se
se usa
usa para
para evaluar
evaluar si
si hay
hay significacin
significacin
estadstica
estadstica entre
entre la
la variable
variable dependiente
dependiente yy el
el conjunto
conjunto
de
de variables
variables independientes
independientes seleccionado.
seleccionado.
La
La prueba
prueba FF es
es llamada
llamada prueba
prueba global
global de
de significacin.
significacin.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 23

Pruebas de Significacin: Prueba t


Si
Si la
la prueba
prueba FF nos
nos da
da una
una significacin
significacin global
global del
del
modelo,
modelo, la
la prueba
prueba tt se
se usa
usa para
para determinar
determinar si
si cada
cada
variable
variable independiente
independiente es
es significativa.
significativa.
Se
Se hace
hace una
una prueba
prueba separada
separada para
para cada
cada variable
variable
independiente
independiente en
en el
el modelo.
modelo.
Siempre
Siempre nos
nos referimos
referimos aa estas
estas pruebas
pruebas tt como
como
pruebas
pruebas de
de significacin
significacin individuales.
individuales.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 24

Pruebas de Significacin: Prueba F


Hiptesis

H0: 1 = 2 = . . . = p = 0
Ha: Uno o ms de los coeficientes de
regresin no es igual a cero.

Estadstico de Prueba

F = MSR/MSE

Regla de Rechazo Rechazar H0 si F > F, donde F


pertenece a una distribucin F con
p d.f. en el numerador y n - p - 1 d.f.
en eldenominador.
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 25

Prueba Global de Significacin F


Hiptesis

H0: 1 = 2 = 0
Ha: Uno de los dos parmetros no
es igual a cero.

Regla de Rechazo Para = .05 y d.f. = 2, 17; F.05 = 3.59


Rechazar H0 si F > 3.59

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 26

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
32
33
34
35
36
37
38

ANOVA
df
SS
MS
F
Significance F
Regression
2 500.3285 250.1643 42.76013 2.32774E-07
Residual
17 99.45697 5.85041
Total
19 599.7855

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 27

Prueba Global de Significacin F


Estadstico de Prueba F = MSR/MSE
= 250.16/5.85 = 42.76
Conclusin

F = 42.76 > 3.59, luego


rechazamos H0.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 28

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
32
33
34
35
36
37
38

ANOVA
df
SS
MS
F
Significance F
Regression
2 500.3285 250.1643 42.76013 2.32774E-07
Residual
17 99.45697 5.85041
Total
19 599.7855

Valor-p usado para la


prueba global de
significacin

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 29

Pruebas de Significacin: Prueba t


Hiptesis

H0 : i = 0
Ha : i 0

Estadstico de Prueba
Regla de Rechazo

t=

bi
sbi

Rechazo H0 si t < -t/2o t > t/2


donde t/2 proniene de una
distribucin t con n - p - 1
grados de libertad.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 30

Prueba t para la Significacin


individual de los parmetros
Hiptesis

H0 : i = 0
Ha : i 0

Regla de Rechazo Para = .05 y d.f. = 17, t.025 = 2.11


Rechazo H0 si t > 2.11

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 31

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A

38
39
Coeffic. Std. Err. t Stat P-value
40 Intercept
3.17394 6.15607 0.5156 0.61279
41 Experience
1.4039 0.19857 7.0702 1.9E-06
42 Test Score 0.25089 0.07735 3.2433 0.00478
43

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 32

Prueba t para la Significacin


individual de los parmetros
Estadstico de prueba

b1 1. 4039
=
= 7. 07
sb1 . 1986
. 25089
b
=
= 3. 24
sb2 . 07735

Conclusiones

Rechazar ambos H0: 1 = 0 y H0: 2 = 0.


Ambas variables independientes son
significativas.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 33

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A

38
39
Coeffic. Std. Err. t Stat P-value
40 Intercepto
3.17394 6.15607 0.5156 0.61279
41 Experiencia 1.4039 0.19857 7.0702 1.9E-06
42 Puntaje
0.25089 0.07735 3.2433 0.00478
43

Valor-p usado para probar la


significacin individual de la variable
Experiencia
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 34

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A

38
39
Coeffic. Std. Err. t Stat P-value
40 Intercepto
3.17394 6.15607 0.5156 0.61279
41 Experiencia 1.4039 0.19857 7.0702 1.9E-06
42 Puntaje
0.25089 0.07735 3.2433 0.00478
43

Valor-p usado para probar la


significacin individual de la
variable Puntaje
Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 35

Pruebas de Significacin:
Multicolinealidad
El
El trmino
trmino multicolinealidad
multicolinealidad se
se est
est refiriendo
refiriendo aa que
que
existe
existe relacin
relacin entre
entre las
las variables
variables independientes.
independientes.
Cuando
Cuando las
las variables
variables independientes
independientes estn
estn altamente
altamente
correlacionadas,
correlacionadas, no
no es
es posible
posible determinar
determinar el
el efecto
efecto
separado
separado de
de ninguna
ninguna variable
variable independiente
independiente en
en
particular
particular sobre
sobre la
la variable
variable dependiente.
dependiente. De
De darse
darse
esto,
esto, decimos
decimos que
que el
el Modelo
Modelo no
no es
es explicativo.
explicativo.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 36

Pruebas de Significacin:
Multicolinealidad
Si
Si la
la ecuacin
ecuacin de
de regresin
regresin estimada,
estimada, slo
slo se
se usar
usar
con
con fines
fines de
de prediccin,
prediccin, la
la multicolinealidad
multicolinealidad no
no es
es un
un
problema
problema serio.
serio.
Debemos
Debemos hacer
hacer todo
todo lo
lo posible
posible para
para evitar
evitar incluir
incluir en
en el
el
modelo
modelo variables
variables independientes
independientes que
que estn
estn altamente
altamente
correlacionadas.
correlacionadas.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 37

Prueba de Durbin-Watson
1. Usado para Detectar Auto correlacin de errores
Violacin del supuesto de independencia de los errores

2. Estadstico Durbin-Watson
n

D=

(ei ei 1 )

i =2

2
e
i
i =1

D=

2 (1-r )

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 38

Variables Independientes Cualitativas


En
En muchas
muchas situaciones,
situaciones, estaremos
estaremos interesados
interesados en
en
incluir
incluir en
en nuestro
nuestro anlisis
anlisis variables
variables independientes
independientes
cualitativas
cualitativas tales
tales como
como gnero
gnero (masculino,
(masculino, femenino),
femenino),
mtodo
mtodo de
de pago
pago (cash,
(cash, cheque,
cheque, tarjeta
tarjeta de
de crdito),
crdito), etc.
etc.
Por
Por ejemplo,
ejemplo, xx22 puede
puede representar
representar el
el gnero
gnero donde
donde
xx22 == 00 indica
indica que
que es
es masculino
masculino yy xx22 == 11 indica
indica que
que es
es
femenino.
femenino.
En
En este
este caso,
caso, aa xx22 le
le llamamos
llamamos variable
variable dummy
dummy oo
variable
variable artificial
artificial

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 39

Ejemplo: Estudio Salarial (B)


Una extensin del estudio, quiere incluir en el
anlisis el hecho de que el programador
sea graduado universitario o no en
Computacin o en Tecnologa de
la informacin.
Los aos de experiencia, el puntaje
de la prueba de aptitudes, si es o no graduado
universitario y su correspondiente salario ($1000s)
para una muestra de 20 programadores se muestra
en la siguiente tabla.

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 40

Ejemplo: Estudio Salarial (B)


Exper. Puntaje Grado. Salario
4
7
1
5
8
10
0
1
6
6

78
100
86
82
86
84
75
80
83
91

No
Yes
No
Yes
Yes
Yes
No
No
No
Yes

24
43
23.7
34.3
35.8
38
22.2
23.1
30
33

Exper. Puntaje Grado. Salario


9
2
10
5
6
8
4
6
3
3

88
73
75
81
74
87
79
94
70
89

Yes
No
Yes
No
No
Yes
No
Yes
No
No

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

38
26.6
36.2
31.6
29
34
30.1
33.9
28.2
30

Anlisis de Datos - 41

Ecuacin de Regresin Estimada


y = b0 + b1x1 + b2x2 + b3x3
Donde:
y^ = salario anual ($1000)
x1 = aos de experiencia
x2 = puntaje en la prueba de aptitudes
x3 = 0 si la persona NO tiene grado universitario
1 si la persona SI tiene grado universitario
x3 es una variable dummy

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 42

Usando Excel para trabajar el


Anlisis de Regresin Mltiple

1
2
3
4
5
6
7
8

A
B
C
ProExperiencia
gramador
(aos)
Puntaje
1
4
78
2
7
100
3
1
86
4
5
82
5
8
86
6
10
84
7
0
75

D
Grado
0
1
0
1
1
1
0

E
Salario
($000)
24.0
43.0
23.7
34.3
35.8
38.0
22.2

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 43

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
23
24
25
26
27
28
29
30
31
32

SUMMARY OUTPUT
Regression Statistics
Multiple R
0.920215239
R Square
0.846796085
Adjusted R Square
0.818070351
Standard Error
2.396475101
Observations
20

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 44

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
32
33
34
35
36
37
38

ANOVA
df
SS
MS
F
Significance F
Regression
3 507.896 169.2987 29.47866 9.41675E-07
Residual
16 91.88949 5.743093
Total
19 599.7855

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 45

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
38
39
40
41
42
43
44

Coeffic. Std. Err.


Intercept
7.94485 7.3808
Experience 1.14758 0.2976
Test Score 0.19694 0.0899
Grad. Degr. 2.28042 1.98661

t Stat P-value
1.0764 0.2977
3.8561 0.0014
2.1905 0.04364
1.1479 0.26789

No significativo

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.

Anlisis de Datos - 46

Usando Excel para trabajar el


Anlisis de Regresin Mltiple
A
38
39
40
41
42
43
44

Coeffic.
Intercept
7.94485
Experience 1.14758
Test Score 0.19694
Grad. Degr. 2.28042

Low. 95%
-7.701739
0.516695
0.00635
-1.931002

Up. 95%
23.5914
1.77847
0.38752
6.49185

Low. 95.0%
-7.7017385
0.51669483
0.00634964
-1.9310017

Up. 95.0%
23.591436
1.7784686
0.3875243
6.4918494

Notas de clase elaboradas por el Prof. Toms Minauro L. Lima, esan, 2003.