Está en la página 1de 13

UNIVERSIDAD DE CONCEPCION

Facultad de Ingeniera
Departamento de Ingeniera Industrial

Anlisis Estadstico Multivariado

Captulo 1

Hernaldo Reinoso

Anlisis de Regresin Mltiple

Marzo 2016

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Modelo de Regresin Lineal Mltiple


1. Funcin de regresin poblacional:

Ejemplo
i = semana

2. Funcin de regresin Muestral:

$ = miles de pesos
Y = Ventas (100 ton)
X1 = Precio ($/ton)
X2 = Publicidad (100 $)

3. Ecuacin de prediccin:

n = 10 y k = 2

i
1
2
3
4
5
6
7
8
9
10

Y
10
6
5
12
10
15
5
12
17
20

X1
1,3
2,0
1,7
1,5
1,6
1,2
1,6
1,4
1,0
1,1

Modelo de Regresin Mltiple: Ejemplo

X2
9
7
5
14
15
12
6
10
15
21

Residuos:

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Supuestos del Modelo


1. El modelo de regresin es lineal
en los parmetros
2. Las variables explicativas Xi son

Distribucin de los Errores Aleatorios i

6. Cov(i , Xi) = 0
7. Nmero de observaciones mayor
que nmero de parmetros (n > k)
8. Los valores de Xi en la muestra no

no estocsticas
3.

E(i | X) = 0

deben ser los mismos: V(Xi) > 0.

4. Homocedasticidad: V(i | X) = 2
5. Independencia de errores ( No
existe autocorrelacin):
Cov(i, j | Xi, Xj ) = 0

9. El modelo est correctamente


especificado (No hay sesgo o error
de especificacin)
10. No hay multicolinealidad perfecta

Adems:
Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Clculo de los Coeficientes de Regresin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Clculo de los Coeficientes de Regresin

Estimacin de Mnimos Cuadrados Ordinarios (MCO)

9 Anlogamente, se estima 2
9 Y para el intercepto,
Bajo los supuestos indicados, los estimadores de MCO son MELI (Mejores
Estimadores Lineales Insesgados), o ELIO (Estimadores Lineales Insesgados
ptimos).

En el ejemplo:

Es decir, los estimadores de MCO son estimadores lineales


insesgados de varianza mnima
Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Puntos atpicos y Observaciones Influyentes

El Coeficiente de Determinacin Mltiple

Puntos atpicos: Observaciones con residuos grandes.

Mes

8,45

7,90

8,52

7,92

8,25

7,91

8,58

7,96

8,58

7,98

8,63

8,01

16

8,97

8,23

17

8,97

8,27

18

9,04

8,29

19

9,05

8,30

R2 Ajustado

Observaciones influyentes: Observaciones que tienen


una gran influencia en la ecuacin ajustada.
Ejemplo
Y = 4,09129 + 1,58425 X

Ejemplo: En el ejemplo anterior

Residuos Estudentizados vs. Nmero de fila

Ejemplo:

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

La Prueba F para la Regresin (ANOVA)


9 Hiptesis:

Cuadrado medio del error

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

11

La Prueba F para la Regresin

Fuente

12

ANOVA
g. l.

SC

CM

Regresin
Error
Total

9 Estadstica de prueba:

Error estndar de la estimacin

9 Decisin:
Rechazar H0 si

10

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Valor p

Coeficientes de Regresin: Inferencias


Intervalos de Confianza

13

Ejemplo: k = 2:

Se dispone de la siguiente informacin


despus de ajustar un modelo de regresin
mltiple. La variable dependiente Y es el
porcentaje de compra que hacen las
empresas encuestadas. Las variables X6 a
X13 son diversas variables sobre la calidad
del servicio prestado a las empresas
encuestadas. La variable X23 es una variable
dicotmica que representa el tamao de las
empresas encuestadas (1: Grande y 0:
Pequea) (use = 0.05):

Pruebas de hiptesis

- R-cuadrada = 74.9173 porciento


- Error estndar del estimador = 4.74546
- Razn F = 13.27

Pruebas de normalidad
1. Pruebas grficas
- Grfico de probabilidad Normal
- Grfico de caja y bigotes

Parmetro Estimacin
Constante
X6
X7
X8
X9
X10
X11
X12
X13
X23

16.703
2.63642
-0.493471
-0.849983
3.31026
-0.0464916
1.31899
1.16003
-0.400973
-0.926798

9 Complete la tabla ANOVA y pruebe


la significacin de la regresin y de
los parmetros.

15

Autocorrelacin:

Autocorrelacin

Ausencia de autocorrelacin:

- Histograma
2. Prueba Ji-Cuadrada (2) de la
bondad del ajuste
3. Prueba de Smirnov-Kolmogorov
4. Prueba de Shapiro-Wilks
5. Prueba de Anderson-Darling
6. Prueba de Jarque-Bera

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Error
Estndar
11.5529
0.694544
1.67482
0.571791
0.875052
0.72483
0.803793
1.16721
0.568153
2.00284

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Supuesto de Normalidad

14

Ejercicio

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

16

Autocorrelacin

17

Causas:

Formas de detectarla:

Sesgo de especificacin: exclusin


de variables o forma funcional
incorrecta
Rezagos (por ejemplo, modelos
autorregresivos)
Manipulacin de datos
Transformacin de datos
Efectos:
Estimadores no son MELI (no
tienen varianza mnima)
Por lo tanto, es posible que se
concluya que un coeficiente es
estadsticamente no significativo
cuando en realidad lo es

18

Ejemplo:

Mtodo grfico
Anlisis de la FAC
Pruebas de corridas
Pruebas estadsticas para la
independencia de residuos, por
ejemplo, la prueba de
Durbin-Watson

Ao Importaciones

Medidas correctivas:
Depende de si es conocida o no la
magnitud de la autocorrelacin ()
Otros mtodos

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Regresin con Series de Tiempo

Regresin con Series de Tiempo

PNB

23.2

506.0

23.1

523.3

25.2

563.8

26.4

594.7

18

185.8

1899.5

19

217.5

2127.6

20

260.9

2368.5

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

19

Verificacin de la Independencia de Residuos


Prueba de Durbin-Watson:
9 El modelo incluye la constante
9 Variables X son no estocsticas
9 Errores son generados por un proceso
autoregresivo de primer orden:

9 H0: Los residuos no estn


autocorrelacionados.

9 Estadstico de DW:
9 Por lo tanto, no puede usarse para
detectar esquemas autoregresivos
de orden superior
9 El modelo no incluye trminos
rezagados, como por ejemplo, Yt-1

Ejercicio: Verificar que:

9 No existen observaciones perdidas


o datos ausentes
Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

20

Verificacin de la Independencia de Residuos

21

Verificacin de la Independencia de Residuos: Prueba de Durbin-Watson: = 0.05

22

Conclusin ejemplo anterior:


d = 0.647239
Zona de
indecisin

Zona de
indecisin

Rechazar H0
Evidencia de
autocorrelacin
positiva

n = 20
k = 1 variable explicativa

Rechazar H0
Evidencia de
autocorrelacin
negativa

De la tabla: dL = 1.20, dU = 1.41


d = 0.647239 < dL = 1.20

No rechazar H0

En Statgraphics:
9 Los valores dL y dU se leen de la tabla a continuacin

Por tanto, hay evidencia de autocorrelacin positiva

9 En la tabla, k es el nmero de variables explicativas y n es el nmero


de observaciones.
Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Multicolinealidad
Alta correlacin entre variables explicativas
9 Formas de detectarla:

9 Causas:
Mtodos de recoleccin de
informacin
Error de especificacin del modelo
etc.
9 Efectos:
Estimadores son MELI pero con
varianzas altas
Por lo tanto, IC mucho ms amplios y,
por ende, muchas razones t no
significativas
R2 puede ser muy alta

R2 alta pero pocas razones t


significativas
Altas correlaciones entre pares de
regresores
Regresiones auxiliares
Factores de inflacin de varianza
9 Medidas correctivas:
No hacer nada
Eliminacin de una o ms variables
Datos nuevos o adicionales
Etc.

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

23

Multicolinealidad

24

Ejemplo: La Compaa HATCO


-k=7
- Variable dependiente:
Y (= X9): Nivel de uso (%)
- Variables independientes:
X1, X2, , X7 (Calidad de servicio)
- Observaciones: i = 1, 2, ... , 100
(n = 100 encuestas)

Error
Parmetro Estimacin Estndar EstadsticoT ValorP
CONSTANTE
4,97678
2,04688
0,0435
X1
0,057583
2,01266
0,9772
X2
0,696911
2,09017
0,7396
X3
3,36822 0,411234
8,19052
0
X4
0,0421953
0,0632799
0,9497
X5
8,36914
2,13599
0,0353
X6
0,947168
1,3521
0,1797
X7
0,355431
1,59506
0,1141
Fuente
SC
Gl
Modelo
6198,7
Residuo
1800,3
Total(Corr.) 7999

CM

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

RaznF ValorP
45,25
0

Multicolinealidad: Ejemplo: La compaa HATCO

25

Multicolinealidad

Factor de Inflacin de la Varianza (VIF )

26

El VIF (o FIV) se usa para medir la multicolinealidad


donde

o sea de
9 El VIF representa el incremento en la varianza debido a la presencia de
multicolinealidad.
9 Un criterio es considerar que la multicolinealidad es severa si:
VIFj >
Promedio de los VIF sustancialmente > 1
Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Multicolinealidad: VIF

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

27

Ejemplo: HATCO Regresin de X9 sobre X1 a X7

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Heterocedasticidad

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

28

Heterocedasticidad

29

Causas:
Modelos sobre aprendizaje de errores
Mejoras en las tcnicas de
recoleccin de informacin
Observaciones atpicas
Error de especificacin del modelo
etc.

Formas de corregirla:

Efectos:
Estimadores ya no son MELI
Estimadores ineficientes (Varianza mayor
que la varianza mnima)
Por lo tanto, IC innecesariamente grandes
y, por ende, pruebas t y F imprecisas
Estimador de EE del estimador es sesgado

Si la varianza es conocida, se utiliza


el mtodo de mnimos cuadrados
ponderados (MCP) el cual produce
estimadores MELI
Si no, se recurre a una
transformacin adecuada de los
datos

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Heterocedasticidad

Prueba de White

No requiere el supuesto de normalidad


Se aplicar al siguiente modelo (si hay k variables, la extensin es directa):

Heterocedasticidad

30

Ejemplo:

Formas de detectarla:
Mtodos grficos
Pruebas estadsticas:
- Prueba de Park
- Prueba de Glejser
- Prueba de Goldfeld y Quandt
- Prueba de White
- etc.

Mes
1

Consumo
10600

Ingreso
12000

2
3
4
5
6

25
26
27
28
29
30

10800
11100
11400
11700
12100

16900
17500
18100
17200
17800
18500

12000
12000
13000
13000
13000

20000
20000
20000
21000
21000
21000

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

31

Heterocedasticidad: Prueba de White

Ejemplo: Ejemplo anterior donde n = 10, k = 2


9 Regresin auxiliar: R2 = 0.974165
9 Por lo tanto

Paso 1. Estimar el modelo y obtener los residuos


Paso 2. Efectuar la siguiente regresin auxiliar y calcular su R2:

32

Suponiendo un nivel de significacin de 5%, de una


tabla de la distribucin Ji cuadrada se obtiene:

Paso 3. Bajo el supuesto de homocedasticidad puede demostrarse que:


9 Por lo tanto, como
Paso 4. Puede concluirse que:

i
1

Y
10

X1
1,3

X2
9

2
3
4
5
6
7
8

6
5
12
10
15
5
12

2,0
1,7
1,5
1,6
1,2
1,6
1,4

7
5
14
15
12
6
10

17

1,0

15

10

20

1,1

21

puede concluirse que no hay heterocedasticidad


Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

33

Variables Ficticias (o Dummy)


Ejemplo: En una empresa se ha
calificado el desempeo de 15
trabajadores (con notas de 0 a 10) a los
cuales se les aplic tambin una
prueba de aptitud (con notas de 1 a
100). De ellos 7 tenan formacin
universitaria y los otros 8 no.
9 Variables:
Y : Calificacin del desempeo
X1 = Puntaje prueba de aptitud,

Empleado
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Y
5
4
3
10
2
7
6
9
9
2
8
6
7
3
6

Variables Ficticias: Ejemplo

X1
60
55
35
96
35
81
65
85
99
43
98
91
95
70
85

X2
1: si, 0: no
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1

9 En este caso se tendr, para los empleados sin formacin universitaria, que:

y, para los empleados con formacin universitaria,

El modelo estimado es (R2 = 0.921 y todos los valores p menores que 0.05):

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Variables Ficticias

Dos o mas clases

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

35

Variables Ficticias

Dos o Ms Variables Ficticias

Ejemplo: Salario (Y) versus nivel educacional mximo (Primario, Secundario y


Universitario)
donde:
Entonces

Entonces

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

34

Considere modelo de regresin de Y sobre X1 y X2:

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

36

Ejercicio: AED, Certamen 2, 2014-2

37

Estimacin
1,79448
0,561963
0,654601

EstadsticoT
2,7807
1,64621

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Seleccin de Variables
9 Elaborar una lista larga de variables explicativas y reducirla a una pequea.
9 Seleccionar los mejores subconjuntos de variables explicativas.
9 Regresin por pasos:

39

Seleccin de Variables: Regresin por pasos

1. Seleccin primera variable para entrar


- Considerar todas las regresiones
simples posibles
- Elegir para entrar la variable de la
regresin con el mayor R2

- Hacia adelante
- Hacia atrs
- Hacia adelante con revisin hacia atrs

En cualquiera de estos casos se requerir el R2 ajustado:

donde k = nmero de variables explicativas


Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

38

a) Obtenga la tabla ANOVA y la conclusin correspondiente.


b) Pruebe la significacin individual de los coeficientes de regresin
c) Calcule el VIF (o FIV) de las variables explicativas. Los valores
obtenidos indican algn problema en la regresin? Qu representa el VIF?
d) Si hubiera heterocedasticidad entonces los estimadores de los coeficientes de
regresin no son MELI porque dichos estimadores no son insesgados Falso
o verdadero? Explique. Indique 2 maneras de corregir la heterocedasticidad.
e) Escriba el modelo de regresin que debera ajustarse para aplicar la prueba
de White. Cul es la idea de (o en qu se basa) esta prueba? Cules son
las ventajas de esta prueba sobre la de Golfeld y Quandt? Qu debe ocurrir
con la regresin que se ajusta con esta prueba para concluir que hay
problemas de heterocedasticidad?

Se dispone de la siguiente informacin despus de ajustar un modelo de


regresin mltiple a 10 observaciones de las variables Y, X1 y X2. Se sabe
que el error estndar de la estimacin de la regresin de X1 sobre X2 es
3.81491, y que la razn F de dicha regresin es 9.07. Los 10 valores de X1
son, respectivamente, 3, 2, 4, 7, 6, 12, 6, 6, 9 y 20. Por su parte los 10
valores de Y son, respectivamente, 3, 2, 3, 5, 2, 8, 5, 5, 4 y 10. Considere
un nivel de significacin de 5%.
Parmetro
CONSTANTE
X1
X2

Ejercicio: AED, Certamen 2, 2014-2: Continuacin

2. Seleccin siguientes variables para


entrar
- De entre todas las variables que no
estn incluidas, elegir aquella que,
si se incluyera, aporta la mayor
contribucin a la SCR y es significativa
- Esto se evala con una prueba F,
estableciendo un valor crtico llamado
F para entrar

40

3. Seleccin variable para remover


- Evaluar la contribucin a la SCR
de cada una de las otras variables
ya incluidas usando pruebas F
- Elegir para salir la variable de la
regresin cuya razn F sea menor
que un valor preestablecido
llamado F para remover
4. Repetir los pasos 2 y 3 hasta que
todas las inclusiones posibles son
no significativas y todas las
eliminaciones posibles son
significativas

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Seleccin de Variables: Regresin por Pasos

41

Ejemplo
El jefe de personal de un laboratorio est interesado en determinar si un
aspirante en particular se convertir en buen vendedor. Decide usar las
ventas del primer mes como variable dependiente Y (unidades). Elige
como posibles variables explicativas las siguientes:
X1 = resultado en prueba de aptitud de ventas (1 a 100)
X2 = edad (aos)
X3 = resultado prueba de ansiedad (1 a 10)
X4 = experiencia (aos)
X5 = promedio notas en la secundaria (1 a 5)

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

72

X1

X2

X3

X4

X5

X1

X2

X3

X4

X5

44

10

22,1

4,9

2,4

16

33

12

20,5

4,8

2,1

47

19

22,5

2,6

17

54

47

21,9

2,3

1,8

60

27

23,1

1,5

2,8

18

39

20

20,5

1,5

71

31

24

0,6

2,7

19

52

73

20,8

0,3

1,9

61

64

22,6

1,8

20

30

20

2,7

2,2

60

81

21,7

3,3

2,5

21

58

23,3

4,4

2,8

58

42

23,8

3,2

2,5

22

59

98

21,3

3,9

2,9

56

67

22

2,1

2,3

23

52

27

22,9

1,4

3,2

66

48

22,4

2,8

24

56

59

22,3

2,7

2,7

10

61

64

22,6

1,8

3,4

25

49

23

22,6

2,7

2,4

11

51

57

21,1

3,8

26

63

90

22,4

2,2

2,6

12

47

10

22,5

4,5

2,7

27

61

34

23,8

0,7

3,4

13

53

48

22,2

4,5

2,8

28

39

16

20,6

3,1

2,3

14

74

96

24,8

0,1

3,8

29

62

32

24,4

0,6

15

65

75

22,6

0,9

3,7

30

78

94

25

4,6

3,6

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Regresin por Pasos: SPSS

Seleccin de Variables: Regresin por Pasos: Ejemplo

43

Regresin por Pasos: SPSS: Ejemplo

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

44

Regresin por Pasos: Statgraphics

45

Regresin por Pasos: Statgraphics

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Verificacin de la Independencia de Residuos: Prueba de Durbin-Watson: = 0.05

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

47

48

Tabla t de
Student

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

46

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

50

49

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

Hernaldo Reinoso, Departamento de Ingeniera Industrial, Universidad de Concepcin

También podría gustarte