Está en la página 1de 13

1

Regresin Lineal Simple Regresin Lineal Simple


1
g p g p
Introduccin
Se examinar la relacin entre variables
utilizando una ecuacin matemtica.
Los motivos para usar esta tcnica son:
Pronosticar el valor de una variable
dependiente (y) con los valores de las
2
dependiente (y) con los valores de las
variables independientes (x
1
, x
2
,x
k
.).
Analizar la relacin especfica entre las
variables independientes y la variable
dependiente.
Estructura de los datos
econmicos
Datos de corte tranversal
- Muestras de individuos, hogares , empresas, ciudades, estados u otras
diversas unidades tomadas en un momento determinado del tiempo.
- Por lo general, obtenidos por una muestra aleatoria de la poblacin.
Datos de serie temporal
- Observaciones de una o ms variables obtenidas en diferentes
3
- Observaciones de una o ms variables obtenidas en diferentes
perodos de tiempo.
- Un inconveniente: casi todas las series econmicas de tiempo no son
independientes al tiempo, ya que estn relacionadas con su historia
reciente
Datos de Panel
- Consta de una serie temporal por cada miembro del corte transversal.
Costo
de
l
2 El Modelo
El modelo tiene una componente determinstica y una
componente aleatoria
4
Tamao de la casa
la casa
La mayora de
los lotes cuestan
$25.000
Costo
de la
casa
Sin embargo, el costo de una casa vara an entre
casas del mismo tamao
2 El Modelo
Como el costo tiene un comportamiento
impredecible, se agrega una componente
aleatoria
5
Tamao de la casa
casa
La mayora de
los lotes se
venden a
$25.000
2 El Modelo
y = variable dependiente
c + | + | = x y
1 0
El modelo lineal simple
6
y = variable dependiente
x = variable independente
|
0
= y-intercepto
|
1
= pendiente de la recta
c = variable error
x
y
|
0
Ax
Ay
|
1
= Ay/Ax
|
0
y |
1
son parmetros poblacionales,
por lo tanto se estiman con los datos.
2
3 Estimacin de los
Coeficientes
Las estimaciones se determinan:
seleccionando una muestra de la poblacin de inters,
calculando los estimadores muestrales.
Trazando una recta que pasa entre los datos.
7
Trazando una recta que pasa entre los datos.

Pregunta: Cul se puede


considerar la recta
correcta?
x
y
La Recta de Regresin de
Mnimos Cuadrados
La recta correcta es aquella que minimiza la
suma de los cuadrados de las diferencias
8
suma de los cuadrados de las diferencias
entre los puntos observados y la recta.
La Recta de Regresin de
Mnimos Cuadrados

4 (2,4)
Suma Cuadrado Diferencias
=
(2 - 1)
2
+(4 - 2)
2
+(1.5 - 3)
2
+ (3,2 - 4)
2
= 6,89
Suma Cuadrado Diferencias = (2 -2.5)
2
+(4 - 2.5)
2
+(1.5 - 2.5)
2
+(3,2 2,5)
2
= 3,99
Comparando las dos lneas
La segunda lnea es horizontal
9
3
3

4 1
1
(1,2)
2
2
(3,1.5)
(4,3.2)
2.5
Cuanto menor es la suma
de los cuadrados de las di-
ferencias mejor es el ajuste
de la lnea a los datos.
Estimacin de los Coeficientes
Para calcular los coeficientes
estimados de la recta, que minimizan
las diferen- cias entre los datos
observados y la recta, se usan las
La ecuacin de regresin muestral
que estima el modelo lineal simple
es:
10
frmulas:
x b y b
s
Y X
b
x
1 0
2 1


) , cov(

=
=
es:
x b b y
1 0

+ =
Ejemplo
Una agencia de coches estudia
la relacin entre el cuenta
kilmetros y el precio de venta
La Recta de Regresin Lineal
Auto Cuenta Km Precio
1 37388 14636
11
de coches usados.
Se selecciona una muestra
aleatoria de100 coches y se
registran los datos.
Hallar la lnea de regresin
2 44758 14122
3 45833 14016
4 30862 15590
5 31705 15568
6 34010 14718
Vari abl e Vari abl e
Independi ente " x" Dependi ente " y"
El Modelo de Regresin Lineal
Solucin
Solucin manual: Calcular varios
estadsticos
; 45 , 009 . 36 = x
690 . 528 . 43
1
) (

2
2
=

=

n
x x
s
i
x
12
; 823 , 822 . 14 = y
511 . 712 . 2
1
) )( (
) , cov( =


=

n
y y x x
Y X
i i
donde n = 100.
067 . 17 ) 45 , 009 . 36 )( 06232 , 0 ( 82 , 822 . 14
06232 , 0
690 . 528 . 43
511 . 712 . 2

) , cov(

1 0
2 1
= = =
=

= =
x b y b
s
Y X
b
x
x x b b y 0623 , 0 067 . 17

1 0
= + =
3
Solucin continuacin
Usando el Programa Excel
Herramientas> Anlisis de Datos > Regresin >
La Recta de Regresin Lineal
Simple
13
Herramientas> Anlisis de Datos > Regresin >
[Marcar el rango de y luego el rango de x ] > OK
Resumen
Estadsticos de la Regresin
Correlac. 0.8063
R
2
0.6501
R
2
Ajust. 0.6466
E Estnd 303 1
El Modelo de Regresin Lineal
Simple
Xm18-02
14
E. Estnd 303.1
Observacio 100
ANOVA
g.lib. SC Prom. C. F V. Crtico F
Regresin 1 16734111 16734111 182.11 0.0000
Residual 98 9005450 91892
Total 99 25739561
Coeficientes E. Estnd. Estad t Valor-P
Intercepto 17067 169 100.97 0.0000
Cta.Km -0.0623 0.0046 -13.49 0.0000
x y 0623 , 0 067 . 17 =
Diagrama de Dispersin y Lnea de
Ajuste
14000
15000
16000
P
r
e
c
i
o
Interpretacin de la Ecuacin
de Regresin
17067
15
Esta es la pendiente de la recta.
Por cada Km adicional en el Cuenta Km. el
precio disminuye, en promedio, $0,0623
13000
14000
Cuenta Km
P
x e y 0623 , 0 067 . 17 =
La ordenada b
0
= $17067.
0
Sin datos
No interprete la ordenada como el Precio
de los autos que no han sido usados
4 La Variable Error: Condiciones
requeridas
El error c es una parte crtica del modelo de regre
sin.
Se deben cumplir cuatro condiciones con respecto a
16
la distribucin de c .
La distribucin de probabilidad de c es normal.
La media de c es cero: E(c) = 0.
El desvo estndar de c es o
c
para todos los valores de x.
El conjunto de errores asociados con los diferentes valores
de y son todos independientes.
La distribucin normal de c

3
|
0
+ |
1
x
2
|
0
+ |
1
x
3
E(y|x
2
)
E(y|x
3
)

2
El desvo estndar permanence constante,
17
De los tres primeros supuestos se tiene:
y se distribuye normalmente con media E(y) = |
0
+ |
1
x, y un
desvo estndar constante o
c
|
0
+ |
1
x
1
|
0
|
1 2
x
1
x
2
x
3

1
E(y|x
1
)

2
pero el valor de la media cambia
con x
5 Evaluacin del Modelo
Con el mtodo de mnimos cuadrados se obtiene
una lnea de regresin haya o no una relacin
lineal entre x e y.
En consecuencia es importante analizar cun
18
En consecuencia, es importante analizar cun
bien el modelo lineal se ajusta a los datos.
Hay varios mtodos para evaluar el modelo.
Todos se basan en la suma de los cuadrados de
los errores, SCE.
4
Esta es la suma del cuadrado de las diferencias
entre los puntos observados y la lnea de
regresin.
Puede servir como una medida de cun bien la
lnea se ajusta a los datos La SCE se define
Suma de los Cuadrados de los
Errores
19
lnea se ajusta a los datos. La SCE se define
como:
. ) (
1
2

=
=
n
i
e
i
y y SCE
2
x
2
Y
s
) Y , X cov(
s ) 1 n ( SCE
SE
=
Una formams simplees:
La media del error es igual a cero.
Si o
c
es pequeo los errores tienden a estar cerca
de cero (cerca de la media del error). Entonces, el
modelo ajusta bien los datos.
Por lo tanto, se puede usar o
c
como una medida
Error Estndar de Estimacin
20
c
de la conveniencia de usar un modelo lineal.
El estimador de o
c
se simboliza como s
c
2

=
n
SCE
s
Estimacin de Estndar Error
c
Ejemplo .- Calcular el error estndar de estimacin para el
Ejemplo anterior, y analizar qu se puede decir sobre el
modelo ajustado?
Solucin
Error Estndar de Estimacin
Ejemplo
21
13 , 303
98
450 . 005 . 9
2

450 . 005 . 9
690 . 528 . 43
) 511 . 712 . 2 (
) 996 . 259 ( 99

) , cov(
) 1 (
996 . 259
1
) (

2
2
2
2
2
= =

=
=

= =
=

n
SCE
s
s
Y X
s n SCE
n
y y
s
x
Y
i i
Y
c
Calculado antes
Es difcil evaluar el modelo en base
a s
c
cuando se lo compara con el
valor medio de y.
823 , 14 y 1 . 303 s = =
c
Test para la pendiente
Cuando no existe relacin lineal entre las dos
variables, la lnea de regresin es horizontal.

22

Diferentes valores de (x) dan


diferentes resultados (y).
Relacin No lineal
Diferentes valores de (x) dan
el mismo resultado (y).
La pendiente no es igual a cero
La pendiente es iguala cero
Relacin
Lineal
Se pueden hacer inferencias acerca de |
1
a partir
de b
1
por medio del test:
H
0
: |
1
= 0
H
1
: | =0 ( < 0, > 0)
El test estadstico es:
Test para la pendiente
23
Si la variable error se distribuye normalmente, el
estadstico tiene una distribucin t de Student con
grados de libertad = n-2.
2

2
2
b
s
b
t
|
=
El error estndar de b
2
.
2
) (

2
x x
s
s
i
b

=
c
donde
Ejemplo 4
Determinar por medio de un test si existe
suficiente evidencia para inferir que hay
Test para la pendiente
Ejemplo
24
p q y
una relacin lineal entre el precio de
reventa del auto y el lector de kilometraje
para todos los autos de 3 aos en el
Ejemplo 2.
Usar o = 5%.
5
Solucin manual
Para calcular t se necesitan los valores de y
b2
.
1 303
0623 , 0

2
= b
Test para la pendiente
Ejemplo
2

b
25
La zona de rechazo es t > t
0,025
t < -t
0,025
con v = n-2 = 98.
Aproximadamente, t
0,025
= 1,984
49 , 13
00462 , 0
0 0623 , 0

00462 , 0
277 . 340 . 309 . 4
1 , 303
) (

2
2
2 2
2
=

=

=
= =

=
b
i
b
s
b
t
x x
s
s
|
c
Precio Cta. Km RESUMEN
14636 37388
14122 44758 Estadisticos
14016 45833 Correl. 0.8063
15590 30862 R
2
0.6501
15568 31705 R
2
Ajust 0 6466
Usando la computadora
Test para la pendiente: Ejemplo
02
26
15568 31705 R
2
Ajust. 0.6466
14718 34010 Standard Erro 303.1
14470 45854 Observacione 100
15690 19057
15072 40149 ANOVA
14802 40237 g.l. S.C. C.M F V.Crtico F
15190 32359 Regresin 1 16734111 16734111 182.11 0.0000
14660 43533 Residual 98 9005450 91892
15612 32744 Total 99 25739561
15610 34470
14634 37720 Coeficientes E. Estn. Estad t Valor-p
14632 41350 Intercepto 17067 169 100.97 0.0000
15740 24469 Cta. Km -0.0623 0.0046 -13.49 0.0000
Hay una significativa evidencia para
Inferir que el CuentaKm. afecta
el precio de reventa.
Para medir la intensidad de la relacin
lineal se usa el coeficiente de
determinacin.
El Coeficiente de
determinacin
27
| |


= =
2
2
2 2
2
2
) (
1

) , cov(
y y
SCE
R o
s s
Y X
R
i y x
El Coeficiente de
determinacin
Para entender el significado de este
coeficiente observe:
El modelo de regresin
28
Variacin Total de y
El modelo de regresin
El error
El Coeficiente de
determinacin
y
2
Se muestran dos pares de observaciones (x
1
,y
1
) y
(x
2
,y
2
) de una muestra.
29
x
1
x
2
y
1
y
= +
2
2
2
1
) y y ( ) y y (
2
2
2
1
) y y ( ) y y ( +
2
2 2
2
1 1
) y y ( ) y y ( + +
Variacin de y =
Variacin explicada por
la recta de regresin
+ Variacin No explicada
(error)
Variacin de y = SSR + SSE
El coeficiente de
determinacin R
2
La Bondad de Ajuste en un modelo de Regre-sin
se mide utilizando el coeficiente R
2
.
R
2
mide la proporcin de la variacin en y que es
que es explicada por la variacin de x.

30

=
2 2
2
2
2
) ( ) (
) (
) (
1
y y
SCR
y y
SCE y y
y y
SCE
R
i i
i
i
R
2
toma cualquier valor entre cero y uno.
R
2
= 1: Hay relacin perfecta entre la lnea y los
puntos de los datos.
R
2
= 0 : No hay relacin lineal entre x e y.
6
Ejemplo 18.5
Hallar el coeficiente de determinacin para el
Ejemplo 18.2; Qu significa este estadistico
l d l ?
El coeficiente de
determinacin
Ejemplo
31
para el modelo?
Solucin : Solucin manual;
6501 , 0

)] , [cov(
) 996 . 259 )( 688 . 528 . 43 (
] 511 . 712 . 2 [
2 2
2
2
2
= = =

y x
s s
y x
R
Usando EXCEL - De la salida de la regresin se tiene
El 65 % de la variacin en el precio de
El Coeficiente de Determinacin
Resumen
Estadsti cas de l a regresi n
Coef. Correlacin 0.8063
Coef. Determinac.R^2 0.6501
R^2 ajustado 0.6466
32
venta es explicado por la variacin en
el CuentaKilmetro. El resto (35%)
no es explicado por este modelo.
j
Error estndar 303.1
Observaciones 100
ANLISIS DE VARIANZA
Grados de Li bertad Suma de CuadradosCuadrados Medi os F Val or crti co de F
Regresin 1 16734111 16734111 182.11 0.0000
Residuos 98 9005450 91892
Total 99 25739561
Coefi ci entes Error estndar Estadsti co t Probabi l i dad L. Inferi or 95% L. Superi or 95%
Ordenada 17067 169 100.97 0.0000 16731.34 17402.19
Cuenta Km. -0.0623 0.0046 -13.49 0.0000 -0.07 -0.05
6 Aplic.Financiera: Modelo de Mercado
Una de las ms importantes aplicaciones de
regresin lineal es el modelo de mercado.
Se supone que la tasa de retorno de un papel
33
p q p p
comercial (R) est linealmente relacionada con la
tasa de retorno del mercado.
R = |
0
+ |
1
R
m
+c
Tasa de retorno de un papel
particular
Tasa de retorno de un Indice gene
El coeficiente | mide qu sensible es la tasa de retorno
del papel a cambios en el nivel del mercado en conjunto.
El Modelo de Mercado: Ejemplo
REGRESION
R Mltiple 0.5601
R Cuadrad 0.3137
Estimacin del modelo de mercado para Nortel, un papel
cotizado en la Bolsa de Bs.As
Los datos son porcentajes de retorno de Nortel y
Ejemplo 6
34
R^2 Ajust. 0.3019
E.Estnd. 0.0631
Observacio 60
ANOVA
g.de l. SS MS F Signific F
Regresin 1 0.10563 0.10563 26.51 0.0000
Residual 58 0.231105 0.003985
Total 59 0.336734
CoeficientesE. Estnd. Estad t Valor-p
Ordenada 0.0128 0.0082 1.56 0.1245
Nortel 0.8877 0.1724 5.15 0.0000
porcentajes de retorno de todos los papeles.
Esta es una medida del riesgo del
mercado. En la muestra, por cada
aumento del 1% en el retorno de la
bolsa, el incremento promedio en
Nortel es de 0,8877%.
Esta es una medida del riesgo total del mercado
includo en el valor del Nortel. El 31,37% de la
variacin en los retornos de Nortel son explicados por
la variacin en los retornos de la bolsa de Bs As.
Si se est conforme con lo bien que el
7 Uso de la Ecuacin de
Regresin
Antes de usar el Modelo de Regresin hay
que evaluar cun bien se ajusta a los datos.
35
Si se est conforme con lo bien que el
modelo ajusta los datos, se lo puede usar
para predecir los valores de y.
Para hacer una prediccin se utiliza:
la prediccin Puntual, y
la prediccin por Intervalos
Prediccin Puntual
Ejemplo 7
Predecir el precio de venta de un coche de 3
aos de uso old Taurus con 40.000 Km en el
Cuenta Km. (Ejemplo Anterior).
36
Se estima que un coche con 40.000 km se
vender a $14.575.
Qu cerca est esta prediccin del precio
real?
575 , 14 ) 000 , 40 ( 0623 . 17067 x 0623 . 17067 y = = =
Prediccin Puntual
7
Estimacin por Intervalos
Se pueden usar dos intervalos para estimar qu cerca se
encuentra el valor estimado del valor verdadero de y.
Intervalo de Prediccin estima y para un valor dado de x,
Intervalo de Confianza - estima el promedio de y para un valor
dado de x.
37
Intervalo de Prediccin Intervalo de Confianza
2
2
2 /
) (
) (
1
1

x x
x x
n
S t y
i
g
e
E

+ +
o
2
2
2 /
) (
) (
1

x x
x x
n
S t y
i
g
e
E

+
o
Estimacin por Intervalos,
Ejemplo
Ejemplo 7 - continuacin
Obtener una Estimacin por Intervalos para el
precio de venta de un Ford Taurus con 40.000 km
l C t kil t
38
en el Cuenta kilmetros.
Se requieren dos tipos de predicciones:
Una prediccin para un coche especfico
Una estimacin para el precio promedio por coche
Estimacin por Intervalos,
Ejemplo
Solucin
Un Intervalo de Prediccin da el precio estimado
para un solo coche:
39
2
2
2
) (
) (
1
1
x x
x x
n
s t y
i
g
E

+ +
c o
605 575 . 14
000 . 340 . 309 . 4
) 009 . 36 000 . 40 (
100
1
1 ) 1 , 303 ( 984 , 1 )] 40000 ( 0623 . 0 067 . 17 [
2
=

+ +
t
0,025,98
Aproximadament
e
Solucin continuacin
Un Intervalo de Confianza da la estimacin del
precio promedio de un coche Ford Taurus con
40.000 Km. en el Cuenta Kilmetros.
Estimacin por Intervalos
Ejemplo
40
El Intervalo del 95% de Confianza es:
2
2
2
) (
) (
1

x x
x x
n
s t y
i
g
E

+
c o
70 575 . 14
000 . 340 . 309 . 4
) 009 . 36 000 . 40 (
100
1
) 1 , 303 ( 984 , 1 )] 40000 ( 0623 , 0 067 . 17 [
2
=

+
Cuando x
g
se aleja de x el Intervalo es ms
amplio. Y el menor Intervalo es para x = x.
2
x b b y
1 0

+ =
El efecto en la longitud del
Intervalo de un valor dado x
g
41
2
2
2
) (
) ( 1

x x
x x
n
s t y
i
g
E

+
c o
x
g
x b b y
1 0
+
x b

y + =
Si x
g
se aleja de la media de x el Intervalo se hace
ms amplio. Y el Intervalo ms corto es para x.
El efecto de un valor dado x
g
en la amplitud del Intervalo
2
) ( 1
42
x
1 x ) 1 x ( = 1 x ) 1 x ( = +
g 1 0
x b b y + =
) 1 x x ( y
g
=
) 1 x x ( y
g
+ =
1 x+ 1 x
2
2
2
) (
) ( 1

x x
x x
n
s t y
i
g
E

+
c o
2
2
2
) (
1 1

x x n
s t y
i
E
+
c o
8
Si x
g
se va alejando de x el Intervalo se hace ms amplio.
El Intervalo ms corto es para x.
g 1 0
x b

y + =
2
2
2
) (
) ( 1

x x
s t y
g
E

+
c o
El efecto de un valor dado x
g
en la amplitud del Intervalo
43
x
g
2 x ) 2 x ( = 2 x ) 2 x ( = +
2 x 2 x +
2 2
) ( x x n
y
i
E
c o
2
2
2
)
1 1

x x n
s t y
i
E
+
c o
2
2
2
)
2 1

x x n
s t y
i
E
+
c o
Intervalos de Confianza y
Prediccin
De las ecuaciones se observa que las bandas hiperblicas de
prediccin siempre estn por fuera de las de confianza.
Intervalos de Confianza y Prediccin
6
7
44
-3
-2
-1
0
1
2
3
4
5
1 2 3 4 5
LimInf
LimSup.
Yest.
LimInf
LimSup.
8 El Coeficiente de Correlacin
El Coeficiente de Correlacin se usa para medir
la intensidad de la asociacin entre dos
variables.
El rango de valores del Coeficiente es entre -1 y 1.
Si r = 1 (asociacin negativa) r = +1 (asociacin
45
Si r = -1 (asociacin negativa) r = +1 (asociacin
positiva) cada punto cae en la lnea de regresin.
Si r = 0 no hay asociacin lineal.
El coeficiente se puede usar para probar si hay
asociacin lineal entre las dos variables.
Para probar si hay relacin lineal entre X e Y
se utiliza el Coeficiente de Correlacin.
X e Y deben ser observables
X e Y se distribuyen normalmente
Test para el coeficiente de
correlacin
46
X e Y se distribuyen normalmente
X
Y
r
n
r t
1
2

=
Cuando no hay relacin lineal entre las dos
variables, = 0.
Las hipteses son:
H
0
: = 0
H
1
: = 0
Test para el Coeficiente de
Correlacin
47
y x
s s
y x
r con calculado
muestral n correlaci de
e coeficient el es r donde
r

) , cov(

1
=

H
1
: = 0
El test estadstico es:
El estadstico es t de Student,
distribudo con n - 2, g.de lib. si
ambas variables tienen
distribucin normal.
Test para el Coeficiente de
Correlacin
Problema de Inversin(Index)
Un cierto inversor ha decidido invertir en un
Indice de Bonos Americanos que contiene una
amplia variedad de ttulos.
El inversor decidira evitar de invertir en el Indice
48
El inversor decidira evitar de invertir en el Indice
del Sector Petrolero si ste estuviera
correlacionado el valor de los bonos ameri-
canos que ya posee.
Con los datos del fichero Index.xls debera evi tar
la inversin en Indice del Sector Petrolero?
9
Solucin
Objetivo del problema: Analizar las
relaciones entre las dos variables.
Test para el Coeficiente de
Correlacin - Ejemplo
49
Se han observado dos variables (datos
muestrales)
Interesa analiza si hay una relacin lineal
entre las dos variables, y entonces hay que
hacer un test para el coeficiente de
correlacin
Solucin cont.
Las Hiptesis
H
0
: = 0
El valor del estadstico t es
26 . 4
r 1
2 n
r t
2
=

=
Test para el Coeficiente de
Correlacin - Ejemplo
50
0

H
1
: = 0.
Resolucin manual:
La regin de rechazo:
|t| > t
o/2,n-2
= t
.025,59-2
~ 2,00
El coeficiente de correlacin muestral:
Cov(x,y) =0,001279; s
x
=0,0509; s
y
= 0,0512
r = cov(x,y)/s
x
s
y
=0,491
Conclusin: Hay suficiente evi
dencia con o = 5% para inferir
que hay relacin lineal entre
las dos variables.
Solucin de Excel (Index)
Test para el Coeficiente de
Correlacin
Ejemplo
S.Petrolero Bonos USA
51
S.Petrolero 1
Bonos USA 0.4911 1
Test e Intervalo de Confianza para el
Coeficiente de Correlacin cuando
= 0
De una muestra de n = 103 datos se estim r =
0.80.
52
a) Calcular un Intervalo de Confianza para el
coeficiente de correlacin poblacional;
b) Probar la Hiptesis de que (rho)= 0,90, con
un nivel de significacin del 5% .
Para hacer inferencias acerca del verdadero coeficiente
de correlacin entre dos variables, , se debe analizar la
distribucin de la variable aleatoria r, pues el coefi-
ciente de correlacin muestral no tiene una distribu cin
Test e Intervalo de Confianza para
el Coeficiente de Correlacin cuando
= 0
53
ciente de correlacin muestral no tiene una distribu- cin
normal ni tiende a la distribucin normal, a me-dida que
n aumenta.
Sin embargo se puede transformar la variable aleatoria r
en otra variable aleatoria con distribucin prxima a la
normal z
r,
usando la Transformacin de r en z de Fisher,
que se encuentra tabulada.
9 Diagnstico de la Regresin- I
Las tres condiciones que se requieren para la
validez del anlisis de regresin son:
la variable error se distribuye normalmente.
La varianza del error es constante para todos los
54
La varianza del error es constante para todos los
valores de x.
Los errores son independentes entre si.
Cmo se puede determinar que estos
supuestos no se cumplen?
10
Anlisis de los Residuos
Examinando los residuos (o los residuos
estandarizados), se puede detectar si no se cumplen
los supuestos del modelo.
Ejemplo 2 continuacin:
55
Ejemplo 2 continuacin:
Falta de Normalidad.
Obtener el histograma de los residuos estandarizados;
Examinar el histograma y ver si el grfico se parece a una
distribucin normal con media cerca de cero.
Observacin Precio Pronost. Residuos Resid. Estandariz.
1 14736.91 -100.91 -0.33
2 14277.65 -155.65 -0.52
3 14210.66 -194.66 -0.65
4 15143.59 446.41 1.48
5 15091 05 476 95 1 58
Anlisis de los Residuos
56
Para cada residuo se calcula
el desvo estndar como sigue:
2
2
) (
) ( 1
1
x x
x x
n
h
donde h s s
i
i
i
i r
i
E

+ =
=
c
Una lista parcial de los
residuos estandarizados
5 15091.05 476.95 1.58
Residuo estandarizado i =
Residuo i
desvo estndar
Anlisis de los Residuos
Resi duos Estandari zados
20
25
30
35
57
Los residuos se distribuyen prximos a una normal con
media cero
0
5
10
15
20
-2 -1 0 1 2 y mayor...
Heteroscedasticidad
Cuando el supuesto de varianza constante no se cumple, se
tiene un problema de heteroscedasticidad.
Se detecta la heteroscedasticidad graficando los residuos
contra el valor estimado de y.
+
58
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Dispersin aumenta con y
^
y
^
Residuos
^
y
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Homocedasticidad
Cuando se cumple el supuesto de varianza constante
se tiene una condicin de homoscedasticidad.
Ejemplo 2 - continuacin
59
-1000
-500
0
500
1000
13500 14000 14500 15000 15500 16000
R
e
s
i
d
u
o
s
Precio Pronosticado
No Independencia de la Variable
Error
Si los datos fueron relevados a travs del
tiempo se tiene una Serie de Tiempo.
Examinando los residuos en el tiempo, no se debe
observar en los errores ningn patrn de
60
observar en los errores ningn patrn de
comportamiento sistemtico.
Cuando se detecta un patrn, se dice que los
errores estn autocorrelacionados.
La Autocorrelacin se puede detectar en un
grfico de los residuos contra el tiempo.
11
El aspecto del comportamiento de los residuos en
el tiempo indica si existe autocorrelacin.
+
+ +
+
Residuos Residuos
Falta de Independencia de la
Variable Error
61
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Tiempo Tiempo
+
+
+
Note la serie de residuos positivos,
seguida por la de residuos negativos
Note el comportamiento oscilante
de los residuos alrededor de cero.
0 0
Valores Alejados (Outliers)
Un outlier es una observacin (rara o excepcional) que
normalmente es pequea o grande.
Cuando se observa un outlier se necesita investigar
distintas posibilidades:
62
Hubo un error al registrar el valor.
El punto no pertenece a la muestra.
La observacin es vlida.
Los Outliers se identifican en el diagrama de dispersin.
Se puede sospechar que una observacin es un outlier si su
|residuo estandarizado| > 2
+
+
+
+
+ +
+
+
+
+
+
+
+
+
pero, algunos outliers
pueden ser muy
influyentes
++++++++++
Un outlier
Una observacin influyente
63
+
+
+
+
+
+
+
El outlier causa un desplamien-
to en la lnea de regresin
La Tcnica de Regresin
Diagnstico
Formular un modelo que tenga un fundamento
terico.
Obtener los datos de las variables del modelo.
Trazar el Diagrama de Dispersin para analizar si un
d l li l i d
64
modelo lineal parece ser apropiado.
Estimar la ecuacin de regresin.
Controlar los supuestos requeridos por los errores.
Controlar si hay outliers y observaciones
influyentes.
Analizar el modelo ajustado.
Si el modelo se ajusta a los datos, use la
ecuacin de regresin.
Comparacin de dos valores
de R
2
Es de suma importancia tener en cuenta que
al comparar dos modelos en base al coefi-
ciente de determinacin, ajustado o no:
65
el tamao de la muestra y la variable depen
diente deben ser los mismos.
La relacin entre las variables explicativas
puede tomar cualquier forma. As para los
modelos:
Los trminos R
2
calculados no pueden ser
comparados.
Por definicin R
2
mide la proporcin de la
) 2 ( ln ln ln
) 1 (
3 3 2 2 1
3 3 2 2 1
t t t
t t t
X X Y Ln
X X Y
| | |
| | |
+ + =
+ + =
66
variacin en la variable dependiente explicada
por la(s) variable(s) explicativas.
En (1) R
2
estima un cambio absoluto en Yi;
En (2) estima la proporcin de la variacin de Ln
Y (un cambio relativo o proporcional).
12
Comparacin de dos valores
de R
2
Ejemplo:
1. Modelo Lineal Y estimada
Mod. Lineal
Y X PronsticoY Resumen SalidaMod. Lineal
2.57 0.77 2.32189
25 074 233627 E t d ti d l i
DATOS
67
2.5 0.74 2.33627 Estadsticasdelaregresin
2.35 0.72 2.34586
2.3 0.73 2.34107 R
2
0.6628
2.25 0.76 2.32668
2.2 0.75 2.33148
2.11 1.08 2.17323 Coeficientes Error estnd
1.94 1.81 1.82318 Intercepcin 2.6911 0.1216
1.97 1.39 2.02458 X -0.4795 0.1140
2.06 1.2 2.11569
2.02 1.17 2.13007
Comparacin de dos valores
de R
2
2. Modelo Logartmico Y estimadadel Resumen SalidaMod. Logaritmico
DATOS MOD. LOGAR. Mod. Logar. Antilogar del
LnY LnX PronsticoLnY PronsticoLnY Estadsticasdelaregresin
0.943905899 -0.26136476 0.843554933 2.32461616
0.916290732 -0.30110509 0.853611069 2.348110751 R
2
0.7448
68
0.854415328 -0.32850407 0.860544273 2.364447249
0.832909123 -0.31471074 0.857053926 2.356208894 Coeficientes Error estnd Estadsticot
0.810930216 -0.27443685 0.846862772 2.332318349 Intercepcin 0.7774 0.0152 51.005
0.78845736 -0.28768207 0.850214426 2.340148586 LnX -0.2530 0.0494 -5.125
0.746687947 0.076961041 0.757942899 2.133882091
0.662687973 0.593326845 0.627278533 1.872507671
0.678033543 0.329303747 0.694088555 2.001883635
0.722705983 0.182321557 0.731281829 2.077742211
0.703097511 0.157003749 0.737688402 2.091096149
Comparacin de dos valores de R
2
Y AntiloglnYest.
2.57 2.32461616
2.5 2.348110751 Y AntiloglnY
2.35 2.364447249 Y 1
23 2356208894 A til l Y 08478 1
Calcular el CoeficientedeCorrelacinentreentrelasVariables
DATOS
69
2.3 2.356208894 AntiloglnY 0.8478 1
2.25 2.332318349 R
2
0.7187
2.2 2.340148586 El valor 0.7187secomparaconel R
2
lineal 0.6628
2.11 2.133882091 EnesteEjemploel mejor ajusteseobtieneconel modelologaritmico
1.94 1.872507671
1.97 2.001883635
2.06 2.077742211
2.02 2.091096149
Comparacin de dos valores
de R
2
R Cuadrado Comparables
70
M. Lineal 0.6628
Mod.Logar. 0.7187
El Modelo Logaritmico se ajusta mejor.
Comparacin de dos valores
de R
2
Comparacin del Modelo Lineal y el Semi-
logartmico - Datos del mismo Ejemplo
LnY X PronsticoLnY AntilogLnY Resumen Mod. Semilog
0.943905899 0.77 0.840350756 2.3171796
DATOS
71
0.943905899 0.77 0.840350756 2.3171796
0.916290732 0.74 0.846959096 2.332543018 Estadsticasdelaregresin
0.854415328 0.72 0.851364656 2.342841845
0.832909123 0.73 0.849161876 2.33768676 Coeficientedede 0.6971
0.810930216 0.76 0.842553536 2.322289462
0.78845736 0.75 0.844756316 2.327410594 Coeficientes Error tpico
0.746687947 1.08 0.772064576 2.164229861 Intercepcin 1.0100 0.0516
0.662687973 1.81 0.611261635 1.842754817 X -0.2203 0.0484
0.678033543 1.39 0.703778396 2.021375854
0.722705983 1.2 0.745631216 2.107771474
0.703097511 1.17 0.752239556 2.121746469
Comparacin de dos valores
de R
2
M. Lineal 0.6628
R Cuadrado Comparables
72
Mod. Semilog. 0.6787
Mod.Logar. 0.7187
El Modelo Logaritmico se ajusta mejor.
Si el Semilogaritmico es paraTasadeCrecimiento laVariablet comienzaen Cero.
13
Comparacin de dos valores
de R
2
Y AntilogLnY Correlacion
2.57 2.3171796 Y AntilogLnY
2.5 2.332543018 Y 1
il
DATOS
73
2.35 2.342841845 AntilogLnY 0.8239 1
2.3 2.33768676 R cuadrado 0.6787
2.25 2.322289462
2.2 2.327410594
2.11 2.164229861
1.94 1.842754817
1.97 2.021375854
2.06 2.107771474
2.02 2.121746469