Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIN LINEAL
MULTIVARIADA
Junio, 2010
F. VELA / J. F. ISLAS
Descripcin
En este curso se desarrollan tcnicas de
regresin lineal que permiten cuantificar
relaciones entre variables, contrastar hiptesis y
predecir valores futuros de ciertas variables en
funcin del modelo considerado.
F. VELA / J. F. ISLAS
Objetivos
Ofrecer los elementos bsicos vinculados a las
tcnicas de regresin lineal simple y mltiple
1
18/06/2010
F. VELA / J. F. ISLAS
Temario
Tema Contenido
1 Conceptos bsicos
2 Modelo de Regresin Lineal Simple
3 Modelo de Regresin Lineal Mltiple
4 El Modelo de Regresin Lineal Simple y Mltiple con Stata
5 Contrastes de restricciones lineales y prediccin
6 Errores en la especificacin
7 Multicolinealidad
8 Variables cualitativas
9 Diagnstico del modelo
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
2
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
3
18/06/2010
F. VELA / J. F. ISLAS
Tema 7. Multicolinealidad
1.- Multicolinealidad perfecta.
2.- Multicolinealidad de grado alto.
3.- Identificacin con Stata.
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
4
18/06/2010
F. VELA / J. F. ISLAS
Bibliografa
James y Mark W. Watson (2002). Kutner Michael H. et. al. (2005).
Introduction to Econometrics, Applied Linear Statistical Models,
Addison-Wesley-Pearson, Estados 5. ed., McGraw-Hill, Singapur.
Unidos. 330.18 / S8642in https://netfiles.umn.edu/users/nacht
http://wps.aw.com/aw_stock_ie_2/50 001/www/nachtsheim/5th/
/13016/3332253.cw/index.html
F. VELA / J. F. ISLAS
Metodologa
Se pone a disposicin de los alumnos un conjunto
de notas o lecturas que apoyan los contenidos del
curso.
mregresion.wordpress.com
F. VELA / J. F. ISLAS
Bases de datos
Applied Regression, Generalized Linear Models,
and Related Methods, Second Edition
http://socserv.socsci.mcmaster.ca/jfox/Books/App
lied-Regression-2E/datasets/index.html
Procedimiento:
1. Entrar a la pagina.
2. Guardar el archivo con extensin .txt
3. Agregar, si fuese necesario, la etiqueta de la variable
id para el identificador.
4. Utilizar el comando insheet de la siguiente manera
insheet using LOCALIZACIN/ARCHIVO.txt",
clear
5
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
6
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
Nominales
Escala de medicin Ordinales
Intervalo
Continuas
Dependiente(s)
Funcin en la investigacin
Independiente(s)
Conceptuales o abstractas
Grado de abstraccin Intermedias
Empricas u observables
F. VELA / J. F. ISLAS
7
18/06/2010
F. VELA / J. F. ISLAS
Qu es el anlisis de regresin?
Es una metodologa estadstica que es utiliza la
relacin entre dos o ms variables, de manera tal
que la variable de respuesta o de resultado, puede
ser predecida a partir de otra(s) variable(s).
F. VELA / J. F. ISLAS
Anlisis de regresin
Relacin funcional vs relacin estadstica.
Linealidad vs no linealidad
Seleccin de variables predictoras.
Forma funcional.
F. VELA / J. F. ISLAS
8
18/06/2010
F. VELA / J. F. ISLAS
Tipo de datos
Observacin SALA EDUCA EXPER SEXO EDO
Corte transversal
1 3.10 11 2 1 0
2 3.24 12 22 1 1 Un conjunto de
3 3.00 11 44 0 0 datos de una
. muestra de
.
.
individuos, hogares,
525 11.56 16 5 0 0
empresas, ciudades,
526 3.50 8 7 1 0 estados o pases
tomados en un
punto del tiempo en
particular.
O b s e rv a c i n Ao SALA EDUCA EXPER SEXO EDO Serie de tiempo
1 1950 3 .1 0 11 2 1 0
2 1951 3 .2 4 12 22 1 1 Observaciones de
3 1952 3 .0 0 11 44 0 0
. . . . . . . distintas variables
.
.
.
.
.
.
.
.
.
.
.
.
.
.
efectuadas en el
50 1999 1 1 .5 6 16 5 0 0 tiempo.
51 2000 3 .5 0 8 7 1 0
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
9
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
Actualmente, en el mercado se
encuentra la versin 11.
Su lenguaje computacional es C.
F. VELA / J. F. ISLAS
10
18/06/2010
F. VELA / J. F. ISLAS
Temas
Modelo de regresin lineal simple.
Estimaciones puntuales de los mnimos
cuadrados.
Estimaciones puntuales y predicciones
puntuales.
Suposiciones del modelo y el error estndar.
Prueba de significancia individual para la
pendiente y la ordenada al origen.
Intervalos de confianza y de prediccin.
Coeficientes de determinacin y correlacin
simples.
Una prueba F para el modelo.
F. VELA / J. F. ISLAS
Requisitos bsicos:
i) las variables dependiente (y) e independiente
(x) son mtricas;
ii) la relacin entre la variable dependiente (y) y
la variable independiente (x) es
aproximadamente en forma de una lnea
recta.
F. VELA / J. F. ISLAS
Diagrama
400
de
work
dispersin
300
observamos:
- tendencia positiva
200
- puntos dispersos
alrededor de la lnea
100
20 40 60 80 100 1 20
l ot
11
18/06/2010
F. VELA / J. F. ISLAS
Diagrama
de
dispersin
300
200
100
20 40 60 80 100 1 20
l ot
w o rk F it te d v al ue s
F. VELA / J. F. ISLAS
Diagrama
de
mortality
100
dispersin
50
0
0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0
g n pp c
F. VELA / J. F. ISLAS
12
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
SS xy
b1 =
SS xx
donde
xy
SS xy = (x i x )( y i y ) = xy i i
i
n
i
y
( x ) 2
SS xx = (x i x) =
2
n
i
13
18/06/2010
F. VELA / J. F. ISLAS
y = b0 + b1 x0
se predice = 0
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
14
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
SSE
s=
n2
n n
n n
SSE = ( yi y i ) = yi2 b0 yi + b1 xi yi
2
i =1 i =1 i =1 i =1
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Hiptesis nula: 1 = 0
nivel de significancia (0.10, 0.05, 0.01)
los valores p se basan en n-2 grados de libertad
Se rechaza la hiptesis nula si se cumple la
condicin de punto de rechazo de alguna de las
hiptesis alternativas, o si p <
15
18/06/2010
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Si se cumplen los supuestos de la regresin, entonces
la poblacin de todos los valores posibles de b1 es
normalmente distribuida con valor medio 1 y desviacin
estndar
b = 1
SS xx
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
y la poblacin de todos los valores posibles de la
estadstica de prueba t
b1
t=
sb1
tiene una distribucin t con n 2 grados de libertad.
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Condicin de
Hiptesis punto de Valor p
alternativa rechazo
16
18/06/2010
F. VELA / J. F. ISLAS
[b t[(
1
n2 )
s
/ 2 ] b1 ]
F. VELA / J. F. ISLAS
Intervalos de confianza y de
prediccin
F. VELA / J. F. ISLAS
Intervalos de confianza y de
prediccin
Si se cumplen las suposiciones de la regresin,
un intervalo de confianza de 100(1-)% para el
valor medio de y cuando la variable
independiente es x0 es
17
18/06/2010
F. VELA / J. F. ISLAS
1 + valor de distancia
La estimacin puntual es
s1 + valor de distancia
F. VELA / J. F. ISLAS
Intervalos de confianza y de
prediccin
F. VELA / J. F. ISLAS
Intervalos de confianza y de
prediccin
18
18/06/2010
F. VELA / J. F. ISLAS
Coeficientes de determinacin y
correlacin simples
En el caso del modelo de regresin lineal simple,
1. Variacin total = (yi-y)2
2. Variacin explicada = (yi-y)2
3. Variacin inexplicada = (yi-yi)2
4. Variacin total = Variacin explicada + Variacin inexplicada
5. El coeficiente de determinacin simple es
r2 = (variacin explicada)/(variacin total)
6. El r2 es la proporcin de la variacin total en los n valores
observados de la variable dependiente que explica el modelo de
regresin lineal simple
F. VELA / J. F. ISLAS
Coeficientes de determinacin y
correlacin simples
Coeficiente de correlacin simple (r) entre y y x
si b1 > 0 r = + r
2
si b1 < 0 r = r 2
donde b1 es la pendiente de la recta de
mnimos cuadrados que relaciona y con x.
Este coeficiente de correlacin mide la fuerza
de la relacin lineal entre y y x.
F. VELA / J. F. ISLAS
Coeficientes de determinacin y
correlacin simples
Tambin se puede calcular mediante la
frmula
SS xy
r=
SS xx SS yy
19
18/06/2010
F. VELA / J. F. ISLAS
Coeficientes de determinacin y
correlacin simples
La correlacin de la poblacin de todas las
combinaciones posibles de valores observados
de x e y se denomina .
Para probar la hiptesis nula H0: = 0,
utilizamos la estadstica de prueba
r n2
t=
1 r2
F. VELA / J. F. ISLAS
F(modelo)>F[]
Valor p <
F. VELA / J. F. ISLAS
20
18/06/2010
y = y|x1 , x2 ,...,xk = 0 + 1 x1 + 2 x2 + L + k xk +
Parmetros: 0, 1, 2, ..., k
Trmino de error:
21
18/06/2010
F. VELA / J. F. ISLAS
Ejemplo
El gerente de una compaa desea evaluar el desempeo
de su fuerza de ventas en el territorio de actuacin.
Recopila informacin sobre cinco variables, que segn su
criterio, podran ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresin lineal:
F. VELA / J. F. ISLAS
22
18/06/2010
Se predice = 0
Esta ecuacin se llama la ecuacin de regresin o de
prediccin de mnimos cuadrados
= ( X ' X )1 X ' Y
donde donde
y1 1 x11 ... xk 1 0
y 1 x ... xk 2
Y = 2 X = 12
= 1
... ... ... ... ... ...
yn 1 x1n ... xkn k
23
18/06/2010
F. VELA / J. F. ISLAS
Ejemplo 4.2
Matriz de diagramas de dispersin
0 20 0 4 00 0 5 000 1 00 00
6 00 0
sa les 4 00 0
2 00 0
4 00
2 00 tim e
0
8 00 00
6 00 00
m k tp ote n
4 00 00
2 00 00
1 00 00
5 00 0 a dv e r
0
15
10
m k ts h a re
5
0
2 00 0 4 000 60 00 2 00 00 40 000 6 000 0 8 00 00 0 5 10 15
F. VELA / J. F. ISLAS
Estimadores MCO
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------
SCE
=
nk
24
18/06/2010
F. VELA / J. F. ISLAS
R2 Ajustada
k 1 n 1
R 2 = R2
n 1 n k
donde
F (mod elo) =
(Variacin _ exp licada) /(k 1)
(Variacin _ in exp licada ) / [ n k ]
25
18/06/2010
bj
t=
ee( b j )
Condicin de
Hiptesis punto de
rechazo Valor p
alternativa
26
18/06/2010
j t (n / 2k )ee( j )
[ ]
Valor de distancia.
27
18/06/2010
F. VELA / J. F. ISLAS
Tpicos
Modelo de regresin cuadrtica.
Trminos de interaccin.
Uso de variables ficticias para modelar variables
independientes cualitativas.
x x x
y|x y|x y|x
x x x
28
18/06/2010
Interaccin
Se introduce un trmino de interaccin cuando
se cree que una variable (xi) influye en la
relacin entre otra variable (xj) independiente y
la variable dependiente, y.
y = 0 + 1 x1 + 2 x2 + 3 x1 x2 +
F. VELA / J. F. ISLAS
Toman el valor de 1 o 0.
Ejemplo
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dlares), tanto el nmero de hogares
alrededor del rea de las tiendas, x, (en miles),
as como la ubicacin de las tiendas, D, ya sea
que ests se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (ntese que D es
una variable cualitativa).
29
18/06/2010
y = 0 + 1 x + 2 DM + 3 DD +
donde se define
30
18/06/2010
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------
H0: 2=3=0
Ha: por lo menos una de 2 y 3 0
Modelo
completo y = 0 + 1 x1 + 2 x2 + 3 x3 + c
Modelo
reducido y = 0 + 1 x1 + R
31
18/06/2010
(SCER SCEC )/ [ k g]
F=
SCEC / [ n (k +1)]
donde
k= nmero de variables independientes del modelo
completo.
g= nmero de coeficientes del modelo reducido
y = 0 + 1 x1 + 2 DM + 3 DD +
esto es
Tema 7: Multicolinealidad
32
18/06/2010
Temas
Multicolinealidad.
Comparacin de los modelos de regresin.
con base en R2, , R2 ajustada, longitud del
intervalo de prediccin y estadstica Cp.
Regresin por pasos y eliminacin hacia
atrs.
Multicolinealidad
Las variables independientes estn relacionadas
entre s o dependen una de otra.
No se trata de un problema de presencia o
ausencia sino de grado.
Cuando existe la multicolinealidad entre dos o ms
variables independientes, la principal consecuencia
es que se dificulta o impide obtener estimaciones
precisas de los efectos individuales de cada variable
independiente sobre la dependiente.
Infla los valores de los errores estndar de j
estimados.
Identificacin de la multicolinealidad
Son varias la formas que pueden utilizarse para
identificar un alto grado de multicolinealidad.
La ms sencilla es utilizando la matriz de
correlacin.
- La multicolinealidad es fuerte si por lo menos uno de los
coeficientes de correlacin simple entre las variables
independientes es mayor o igual a 0.9.
33
18/06/2010
y= sales.
x1= time.
x2= mktpoten.
x3= adver.
x4 = mktshare.
x5 = change.
x6= cantidad de cuentas que maneja el representante
(accts).
x7= carga de trabajo promedio (wkload).
x6= calificacin sobre desempeo (rating).
= termino de error aleatorio.
34
18/06/2010
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 2.009566 1.930654 1.04 0.313 -2.083238 6.10237
mktpoten | .0372049 .0082023 4.54 0.000 .0198168 .054593
adver | .1509889 .0471085 3.21 0.006 .0511233 .2508545
mktshare | 199.0236 67.02793 2.97 0.009 56.9307 341.1164
change | 290.8551 186.782 1.56 0.139 -105.105 686.8153
accts | 5.550961 4.77555 1.16 0.262 -4.572753 15.67467
wkload | 19.79389 33.6767 0.59 0.565 -51.59751 91.1853
rating | 8.189297 128.5056 0.06 0.950 -264.2304 280.609
_cons | -1507.814 778.635 -1.94 0.071 -3158.446 142.8186
------------------------------------------------------------------------------
35
18/06/2010
1
o bien TOL =
VIF
Si TOL cercano a cero existe alta
multicolinealidad.
36
18/06/2010
Transformacin de variables.
Matriz de correlacin
pwcorr ,sig star (.05)
37
18/06/2010
Regresin
regress pts gp min ast stl blk to pf
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0047026 .0188224 -0.25 0.807 -.0461304 .0367252
min | .5114093 .1219865 4.19 0.002 .2429189 .7798997
ast | -1.328452 .5149655 -2.58 0.026 -2.461884 -.195021
stl | -3.415964 1.785418 -1.91 0.082 -7.345643 .5137151
blk | -3.566664 1.525258 -2.34 0.039 -6.923734 -.2095937
to | 4.267745 1.98899 2.15 0.055 -.1099917 8.645483
pf | .7377111 .9262618 0.80 0.443 -1.300978 2.7764
_cons | -2.401254 .9950284 -2.41 0.034 -4.591296 -.2112107
------------------------------------------------------------------------------
VIF
vif
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0038181 .029044 -0.13 0.898 -.0670995 .0594632
ast | -.8901853 .7781226 -1.14 0.275 -2.585569 .8051982
stl | -.1718016 2.482941 -0.07 0.946 -5.581665 5.238061
blk | -.5166832 2.068707 -0.25 0.807 -5.024009 3.990642
to | 9.904448 2.261829 4.38 0.001 4.976347 14.83255
pf | .8968988 1.42816 0.63 0.542 -2.214794 4.008592
_cons | -3.404519 1.490409 -2.28 0.041 -6.651841 -.1571964
------------------------------------------------------------------------------
38
18/06/2010
vif
Construccin de modelos
Qu hay que hacer para encontrar un modelo
adecuado?
Son diversos los criterios que la literatura
seala para elegir entre modelos rivales.
Dos (o ms) modelos son rivales si estos
presentan la misma variable dependiente
aunque las variables independientes no sean
las mismas.
Ejemplo:
sales= 0 +1time+8 rating+1
sales= 0 +1time+ 2 mktpoten+ 4 wkload+ 2
39
18/06/2010
Primer criterio
R2 al el nmero de variables
Segundo criterio
SCE
=
nk
Tercer criterio
k + 1 n 1
R 2 = R2
n 1 n k
40
18/06/2010
Cuarto criterio
Cuarto criterio
SSE
C = [ n 2k]
2p
41
18/06/2010
Paso 1.
Una vez cargado el archivo t5-1 sales territory
complete.dta, escribir en la ventana de comandos
findit rsquare, entrar dentro de la seccin
Web resources from Stata and other users a
rsquare from
http://www.ats.ucla.edu/stat/stata/ado/analysis
Paso 2.
Estimar el modelo: sales vs. time mktpoten
adver mktshare change accts wkload
rating.
Paso 3.
Despus de la estimacin, se escribe en la
ventana de comandos:
rsquare sales time mktpoten adver
mktshare change accts wkload rating
y se obtiene:
42
18/06/2010
43
18/06/2010
44
18/06/2010
Mtodos computacionales
Regresin por pasos
Se especifican entry y stay
Paso 1:
1. se corre una regresin para cada variable independiente.
2. Se denomina a la variable con el mayor valor de la estadstica t,
x[1]
3. Si la estadstica t no indica que x[1] sea significante en el nivel
entry, el procedimiento termina. Si es significante, se conserva
para usarla en el paso 2.
45
18/06/2010
Temas
grficas de residuos y pruebas nmericas.
suposicin de la normalidad.
suposicin de varianza constante.
suposicin de la forma funcional correcta.
suposicin de independencia.
transformacin de la variable dependiente.
46
18/06/2010
e = y y
Si las suposiciones de la regresin se mantienen, los
residuos deben parecer que han sido seleccionados
en forma aleatoria e independiente de poblaciones
distribuidas normalmente cuya media es 0 y su
varianza es 2
47
18/06/2010
kdensity r, normal
48
18/06/2010
n (C 3)2
JB = A2 +
6 4
19 2 (0.785 3)
2
JB = 0.905 +
6 4
49
18/06/2010
50
18/06/2010
51
18/06/2010
t[(.n005
(k + 2 ))
]
52
18/06/2010
53