Está en la página 1de 53

18/06/2010

TALLERES DE VERANO EN MTODOS DE INVESTIGACIN


EN POBLACIN Y TERRITORIO

REGRESIN LINEAL
MULTIVARIADA

Fortino Vela Pen Juan F. Islas Aguirre


fvela@correo.xoc.uam.mx jfislas@correo.xoc.uam.mx

Junio, 2010

F. VELA / J. F. ISLAS

Descripcin
 En este curso se desarrollan tcnicas de
regresin lineal que permiten cuantificar
relaciones entre variables, contrastar hiptesis y
predecir valores futuros de ciertas variables en
funcin del modelo considerado.

 El curso tiene un carcter aplicado y se aprende


a utilizar Stata.

F. VELA / J. F. ISLAS

Objetivos
 Ofrecer los elementos bsicos vinculados a las
tcnicas de regresin lineal simple y mltiple

 Dotar del manejo bsico del Stata para poder


llevar a cabo un anlisis emprico basado en los
conocimientos tericos adquiridos.

1
18/06/2010

F. VELA / J. F. ISLAS

Temario
Tema Contenido
1 Conceptos bsicos
2 Modelo de Regresin Lineal Simple
3 Modelo de Regresin Lineal Mltiple
4 El Modelo de Regresin Lineal Simple y Mltiple con Stata
5 Contrastes de restricciones lineales y prediccin
6 Errores en la especificacin
7 Multicolinealidad
8 Variables cualitativas
9 Diagnstico del modelo

F. VELA / J. F. ISLAS

Tema 1. Conceptos bsicos


1.- Introduccin.
2.- Qu es el anlisis de regresin (lineal)?
3.- Preeliminares estadsticos.
4.- Anlisis de datos: introduccin a Stata

F. VELA / J. F. ISLAS

Tema 2. Modelo de regresin lineal


simple (MRLS)
1.- Introduccin.
2.- Elementos del modelo de regresin simple.
3.- Supuestos del modelo.
4.- Estimacin por mnimos cuadrados
ordinarios.
5.- Contrastes de hiptesis e intervalos de
confianza.
6.- Resumen y ejemplos.

2
18/06/2010

F. VELA / J. F. ISLAS

Tema 4. MRLS y MRLM con Stata


1. Ejemplo
2. Estimacin por mnimos cuadrados ordina-
rios utilizando Stata
3. Anlisis de los resultados mostrados
4. Bondad de ajuste y seleccin de modelos
5. Contrastes de hiptesis e intervalos de
confianza con Stata.
6. Presentacin de los resultados.

F. VELA / J. F. ISLAS

Tema 5. Contrastes de restricciones


lineales y prediccin
1.- Contrastes de restricciones lineales.
2.- Contrastes utilizando Stata.
3.- Estimacin bajo restricciones lineales.
4.- Estadsticos equivalentes.
5.- Prediccin.

F. VELA / J. F. ISLAS

Tema 6. Errores de especificacin


1.- Introduccin.
2.- Efectos de omisin de variables relevan-
tes.
3.- Efectos de inclusin de variables irrele-
vantes.

3
18/06/2010

F. VELA / J. F. ISLAS

Tema 7. Multicolinealidad
1.- Multicolinealidad perfecta.
2.- Multicolinealidad de grado alto.
3.- Identificacin con Stata.

F. VELA / J. F. ISLAS

Tema 8. Variables cualitativas


1.- Introduccin. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o ms variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementacin en Stata.

F. VELA / J. F. ISLAS

Tema 9. Diagnstico del modelo


1.- Introduccin. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o ms variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementacin en Stata.

4
18/06/2010

F. VELA / J. F. ISLAS

Bibliografa
James y Mark W. Watson (2002). Kutner Michael H. et. al. (2005).
Introduction to Econometrics, Applied Linear Statistical Models,
Addison-Wesley-Pearson, Estados 5. ed., McGraw-Hill, Singapur.
Unidos. 330.18 / S8642in https://netfiles.umn.edu/users/nacht
http://wps.aw.com/aw_stock_ie_2/50 001/www/nachtsheim/5th/
/13016/3332253.cw/index.html

Gujarati, Damodar y Dawn Porter Fox, John (2008). Applied


(2010). Econometra, 5. ed., Regression Analysis and
McGraw-Hill, Mxico. 330.18/ Generalized Linear Models, 2.
G969e/1997 ed., Sage, Estados Unidos.
http://highered.mcgraw- http://socserv.socsci.mcmaster.ca/jfo
hill.com/sites/0073375772/student_v x/Books/Applied-Regression-
iew0/data_sets.html 2E/datasets/index.html

Bowerman, Bruce L.; Richard T.


OConnell et al. (2007).
Pronsticos, series de tiempo y
regresin: Un enfoque aplicado,
CENGAGE, Mxico.
http://www.cengage.com.mx/Book_d
etail.php?ISBN=9789706866066

F. VELA / J. F. ISLAS

Metodologa
 Se pone a disposicin de los alumnos un conjunto
de notas o lecturas que apoyan los contenidos del
curso.

 mregresion.wordpress.com

 Preferentemente se emplearan datos disponibles


para su utilizacin en el programa Stata.

F. VELA / J. F. ISLAS

Bases de datos
 Applied Regression, Generalized Linear Models,
and Related Methods, Second Edition
 http://socserv.socsci.mcmaster.ca/jfox/Books/App
lied-Regression-2E/datasets/index.html
 Procedimiento:
1. Entrar a la pagina.
2. Guardar el archivo con extensin .txt
3. Agregar, si fuese necesario, la etiqueta de la variable
id para el identificador.
4. Utilizar el comando insheet de la siguiente manera
insheet using LOCALIZACIN/ARCHIVO.txt",
clear

5
18/06/2010

F. VELA / J. F. ISLAS

Tema 1. Conceptos bsicos

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

6
18/06/2010

F. VELA / J. F. ISLAS

F. VELA / J. F. ISLAS

Clasificacin de las variables


Discretas
 Nivel de medicin
Continuas

Nominales
 Escala de medicin Ordinales
Intervalo
Continuas
Dependiente(s)
 Funcin en la investigacin
Independiente(s)

Conceptuales o abstractas
 Grado de abstraccin Intermedias
Empricas u observables

F. VELA / J. F. ISLAS

Escalas de medicin de las variables


 Nominales: nombres o clasificaciones que se utilizan
para datos en categoras distintas y separadas.

 Ordinales: son las que clasifican las observaciones en


categoras con un orden significativo.

 Intervalo: medidas numricas en la cual el valor cero es


arbitrario pero la diferencia entre valores es importante.

 Razn: medidas numricas en las cuales el valor cero es


un valor fijo y la diferencia entre valores es importante.

7
18/06/2010

F. VELA / J. F. ISLAS

Qu es el anlisis de regresin?
 Es una metodologa estadstica que es utiliza la
relacin entre dos o ms variables, de manera tal
que la variable de respuesta o de resultado, puede
ser predecida a partir de otra(s) variable(s).

 Es una herramienta utilizada en distintas reas del


conocimiento.

 Sirve tambin como medio en la contrastacin de


hiptesis y/o teoras con la realidad a travs de
modelos estadsticos.

F. VELA / J. F. ISLAS

Anlisis de regresin
 Relacin funcional vs relacin estadstica.
 Linealidad vs no linealidad
 Seleccin de variables predictoras.
 Forma funcional.

F. VELA / J. F. ISLAS

Estrategia del anlisis de regresin

Fuente: Kutner et. al (2005:14)

8
18/06/2010

F. VELA / J. F. ISLAS

Tipo de datos
Observacin SALA EDUCA EXPER SEXO EDO
 Corte transversal
1 3.10 11 2 1 0
2 3.24 12 22 1 1 Un conjunto de
3 3.00 11 44 0 0 datos de una
. muestra de
.
.
individuos, hogares,
525 11.56 16 5 0 0
empresas, ciudades,
526 3.50 8 7 1 0 estados o pases
tomados en un
punto del tiempo en
particular.
O b s e rv a c i n Ao SALA EDUCA EXPER SEXO EDO  Serie de tiempo
1 1950 3 .1 0 11 2 1 0
2 1951 3 .2 4 12 22 1 1 Observaciones de
3 1952 3 .0 0 11 44 0 0
. . . . . . . distintas variables
.
.
.
.
.
.
.
.
.
.
.
.
.
.
efectuadas en el
50 1999 1 1 .5 6 16 5 0 0 tiempo.
51 2000 3 .5 0 8 7 1 0

F. VELA / J. F. ISLAS

Observacin Ao PRECASA ANTI CUARTOS AREA  Panel


1 1993 85,500 42 3 1
2 1993 67,300 36 3 0 Es la combinacin
3 1993 134,000 10 4 1
. . . . . . de datos de corte
. . . . . .
. . . . . . transversal con
250
251
1993
1995
243,600
65,000
4
44
4
3
0
1
datos en series de
252 1995 182,400 38 3 0 tiempo donde tienen
. . . . . .
. . . . . . como caracterstica
. . . . . .
520 1995 57,200 16 4 0 principal que las
unidades de
observacin son
siempre los mismos.

F. VELA / J. F. ISLAS

 Stata es una herramienta computacional diseada para realizar


anlisis estadstico la cual fue creada en 1985 por StataCorp.

 El denominativo de Stata es una abreviacin de las palabras


Statistics" y "data ".

 Actualmente es utilizado tanto en instituciones acadmicas como


en empresas donde sus usuarios se ubican en las reas de la
economa, sociologa, ciencia poltica, ciencias de la salud y
epidemiologa.

9
18/06/2010

F. VELA / J. F. ISLAS

 Sus capacidades incluyen :

- Manejo y organizacin de datos


- Graficacin.
- Anlisis estadstico .
- Simulacin.
- Programacin de tareas.

F. VELA / J. F. ISLAS

Actualmente, en el mercado se
encuentra la versin 11.

Su lenguaje computacional es C.

Existen versiones para


plataformas en Windows, Mac,
UNIX y LINUX.

F. VELA / J. F. ISLAS

Tema 2. El modelo de regresin lineal


simple (MRSL)

10
18/06/2010

F. VELA / J. F. ISLAS

Temas
 Modelo de regresin lineal simple.
 Estimaciones puntuales de los mnimos
cuadrados.
 Estimaciones puntuales y predicciones
puntuales.
 Suposiciones del modelo y el error estndar.
 Prueba de significancia individual para la
pendiente y la ordenada al origen.
 Intervalos de confianza y de prediccin.
 Coeficientes de determinacin y correlacin
simples.
 Una prueba F para el modelo.

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple

 Requisitos bsicos:
i) las variables dependiente (y) e independiente
(x) son mtricas;
ii) la relacin entre la variable dependiente (y) y
la variable independiente (x) es
aproximadamente en forma de una lnea
recta.

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


600
500

Diagrama
400

de
work

dispersin
300

observamos:
- tendencia positiva
200

- puntos dispersos
alrededor de la lnea
100

20 40 60 80 100 1 20
l ot

Fuente: Kutner et. al. (2005:19).

11
18/06/2010

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


600
500
400

Diagrama
de
dispersin
300
200
100

20 40 60 80 100 1 20
l ot

w o rk F it te d v al ue s

Fuente: Kutner et. al. (2005:19).

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


200
150

Diagrama
de
mortality
100

dispersin
50
0

0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0
g n pp c

Fuente: Fox (2008: 62).

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


y = y|x + = 0 + 1x +
donde

y|x = 0 + 1x es el valor medio de la variable dependiente y

cuando el valor de la variable independiente es x.


0 = ordenada al origen (valor medio de y cuando x = 0)
1 = pendiente ( valor medio de y cuando x una unidad)

es un trmino de error: describe los efectos de todos los


factores no incluidos en el modelo

12
18/06/2010

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


 Si 0 = 62.37 y 1 = 3.57, entonces cuando
lot = 60, el valor medio estimado de horas
trabajadas
y|x = 0 + 1x = 62.36586 + 3.570202(65)

= 294.4 horas trabajadas.

F. VELA / J. F. ISLAS

Modelo de regresin lineal simple


 0 y 1 se llaman parmetros de regresin.
 Ya que no conocemos los valores reales de
0 y 1 , debemos estimarlos con los datos de
la muestra.
 La interpretacin de 0 en ocasiones no es
aplicable.
 Importante: observamos que estas variables
se mueven juntas, mas no podemos deducir
claramente una relacin causa-efecto.

F. VELA / J. F. ISLAS

Estimaciones puntuales de los mnimos


cuadrados
 Estimacin puntual de los mnimos cuadrados de la pendiente 1

SS xy
b1 =
SS xx
donde
xy
SS xy = (x i x )( y i y ) = xy i i
i

n
i

y
( x ) 2

SS xx = (x i x) =
2

n
i

13
18/06/2010

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones


puntuales
 Estimacin puntual del valor medio de la variable
dependiente cuando el valor de la variable
independiente es x0

y = b0 + b1 x0
 se predice = 0

F. VELA / J. F. ISLAS

Estimaciones puntuales y predicciones


puntuales
 Se puede demostrar que estas estimaciones puntuales
dan un valor de la suma de los errores cuadrticos
(SSE) que es menor que la que se obtiene con
cualesquiera otros valores de b0 y b1. Se les llaman
estimaciones puntuales de los mnimos cuadrados.
 La recta se llama recta de regresin de mnimos
cuadrados
 La ecuacin se llama ecuacin de prediccin de
mnimos cuadrados.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estndar
 Suposiciones
1. A cualquier valor dado de x, la media de la poblacin de los
valores potenciales del trmino error es igual a cero.
2. Suposicin de varianza constante. A cualquier valor dado
de x, tiene una varianza que no depende del valor de x.
3. Suposicin de normalidad. A cualquier valor dado de x,
tiene una distribucin normal.
4. Suposicin de independencia. Cualquier valor del trmino
error es estadsticamente independiente de cualquier otro
valor de .

14
18/06/2010

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estndar
 En otras palabras

dado un valor de x, la poblacin de valores potenciales


del trmino de error tiene una distribucin normal, con
valor medio 0 y varianza 2 que no depende de x.

La poblacin de valores potenciales de y|x tiene


distribucin normal con valor medio de 0 + 1x y
varianza 2 que no depende de x.

Es ms probable que la suposicin de independencia se


viole cuando se utilizan series de tiempo en un estudio
de regresin.

F. VELA / J. F. ISLAS

Suposiciones del modelo y el error


estndar
 Error cuadrtico medio = estimacin puntual
de 2
SSE
s2 = vary|x
n2
 error estndar = estimacin puntual de

SSE
s=
n2
n n
n n

SSE = ( yi y i ) = yi2 b0 yi + b1 xi yi
2

i =1 i =1 i =1 i =1

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen

 Hiptesis nula: 1 = 0
 nivel de significancia (0.10, 0.05, 0.01)
 los valores p se basan en n-2 grados de libertad
 Se rechaza la hiptesis nula si se cumple la
condicin de punto de rechazo de alguna de las
hiptesis alternativas, o si p <

15
18/06/2010

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
 Si se cumplen los supuestos de la regresin, entonces
la poblacin de todos los valores posibles de b1 es
normalmente distribuida con valor medio 1 y desviacin
estndar

b = 1
SS xx

cuya estimacin puntual es


s
sb1 =
SS xx

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
y la poblacin de todos los valores posibles de la
estadstica de prueba t

b1
t=
sb1
tiene una distribucin t con n 2 grados de libertad.

F. VELA / J. F. ISLAS

Prueba de la significancia de la
pendiente y la ordenada al origen
Condicin de
Hiptesis punto de Valor p
alternativa rechazo

Ha : 1 0 | t |> t[(n / 22]) 2 (rea bajo la curva t a


la derecha de |t|)
Ha : 1 > 0 t > t[(n]2 ) rea bajo la curva t a la
derecha de t
Ha : 1 < 0 t < t[(n ]2 ) rea bajo la curva t a la
izquierda de t

16
18/06/2010

F. VELA / J. F. ISLAS

Intervalos de confianza y de prediccin

 Si se cumplen las suposiciones de la regresin,


un intervalo de confianza de 100(1-)% para la
pendiente verdadera 1 es

[b t[(
1
n2 )
s
/ 2 ] b1 ]

F. VELA / J. F. ISLAS

Intervalos de confianza y de
prediccin

 Si se cumplen las suposiciones de la regresin,


un valor de distancia (v.d.) para un valor
particular x0 de x (para la regresin lineal simple)
es
1 (x x )
2
v.d . = + 0
n SS xx

F. VELA / J. F. ISLAS

Intervalos de confianza y de
prediccin
 Si se cumplen las suposiciones de la regresin,
un intervalo de confianza de 100(1-)% para el
valor medio de y cuando la variable
independiente es x0 es

y t[(n/ 22])s v.d .

17
18/06/2010

F. VELA / J. F. ISLAS

Intervalos de confianza y de prediccin


 La poblacin de todos los errores posibles de
prediccin est normalmente distribuida con media
cero y desviacin estndar

1 + valor de distancia

 La estimacin puntual es

s1 + valor de distancia

 Se llama error estndar del error de prediccin

F. VELA / J. F. ISLAS

Intervalos de confianza y de
prediccin

 Si se cumplen las suposiciones de la regresin,


un intervalo de prediccin 100(1-)% para un
valor individual de y cuando la variable
independiente es x0 es

y t[(n / 22])s 1 + v.d .

F. VELA / J. F. ISLAS

Intervalos de confianza y de
prediccin

 Ntese que el intervalo de prediccin es mayor


que el intervalo de confianza: mayor
incertidumbre acerca del trmino de error.

 Entre ms alejado del valor medio es xi, mayores


son los intervalos de confianza y de prediccin.

18
18/06/2010

F. VELA / J. F. ISLAS

Coeficientes de determinacin y
correlacin simples
 En el caso del modelo de regresin lineal simple,
1. Variacin total = (yi-y)2
2. Variacin explicada = (yi-y)2
3. Variacin inexplicada = (yi-yi)2
4. Variacin total = Variacin explicada + Variacin inexplicada
5. El coeficiente de determinacin simple es
r2 = (variacin explicada)/(variacin total)
6. El r2 es la proporcin de la variacin total en los n valores
observados de la variable dependiente que explica el modelo de
regresin lineal simple

F. VELA / J. F. ISLAS

Coeficientes de determinacin y
correlacin simples
Coeficiente de correlacin simple (r) entre y y x
 si b1 > 0 r = + r
2

 si b1 < 0 r = r 2
 donde b1 es la pendiente de la recta de
mnimos cuadrados que relaciona y con x.
Este coeficiente de correlacin mide la fuerza
de la relacin lineal entre y y x.

F. VELA / J. F. ISLAS

Coeficientes de determinacin y
correlacin simples
 Tambin se puede calcular mediante la
frmula
SS xy
r=
SS xx SS yy

19
18/06/2010

F. VELA / J. F. ISLAS

Coeficientes de determinacin y
correlacin simples
 La correlacin de la poblacin de todas las
combinaciones posibles de valores observados
de x e y se denomina .
 Para probar la hiptesis nula H0: = 0,
utilizamos la estadstica de prueba

r n2
t=
1 r2

F. VELA / J. F. ISLAS

Prueba F para el modelo


Estadstica F global
Variacin inexplicada
F(modelo) =
(Variacin explicada)/(n-2)

Podemos rechazar H0:1=0 y aceptar Ha: 10 en el nivel de significan-


cia si se cumple alguna de:

F(modelo)>F[]
Valor p <

En el punto F[] se basa en 1 grado de libertad para el numerador y n-2


grados de libertad para el denominador.

F. VELA / J. F. ISLAS

Tema 3. Modelo de regresin


lineal mltiple (MRLS)

20
18/06/2010

Modelo de Regresin Lineal Mltiple

 Se emplean ms de una variable independiente.


 Relaciona y con x1, x2, ..., xk
 Modelo:

y = y|x1 ,x2 ,...,xk + = 0 + 1x1 + 2 x2 +L+ k xk +

 Valor medio de y cuando los valores de las variables


independientes son x1, x2, ..., xk :

y = y|x1 , x2 ,...,xk = 0 + 1 x1 + 2 x2 + L + k xk +

 Parmetros: 0, 1, 2, ..., k
 Trmino de error:

 Suposiciones del modelo de regresin lineal:

1. Para cualquier combinacin dada de valores de x1, x2, ..., xk ,


la media de la poblacin de los valores potenciales de = 0.
2. Varianza constante del error.
3. Normalidad de errores.
4. Independencia de los errores.
5. Ninguna relacin entre las variables independientes.

21
18/06/2010

F. VELA / J. F. ISLAS

Ejemplo
El gerente de una compaa desea evaluar el desempeo
de su fuerza de ventas en el territorio de actuacin.
Recopila informacin sobre cinco variables, que segn su
criterio, podran ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresin lineal:

yi = 0 + 1 x1i + 2 x2i + 3 x3i + 4 x4i + 5 x5i + i

F. VELA / J. F. ISLAS

y= ventas anuales en miles de dlares (sales).

x1= nmero de meses de empleado en la compaa (time).

x2= ventas del producto de la compaa y productos de la


competencia en el territorio (mktpoten).

x3= gasto en publicidad (adver).

x4 = promedio ponderado de la participacin en el mercado


de la compaa en el territorio en los ltimos cuatro aos
(mktshare).

x5=cambio en la participacin en el mercado de la compaa


en el territorio en los ltimos cuatro aos (change).
= termino de error aleatorio.

Interpretacin geomtrica del modelo de regresin

 Regin experimental: combinaciones de los valores


observados de x1, x2, ..., xk
 Plano de medias

22
18/06/2010

Interpretacin de los parmetros de


regresin 0, 1,..., k
 Los parmetros relacionan la media de la variable dependiente
con las variables independientes en un sentido global.

 0 : ordenada al origen (valor de y cuando x1=x2=xk=0).

 i : cambio en la variable dependiente asociado con el incremento


de una unidad de la variable xi manteniendo las k-1 variables
restantes sin cambio alguno ( i=1,2,...,k-1).

Estimacin de mnimos cuadrados:


estimacin puntual y prediccin
 Estimacin puntual del valor medio y de un valor
individual de la variable dependiente y cuando los
valores de las variables independientes son x01, x02,
..., x0k .
y = b0 + b1 x01 + b2 x02 + L + bk x0 k

 Se predice = 0
 Esta ecuacin se llama la ecuacin de regresin o de
prediccin de mnimos cuadrados

Estimadores MCO utilizando algebra


matricial

= ( X ' X )1 X ' Y
donde donde

y1 1 x11 ... xk 1 0
y 1 x ... xk 2
Y = 2 X = 12
= 1
... ... ... ... ... ...

yn 1 x1n ... xkn k

23
18/06/2010

F. VELA / J. F. ISLAS

Ejemplo 4.2
Matriz de diagramas de dispersin
0 20 0 4 00 0 5 000 1 00 00

6 00 0

sa les 4 00 0

2 00 0
4 00

2 00 tim e

0
8 00 00

6 00 00
m k tp ote n
4 00 00

2 00 00
1 00 00

5 00 0 a dv e r

0
15

10
m k ts h a re
5

0
2 00 0 4 000 60 00 2 00 00 40 000 6 000 0 8 00 00 0 5 10 15

F. VELA / J. F. ISLAS

Estimadores MCO

Source | SS df MS Number of obs = 25


-------------+------------------------------ F( 5, 19) = 40.91
Model | 37862661 5 7572532.21 Prob > F = 0.0000
Residual | 3516890.29 19 185099.489 R-squared = 0.9150
-------------+------------------------------ Adj R-squared = 0.8926
Total | 41379551.3 24 1724147.97 Root MSE = 430.23

------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------

Error Cuadrtico Medio y Error Estndar

 Una estimacin puntual de 2 es el error cuadrtico


medio:
SCE
2 =
nk

 Una estimacin puntual de es el error estndar:

SCE
=
nk

24
18/06/2010

F. VELA / J. F. ISLAS

Utilidad del Modelo: R2, R2 Ajustada y la


Prueba F Global
 En el caso del modelo de2 regresin lineal mltiple,
1. Variacin total = (Yi Y )
Variacin explicada = (Yi Y ) 2
2
2.
3. (
Variacin inexplicada = Yi Yi)
4. Variacin total = Variacin explicada + Variacin inexplicada
5. El coeficiente de determinacin mltiple es
R2 = (variacin explicada)/(variacin total)
6. El R2 es la proporcin de la variacin total de los valores
observados de la variable dependiente que es explicada por
las variables independientes incluidas en el modelo de
regresin.
7. Coeficiente de correlacin mltiple: R = R2

 R2 Ajustada

k 1 n 1
R 2 = R2
n 1 n k
donde

R2 es el coeficiente de determinacin mltiple


n es la cantidad de observaciones y
k es la cantidad de coeficientes estimados en el modelo

Prueba F de significancia global


 H0: 0 = 1 = 2 =... = k = 0
 Ha: por lo menos uno de los 0, 1, 2, ..., k 0
 Estadstica F global:

F (mod elo) =
(Variacin _ exp licada) /(k 1)
(Variacin _ in exp licada ) / [ n k ]

25
18/06/2010

 Se puede rechazar H0 y aceptar Ha en el nivel de


significancia si se mantiene alguna de las condiciones
siguientes:
 Estadstica F (modelo) > F[]
donde el punto F[] se basa en k-1 grados de libertad
para el numerador y n-k para el denominador.
 valor p (de F) <

Prueba de significancia individual


 Defina la estadstica de una prueba

bj
t=
ee( b j )

y asuma que las suposiciones de regresin se


mantienen.

Condicin de
Hiptesis punto de
rechazo Valor p
alternativa

Ha : j 0 | t |> t[(n /2( k] +1)) 2 (rea bajo la curva t a


la derecha de |t|)

Ha : j > 0 t > t[(n ] (k +1)) rea bajo la curva t a la


derecha de t

Ha : j < 0 t < t[(n ] (k +1)) rea bajo la curva t a la


izquierda de t

26
18/06/2010

Intervalo de Confianza para j


 Si se cumplen las suposiciones de la regresin,
un intervalo de confianza de 100(1-)% para el
parmetro de regresin j es

j t (n / 2k )ee( j )
[ ]

Intervalos de Confianza para valores


esperados y de prediccin
 Para calcular el valor de distancia en un modelo
de regresin mltiple, se requiere de lgebra de
matrices.

 Valor de distancia.

Valor de distancia = x0' ( X ' X ) 1 x0

donde x0= [1 x01 x02 ... x0 k ]

 Si se cumplen las suposiciones de la regresin,


un intervalo de confianza de 100(1-)% para el
valor medio de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es

y t[(n / 2k]) v.d .

27
18/06/2010

 Si se cumplen las suposiciones de la regresin,


un intervalo de prediccin 100(1-)% para un
valor individual de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es

y t[( / 2]) s 1 + v.d .


nk

F. VELA / J. F. ISLAS

Tpicos
 Modelo de regresin cuadrtica.
 Trminos de interaccin.
 Uso de variables ficticias para modelar variables
independientes cualitativas.

Modelo de regresin cuadrtica


 El modelo de regresin cuadrtica que relaciona y con
x es: y = 0 + 1x + 2 x 2 +
y|x y|x y|x

x x x
y|x y|x y|x

x x x

28
18/06/2010

Interaccin
 Se introduce un trmino de interaccin cuando
se cree que una variable (xi) influye en la
relacin entre otra variable (xj) independiente y
la variable dependiente, y.

y = 0 + 1 x1 + 2 x2 + 3 x1 x2 +

F. VELA / J. F. ISLAS

Uso de variables ficticias para modelar


variables independientes cualitativas
 Cuando se quiere incluir una variable cualitativa,
se pueden utilizar variables ficticias (variables
indicadoras, dummies).

 Toman el valor de 1 o 0.

 Esta variable influye en el intercepto.

Ejemplo
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dlares), tanto el nmero de hogares
alrededor del rea de las tiendas, x, (en miles),
as como la ubicacin de las tiendas, D, ya sea
que ests se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (ntese que D es
una variable cualitativa).

29
18/06/2010

Para comparar el efecto de las tres


ubicaciones sobre las ventas, se plantea el
siguiente modelo:

y = 0 + 1 x + 2 DM + 3 DD +
donde se define

1 si la tienda est en un centro comercial.


DM=
0 en cualquier otra parte.

1 si la tienda se ubica en el centro de la ciudad.


DD=
0 en cualquier otra parte.

Se deduce entonces que:


1. Para las tiendas en la calle, el volumen medio
de las ventas esta dado por:
y = 0 + 1 x + 2 DM + 3 DD = 0 + 1 x + 2 (0) + 3 (0)
= 0 + 1 x
2. En el caso de las tiendas ubicadas en el centro
comercial, el volumen medio de las ventas esta
dado por:
y = 0 + 1 x + 2 DM + 3 DD = 0 + 1 x + 2 (1) + 3 (0)
= ( 0 + 2 ) + 1x
3. Las tiendas ubicadas en el centro de la ciudad,
el volumen medio de las ventas esta dado por:
y = 0 + 1 x + 2 DM + 3 DD = 0 + 1 x + 2 (0) + 3 (1)
= ( 0 + 3 ) + 1 x

Interpretacin geomtrica del modelo:

30
18/06/2010

y = 14.978 + 0.86859 x + 28.374 DM + 6.864 DD


Source | SS df MS Number of obs = 15
-------------+------------------------------ F( 3, 11) = 275.07
Model | 33268.6975 3 11089.5658 Prob > F = 0.0000
Residual | 443.465035 11 40.3150032 R-squared = 0.9868
-------------+------------------------------ Adj R-squared = 0.9833
Total | 33712.1625 14 2408.01161 Root MSE = 6.3494

------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------

Prueba F parcial: Prueba de la


significancia de una parte de un modelo
de regresin
 Permite probar la significancia de un subconjunto
seleccionado de las variables independientes.

 Sea, por ejemplo, el modelo y = 0 + 1x1 + 2 x2 + 3 x3 +


 Podra ser de inters saber si las variables x2 y x3 son
relevantes en el modelo.

 H0: 2=3=0
Ha: por lo menos una de 2 y 3 0

 Se puede pensar en trminos de dos modelos rivales:

Modelo
completo y = 0 + 1 x1 + 2 x2 + 3 x3 + c

Modelo
reducido y = 0 + 1 x1 + R

 Se busca establecer si:


H0: 2=3=0 vs. Ha: por lo menos una de 2 y 3 0

31
18/06/2010

 El estadstico de prueba esta dado por

(SCER SCEC )/ [ k g]
F=
SCEC / [ n (k +1)]
donde
k= nmero de variables independientes del modelo
completo.
g= nmero de coeficientes del modelo reducido

 Rechazar Ho ssi F > F(), o bien,


Valor p(F) <

Para comparar el efecto de las tres


ubicaciones sobre las ventas, se plantea el
siguiente modelo:

y = 0 + 1 x1 + 2 DM + 3 DD +
esto es

y = 14.978 + 0.86859x + 28.374DM + 6.864DD

Tema 7: Multicolinealidad

32
18/06/2010

Temas
 Multicolinealidad.
 Comparacin de los modelos de regresin.
con base en R2, , R2 ajustada, longitud del
intervalo de prediccin y estadstica Cp.
 Regresin por pasos y eliminacin hacia
atrs.

Multicolinealidad
 Las variables independientes estn relacionadas
entre s o dependen una de otra.
 No se trata de un problema de presencia o
ausencia sino de grado.
 Cuando existe la multicolinealidad entre dos o ms
variables independientes, la principal consecuencia
es que se dificulta o impide obtener estimaciones
precisas de los efectos individuales de cada variable
independiente sobre la dependiente.
 Infla los valores de los errores estndar de j
estimados.

Identificacin de la multicolinealidad
 Son varias la formas que pueden utilizarse para
identificar un alto grado de multicolinealidad.
 La ms sencilla es utilizando la matriz de
correlacin.
- La multicolinealidad es fuerte si por lo menos uno de los
coeficientes de correlacin simple entre las variables
independientes es mayor o igual a 0.9.

 Otra forma es a travs de los factores de


inflacin de la varianza VIF.
 Existe tambin la regla prctica, el ndice de
tolerancia (TOL), entre otros.

33
18/06/2010

De nuevo el ejemplo 4.2 (pp. 146 y 222).


El gerente de una compaa desea evaluar el desempeo
de su fuerza de ventas en el territorio de actuacin. Para
ello, se agregan al anlisis efectuado en el capitulo anterior,
la informacin sobre tres variables adicionales (a las cinco
ya existentes), que segn el criterio del gerente, podran
ejercer alguna influencia sobre las ventas. La muestra
continua siendo de 25 vendedores, y ahora se plantea el
siguiente modelo de regresin lineal:
yi = 0 + 1 x1i + 2 x2i + 3 x3i + 4 x4i + 5 x5i
+ 6 x6i + 7 x7i + 8 x8i + i

y= sales.
x1= time.
x2= mktpoten.
x3= adver.
x4 = mktshare.
x5 = change.
x6= cantidad de cuentas que maneja el representante
(accts).
x7= carga de trabajo promedio (wkload).
x6= calificacin sobre desempeo (rating).
= termino de error aleatorio.

(Ver tabla 5.1)

Matriz de correlacin y valores p asociados


(en Stata)
pwcorr ,sig star (.05) (instruccin en Stata)
| sales time mktpoten adver mktshare change accts wkload rating
-------------+-----------------------------------------------------------------------------------
sales | 1.0000
|
time | 0.6229* 1.0000
| 0.0009
|
mktpoten | 0.5978* 0.4540* 1.0000
| 0.0016 0.0226 Observe que raccts,time
|
adver | 0.5962* 0.2492 0.1741 1.0000
presenta un valor
| 0.0017 0.2297 0.4052 moderado
|
mktshare | 0.4835* 0.1062 -0.2107 0.2645 1.0000
| 0.0143 0.6133 0.3121 0.2014
|
change | 0.4892* 0.2515 0.2683 0.3765 0.0855 1.0000
| 0.0131 0.2253 0.1947 0.0636 0.6846
|
accts | 0.7540* 0.7578* 0.4786* 0.2000 0.4030* 0.3274 1.0000
| 0.0000 0.0000 0.0155 0.3377 0.0458 0.1101
|
wkload | -0.1172 -0.1793 -0.2588 -0.2722 0.3493 -0.2877 -0.1988 1.0000
| 0.5768 0.3911 0.2115 0.1880 0.0870 0.1632 0.3406
|
rating | 0.4019* 0.1011 0.3587 0.4115* -0.0236 0.5493* 0.2286 -0.2769 1.0000
| 0.0464 0.6305 0.0783 0.0410 0.9110 0.0045 0.2717 0.1802

34
18/06/2010

Factores de Inflacin de la Varianza


 Los factores de inflacin de la varianza, FIV, (o
VIF) se definen como:
1
VIFj =
1 R 2j

 Rj2 es el coeficiente de determinacin mltiple


para el modelo que relaciona xj con el resto de
las variables independientes (regresin auxiliar).

 Si Rj2=0 entonces VIFj = 1

 La multicolinealidad es grave si:

1. el VIF ms grande > 10


2. el VIF medio es sustancialmente > 1

Ejemplo 4.2. VIF y multicolinealidad


regress sales time mktpoten adver mktshare change accts wkload rating

Source | SS df MS Number of obs = 25


-------------+------------------------------ F( 8, 16) = 23.65
Model | 38153566.4 8 4769195.8 Prob > F = 0.0000
Residual | 3225984.94 16 201624.059 R-squared = 0.9220
-------------+------------------------------ Adj R-squared = 0.8831
Total | 41379551.3 24 1724147.97 Root MSE = 449.03

------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 2.009566 1.930654 1.04 0.313 -2.083238 6.10237
mktpoten | .0372049 .0082023 4.54 0.000 .0198168 .054593
adver | .1509889 .0471085 3.21 0.006 .0511233 .2508545
mktshare | 199.0236 67.02793 2.97 0.009 56.9307 341.1164
change | 290.8551 186.782 1.56 0.139 -105.105 686.8153
accts | 5.550961 4.77555 1.16 0.262 -4.572753 15.67467
wkload | 19.79389 33.6767 0.59 0.565 -51.59751 91.1853
rating | 8.189297 128.5056 0.06 0.950 -264.2304 280.609
_cons | -1507.814 778.635 -1.94 0.071 -3158.446 142.8186
------------------------------------------------------------------------------

35
18/06/2010

Ejemplo 4.2. (continua)


vif (instruccin en Stata)

Variable | VIF 1/VIF - Note que el valor mas alto de


-------------+---------------------- es el correspondiente a
accts | 5.64 0.177326 VIFaccts=5.64, lo que indica que
time | 3.34 0.299167 no existe un alto grado de
mktshare | 3.24 0.309047 multicolinealidad en el modelo.
mktpoten | 1.98 0.505657
adver | 1.91 0.523502
wkload | 1.82 0.549950
rating | 1.81 0.552927
change | 1.60 0.624325 - Por otra parte, el promedio de
-------------+---------------------- los VIF es 2.67.
Mean VIF | 2.67

Regla prctica para detectar


multicolinealidad
 Cuando no se tiene acceso a la matriz de
correlacin o a los VIF, se puede considerar la
siguiente regla prctica para identificar un alto
grado de multicolinealidad:

Observar una R2 ajustada alta y pocos (o


ningn) coeficiente de regresin estimados
significativos

ndice de tolerancia (TOL)


 Se define como TOL j = 1 R 2j
(para j = 1, 2, ... K variables)

1
o bien TOL =
VIF
 Si TOL cercano a cero existe alta
multicolinealidad.

36
18/06/2010

Soluciones posibles para la alta


multicolinealidad
 Algunos autores (Blanchard, 1998) consideran
que si el objetivo final es el pronstico no se
debe hacer nada.

 La solucin ms comn, aunque no siempre la


mejor, eliminar una de las variables que se
considere provoca el problema.

 Transformacin de variables.

Ejemplo: Datos de la NBA


Se busca establecer la influencia que diferentes
acciones de los jugadores de la NBA ejercen sobre el
nmero de puntos que anotan en promedio por
partido (pts). Para ello se selecciona al azar a un
equipo de la NBA (Chicago Bulls) y se plantea el
siguiente modelo de regresin (temporada 2007-08):

PTS= 0 + 1GPi + 2MINi + 3ASTi + 4STLi + 5BLKi + 6TOi + 7PFi + i


donde

PTS= puntos anotados STL = robos de baln


GP = partidos jugados BLK = bloqueos
MIN= minutos jugados TO= balones perdidos
AST= asistencias PF= faltas personales

Matriz de correlacin
pwcorr ,sig star (.05)

| gp min pts ast stl blk to pf


-------------+-----------------------------------------------------------------------
gp | 1.0000
|
min | 0.6025* 1.0000
| 0.0063
|
pts | 0.5221* 0.8482* 1.0000
| 0.0218 0.0000
|
ast | 0.5359* 0.7216* 0.5477* 1.0000
| 0.0180 0.0005 0.0152
|
stl | 0.4585* 0.7932* 0.4545 0.6992* 1.0000
| 0.0483 0.0001 0.0506 0.0009
|
blk | 0.2629 0.4600* 0.1933 -0.0367 0.4141 1.0000
| 0.2768 0.0475 0.4278 0.8813 0.0780
|
to | 0.5880* 0.8688* 0.9090* 0.7370* 0.5931* 0.1641 1.0000
| 0.0081 0.0000 0.0000 0.0003 0.0074 0.5020
|
pf | 0.6924* 0.7854* 0.7652* 0.5199* 0.5034* 0.4854* 0.7839* 1.0000
| 0.0010 0.0001 0.0001 0.0225 0.0280 0.0351 0.0001

37
18/06/2010

Regresin
regress pts gp min ast stl blk to pf

Source | SS df MS Number of obs = 19


-------------+------------------------------ F( 7, 11) = 28.58
Model | 500.61849 7 71.5169272 Prob > F = 0.0000
Residual | 27.5288813 11 2.50262557 R-squared = 0.9479
-------------+------------------------------ Adj R-squared = 0.9147
Total | 528.147371 18 29.3415206 Root MSE = 1.582

------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0047026 .0188224 -0.25 0.807 -.0461304 .0367252
min | .5114093 .1219865 4.19 0.002 .2429189 .7798997
ast | -1.328452 .5149655 -2.58 0.026 -2.461884 -.195021
stl | -3.415964 1.785418 -1.91 0.082 -7.345643 .5137151
blk | -3.566664 1.525258 -2.34 0.039 -6.923734 -.2095937
to | 4.267745 1.98899 2.15 0.055 -.1099917 8.645483
pf | .7377111 .9262618 0.80 0.443 -1.300978 2.7764
_cons | -2.401254 .9950284 -2.41 0.034 -4.591296 -.2112107
------------------------------------------------------------------------------

VIF
vif

Variable | VIF 1/VIF


-------------+----------------------
min | 12.29 0.081342
to | 8.54 0.117126
pf | 5.24 0.190847
ast | 4.45 0.224654
stl | 4.20 0.238195
blk | 3.46 0.289220
gp | 2.12 0.472134
-------------+----------------------
Mean VIF | 5.76

Eliminando la variable min se tiene


regress pts gp ast stl blk to pf

Source | SS df MS Number of obs = 19


-------------+------------------------------ F( 6, 12) = 12.77
Model | 456.632952 6 76.1054921 Prob > F = 0.0001
Residual | 71.5144189 12 5.95953491 R-squared = 0.8646
-------------+------------------------------ Adj R-squared = 0.7969
Total | 528.147371 18 29.3415206 Root MSE = 2.4412

------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0038181 .029044 -0.13 0.898 -.0670995 .0594632
ast | -.8901853 .7781226 -1.14 0.275 -2.585569 .8051982
stl | -.1718016 2.482941 -0.07 0.946 -5.581665 5.238061
blk | -.5166832 2.068707 -0.25 0.807 -5.024009 3.990642
to | 9.904448 2.261829 4.38 0.001 4.976347 14.83255
pf | .8968988 1.42816 0.63 0.542 -2.214794 4.008592
_cons | -3.404519 1.490409 -2.28 0.041 -6.651841 -.1571964
------------------------------------------------------------------------------

38
18/06/2010

vif

Variable | VIF 1/VIF


-------------+----------------------
pf | 5.23 0.191168
to | 4.64 0.215682
ast | 4.27 0.234310
stl | 3.41 0.293290
blk | 2.67 0.374398
gp | 2.12 0.472194
-------------+----------------------
Mean VIF | 3.72

Construccin de modelos
 Qu hay que hacer para encontrar un modelo
adecuado?
 Son diversos los criterios que la literatura
seala para elegir entre modelos rivales.
 Dos (o ms) modelos son rivales si estos
presentan la misma variable dependiente
aunque las variables independientes no sean
las mismas.
 Ejemplo:
sales= 0 +1time+8 rating+1
sales= 0 +1time+ 2 mktpoten+ 4 wkload+ 2

Criterios para la construccin de


modelos
 Existen diversos criterios que se emplean para elegir
entre modelos rivales con propsitos de pronstico.

 Comparacin de los modelos de regresin con base en


R2, , R2 ajustada, longitud del intervalo de prediccin y
estadstica Cp entre otros.

 Todos estos criterios pretenden minimizar la SCE (o


incrementar R2), y salvo el primero de ellos, los dems
imponen una penalizacin al incluir ms variables
independientes.

39
18/06/2010

Primer criterio

R2 = (variacin explicada)/(variacin total)

 R2 al el nmero de variables

Segundo criterio

SCE
=
nk

 al el nmero de variables, se pierden grados de libertad


 si al introducir otra variable independiente al modelo, el ,
no debemos sumar la variable independiente al modelo.

Tercer criterio
k + 1 n 1
R 2 = R2
n 1 n k

 al el nmero de variables, se pierden grados de libertad


 si al introducir otra variable independiente al modelo, el R2
ajustada , no debemos sumar la variable independiente al
modelo.

40
18/06/2010

Cuarto criterio

Estadstica C (o Cp) de Mallow

Considrese un modelo con k coeficientes de regresin


(incluyendo la constante, i. e. 0).

Sea el verdadero estimador s2.


2

Suponga que solo se ha elegido p variables


independientes (incluyendo 0), donde pk, y se obtiene
SCE utilizando a las p variables independientes.

Cuarto criterio

Estadstica C (o Cp) de Mallow

SSE
C = [ n 2k]
2p

 Queremos que C sea pequea.


 Queremos que C sea casi igual a k + 1.
 Si C > k , el modelo tiene un sesgo notable.
 Si C < k , el modelo no tiene sesgo y es deseable.

Ejemplo 5.1 (p. 228).


A continuacin se presentan los resultados en
STATA para el calculo de R-squared, el
estadstico C de Mallows, SEE( ) y MSE( 2 )
para todos los posibles modelos de regresin del
ejemplo 4.2 ampliado propuesto en este captulo.

Para ello se deben seguir los pasos siguientes:

41
18/06/2010

Paso 1.
Una vez cargado el archivo t5-1 sales territory
complete.dta, escribir en la ventana de comandos
findit rsquare, entrar dentro de la seccin
Web resources from Stata and other users a
rsquare from

http://www.ats.ucla.edu/stat/stata/ado/analysis

y descargar los archivos rsquare.ado y


rsquare.hlp

Paso 2.
Estimar el modelo: sales vs. time mktpoten
adver mktshare change accts wkload
rating.

Paso 3.
Despus de la estimacin, se escribe en la
ventana de comandos:
rsquare sales time mktpoten adver
mktshare change accts wkload rating
y se obtiene:

Regression models for dependent variable : sales

R-squared Mallows' C SEE MSE models with 1 variable


0.3880 104.60 2.532e+07 1.101e+06 time
0.3574 110.89 2.659e+07 1.156e+06 mktpoten
0.3554 111.29 2.667e+07 1.160e+06 adver
0.2338 136.25 3.171e+07 1.379e+06 mktshare
0.2393 135.12 3.148e+07 1.369e+06 change
0.5685 67.56 1.786e+07 7.763e+05 accts
0.0137 181.41 4.081e+07 1.774e+06 wkload
0.1615 151.09 3.470e+07 1.509e+06 rating
R-squared Mallow's C SEE MSE models with 2 variables
0.5130 80.94 2.015e+07 9.159e+05 time mktpoten
0.5953 64.05 1.674e+07 7.611e+05 time adver
0.5642 70.44 1.803e+07 8.197e+05 time mktshare
0.5061 82.37 2.044e+07 9.290e+05 time change
0.5747 68.28 1.760e+07 7.999e+05 time accts
0.3881 106.59 2.532e+07 1.151e+06 time wkload
0.5041 82.78 2.052e+07 9.328e+05 time rating
0.6071 61.63 1.626e+07 7.390e+05 mktpoten adver
0.7461 33.12 1.051e+07 4.776e+05 mktpoten mktshare
0.4739 88.98 2.177e+07 9.896e+05 mktpoten change
0.6413 54.61 1.484e+07 6.747e+05 mktpoten accts
0.3589 112.58 2.653e+07 1.206e+06 mktpoten wkload
0.3977 104.61 2.492e+07 1.133e+06 mktpoten rating
0.4696 89.86 2.195e+07 9.976e+05 adver mktshare
0.4371 96.53 2.329e+07 1.059e+06 adver change
0.7751 27.16 9.306e+06 4.230e+05 adver accts
0.3576 112.84 2.658e+07 1.208e+06 adver wkload
0.3849 107.23 2.545e+07 1.157e+06 adver rating
0.4358 96.78 2.334e+07 1.061e+06 mktshare change
0.6070 61.65 1.626e+07 7.391e+05 mktshare accts
0.3270 119.11 2.785e+07 1.266e+06 mktshare wkload

42
18/06/2010

R-squared Mallow's C SEE MSE models with 3 variables


0.6991 44.74 1.245e+07 5.928e+05 time mktpoten adver
0.8121 21.56 7.774e+06 3.702e+05 time mktpoten mktshare
0.5942 66.27 1.679e+07 7.995e+05 time mktpoten change
0.6426 56.34 1.479e+07 7.042e+05 time mktpoten accts
0.5176 82.01 1.996e+07 9.506e+05 time mktpoten wkload
0.5663 72.02 1.795e+07 8.547e+05 time mktpoten rating
0.6959 45.42 1.259e+07 5.993e+05 time adver mktshare
0.6365 57.61 1.504e+07 7.163e+05 time adver change
0.7752 29.14 9.302e+06 4.430e+05 time adver accts
0.6066 63.73 1.628e+07 7.751e+05 time adver wkload
0.6251 59.94 1.551e+07 7.387e+05 time adver rating
0.6657 51.62 1.383e+07 6.588e+05 time mktshare change
0.6305 58.83 1.529e+07 7.281e+05 time mktshare accts
0.5954 66.03 1.674e+07 7.972e+05 time mktshare wkload
0.6905 46.52 1.281e+07 6.098e+05 time mktshare rating
0.6403 56.83 1.488e+07 7.088e+05 time change accts
0.5132 82.90 2.014e+07 9.591e+05 time change wkload
0.5396 77.48 1.905e+07 9.071e+05 time change rating
0.5761 70.00 1.754e+07 8.353e+05 time accts wkload
0.6354 57.83 1.509e+07 7.184e+05 time accts rating
0.5117 83.21 2.020e+07 9.621e+05 time wkload rating
0.8490 13.99 6.249e+06 2.976e+05 mktpoten adver mktshare
0.6390 57.08 1.494e+07 7.112e+05 mktpoten adver change
0.8277 18.36 7.129e+06 3.395e+05 mktpoten adver accts
0.6336 58.19 1.516e+07 7.219e+05 mktpoten adver wkload
0.6073 63.60 1.625e+07 7.739e+05 mktpoten adver rating
0.8086 22.27 7.918e+06 3.771e+05 mktpoten mktshare change

R-squared Mallow's C SEE MSE models with 3 variables


0.7885 26.40 8.750e+06 4.167e+05 mktpoten mktshare accts
0.7730 29.59 9.395e+06 4.474e+05 mktpoten mktshare wkload
0.7735 29.49 9.374e+06 4.464e+05 mktpoten mktshare rating
0.6907 46.48 1.280e+07 6.095e+05 mktpoten change accts
0.4888 87.91 2.115e+07 1.007e+06 mktpoten change wkload
0.4750 90.75 2.172e+07 1.035e+06 mktpoten change rating
0.6488 55.09 1.453e+07 6.921e+05 mktpoten accts wkload
0.6683 51.08 1.373e+07 6.537e+05 mktpoten accts rating
0.4044 105.25 2.465e+07 1.174e+06 mktpoten wkload rating
0.5543 74.47 1.844e+07 8.782e+05 adver mktshare change
0.7862 26.88 8.847e+06 4.213e+05 adver mktshare accts
0.4839 88.92 2.136e+07 1.017e+06 adver mktshare wkload
0.5203 81.44 1.985e+07 9.452e+05 adver mktshare rating
0.7872 26.67 8.804e+06 4.192e+05 adver change accts
0.4489 96.11 2.281e+07 1.086e+06 adver change wkload
0.4390 98.14 2.322e+07 1.106e+06 adver change rating
0.7969 24.67 8.402e+06 4.001e+05 adver accts wkload
0.7795 28.25 9.123e+06 4.344e+05 adver accts rating
0.3914 107.90 2.518e+07 1.199e+06 adver wkload rating
0.6785 48.98 1.330e+07 6.335e+05 mktshare change accts
0.4621 93.39 2.226e+07 1.060e+06 mktshare change wkload
0.4749 90.77 2.173e+07 1.035e+06 mktshare change rating
0.6118 62.67 1.606e+07 7.649e+05 mktshare accts wkload
0.6764 49.40 1.339e+07 6.376e+05 mktshare accts rating
0.4427 97.38 2.306e+07 1.098e+06 mktshare wkload rating
0.6438 56.09 1.474e+07 7.018e+05 change accts wkload
0.6488 55.07 1.453e+07 6.919e+05 change accts rating
0.2671 133.42 3.033e+07 1.444e+06 change wkload rating
0.6328 58.36 1.520e+07 7.236e+05 accts wkload rating

R-squared Mallow's C SEE MSE models with 4 variables


0.8960 6.35 4.305e+06 2.152e+05 time mktpoten adver mktshare
0.7222 42.02 1.150e+07 5.748e+05 time mktpoten adver change
0.8283 20.23 7.104e+06 3.552e+05 time mktpoten adver accts
0.7284 40.74 1.124e+07 5.619e+05 time mktpoten adver wkload
0.7030 45.95 1.229e+07 6.144e+05 time mktpoten adver rating
0.8609 13.56 5.758e+06 2.879e+05 time mktpoten mktshare change
0.8134 23.30 7.722e+06 3.861e+05 time mktpoten mktshare accts
0.8279 20.33 7.123e+06 3.561e+05 time mktpoten mktshare wkload
0.8480 16.19 6.289e+06 3.144e+05 time mktpoten mktshare rating
0.6923 48.15 1.273e+07 6.367e+05 time mktpoten change accts
0.6126 64.51 1.603e+07 8.015e+05 time mktpoten change wkload
0.6034 66.38 1.641e+07 8.205e+05 time mktpoten change rating
0.6502 56.79 1.448e+07 7.238e+05 time mktpoten accts wkload
0.6725 52.21 1.355e+07 6.775e+05 time mktpoten accts rating
0.5803 71.13 1.737e+07 8.683e+05 time mktpoten wkload rating
0.7401 38.33 1.075e+07 5.377e+05 time adver mktshare change
0.7890 28.29 8.729e+06 4.365e+05 time adver mktshare accts
0.6979 46.99 1.250e+07 6.249e+05 time adver mktshare wkload
0.7455 37.23 1.053e+07 5.265e+05 time adver mktshare rating
0.7875 28.62 8.795e+06 4.397e+05 time adver change accts
0.6583 55.13 1.414e+07 7.070e+05 time adver change wkload
0.6440 58.06 1.473e+07 7.366e+05 time adver change rating
0.7971 26.65 8.397e+06 4.199e+05 time adver accts wkload
0.7800 30.14 9.102e+06 4.551e+05 time adver accts rating
0.6451 57.83 1.468e+07 7.342e+05 time adver wkload rating
0.7031 45.93 1.229e+07 6.143e+05 time mktshare change accts
0.6729 52.14 1.354e+07 6.768e+05 time mktshare change wkload
0.7124 44.02 1.190e+07 5.949e+05 time mktshare change rating
0.6388 59.12 1.494e+07 7.472e+05 time mktshare accts wkload
0.7166 43.17 1.173e+07 5.864e+05 time mktshare accts rating
0.6974 47.09 1.252e+07 6.260e+05 time mktshare wkload rating
0.6506 56.71 1.446e+07 7.230e+05 time change accts wkload
0.6578 55.22 1.416e+07 7.079e+05 time change accts rating
0.5527 76.79 1.851e+07 9.254e+05 time change wkload rating
0.6457 57.71 1.466e+07 7.330e+05 time accts wkload rating
0.8732 11.02 5.246e+06 2.623e+05 mktpoten adver mktshare change
0.9004 5.43 4.119e+06 2.060e+05 mktpoten adver mktshare accts
0.8513 15.53 6.155e+06 3.077e+05 mktpoten adver mktshare wkload
0.8512 15.55 6.159e+06 3.080e+05 mktpoten adver mktshare rating
0.8350 18.86 6.828e+06 3.414e+05 mktpoten adver change accts
0.6772 51.25 1.336e+07 6.678e+05 mktpoten adver change wkload

43
18/06/2010

R-squared Mallow's C SEE MSE models with 4 variables


0.6442 58.03 1.472e+07 7.362e+05 mktpoten adver change rating
0.8641 12.90 5.625e+06 2.812e+05 mktpoten adver accts wkload
0.8277 20.36 7.128e+06 3.564e+05 mktpoten adver accts rating
0.6347 59.97 1.511e+07 7.557e+05 mktpoten adver wkload rating
0.8352 18.82 6.819e+06 3.409e+05 mktpoten mktshare change accts
0.8174 22.49 7.558e+06 3.779e+05 mktpoten mktshare change wkload
0.8108 23.83 7.830e+06 3.915e+05 mktpoten mktshare change rating
0.7981 26.45 8.356e+06 4.178e+05 mktpoten mktshare accts wkload
0.8130 23.37 7.736e+06 3.868e+05 mktpoten mktshare accts rating
0.7901 28.08 8.687e+06 4.343e+05 mktpoten mktshare wkload rating
0.7099 44.53 1.200e+07 6.002e+05 mktpoten change accts wkload
0.6944 47.73 1.265e+07 6.324e+05 mktpoten change accts rating
0.4910 89.47 2.106e+07 1.053e+06 mktpoten change wkload rating
0.6830 50.06 1.312e+07 6.558e+05 mktpoten accts wkload rating
0.8019 25.66 8.198e+06 4.099e+05 adver mktshare change accts
0.5574 75.83 1.831e+07 9.157e+05 adver mktshare change wkload
0.5644 74.41 1.803e+07 9.013e+05 adver mktshare change rating
0.7977 26.51 8.370e+06 4.185e+05 adver mktshare accts wkload
0.7949 27.09 8.486e+06 4.243e+05 adver mktshare accts rating
0.5284 81.79 1.951e+07 9.757e+05 adver mktshare wkload rating
0.8160 22.77 7.615e+06 3.807e+05 adver change accts wkload
0.7876 28.59 8.788e+06 4.394e+05 adver change accts rating
0.4519 97.49 2.268e+07 1.134e+06 adver change wkload rating
0.8055 24.91 8.048e+06 4.024e+05 adver accts wkload rating
0.6785 50.97 1.330e+07 6.651e+05 mktshare change accts wkload
0.7001 46.55 1.241e+07 6.205e+05 mktshare change accts rating
0.4940 88.84 2.094e+07 1.047e+06 mktshare change wkload rating
0.6767 51.36 1.338e+07 6.690e+05 mktshare accts wkload rating
0.6624 54.29 1.397e+07 6.985e+05 change accts wkload rating

R-squared Mallow's C SEE MSE models with 5 variables


0.9150 4.44 3.517e+06 1.851e+05 time mktpoten adver mktshare change
0.9064 6.22 3.875e+06 2.039e+05 time mktpoten adver mktshare accts
0.8965 8.24 4.284e+06 2.254e+05 time mktpoten adver mktshare wkload
0.9025 7.01 4.035e+06 2.124e+05 time mktpoten adver mktshare rating
0.8353 20.79 6.813e+06 3.586e+05 time mktpoten adver change accts
0.7617 35.91 9.861e+06 5.190e+05 time mktpoten adver change wkload
0.7222 44.01 1.149e+07 6.050e+05 time mktpoten adver change rating
0.8648 14.74 5.593e+06 2.944e+05 time mktpoten adver accts wkload
0.8283 22.23 7.104e+06 3.739e+05 time mktpoten adver accts rating
0.7358 41.23 1.093e+07 5.755e+05 time mktpoten adver wkload rating
0.8609 15.55 5.757e+06 3.030e+05 time mktpoten mktshare change accts
0.8651 14.69 5.583e+06 2.939e+05 time mktpoten mktshare change wkload
0.8686 13.98 5.439e+06 2.863e+05 time mktpoten mktshare change rating
0.8280 22.31 7.119e+06 3.747e+05 time mktpoten mktshare accts wkload
0.8481 18.18 6.287e+06 3.309e+05 time mktpoten mktshare accts rating
0.8545 16.87 6.022e+06 3.169e+05 time mktpoten mktshare wkload rating
0.7117 46.16 1.193e+07 6.278e+05 time mktpoten change accts wkload
0.6971 49.16 1.253e+07 6.597e+05 time mktpoten change accts rating
0.6251 63.95 1.551e+07 8.165e+05 time mktpoten change wkload rating
0.6881 51.01 1.291e+07 6.792e+05 time mktpoten accts wkload rating
0.8064 26.73 8.010e+06 4.216e+05 time adver mktshare change accts
0.7401 40.33 1.075e+07 5.660e+05 time adver mktshare change wkload
0.7596 36.34 9.949e+06 5.236e+05 time adver mktshare change rating
0.7984 28.37 8.342e+06 4.391e+05 time adver mktshare accts wkload
0.8023 27.57 8.180e+06 4.305e+05 time adver mktshare accts rating
0.7458 39.18 1.052e+07 5.537e+05 time adver mktshare wkload rating
0.8163 24.70 7.601e+06 4.001e+05 time adver change accts wkload
0.7880 30.51 8.773e+06 4.617e+05 time adver change accts rating
0.6692 54.90 1.369e+07 7.205e+05 time adver change wkload rating
0.8064 26.74 8.012e+06 4.217e+05 time adver accts wkload rating
0.7038 47.79 1.226e+07 6.451e+05 time mktshare change accts wkload
0.7354 41.31 1.095e+07 5.764e+05 time mktshare change accts rating
0.7156 45.36 1.177e+07 6.193e+05 time mktshare change wkload rating
0.7179 44.90 1.167e+07 6.144e+05 time mktshare accts wkload rating
0.6729 54.13 1.353e+07 7.123e+05 time change accts wkload rating
0.9124 4.98 3.624e+06 1.907e+05 mktpoten adver mktshare change accts
0.8735 12.97 5.235e+06 2.756e+05 mktpoten adver mktshare change wkload
0.8737 12.91 5.224e+06 2.750e+05 mktpoten adver mktshare change rating
0.9028 6.94 4.021e+06 2.116e+05 mktpoten adver mktshare accts wkload
0.9013 7.25 4.082e+06 2.149e+05 mktpoten adver mktshare accts rating

R-squared Mallow's C SEE MSE models with 5 variables


0.8530 17.17 6.082e+06 3.201e+05 mktpoten adver mktshare wkload rating
0.8777 12.09 5.060e+06 2.663e+05 mktpoten adver change accts wkload
0.8364 20.57 6.768e+06 3.562e+05 mktpoten adver change accts rating
0.6808 52.52 1.321e+07 6.952e+05 mktpoten adver change wkload rating
0.8648 14.75 5.595e+06 2.945e+05 mktpoten adver accts wkload rating
0.8371 20.43 6.739e+06 3.547e+05 mktpoten mktshare change accts wkload
0.8383 20.19 6.691e+06 3.522e+05 mktpoten mktshare change accts rating
0.8187 24.20 7.501e+06 3.948e+05 mktpoten mktshare change wkload rating
0.8170 24.56 7.573e+06 3.986e+05 mktpoten mktshare accts wkload rating
0.7156 45.36 1.177e+07 6.193e+05 mktpoten change accts wkload rating
0.8171 24.53 7.567e+06 3.983e+05 adver mktshare change accts wkload
0.8038 27.26 8.118e+06 4.273e+05 adver mktshare change accts rating
0.5671 75.85 1.791e+07 9.429e+05 adver mktshare change wkload rating
0.8074 26.52 7.968e+06 4.194e+05 adver mktshare accts wkload rating
0.8174 24.48 7.558e+06 3.978e+05 adver change accts wkload rating
0.7002 48.52 1.240e+07 6.529e+05 mktshare change accts wkload rating

R-squared Mallow's C SEE MSE models with 8 variables


0.9220 48.52 1.240e+07 6.529e+05 time mktpoten adver mktshare change accts wkload rating

44
18/06/2010

Mtodos computacionales
Regresin por pasos
 Se especifican entry y stay
 Paso 1:
1. se corre una regresin para cada variable independiente.
2. Se denomina a la variable con el mayor valor de la estadstica t,
x[1]
3. Si la estadstica t no indica que x[1] sea significante en el nivel
entry, el procedimiento termina. Si es significante, se conserva
para usarla en el paso 2.

Construccin de modelos y los


efectos de la multicolinealidad
Regresin por pasos
 Paso 2:
se corre una regresin agregando cada variable
independiente al modelo
y = 0 + 1x[1] + 2xj +
Se denomina a la variable (nueva) con el mayor valor de
la estadstica t, x[2]
Si la estadstica t no indica que x[2] sea significante en el
nivel entry , el procedimiento termina. Si es significante,
se comprueba que la estadstica t >stay para x[1].

Construccin de modelos y los


efectos de la multicolinealidad
Regresin por pasos
 Pasos posteriores:
1. Se continan agregando variables independientes, una por una, al
modelo. En cada paso se suma una variable independiente al
modelo si tiene la estadstica t ms grande de las variables
independientes que no estn en el modelo y si su estadstica t indica
que es significante en el nivel
2. Despus de aadir una variable independiente, el procedimiento
comprueba que todas las variables independientes ya incluidas
tienen t significante en el nivel stay

45
18/06/2010

Construccin de modelos y los


efectos de la multicolinealidad
Eliminacin hacia atrs
1. Se corre una regresin con todas las p variables
independientes.
2. Si la estadstica t ms pequea es significante en el
nivel stay , se conserva el modelo con todas las
variables.
3. Si la estadstica t ms pequea no es significante en el
nivel stay , se elimina esa variable del modelo y se
corre la regresin de nuevo.
4. Se repite estos pasos hasta conseguir que la
estadstica t ms pequea sea significante en el nivel
stay .

Tema 9. Diagnstico del modelo

Temas
 grficas de residuos y pruebas nmericas.
 suposicin de la normalidad.
 suposicin de varianza constante.
 suposicin de la forma funcional correcta.
 suposicin de independencia.
 transformacin de la variable dependiente.

46
18/06/2010

Anlisis residual en la regresin


simple
 Recuerde que

e = y y
 Si las suposiciones de la regresin se mantienen, los
residuos deben parecer que han sido seleccionados
en forma aleatoria e independiente de poblaciones
distribuidas normalmente cuya media es 0 y su
varianza es 2

Anlisis residual en la regresin


simple
Grficas de residuos
 Se elaboran grficas de residuos contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los datos han
sido observados (para series de tiempo)

Anlisis residual en la regresin


simple
Suposicin de varianza constante
 se examinan las grficas de los residuos
varianza de error creciente
varianza de error decreciente

47
18/06/2010

Anlisis residual en la regresin


simple
Suposicin de la forma funcional correcta
 Si usamos un modelo de regresin lineal simple
cuando la relacin verdadera es curva, la grfica
de residuos tendr una apariencia curva.

Anlisis residual en la regresin


simple
Suposicin de la normalidad
 Se acomodan los errores en orden ascendente
 Se grafican contra el valor z correspondiente.
 z = punto en el eje horizontal bajo la curva
normal estndar de modo que el rea bajo la
curva a la izquierda de z(i) es (3i-1)/(3n+1)
 Esta grfica debe asemejarse a una recta.

kdensity r, normal

48
18/06/2010

Skewness/Kurtosis tests for Normality


------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
r| 0.905 0.785 0.09 0.9567

n (C 3)2
JB = A2 +
6 4

19 2 (0.785 3)
2
JB = 0.905 +
6 4

Anlisis residual en la regresin


simple
Suposicin de independencia
 ms probable violar esta suposicin en series
de tiempo:
 autocorrelacin positiva
 patrn cclico en los errores
 autocorrelacin negativa
 Los trminos de error deben ocurrir en un patrn
aleatorio en el tiempo.

49
18/06/2010

Anlisis residual en la regresin


simple
Transformacin de la variable dependiente
 posible remedio en casos de transgresin de las
suposiciones de
varianza constante
forma funcional correcta
normalidad

Anlisis residual en la regresin


simple
Transformacin de la variable dependiente
 transformacin de la raz cuadrada
y* = y = y .5
 transformacin de la raz curta
y* = 4 y = y .25
 transformacin logartmica
y* = ln y

Anlisis residual en la regresin


mltiple
 Se grafican los residuos contra
1. valores de cada variable independiente
2. valores del valor predicho de la variable
dependiente
3. orden en el tiempo en el cual se observaron los
datos

50
18/06/2010

Diagnstico para detectar


observaciones atpicas e influyentes
Temas
 valor de la ventaja
 residuos y residuos estudentizados
 residuos eliminados y residuos eliminados
estudentizados
 medida de la distancia de Cook
 Qu hacer con respecto a las observaciones
atpicas y las influyentes

Diagnstico para detectar


observaciones atpicas e influyentes
 atpica: una observacin muy separada del resto
de los datos
 influyente: cambia de forma significativa algn
aspecto importante (b o s) del anlisis de
regresin si se elimina la observacin

Diagnstico para detectar


observaciones atpicas e influyentes
Valor de la ventaja
 mide la distancia entre los valores x de la observacin y
el centro de la regin experimental
 Si el valor de la ventaja es grande, la observacin es
atpica con respecto a sus valores x.
 Se considera grande si es mayor que lo doble del
promedio de todos los valores de la ventaja. (2(k+1)/n)

51
18/06/2010

Diagnstico para detectar


observaciones atpicas e influyentes

residuos y residuos estudentizados


 Cualquier residuo notablemente diferente de los
otros es sospechoso.
 residuo estudentizado: e/s
 Si el resiguo estudentizado es mayor que 2, hay
alguna evidencia de que la observacin es
atpica.

Diagnstico para detectar


observaciones atpicas e influyentes
 residuos eliminados y residuos eliminados
estudentizados
 se calcula la distancia entre yi y y(i)
 residuo eliminado estudentizado = (residuo eliminado) / s
 Hay fuerte evidencia de que la observacin es atpica
con respecto a su valor y si el residuo eliminado
estudentizado es mayor que

t[(.n005
(k + 2 ))
]

Medida de la Distancia de Cook


 D de Cook
 Si la D de Cook de la observacin i es grande,
entonces las estimaciones puntuales de mnimos
cuadrados cambian mucho con la inclusin de i

 Si D < F[.80], i no es influyente

 Si D > F[.50], i s es influyente

52
18/06/2010

Qu hacer con respecto a las observa-


ciones atpicas y las influyentes
 Comenzar con las observaciones atpicas en la variable y
1. Comprobar que el valor est capturado correctamente;
corregirlo si es necesario.
2. Si no se puede corregir o si es correcto, desechar la
observacin y correr la regresin de nuevo.
 Luego ver los valores x
3. Tratar de detectar razones (causas) para el valor y atpico
(ver si algn valor x tambin es atpico).
4. Considerar otras variables independientes no incluidas en
el modelo.

53

También podría gustarte