Está en la página 1de 72

Gabri el Yez Canal

Pr of esor
Uni ver si dad I ndust r i al de Sant ander
JUNIO 7-8 de 2013
CAPTULO 6
Un modelo con dos variables sera:


2 2 1 1 0
i 2 i 2 1 i 1 0 i
X X ) Y ( E
X X Y
| | |
c | | |
+ + =
+ + + =
2
2
1
1
) (
;
) (
| | =
c
c
=
c
c
X
Y E
X
Y E
televisin en gastos X
ventas de puntos en gastos X
Ventas Y
=
=
=
2
1
2 1
5 2 10 ) ( X X Y E + + =
Ejemplo: Promocin de ventas
Representacin en el plano


Fuente: Neter pg. 219
n i
N ntes independie son
conocidas constantes son X X
parmetros son
i
p i i
p
,..., 1
) , 0 (
,...,
,..., ,
2
1 , 1
1 1 0
=

o c
| | |
1 p 1 p 2 2 1 1 0
i 1 p , i 1 p 2 i 2 1 i 1 0 i
X ... X X ) Y ( E
X ... X X Y


+ + + + =
+ + + + + =
| | | |
c | | | |
ALGUNOS TIPOS DE
MODELOS
(i) Variables predictoras cualitativas.
Ejemplo: Sea la cantidad de das que
permanece un paciente en un hospital;

gnero X edad X : ; :
2 1
Y

=
hombre es paciente el si 0
mujer es paciente el si
X
i
1
2
+ ejemplo
Se tiene:
2 2 1 1 0
i 2 i 2 1 i 1 0 i
X X ) Y ( E
X X Y
| | |
c | | |
+ + =
+ + + =
mujeres pacientes X Y E
hombres pacientes X Y E
1 1 2 0
1 1 0
) ( ) (
) (
| | |
| |
+ + =
+ =
(ii) Regresin Polinmica.

i i i i
X X Y c | | | + + + =
2
2 1 0
2
2 1
;
i i i i
X X X X = =
i i i i
X X Y c | | | + + + =
2 2 1 1 0
(iii)Variables transformadas.

i i i i
X X Y c | | | + + + =
2 2 1 1 0
log
i i
Y Y log =
i i i i
X X Y c | | | + + + =
2 2 1 1 0

(iv) Efectos de interaccin.



i i i i i i
X X X X Y c | | | | + + + + =
2 1 3 2 2 1 1 0
2 1 3 i i i
X X X =
i i i i i
X X X Y c | | | | + + + + =
3 3 2 2 1 1 0
MODELO DE REGRESIN
LINEAL EN TRMINOS
MATRICIALES
Modelo en trminos matriciales
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
|
|
|
.
|

\
|
=


1 1
1 2 21
1 1 11
2
1
1
. 1
. . . .
. 1
. 1
;
.
.
.
p n n
p
p
p n
n
n
X X
X X
X X
X
Y
Y
Y
Y
|
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
|
.
|

\
|
=

n
n
p
p
c
c
c
c
|
|
|
|
.
. ;
.
.
2
1
1
1
1
0
1
. Modelo en trminos matriciales
aleatorias iables de vector
tes cons de matriz X
parmetros de vector
respuesta de vector Y
var :
tan :
:
:
c
|
| X Y E = ) (
0 ) ( = c E
c | + = X Y
La matriz de varianzas y covarianzas
I Y
I
2 2
2
2
2
2
2
2
) (
. 0 0
. . .
0 . 0
0 . 0
) (
o o
o
o
o
o
o
c o
=
=
|
|
|
|
|
.
|

\
|
=
Estimacin de los coeficientes





Ecuaciones normales de mnimos
cuadrados:

Estimadores:
|
|
|
|
|
|
.
|

\
|
=

1
1
0
1
.
.
p
p
b
b
b
b
Y X b X X =
) ( ) (
1
Y X X X b

=
Valores ajustados y residuos
Valores ajustados y residuos
|
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
|
|
|
.
|

\
|
=

n
n
n
n
e
e
e
e
Y
Y
Y
Y
.
. ;

.
.
.

2
1
1
2
1
1
HY Y =

) (
1
X X X X H

=
) ( ) (
) (
2 2
H I e
Y H I e
=
=
o o
) ( ) (
2
H I MSE e s =


Los Errores Cuadrticos y sus
Esperanzas. El Test F para la regresin
0 y 0 0
) ( ) ( 2
) ( ) (
2
1
) (
2 1
2 1
2 2 1 1 2 1
2
2 2
2
2
2
1 1
2
1
2
= = =
(
(

+
+ +
+ + =
=


| |
| |
| |
o
si
X X X X
X X X X
MSR E
p Sea
i i
i i








1
=
p
SSR
MSR
El error cuadrtico medio y su esperanza
2
) ( o =

=
MSE E
p n
SSE
MSE
) ; 1 (
1
p n p F
p n
MSE
p
MSR
F ~

=
Coeficiente de determinacin mltiple
1 0 1
2 2
s s =
=
R
SSTO
SSE
R
SSTO
SSE
SSTO
SSTO
SSTO
SSR

1 0
; 1
2
2
s s
= =
R
SSTO
SSE
SSTO
SSR
R
es el coeficiente de determinacin simple.

es el coeficiente de determinacin mltiple

Un valor grande de no implica que el
modelo ajustado sea bueno: pocos niveles de
las variables predictoras o el MSE puede ser
demasiado grande para realizar inferencias
cuando se requiere de alta precisin.
2
R
2
r
R
2
.+ observaciones
Cuando se aaden variables predictoras, el
valor de nunca se reduce: SSE no crece al
aumentar el nmero de predictores y SSTO
siempre es el mismo.

Coeficiente de determinacin mltiple ajustado:




Coeficiente de correlacin mltiple:
SSTO
SSE
p n
n
R
n
SSTO
p n
SSE
R
a a
|
|
.
|

\
|

=
1
1
1
1
2 2
2
R
2
R R =
Inferencias acerca de los parmetros de
la regresin
| = ) (b E
|
|
|
|
|
.
|

\
|
=

) ( ) , ( ) , (
) , ( ) ( ) , (
) , ( ... ) , ( ) (
) (
1
2
1 1 1 0
1 1 1
2
1 0
1 0 1 0 0
2
2
p p p
p
p
b b b b b
b b b b b
b b b b b
b
o o o
o o o
o o o
o

1 2 2
) ( ) (

= X X b o o
1 2
) ( ) (

= X X MSE b s
Intervalo de estimacin para
) (
) (
p n t
b s
b
k
k k
~
|
) ( ) ; 2 / 1 (
k k
b s p n t b o
k
|
Test para
|
k
Hiptesis:
0 :
0 :
k
a
k
0
H
H
=
=
|
|
Estadstico:
} { S
b
b
t
k
k *
=
Regla de decisin:
k
|
a
H
H p n t t Si
concluye se caso otro cualquier En
concluye se ), ; 2 / 1 (
0
*
s o
Inferencias conjuntas
) p g ( s
o 1
) ; 2 / 1 (
) (
p n g t B
b s B b
k k
=

o
Si se estiman g parmetros conjuntamente
los lmites de confianza con coeficiente conjunto
son:

Estimacin de la respuesta media y la
prediccin de una nueva observacin
|
|
|
|
|
.
|

\
|
=
1 ,
1
1
p h
h
h
X
X
X

|
h h
X Y E ) ( =
b X Y
h h

=
) ( )

(
h h h
Y E X Y E = = |
Intervalo de estimacin de
: ) (
h
Y E
h h h
X b X Y ) ( ) (
2 2
o o =
h h h
X X X X Y
1 2 2
) ( ) (

=o o
) ) ( ( ) (
1 2
h h h
X X X X MSE Y s

=
Teniendo el error de estimacin, para hallar los
intervalos de confianza asociados a las respuestas
medias o a la prediccin de nuevas observaciones,
se siguen los mismos procedimientos utilizados
para el modelo con un solo predictor.
+Estimacin de la respuesta media y la prediccin
de una nueva observacin
Ejemplo: Dwaine Studios Inc. p. 241

Dwaine Studios Inc. Realiza estudios fotogrficos en 21
ciudades de tamao medio. Estos estudios se especializan en
retratos de nios. La compaa est considerando llegar a
otras ciudades de tamao medio y desea investigar si las
ventas (Y) en una comunidad pueden predecirse por:

: el nmero de personas (en miles) de 16 aos o menos
en la comunidad

: el ingreso per cpita en la comunidad (miles de
dlares)


) (
1
X
) (
2
X


Prediccin de la respuesta media


Se trata de estimar la media de las ventas esperadas en
ciudades con poblaciones de 65.400 personas de 16 aos
o menos e ingreso per cpita de 17.600 dlares con un
intervalo de 95% de confianza:
|
|
|
.
|

\
|
=
6 . 17
4 . 65
1
h
X
..
9 . 196 ) ( 3 . 185 s s
h
Y E
Prediccin de lmites para nuevas
observaciones
Ciudad A Ciudad B
65.4 53.1
17.6 17.7
1 h
X
2 h
X
9 . 214 3 . 167
) (
s s
nuevo h
Y
2 . 199 1 . 149
) (
s s
nuevo h
Y
A los Estudios Dwaine como parte de sus posibles programas
de expansin le gustara predecir las ventas para dos nuevas
ciudades con las siguientes caractersticas:
Ciudad B:
Ciudad A:
Ejemplo: Dwaine Studios Inc. p. 241

Dwaine Studios Inc. Realiza estudios fotogrficos en 21
ciudades de tamao medio. Estos estudios se especializan en
retratos de nios. La compaa est considerando llegar a
otras ciudades de tamao medio y desea investigar si las
ventas (Y) en una comunidad pueden predecirse por:

: el nmero de personas (en miles) de 16 aos o menos
en la comunidad

: el ingreso per cpita en la comunidad (miles de
dlares)


) (
1
X
) (
2
X
Abrir el archivo Excel: EJEMPLOS NETER
Abrir la hoja 2: DWAINE STUDIOS y copiar los datos al portapapeles
Pegar los datos en el editor de datos de stata
Dar nombre a las variables segn se muestra en la figura
Vamos a hacer una grfico de dispersin matricial.
Seguimos la secuencia: Graphics>>Scatterplot matrix
Emerge la ventana graph matrix Matrix graphs
Se escogen las variables de inters : ventas, menores_16 e ingreso
Emerge el grfico de dispersin matricial, el cual ajustamos a nuestras
preferencias
Vamos a buscar el valor numrico de esas correlaciones.
Seguimos la secuencia que se indica en la figura
Se escogen las variables que se desean correlacionar haciendo clic
sobre cada una de ellas
En la ventana de resultados se obtiene la matriz de correlaciones
(correlaciones entre par de variables)
Editando estos dos resultados, tenemos el siguiente grfico:
Adems, siguiendo la secuencia de la figura obtenemos los principales
estadsticos descriptivos para las variables
En la ventana emergente se seleccionan las variables
Los resultados se observan en la ventana de resultados
INGRESO 21 17.14286 .9703461 15.8 19.1
MENORES_16 21 62.01905 18.62033 38.4 91.3
VENTAS 21 181.9048 36.1913 137.2 244.2

Variable Obs Mean Std. Dev. Min Max
. summarize VENTAS MENORES_16 INGRESO
ESTADSTICOS DESCRIPTIVOS
DE LAS VARIABLES
Hagamos los histogramas y diagramas de cajas de
las variables
9
4
3
5
0
2
4
6
8
10
F
r
e
c
u
e
n
c
i
a
140 160 180 200 220 240
Ventas
VENTAS
HISTOGRAMA DE FRECUENCIAS
8
4
3
6
0
2
4
6
8
F
r
e
c
u
e
n
c
i
a
40 50 60 70 80 90
Menores_16
MENORES DE 16 AOS
HISTOGRAMA DE FRECUENCIAS
8
6
4
3
0
2
4
6
8
F
r
e
c
u
e
n
c
i
a
16 17 18 19
Ingreso
INGRESOS
HISTOGRAMA DE FRECUENCIAS
16
17
18
19
I
n
g
r
e
s
o
INGRESO PER CPITA
DIAGRAMA DE CAJA
140
160
180
200
220
240
V
e
n
t
a
s
VENTAS
DIAGRAMA DE CAJA
40
50
60
70
80
90
M
E
N
O
R
E
S
_
1
6
MENORES DE 16 AOS
DIAGRAMA DE CAJA
PARA HACER LA REGRESIN MLTIPLE : Se sigue la misma secuencia
de la regresin lineal que se muestra en la figura
Se escoge la variable dependiente y las variables independientes que
sean de inters en el modelo. >>OK.
En la ventana de resultados se observan los RESULTADOS DE LA
REGRESIN

_cons -68.85708 60.01695 -1.15 0.266 -194.948 57.23386
INGRESO 9.365501 4.063958 2.30 0.033 .8274413 17.90356
MENORES_16 1.45456 .2117818 6.87 0.000 1.009623 1.899497

VENTAS Coef. Std. Err. t P>|t| [95% Conf. Interval]

Total 26196.2101 20 1309.8105 Root MSE = 11.007
Adj R-squared = 0.9075
Residual 2180.92749 18 121.162638 R-squared = 0.9167
Model 24015.2826 2 12007.6413 Prob > F = 0.0000
F( 2, 18) = 99.10
Source SS df MS Number of obs = 21
. regress VENTAS MENORES_16 INGRESO
LOS RESULTADOS DE
LA REGRESIN

Ingreso 366 . 9 ) 16 _ Menores ( 455 . 1 857 . 68 ventas de media + + =
| | 90 , 1 ; 01 , 1 : % 95 IC
1
|
| | 9 , 17 ; 84 , 0 : % 95 IC
2
|
INTERVALO DE CONFIANZA
PARA LOS PARMETROS
2 1
X 366 , 9 X 455 , 1 857 , 68 Y + + =
Guardemos los residuos , las predicciones y los errores
Le damos nombres, en nuestro caso: predicciones, residuos,
error_prediccin y error_pronstico
Confirmamos en el editor de datos que las nuevas variables creadas
estn guardadas
COMPROBEMOS LOS SUPUESTOS DEL MODELO
Opciones
-20
-10
0
10
20
R
e
s
i
d
u
o
s
140 160 180 200 220 240
Valores ajustados
RESIDUOS vs. VALORES AJUSTADOS
5 Opcin: Residual versus - fitted
6 Opcin: Residual versus - predictor
-20
-10
0
10
20
R
e
s
i
d
u
o
s
40 50 60 70 80 90
MENORES_16
MENORES_16
RESIDUOS vs VARIABLE PREDICTORA
-20
-10
0
10
20
R
e
s
i
d
u
o
s
16 17 18 19
INGRESO
INGRESOS
RESIDUOS vs VARIABLE PREDICTORA
Comprobemos la normalidad de los residuos con grficos
En la ventana emergente buscamos la variable residuos que hemos
guardado despus hacemos clic en la pestaa Density plots
Al activar la casilla Add normal density plot se dibuja la curva
de la distribucin normal.
5
6
8
2
0
2
4
6
8
F
r
e
c
u
e
n
c
i
a
-20 -10 0 10 20
Residuos
HISTOGRAMA DE FRECUENCIAS DE LOS RESIDUOS
-20
-10
0
10
20
R
e
s
i
d
u
o
s
DIAGRAMA DE CAJA DE LOS RESIDUOS
DIAGRAMA DE CAJA E HISTOGRAMA DE FRECUENCIAS
-20
-10
0
10
20
R
e
s
i
d
u
o
s
-20 -10 0 10 20
Normal Inversa
GRFICO QNORMAL PARA RESIDUOS
DIAGRAMA CUANTIL NORMAL
Comprobemos la normalidad de los residuos con un TEST
TEST DE NORMALIDAD: Shapiro Wilk
Los resultados de la prueba se observan en la ventana de
resultados
residuos 21 0.95407 1.125 0.239 0.40558

Variable Obs W V z Prob>z
Shapiro-Wilk W test for normal data
. swilk residuos
PRUEBA DE NORMALIDAD DE
SHAPIRO-WILK
Apliquemos otros test post-estimacin
TEST DE HETEROCEDASTICIDAD: Breusch-Pagan/Cook-Weisberg
Prob > chi2 = 0.6273
chi2(1) = 0.24
Variables: fitted values of VENTAS
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
TEST PARA
HETEROCEDASTICIDAD:
Breusch-Pagan