Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Simple y Multiple
Regresion Simple y Multiple
Estadstica (complementos)
REGRESION Y CORRELACION
Frmulas bsicas en la regresin lineal simple
Como ejemplo de anlisis de regresin, describiremos el caso de Pizzera
Armand, cadena de restaurantes de comida italiana. Los lugares donde sus
establecimientos han tenido ms xito estn cercanos a establecimientos de
educacin superior. Se cree que las ventas trimestrales (representadas por y) en
esos restaurantes, se relacionan en forma positiva con la poblacin estudiantil
(representada por x). Es decir, que los restaurantes cercanos a centros escolares
con gran poblacin tienden a generar ms ventas que los que estn cerca de
centros con poblacin pequea. Aplicando el anlisis de regresin podremos
plantear una ecuacin que muestre cmo se relaciona la variable dependiente
y con la variable independiente x.
El modelo de regresin y la ecuacin de regresin
En el ejemplo, cada restaurante est asociado con un valor de x (poblacin
estudiantil en miles de estudiantes) y un valor correspondiente de y (ventas
trimestrales en miles de $). La ecuacin que describe cmo se relaciona y con x
y con un trmino de error se llama modelo de regresin. ste usado en la
regresin lineal simple es el siguiente:
Modelo de regresin lineal simple:
y = 0 + 1 x +
0 y 1 son los parmetros del modelo. es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relacin lineal
entre x y y.
Los errores, , se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviacin estndar . Esto implica que el valor
medio o valor esperado de y, denotado por E(Y/x), es igual a 0 + 1 x.
Ecuacin de regresin lineal simple:
1 >0
E(y/x) = 0 + 1 x
( Y/x=E(Y/x) )
1 <0
1 =0
nav
Estadstica (complementos)
= b0 + b1 x
1
2
3
4
5
6
7
8
9
10
Poblac. estudiantil
(en miles)
xi
2
6
8
8
12
16
20
20
22
26
Ventas trimestrales
(miles de $)
yi
58
105
88
118
117
137
157
169
149
202
Diagrama de dispersin
220
200
180
160
140
120
100
80
60
40
0
10
12
14
16
18
20
22
24
26
28
30
nav
Estadstica (complementos)
Diagrama de dispersin
(y lnea de regresin estimada)
220
200
180
= b 0 + b1 x
160
140
120
100
80
60
40
0
10
12
14
16
18
20
22
24
26
28
30
nb0 ( xi )b1
yi
2
xi yi ( xi )b0 ( xi )b1
Las soluciones son las siguientes:
b1
x y
x i y i _ in i
( x )2
x _ ni
2
i
( xi x )( yi y )
que tambin es b1
( xi x )2
y b0 y b1x
Determine la ecuacin de regresin con los datos dados.
b1=
b0=
=
( xi x )( yi y )
n 1
( xi x )2
n 1
SXY
SX2
nav
Estadstica (complementos)
restaurante
1
2
3
4
5
6
7
8
9
10
xi
yi
xiyi
2
6
8
8
12
16
20
20
22
26
140
58
105
88
118
117
137
157
169
149
202
1300
21040
4
x i2
2528
SCE = (yi i )2
SCT = (yi y )2
Coeficiente de determinacin :
r2
SCT
SCT
r2
= b 0 + b1 x
=60 + 5x
160
140
120
100
y 130
80
60
40
0
10
12
14
16
18
20
22
24
26
28
30
nav
Estadstica (complementos)
xi
Yi
(poblac.
(ventas
estud)
trimest.)
1
2
3
4
5
6
7
8
9
10
2
6
8
8
12
16
20
20
22
26
58
105
88
118
117
137
157
169
149
202
TOTALES
140
1,300
Residuales
yi i
i = 60 + 5 xi
(yi i)2
yi
(yi 130)
SCE=1,530
(yi y )2
=
(yi 130)2
SCT=15,730
r2
SCR
SCT =
14,200/15,730 = 0.9027
El 90.27% de la variacin en las ventas se puede explicar con la relacin lineal entre la
poblacin estudiantil y las ventas.
El coeficiente de correlacin lineal (r)
Es una medida descriptiva que mide la intensidad de asociacin lineal entre las dos
variables, x y y. Los valores del coeficiente de correlacin lineal siempre estn entre 1 y
+1. 1 significa una relacin lineal negativa perfecta, +1 significa una relacin lineal
positiva perfecta. Los valores cercanos a cero indican que las variables x y y no tiene
relacin lineal. El coeficiente de correlacin lineal se relaciona con el coeficiente de
determinacin as:
r = (signo de b1) r 2
(1)
(1)
SXY
Sx SY
nav
Estadstica (complementos)
SCE
n2
y es el estimador de la desviacin
estndar .
Distribucin muestral de b1
b1 es un estadstico con distribucin normal de media
b1=
(x i x)2
b1 = 1 y desviacin estndar
sb1=
s
(x i x)2
Con esta
b1 1
el cual se distribuye
sb1
b1 0
sb1
CME
SCE
n 2
CMR
SCR
SCR
.
nmerode var iables independientes
1
nav
Estadstica (complementos)
Tabla ANOVA
Fuente de
variacin
Regresin
Error
total
Suma de
cuadrados
SCR
SCE
SCT
Grados de
libertad
1
n-2
n-1
Cuadrados
medios
CMR
CME
p-valor o
sig.
F=CMR/CME
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
p-valor o
sig.
Y /X p =E(y/xp): p t /2
( xp x )2
1
s n
( x x )2
i
( xp x )2
n ( x x )2
i
Yp: p t/2 s 1 1
220
200
180
160
140
120
100
VENTAS
80
60
40
0
POBLAC
10
12
14
16
18
20
22
24
26
28
30
nav
Estadstica (complementos)
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de
venta trimestral para todos los restaurantes cercanos a centros escolares con
10,000 estudiantes:
Y:
p t/2 s
Y/x=10
SCE
n2
1530
8
( xp x )2
1
Yp: p t /2 s 1
n ( xi x )2
Yp: 110 33.875 miles de dlares
Anlisis de residuales: validacin de los supuestos del modelo
Como ya se dijo, el residual en la observacin i es la diferencia entre el valor observado de la
variable dependiente (yi) y el valor estimado de esa variable ( yi ).
Residual en observacin i: yi yi
El anlisis de residuales es la principal herramienta para determinar si es adecuado el modelo
de regresin supuesto. y = 0 + 1x + ; es el trmino del error en el modelo, y se hacen
los siguientes supuestos para l:
1.
2.
3.
4.
E() = 0
La varianza de , representada por 2, es igual para todos los valores de x.
Los valores de son independientes.
El trmino del error, , tiene tendencia normal de probabilidad.
Estos supuestos forman la base terica de las pruebas t y F que se usan para determinar si la
relacin entre x y Y es significativa, y para los estimados de intervalos de confianza y de
prediccin que ya se describieron.
El SPSS provee dos tipos de grficos para determinar las caracterstica de los residuales: Un
grfico de residuales en funcin de x o de y , con el cual se puede analizar si la varianza es
constante, y un grfico de probabilidad normal. Generalmente se trabaja con los residuales
estandarizados o tipificados.
Determinar estos grficos para los datos del ejemplo de la pizera Armand.
Hay otros anlisis para los residuales que permiten determinar valores atpicos y
observaciones influyentes en los datos muestrales que por ahora no estudiaremos.
nav
Estadstica (complementos)
3
6
9
12
15
18
115
147
239
356
579
864
a) Trace ln(yi) versus xi para verificar que es razonable una curva exponencial.
b) Ajuste una curva exponencial a los datos.
c) Estime el nmero de bacterias al trmino de 20 das.
2. Los siguientes datos se refieren a la demanda de un producto (en miles de unidades) y
su precio (en centavos) en cinco mercados diferentes:
Precio
X
Demanda
y
20
16
10
11
14
22
41
120
89
56
Tiempo de
secado (horas)
x
0
1
2
3
4
5
6
7
8
y
12.0
10.5
10.0
8.0
7.0
8.0
7.5
8.5
9.0
a)
nav
Estadstica (complementos)
10
Regresin mltiple
Frmulas clave
Variables independientes
=(x1,x2,,xp)
min ( yi yi )2
r2
. . . +pxp
SCE
SCR SCT SCE
=
1
SCT
SCT
SCT
ra2 1 (1 r 2 )
CMR
SCR
p
CME
SCE
n p 1
Estadstico de la prueba F
CMR
CME
Estadstico de la prueba t
bi
Sbi
n 1
n p 1
nav
Estadstica (complementos)
11
. . . +pxp
( yi y)2
H0 : 1 2 ... p 0
FC
CMR
; CMR=SCE/p y CME=SCE/(n-p-1)
CME
nav
Estadstica (complementos)
12
Suma de
cuadrados
SCR
SCE
SCT
Grados de
libertad
p
n-p -1
n-1
Cuadrados
medios
CMR=(SCR/p)
CME=(SCE/(n - p -1))
p-valor o
sig.
FC=CMR/CME
i 0
i 0
b
tc i ; con =n-p-1
Sbi
Se rechaza H0 si |tc| > t /2; o alternativamente, si p-valor de tc es menor que .
Multicolinealidad
En el anlisis de regresin hemos empleado el trmino variables independientes para
indicar cualquier variable que se usa para predecir o explicar el valor de la variable
dependiente. Sin embargo, el trmino no indica que las variables independientes sean
independientes entre s en un sentido estadstico. Al contrario, la mayor parte de las
variables independientes en un problema de correlacin mltiple se correlacionan en
cierto grado.
Tener un coeficiente de correlacin de la muestra mayor que 0.70 o menor que -0.70
para dos variables independientes es una regla fcil para advertir la posibilidad de
problemas por multicolinealidad.
Cuando las variables independientes estn muy correlacionadas no es posible
determinar el efecto separado de una de ellas sobre la variable dependiente.
Si es posible, se debe evitar incluir en el modelo, variables independientes que tengan
mucha correlacin. Sin embargo, en la prctica casi nunca es posible adherirse
estrictamente a este criterio.
nav
Estadstica (complementos)
Recorrido
1
2
3
4
5
6
7
8
9
10
13
millas
recorridas
(x1)
cantidad de
entregas
(x2)
tiempo de
recorrido en
horas (y)
100
9.3
50
4.8
100
8.9
100
6.5
50
4.2
80
6.2
75
7.4
65
6.0
90
7.6
90
6.1
ra2 1 (1 r 2 )
n 1
n p 1
nav
Estadstica (complementos)
14
Meses desde el
ltimo servicio
Tipo de
reparacin
Tiempo de
reparacin (horas)
elctrica
2.9
mecnica
3.0
elctrica
4.8
mecnica
1.8
elctrica
2.9
elctrica
4.9
mecnica
4.2
mecnica
4.8
elctrica
4.4
10
elctrica
4.5
Desarrolle un modelo que explique el tiempo de reparacin (Y) en funcin de los meses
desde el ltimo servicio (X1) y del tipo de reparacin (x 2).
Y=0 + 1 x1 + 2 x 2 +
Haga un anlisis de los resultados obtenidos, interprete los parmetros estimados.
Variables cualitativas ms complejas
Si una variable cualitativa tiene ms de dos niveles, se pueden definir varias variables
indicadoras para resolver el problema. En general se necesitan k-1 variables
indicadoras para incorporar una variable cualitativa con k niveles. Por ejm si una
variable tiene 3 niveles o categoras (A, B y C) se pueden crear dos variables ficticias
de la siguiente manera
categora
x1
x2
A
0
0
1 si es el nivel B
Con esta definicin
x1
B
1
0
tenemos los siguientes
0 si es cualquier otro
valores de x1 y x2.
C
0
1
1 si es el nivel C
x2
0 si es cualquier otro