Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Simple y Multiple
Regresion Simple y Multiple
REGRESION Y CORRELACION
Frmulas bsicas en la regresin lineal simple
0 y 1 son los parmetros del modelo. es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relacin lineal
entre x y y.
Los errores, , se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviacin estndar . Esto implica que el valor
medio o valor esperado de y, denotado por E(Y/x), es igual a 0 + 1 x.
1 <0
1 >0
1 =0
nav Estadstica (complementos)
2
Diagrama de dispersin
220
200
180
160
140
120
100
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Diagrama de dispersin
(y lnea de regresin estimada)
220
200
180
160 = b 0 + b1 x
140
120
100
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
yi nb0 ( xi )b1
xi yi ( xi )b0 ( xi )b1
2
x y
x i y i _ in i ( xi x )( yi y )
b1 ( xi x )( yi y ) SXY
que tambin es b1 n 1
x _ ni
( x )2
2 ( xi x )2 ( xi x )2
n 1
SX2
i
y b0 y b1x
b1=
b0=
=
nav Estadstica (complementos)
4
restaurante
xi yi xiyi x i2
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
140 1300 21040 2528
200
180
= b 0 + b1 x
160 =60 + 5x
140
120
100
y 130
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
SXY
(1) El coeficiente de correlacin se define como r ; SXY es la covarianza muestral y el
Sx SY
denominador es el producto de las desviaciones tpicas.
nav Estadstica (complementos)
6
S2 = CME = SCE/(n-2)
n-2 son los grados de libertad asociados a SCE. 2 son los parmetros estimados
en la regresin lineal ( 0 y 1 ) y n es el nmero de pares de datos.
Distribucin muestral de b1
b1 es un estadstico con distribucin normal de media b1 = 1 y desviacin estndar
b1= . Si sustituimos por su estimacin muestral, s, obtenemos un
(x i x)2
s
estimador de b1 que denotaremos por sb1. sb1= . Con esta
(x i x)2
b1 1
informacin podemos construir un estadstico t. t el cual se distribuye
sb1
con =n-2 g.l.
Tabla ANOVA
Fuente de Suma de Grados de Cuadrados F p-valor o
variacin cuadrados libertad medios sig.
Regresin SCR 1 CMR F=CMR/CME
Error SCE n-2 CME
total SCT n-1
( xp x )2
Y /X p =E(y/xp): p t /2 s n
1
( x x )2 i
( xp x )2
Yp: p t/2 s 1 1
n ( x x )2
i
220
200
180
160
140
120
100
80
VENTAS
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
POBLAC
nav Estadstica (complementos)
8
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de
venta trimestral para todos los restaurantes cercanos a centros escolares con
10,000 estudiantes:
Y: p t/2 s
1 ( xp x )2
Yp: p t /2 s 1
n ( xi x )2
Residual en observacin i: yi yi
1. E() = 0
2. La varianza de , representada por 2, es igual para todos los valores de x.
3. Los valores de son independientes.
4. El trmino del error, , tiene tendencia normal de probabilidad.
Estos supuestos forman la base terica de las pruebas t y F que se usan para determinar si la
relacin entre x y Y es significativa, y para los estimados de intervalos de confianza y de
prediccin que ya se describieron.
El SPSS provee dos tipos de grficos para determinar las caracterstica de los residuales: Un
grfico de residuales en funcin de x o de y , con el cual se puede analizar si la varianza es
constante, y un grfico de probabilidad normal. Generalmente se trabaja con los residuales
estandarizados o tipificados.
Determinar estos grficos para los datos del ejemplo de la pizera Armand.
Hay otros anlisis para los residuales que permiten determinar valores atpicos y
observaciones influyentes en los datos muestrales que por ahora no estudiaremos.
nav Estadstica (complementos)
9
Hay alguna tendencias que no son lineales pero con una adecuada transformacin de
variables se pueden transformar en lineales, por ejm tendencias exponenciales, potenciales,
logartmica, etc. El Spss tiene sas y otras tendencias en el men de regresin. Los siguientes
ejercicios son de ese tipo:
a) Trace ln(yi) versus xi para verificar que es razonable una curva exponencial.
b) Ajuste una curva exponencial a los datos.
c) Estime el nmero de bacterias al trmino de 20 das.
Precio Demanda
X y
Ajuste una funcin potencial y sela para estimar la
20 22
demanda cuando el precio del producto es de 12 centavos.
16 41
10 120
11 89
14 56
Frmulas clave
Ecuacin de regresin mltiple estimada Y = b0 + b1x1 + b2x2 + . . . +bpxp
Criterio de mnimos cuadrados min ( yi yi )2
n 1
Coeficiente de determinacin mltiple ajustado ra2 1 (1 r 2 )
n p 1
SCR
Cuadrado medio debido a la regresin CMR
p
SCE
Cuadrado medio del error CME
n p 1
CMR
Estadstico de la prueba F F
CME
bi
Estadstico de la prueba t t
Sbi
nav Estadstica (complementos)
11
Modelo de regresin mltiple
El trmino del error explica la variabilidad en y que no puede explicar las p variables
independientes. El error es una variable aleatoria distribuida normalmente con media
cero y varianza constante,2, para todos los valores de las X i.
Pruebas de significancia
H0 : 1 2 ... p 0
Prueba F
H1 : Uno o ms de los parmetrosno es cero
Tabla ANOVA
Fuente de Suma de Grados de Cuadrados F p-valor o
variacin cuadrados libertad medios sig.
Regresin SCR p CMR=(SCR/p) FC=CMR/CME
Error SCE n-p -1 CME=(SCE/(n - p -1))
total SCT n-1
i 0
i 0
b
tc i ; con =n-p-1
Sbi
Se rechaza H0 si |tc| > t /2; o alternativamente, si p-valor de tc es menor que .
Multicolinealidad
En el anlisis de regresin hemos empleado el trmino variables independientes para
indicar cualquier variable que se usa para predecir o explicar el valor de la variable
dependiente. Sin embargo, el trmino no indica que las variables independientes sean
independientes entre s en un sentido estadstico. Al contrario, la mayor parte de las
variables independientes en un problema de correlacin mltiple se correlacionan en
cierto grado.
Tener un coeficiente de correlacin de la muestra mayor que 0.70 o menor que -0.70
para dos variables independientes es una regla fcil para advertir la posibilidad de
problemas por multicolinealidad.
Cuando las variables independientes estn muy correlacionadas no es posible
determinar el efecto separado de una de ellas sobre la variable dependiente.
Si es posible, se debe evitar incluir en el modelo, variables independientes que tengan
mucha correlacin. Sin embargo, en la prctica casi nunca es posible adherirse
estrictamente a este criterio.
Estime, mediante un intervalo del 95% de confianza, la media del tiempo de viaje para
todos los camiones que recorren 100 millas y hacen dos entregas.
Estime, mediante un intervalo del 95% de confianza, el tiempo de viaje para un camin
que va a recorrer 100 millas y a hacer 2 entregas.
nav Estadstica (complementos)
14
Variables independientes cualitativas
Como hemos visto, las variables involucradas en problema de regresin son todas
variables numricas tanto las independientes como la dependiente. Sin embargo, en
muchas situaciones se debe incorporar al modelo variables cualitativas. El objetivo de
esta seccin es mostrar cmo se manejan este tipo de variables. Se crean unas
variables llamadas variables ficticias o indicadoras, las cuales slo pueden tomar dos
valores, 0 y 1.
Para ejemplificar el uso de estas variables consideremos el siguiente problema en la
empresa Jonson filtration, la cual se dedica al servicio de mantenimiento de sistemas
de filtrado de agua. Sus clientes se comunican solicitando servicio de mantenimiento en
sus sistemas de filtrado de agua. Para estimar el tiempo y el costo de servicios, la
gerencia desea predecir el tiempo necesario de reparacin para cada solicitud de
mantenimiento. Se cree que ese tiempo de reparacin se relaciona con dos factores: la
cantidad de meses transcurridos desde el ltimo servicio y el tipo de reparacin
(mecnica o elctrica). En la tabla se presentan los datos de una muestra de 10
rdenes de servicio:
rden de Meses desde el Tipo de Tiempo de
servicio ltimo servicio reparacin reparacin (horas)
1 2 elctrica 2.9
2 6 mecnica 3.0
3 8 elctrica 4.8
4 3 mecnica 1.8
5 2 elctrica 2.9
6 7 elctrica 4.9
7 9 mecnica 4.2
8 8 mecnica 4.8
9 4 elctrica 4.4
10 6 elctrica 4.5
Desarrolle un modelo que explique el tiempo de reparacin (Y) en funcin de los meses
desde el ltimo servicio (X1) y del tipo de reparacin (x 2).
Y=0 + 1 x1 + 2 x 2 +
Haga un anlisis de los resultados obtenidos, interprete los parmetros estimados.
Variables cualitativas ms complejas
Si una variable cualitativa tiene ms de dos niveles, se pueden definir varias variables
indicadoras para resolver el problema. En general se necesitan k-1 variables
indicadoras para incorporar una variable cualitativa con k niveles. Por ejm si una
variable tiene 3 niveles o categoras (A, B y C) se pueden crear dos variables ficticias
de la siguiente manera
categora x1 x2
1 si es el nivel B A 0 0
x1 Con esta definicin
B 1 0
0 si es cualquier otro tenemos los siguientes
valores de x1 y x2. C 0 1
1 si es el nivel C
x2
0 si es cualquier otro