Documentos de Académico
Documentos de Profesional
Documentos de Cultura
15 RegresionLineal PDF
15 RegresionLineal PDF
Regresin lineal
Este tema, prcticamente ntegro, est calacado de los excelentes
apuntes y transparencias de Bioestadstica del profesor F.J. Barn Lpez
de la Universidad de Mlaga.
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
Relacin entre variables
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Prediccin de una variable en funcin de otra
Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
Cmo reconocer relacin directa e inversa
330 100
80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
Relacin
inversa Relacin
perfecta directa
Variables
casi
incorreladas
perfecta
-1 0 +1
Entrenando el ojo: correlaciones positivas.
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
110 100
100 90
90 80
80
70
70
60
60
50 50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y
positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones
negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Si r = 0 eso quiere decir que
las variables son independientes?
En la prctica, casi siempre
s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
no correlacin.
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
Regresin lineal simple
Recordemos el ejemplo del estudio de la altura en grupos
familiares de Pearson:
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
La relacin entre las variables no es exacta. Es natural
preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
El modelo lineal de regresin se construye utilizando la tcnica
de estimacin mnimo cuadrtica:
Buscar b0, b1 de tal manera que se minimice la cantidad
i ei2 = i (Yi - )2
Se comprueba que para lograr dicho resultado basta con elegir:
Sy S xy
b1 = r b0 = y b1 x r=
Sx SxS y
Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que Y
existe la variable X. Veamos cul
es la variabilidad en el eje Y.
Proyeccin sobre el
eje Y = olvidar X.
Interpretacin del residuo
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el Y
eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.
2
S
R = 1
2 e
2
S y
S < S
2
e
2
Y