Está en la página 1de 26

15.

Regresin lineal
Este tema, prcticamente ntegro, est calacado de los excelentes
apuntes y transparencias de Bioestadstica del profesor F.J. Barn Lpez
de la Universidad de Mlaga.

Te recomiendo visitar su pgina de apuntes y vdeos:


http://www.bioestadistica.uma.es/baron/apuntes/
Relaciones entre variables aleatorias y
regresin lineal
El trmino regresin fue introducido por Galton en su libro
Natural inheritance (1889) refirindose a la ley de la
regresin universal:

Cada peculiaridad en un hombre es compartida por sus


descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de
los descendientes (una variable) a partir de los de sus padres
(otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000
registros de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)


Francis Galton
Conclusin: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.

Hoy en da el sentido de regresin es el de prediccin de una


medida basndonos en el conocimiento de otra.
Estudio conjunto de dos variables
aleatorias
A la derecha tenemos una posible manera de recoger
los datos obtenido observando dos variables aleatorias Altura Peso
en varios individuos de una muestra. en cm. en Kg.
162 61
En cada fila tenemos los datos de un individuo 154 60
180 78
Cada columna representa los valores que toma una 158 62
variable aleatoria sobre los mismos.
171 66
Las individuos no se muestran en ningn orden particular. 169 60
166 54
Dichas observaciones pueden ser representadas en un 176 84
diagrama de dispersin (scatterplot). En ellos, cada 163 68
individuos es un punto cuyas coordenadas son los
valores de las variables. ... ...

Nuestro objetivo ser intentar reconocer a partir del


mismo si hay relacin entre las variables, de qu tipo, y
si es posible predecir el valor de una de ellas en funcin
de la otra.
Diagramas de dispersin o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Relacin entre variables
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Prediccin de una variable en funcin de otra
Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.

30
140 150 160 170 180 190 200
Cmo reconocer relacin directa e inversa
330 100

280 Descorrelacin 90 Fuerte relacin


80 directa.
230
70
180
60
130 50

80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Para valores de X por encima de la media Para los valores de X mayores


tenemos valores de Y por encima y por debajo que la media le corresponden
en proporciones similares: Descorrelacin. valores de Y mayores tambin.

Para los valores de X menores


que la media le corresponden
80
valores de Y menores tambin.
70 Cierta relacin
60 inversa Esto se llama relacin directa o
50
creciente entre X e Y.
40
30
20
10
Para los valores de X mayores que la
0 media le corresponden valores de Y
140 150 160 170 180 190 200
menores. Esto es relacin inversa o
decreciente.
Cmo reconocer buena o mala relacin
330 100

280 Poca relacin 90 Fuerte relacin


80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Dado un valor de X no podemos decir Conocido X sabemos que Y se mueve


gran cosa sobre Y. Mala relacin. por una horquilla estrecha. Buena
Independencia. relacin.

Lo de horquilla estrecha hay que


entenderlo con respecto a la dispersin
que tiene la variable Y por si sola, cuando
80 no se considera X.
70 Cierta relacin
60 inversa
50
40
30
20
10
0
140 150 160 170 180 190 200
Covarianza de dos variables aleatorias X e Y
La covarianza entre dos variables, Sxy, nos
indica si la posible relacin entre dos variables
es directa o inversa:

Directa: Sxy > 0 1


Inversa: Sxy < 0 S xy = ( xi x )( yi y )
n i
Descorreladas: Sxy = 0

El signo de la covarianza nos dice si el


aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.
Coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson de


dos variables, r, nos indica si los puntos tienen
una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).

Tiene el mismo signo que Sxy . Por tanto de su


signo obtenemos el que la posible relacin sea
directa o inversa.

r es til para determinar si hay relacin lineal S xy


entre dos variables, pero no servir para otro tipo r=
de relaciones (cuadrtica, logartmica,...) SxS y
Propiedades de r
Es adimensional.
Slo toma valores en [-1,1].
Las variables son descorreladas r = 0.
Relacin lineal perfecta entre dos variables r = +1 o r = -1.
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.

Relacin
inversa Relacin
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
Entrenando el ojo: correlaciones positivas.

330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Entrenando el ojo: casi perfectas y
positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Entrenando el ojo: correlaciones
negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Si r = 0 eso quiere decir que
las variables son independientes?
En la prctica, casi siempre
s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
no correlacin.

Me ha salido r = 1,2 La relacin es superlineal [sic]?


Superqu? Eso es un error de clculo. Siempre debe tomar un
valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin


lineal?
Es difcil dar un valor concreto (mirad los grficos anteriores).
Para este curso digamos que si |r| > 0,7 hay buena relacin lineal
y que si |r| > 0,4 hay cierta relacin (por decir algo... la cosa es un
poco ms complicada: observaciones anmalas,...)
Regresin lineal simple
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias:
regresin mltiple).

Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
Regresin lineal simple
Recordemos el ejemplo del estudio de la altura en grupos
familiares de Pearson:

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200 cm, cunto mide el hijo?


Se espera (predice) 85 + 0,5 x 200 = 185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120 cm, cunto mide el hijo?


Se espera (predice) 85 + 0,5 x 120 = 145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Esto es un modelo de regresin lineal simple.


Modelo de regresin lineal simple
En el modelo de regresin lineal simple, dado dos
variables
Y (dependiente)
X (independiente, explicativa)

buscamos encontrar una funcin de X muy simple


(lineal) que nos permita aproximar Y mediante
= b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el


modelo de regresin. A la cantidad
e = Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:
= b 0 + b1X

b0 = 85 cm (No interpretar como altura de un hijo cuyo padre mide


0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

180
150 b1=0,5

120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
La relacin entre las variables no es exacta. Es natural
preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).

180
150 b1=0,5

120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
El modelo lineal de regresin se construye utilizando la tcnica
de estimacin mnimo cuadrtica:
Buscar b0, b1 de tal manera que se minimice la cantidad
i ei2 = i (Yi - )2
Se comprueba que para lograr dicho resultado basta con elegir:

Sy S xy
b1 = r b0 = y b1 x r=
Sx SxS y

La recta de regresin estimada ser: y = y + b1 ( x x )


Se obtiene adems unas ventajas de regalo:
El error residual medio es nulo.
La varianza del error residual es mnima para dicha
estimacin.
Que el error medio de las Cometi un
predicciones sea nulo no error de - 30 en
quiere decir que las su ltima
prediccin
predicciones sean buenas.

Hay que encontrar un


medio de expresar la
bondad del ajuste (bondad
de la prediccin).
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.
Cmo medir la bondad de una regresin?

Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que Y
existe la variable X. Veamos cul
es la variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.

Proyeccin sobre el
eje Y = olvidar X.
Interpretacin del residuo
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el Y
eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los


residuos,
mejor ser la bondad del ajuste.
Bondad de un ajuste
Resumiendo:

La dispersin del error residual ser una Y


fraccin de la dispersin original de Y.

Cuanto menor sea la dispersin del error


residual mejor ser el ajuste de regresin.

Eso hace que definamos como medida


de bondad de un ajuste de regresin,
o coeficiente de determinacin a:

2
S
R = 1
2 e
2
S y

S < S
2
e
2
Y

También podría gustarte