Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Relaciones entre variables y regresión
El término regresión fue introducido por Galton en su libro
“Natural inheritance” (1889) refiriéndose a la “ley de la
regresión universal”:
3
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso
en cm. en Kg.
En cada fila tenemos los datos de un individuo
162 61
154 60
Cada columna representa los valores que toma una variable 180 78
sobre los mismos.
158 62
171 66
Las individuos no se muestran en ningún orden particular. 169 60
166 54
Dichas observaciones pueden ser representadas en un 176 84
diagrama de dispersión (‘scatterplot’). En ellos, cada 163 68
individuos es un punto cuyas coordenadas son los valores
de las variables. ... ...
100
90
80 Pesa 76 kg.
70
30
140 150 160 170 180 190 200
5
Relación entre variables.
100 ura
al t
90 n la
co
enta
80
aum
es o
70
el p
que
60
re ce
50 Pa
40
30
140 150 160 170 180 190 200
6
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
7
Relación directa e inversa
330 100
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r^2 = 0.172
la dispersión marginal de Y
400
La dispersión de Y condicionada a X
380
y
360
r^2 = 0.969
380
La distribución de Y,
independientemente del valor de X, se
370
360
10
Coef. de correlación lineal de Pearson
La coeficiente de correlación lineal de Pearson de
dos variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
-1 0 +1
12
Entrenando el ojo: correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
13
Entrenando el ojo: correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
14
Animación: Evolución de r y diagrama de dispersión
15
Preguntas frecuentes
¿Si r=0 eso quiere decir que no las variables son
independientes?
En la práctica, casi siempre sí, pero no tiene
por qué ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelación.
16
Otros coeficientes de correlación
17
Regresión
18
Regresión
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
21
La relación entre las variables no es exacta. Es natural
preguntarse entonces:
Cuál es la mejor recta que sirve para predecir los valores de Y
en función de los de X
Qué error cometemos con dicha aproximación (residual).
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
22
El modelo lineal de regresión se construye utilizando la técnica de
estimación mínimo cuadrática:
Buscar b , b de tal manera que se minimice la cantidad
0 1
Σi ei2
24
Que el error medio de las Cometió un error
predicciones sea nulo no quiere de -30 en su
última predicción
decir que las predicciones sean
buenas.
25
¿Cómo medir la bondad de una regresión?
26
Interpretación de la variabilidad en Y
27
Interpretación del residuo
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y. Y
28
Bondad de un ajuste
Resumiendo: Y
• La dispersión del error residual será una fracción
de la dispersión original de Y
2
S
R 1
2 e
2
S Y
S 2
e S 2
Y
29
Animación: Descomposición de la varianza
30
Resumen sobre bondad de un ajuste
31
Otros modelos de regresión
Se pueden considerar otros ¿recta o parábola?
tipos de modelos, en función
del aspecto que presente el
diagrama de dispersión
(regresión no lineal)
32
Modelos de análisis de regresión
Simple Múltiple
14
10
12
8
10
8 6
6
4
4
La bondad del ajuste es de R =0,577= 57,7% 2 150 160 170 180 190 200
¿Cómo lo interpretas?
Correlaciones
36