Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresin lineal
EST 400
Qu vamos a estudiar
Diferentes formas de describir la relacin entre dos variables cuando estas son numricas.
Regresin lineal
EST 400
A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos.
Altura en cm.
162 154 180 158 171 169 166 176 163 ...
Peso en Kg.
61 60 78 62 66 60 54 84 68 ...
Dichas observaciones pueden ser representadas en un diagrama de dispersin . En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables. Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.
Regresin lineal
EST 400
Peso (kg)
Pesa 76 kg.
Mide 187 cm.
180 190
Pesa 50 kg.
Mide 161 cm.
170 Altura (cm)
200
Regresin lineal
EST 400
Regresin lineal
EST 400
170
180
190
200
Regresin lineal
EST 400
Incorrelacin
90 80 70 60 50 40 30 140
140
150
160
170
180
190
200
150
160
170
180
190
200
Incorrelacin.
Regresin lineal
EST 400
La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o inversa.
1 S xy xi yi x y i n
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las variables.
Regresin lineal
EST 400
El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relacin sea directa o inversa. r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica, logartmica,...)
S xy SxS y
Regresin lineal
EST 400
Propiedades de r
Es adimensional (No posee unidades de medida) Slo toma valores en [-1,1] Las variables son incorrelacionadas r=0 Relacin lineal perfecta entre dos variables r=+1 o r=-1 Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
Variables incorrelacionadas
-1
+1
Regresin lineal
EST 400
r=0,1
150 160 170 180 190 200
r=0,4
150 160 170 180 190 200
100 90 80 70 60 50
r=0,8
190 200
r=0,99
190 200
Regresin lineal
EST 400
80 70 60 50 40 30 20
r=-0,5
150 160 170 180 190 200
10 0 140 80 70 60 50 40 30 20
r=-0,7
150 160 170 180 190 200
80 70 60 50 40 30 20 10 0 140
r=-0,95
150 160 170 180 190 200
10
r=-0,999
150 160 170 180 190 200
0 140
Regresin lineal
EST 400
Preguntas frecuentes
Si r = 0 entonces las variables son independientes? En la prctica, casi siempre s, pero no tiene por qu ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelacin. Me ha salido r = 1,2 la relacin es superlineal?
Imposible dar un valor concreto. Para este curso digamos que si |r|>0,7 hay buena relacin lineal y que si |r|>0,4 hay cierta
relacin.
Regresin lineal
EST 400
Modelo de Regresin
El anlisis de regresin sirve para predecir una medida en funcin de otra medida (o varias).
Y
X
= Variable dependiente
= Variable independiente posible descubrir una relacin?
Es
Y = f(X) + error
f es una funcin de un tipo determinado( en nuestro caso lineal) el error es aleatorio, pequeo, y no depende de X
Regresin lineal
EST 400
Regresin
Regresin lineal
EST 400
buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante
Y e Y rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad
Regresin lineal
EST 400
En el ejemplo se encontr:
Y = a + bX
b = 0,5
a =85 cm
50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220
Regresin lineal
EST 400
Cul es la mejor recta que sirve para predecir los valores de Y en funcin de los de X Qu error cometemos con dicha aproximacin (residual).
180 150
b = 0,5
120 90 60 30 0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220
a = 85 cm
Regresin lineal
EST 400
El modelo lineal de regresin se construye utilizando la tcnica de estimacin mnimo cuadrtica: Buscar a, b de tal manera que se minimice la cantidad
i ei2
S XY b 2 SX
a y b x
Se obtiene adems unas ventajas de regalo El error residual medio es nulo La varianza del error residual es mnima para dicha estimacin.
Regresin lineal
EST 400
Regresin lineal
EST 400
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cul es la variabilidad en el eje Y. Y
La franja sombreada indica la zona donde varan los valores de Y. Proyeccin sobre el eje Y = olvidar X
Regresin lineal
EST 400
Regresin lineal
EST 400
Bondad de un ajuste
Resumiendo: La dispersin del error residual ser una fraccin de la dispersin original de Y Cuanto menor sea la dispersin del error residual mejor ser el ajuste de regresin. Eso hace que definamos como medida de bondad de un ajuste de regresin, o coeficiente de determinacin a: Y
S R 1 S
2
2 e 2 Y
S e2 SY2
Regresin lineal
EST 400
Regresin lineal
EST 400
Se pueden considerar otros tipos de modelos, en funcin del aspecto que presente el diagrama de dispersin (regresin no lineal) Incluso se puede considerar el que una variable dependa de varias (regresin mltiple).
recta o parbola?
140
150
160
170
180
190
200
recta o cbica?
140
150
160
170
180
190
200
Regresin lineal
EST 400
1 variable dependiente
Simple Lineal
Modelos de regresin
2+ variables dependientes
Mltiple
No lineal
Lineal
No lineal
Regresin lineal
EST 400
Qu hemos visto?
Relacin entre variables Diagrama de dispersin Covarianza Relacin directa, inversa e incorrelacin Correlacin lineal Relacin directa, inversa e incorrelacin grado de relacin lineal entre variables Regresin, prediccin Variable dependiente Variable(s) independientes Modelo lineal de regresin
Residuo, error
Var Indep. X i 1 2 3 4 5 6 7 8 9 10 11 12 13 Estatura (m) 1,52 1,54 1,60 1,75 1,84 1,60 1,57 1,73 1,58 1,34 1,89 1,70 1,82
Var. Segn modelo Y' Peso(kg) 47,3 48,9 53,9 66,3 73,7 53,9 51,4 64,6 52,2 32,4 77,8 62,1 72,0
Y-Y' Error residual ( ei ) 1,7 3,1 -0,9 -1,3 6,3 0,1 -0,4 -3,6 -0,2 -2,4 0,2 3,9 -2,0
14
15 16 17 18 19 20
1,56
1,34 1,84 1,20 1,64 1,69 1,40
50
30 75 24 56 58 35
50,6
32,4 73,7 20,9 57,2 61,3 37,4
-0,6
-2,4 1,3 3,1 -1,2 -3,3 -2,4
21
22 23
1,45
1,49 1,26
40
43 30
41,5
44,8 25,8
-1,5
-1,8 4,2 0,0