Está en la página 1de 28

DuocUC

Estadstica Unidad II Regresin lineal


Sigla: EST400 Nombre Asignatura: Estadstica 1 Material de apoyo N 1/Unidad 2

Regresin lineal

EST 400

Qu vamos a estudiar

Diferentes formas de describir la relacin entre dos variables cuando estas son numricas.

Ejemplo: Estudiar si hay relacin entre la altura y el peso.

Regresin lineal

EST 400

Estudio conjunto de dos variables

A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra.

En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos.

Altura en cm.
162 154 180 158 171 169 166 176 163 ...

Peso en Kg.
61 60 78 62 66 60 54 84 68 ...

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un diagrama de dispersin . En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables. Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.

Regresin lineal

EST 400

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.
100 90 80 70 60 50 40 30 140 150 160

Peso (kg)

Pesa 76 kg.
Mide 187 cm.
180 190

Pesa 50 kg.
Mide 161 cm.
170 Altura (cm)

200

Regresin lineal

EST 400

Relacin entre variables.


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.

100 90 80 70 60 50 40 30 140 150 160 170 180 190 200

Regresin lineal

EST 400

Prediccin de una variable en funcin de la otra


Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta en una unidad por cada unidad de altura.

100 90 80 70 60 50 40 30 140 150 160


10 cm. 10 kg.

170

180

190

200

Regresin lineal

EST 400

Relacin directa e inversa


330 280 230 180 130 80 30
100

Incorrelacin

90 80 70 60 50 40 30 140

Fuerte relacin directa.

140

150

160

170

180

190

200

150

160

170

180

190

200

Incorrelacin.

Esto se llama relacin directa o creciente.

80 70 60 50 40 30 20 10 0 140 150 160 170 180 190 200

Cierta relacin inversa

Esto es relacin inversa o decreciente.

Regresin lineal

EST 400

Covarianza de dos variables X e Y

La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o inversa.

Directa o positiva: Sxy >0 Inversa o negativa: Sxy <0

1 S xy xi yi x y i n

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las variables.

Regresin lineal

EST 400

Coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).

tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relacin sea directa o inversa. r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica, logartmica,...)

S xy SxS y

Regresin lineal

EST 400

Propiedades de r

Es adimensional (No posee unidades de medida) Slo toma valores en [-1,1] Las variables son incorrelacionadas r=0 Relacin lineal perfecta entre dos variables r=+1 o r=-1 Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.

Relacin inversa perfecta

Variables incorrelacionadas

Relacin directa casi perfecta

-1

+1

Regresin lineal

EST 400

Entrenando : correlaciones positivas


330 280 230 180 130 80 30 140 130 120 110 100 90 80 70 60 50 40 30 140

r=0,1
150 160 170 180 190 200

r=0,4
150 160 170 180 190 200

100 90 80 70 60 50 40 30 140 150 160 170 180

100 90 80 70 60 50

r=0,8
190 200

40 30 140 150 160 170 180

r=0,99
190 200

Regresin lineal

EST 400

Entrenando : correlaciones negativas


90 80 70 60 50 40 30 20 10 0 140

80 70 60 50 40 30 20

r=-0,5
150 160 170 180 190 200

10 0 140 80 70 60 50 40 30 20

r=-0,7
150 160 170 180 190 200

80 70 60 50 40 30 20 10 0 140

r=-0,95
150 160 170 180 190 200

10

r=-0,999
150 160 170 180 190 200

0 140

Regresin lineal

EST 400

Preguntas frecuentes

Si r = 0 entonces las variables son independientes? En la prctica, casi siempre s, pero no tiene por qu ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelacin. Me ha salido r = 1,2 la relacin es superlineal?

Eso es un error de clculo. Siempre debe tomar un valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin lineal?

Imposible dar un valor concreto. Para este curso digamos que si |r|>0,7 hay buena relacin lineal y que si |r|>0,4 hay cierta

relacin.

Regresin lineal

EST 400

Modelo de Regresin

El anlisis de regresin sirve para predecir una medida en funcin de otra medida (o varias).
Y
X

= Variable dependiente
= Variable independiente posible descubrir una relacin?

Es

Y = f(X) + error
f es una funcin de un tipo determinado( en nuestro caso lineal) el error es aleatorio, pequeo, y no depende de X

Regresin lineal

EST 400

Regresin

Ejemplo: estudio de la altura en grupos familiares.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x200=185 cm. Alto, pero no tanto como el padre.

Si el padre mide 120cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x120=145 cm. Bajo, pero no tanto como el padre.

Es decir, nos interesaremos por modelos de regresin lineal simple.

Regresin lineal

EST 400

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dadas dos variables

Y (dependiente) X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante

Y = a + bX a (ordenada en el origen, coeficiente de posicin, constante.) b (pendiente de la recta)

Y e Y rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad

e = Y- se le denomina residuo o error residual

Regresin lineal

EST 400

En el ejemplo se encontr:

Y = a + bX

a = 85 cm b =0,5 (el hijo gana 0,5 cm por cada cm del padre.)

Altura del hijo (cm)

180 150 120 90 60 30 0


0 10 20 30 40

b = 0,5

a =85 cm
50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220

Altura del padre (cm)

Regresin lineal

EST 400

La relacin entre las variables no es exacta. Es natural preguntarse entonces:

Cul es la mejor recta que sirve para predecir los valores de Y en funcin de los de X Qu error cometemos con dicha aproximacin (residual).

180 150

b = 0,5

Altura del hijo (cm)

120 90 60 30 0
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220

a = 85 cm

Altura del padre (cm)

Regresin lineal

EST 400

El modelo lineal de regresin se construye utilizando la tcnica de estimacin mnimo cuadrtica: Buscar a, b de tal manera que se minimice la cantidad

i ei2

Se comprueba que para lograr dicho resultado basta con elegir:

S XY b 2 SX

a y b x

Se obtiene adems unas ventajas de regalo El error residual medio es nulo La varianza del error residual es mnima para dicha estimacin.

Regresin lineal

EST 400

Cmo medir la bondad de una regresin?


Imaginemos un diagrama de dispersin, y vamos a tratar de comprender en primer lugar qu es el error residual, su relacin con la varianza de Y, y de ah, cmo medir la bondad de un ajuste.

Regresin lineal

EST 400

Interpretacin de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cul es la variabilidad en el eje Y. Y

La franja sombreada indica la zona donde varan los valores de Y. Proyeccin sobre el eje Y = olvidar X

Regresin lineal

EST 400

Interpretacin del residuo


Fijmonos ahora en los errores de prediccin (lneas verticales). Los proyectamos sobre el eje Y. Se observa que los errores de prediccin, residuos, estn menos dispersos que la variable Y original. Cuanto menos dispersos sean los residuos, mejor ser la bondad del ajuste. Y

Regresin lineal

EST 400

Bondad de un ajuste
Resumiendo: La dispersin del error residual ser una fraccin de la dispersin original de Y Cuanto menor sea la dispersin del error residual mejor ser el ajuste de regresin. Eso hace que definamos como medida de bondad de un ajuste de regresin, o coeficiente de determinacin a: Y

S R 1 S
2

2 e 2 Y

S e2 SY2

Regresin lineal

EST 400

Resumen sobre bondad de un ajuste

La bondad de un ajuste de un modelo de regresin se mide usando el coeficiente de determinacin R2


R2 es una cantidad adimensional que slo puede tomar valores en [0, 1] Cuando un ajuste es bueno, R2 ser cercano a uno. Cuando un ajuste es malo R2 ser cercano a cero.

A R2 tambin se le denomina porcentaje de variabilidad explicado por el modelo de regresin.


R2 puede ser pesado de calcular en modelos de regresin general, pero en el modelo lineal simple, la expresin es de lo ms sencilla: R2=r2

Regresin lineal

EST 400

Otros modelos de regresin

Se pueden considerar otros tipos de modelos, en funcin del aspecto que presente el diagrama de dispersin (regresin no lineal) Incluso se puede considerar el que una variable dependa de varias (regresin mltiple).

recta o parbola?

140

150

160

170

180

190

200

recta o cbica?

140

150

160

170

180

190

200

Regresin lineal

EST 400

Modelos de anlisis de regresin

1 variable dependiente
Simple Lineal

Modelos de regresin

2+ variables dependientes
Mltiple

No lineal

Lineal

No lineal

Regresin lineal

EST 400

Qu hemos visto?

Relacin entre variables Diagrama de dispersin Covarianza Relacin directa, inversa e incorrelacin Correlacin lineal Relacin directa, inversa e incorrelacin grado de relacin lineal entre variables Regresin, prediccin Variable dependiente Variable(s) independientes Modelo lineal de regresin

Ordenada en el origen Pendiente

Residuo, error

Var Indep. X i 1 2 3 4 5 6 7 8 9 10 11 12 13 Estatura (m) 1,52 1,54 1,60 1,75 1,84 1,60 1,57 1,73 1,58 1,34 1,89 1,70 1,82

Var dep Y Peso (kg) 49 52 53 65 80 54 51 61 52 30 78 66 70

Var. Segn modelo Y' Peso(kg) 47,3 48,9 53,9 66,3 73,7 53,9 51,4 64,6 52,2 32,4 77,8 62,1 72,0

Y-Y' Error residual ( ei ) 1,7 3,1 -0,9 -1,3 6,3 0,1 -0,4 -3,6 -0,2 -2,4 0,2 3,9 -2,0

14
15 16 17 18 19 20

1,56
1,34 1,84 1,20 1,64 1,69 1,40

50
30 75 24 56 58 35

50,6
32,4 73,7 20,9 57,2 61,3 37,4

-0,6
-2,4 1,3 3,1 -1,2 -3,3 -2,4

21
22 23

1,45
1,49 1,26

40
43 30

41,5
44,8 25,8

-1,5
-1,8 4,2 0,0

Suma de los errores residuales

También podría gustarte