Está en la página 1de 24

REGRESIN LINEAL SIMPLE

Ing. Eco. Mximo Pasache Ramos


e-mail: maxgedeon@gmail.com

DEFINICIN
El modelo de Regresin Lineal Simple nos permite construir un modelo para explicar la relacin entre dos variables.
Ejemplo: - Ingreso y Consumo - Tasa de Inflacin y Tasa de Expansin Monetaria - Dficit y Tasa de inters

El Objetivo es explicar el comportamiento de una variable Y (variable dependiente, explicada o endgena), a partir de otra variable X (variable independiente, explicativa o exgena), formando l siguiente modelo: Y = 0 + 1 X

Origen de los modelos Regresin


Estos modelos fueros utilizados por Laplace y Gauss en sus trabajos de astronoma y fsica desarrollados durante el siglo XVIII, pero el nombre de modelos de regresin tiene su origen en los trabajos de Galton en biologa de finales del siglo XIX. La expresin de Galton: regression towards mediocrity dio nombre a la regresin.

Laplace

Gauss

Galton

El Modelo de Regresin Lineal Simple


Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin: Y = 0 + 1 X + u Donde: 0 : El valor de la ordenada donde la lnea de regresin se intercepta al eje Y. 1 : El coeficiente de regresin poblacional (pendiente de la lnea recta) u : El error

El Modelo de Regresin Lineal Simple


La idea bsica es estimar parmetros poblacionales a partir de una muestra. Sea {(xi,yi): i = 1, ,n} una muestra aleatoria de tamao n de una poblacin. Para cada observacin en la muestra, tenemos:

yi = 0 + 1xi + ui

El Modelo de Regresin Lineal Simple


y y4 E(y|x) = b0 + b1x
u4 {

y3 y2

u2{

.}u

y1

.}u
x1

x2

x3

x4

Ejemplo (Galton) con 2 Variables


A la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables aleatorias en varios individuos de una muestra.
En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable aleatoria sobre los mismos. Las individuos no se muestran en ningn orden particular. Altura en cm.
162 154 180 158 171 169

Peso en Kg.
61 60 78 62 66 60 54 84 68 ...

Dichas observaciones pueden ser representadas en un diagrama de dispersin (scatterplot). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables. Nuestro objetivo ser intentar reconocer a partir del mismo si hay relacin entre las variables, de qu tipo, y si es posible predecir el valor de una de ellas en funcin de la otra.

166 176 163 ...

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin. Cada punto es un valor particular de la variable aleatoria bidimensional (X, Y).

100 90 80 70 60
Pesa 50 kg. Mide 187 cm.

Pesa 76 kg.

50 40 30 140 150 160 170 180


Mide 161 cm.

190

200

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersin.

100 90 80 70 60 50 40 30 140 150 160 170 180 190 200

Prediccin de una variable en funcin de otra


Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... O sea, el peso aumenta en una unidad por cada unidad de altura.

100 90 80 70 60 50 40 30 140 150 160


10 cm. 10 kg.

170

180

190

200

Cmo reconocer relacin directa e inversa


330 280 230 180 130 80 30 140 150 160 170 180 190 200
100

Incorrelacin

90 80 70 60 50 40 30

Fuerte relacin directa.

140

150

160

170

180

190

200

Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelacin.

Para los valores de X mayores que la media le corresponden valores de Y mayores tambin. Para los valores de X menores que la media le corresponden valores de Y menores tambin.

80 70 60 50 40 30 20 10 0 140 150 160 170 180 190 200

Cierta relacin inversa

Esto se llama relacin directa o creciente entre X e Y.


Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relacin inversa o decreciente.

Cmo reconocer buena o mala relacin


330 280 230 180 130 80 30 140 150 160 170 180 190 200

100

Poca relacin

90 80 70 60 50 40 30

Fuerte relacin directa.

140

150

160

170

180

190

200

Dado un valor de X no podemos decir gran cosa sobre Y. Mala relacin. Independencia.

Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relacin. Lo de horquilla estrecha hay que entenderlo con respecto a la dispersin que tiene la variable Y por si sola, cuando no se considera X.

80 70 60 50 40 30 20 10 0 140 150 160 170 180 190 200

Cierta relacin inversa

Covarianza de dos variables aleatorias X e Y


La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o inversa: Directa: Sxy > 0 Inversa: Sxy < 0 Incorreladas: Sxy = 0

1 S xy ( xi x )( yi y ) n i

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las variables.

Coeficiente de correlacin lineal de Pearson


El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy . Por tanto de su signo obtenemos el que la posible relacin sea directa o inversa. r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica, logartmica,...)

S xy SxS y

Propiedades de r

Es adimensional. Slo toma valores en [-1,1]. Las variables son incorreladas r = 0. Relacin lineal perfecta entre dos variables r = +1 o r = -1. Excluimos los casos de puntos alineados horiz. o verticalmente. Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal. Siempre que no existan observaciones anmalas.

Relacin inversa perfecta

Variables incorreladas

Relacin directa casi perfecta

-1

+1

Entrenando el ojo: correlaciones positivas.


330 280 230 180 130 80 30 140 110 100 90 80 70 60 50 40 30 140 150 160 170 180 130 120 110 100 90 80 70 60 50 40 30 140 100 90 80 70 60 50

r=0,1
150 160 170 180 190 200

r=0,4
150 160 170 180 190 200

r=0,6
190 200

40 30 140 150 160 170 180

r=0,8
190 200

Entrenando el ojo: casi perfectas y positivas


100 90 80 70 60 50 40 30 140 100 90 80 70 60 50 40 30 140 150 160 170 180 150 160 170 180 100 90 80 70 60 50

r=0,9
190 200

40 30 140 150 160 170 180

r=0,99
190 200

r=1
190 200

Entrenando el ojo: correlaciones negativas


90 80 70 60 50 40 30 20 10 0 140

80 70 60 50 40 30 20

r=-0,5
150 160 170 180 190 200

10 0 140 80 70 60 50 40 30 20

r=-0,7
150 160 170 180 190 200

80 70 60 50 40 30 20 10 0 140

r=-0,95
150 160 170 180 190 200

10

r=-0,999
150 160 170 180 190 200

0 140

Si r = 0 eso quiere decir que las variables son independientes? En la prctica, casi siempre s, pero no tiene por qu ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelacin. Me ha salido r = 1,2 La relacin es superlineal [sic]? Superqu? Eso es un error de clculo. Siempre debe tomar un valor entre -1 y +1. A partir de qu valores se considera que hay buena relacin lineal? Es difcil dar un valor concreto (mirad los grficos anteriores). Para este curso digamos que si |r| > 0,7 hay buena relacin lineal y que si |r| > 0,4 hay cierta relacin (por decir algo... la cosa es un poco ms complicada: observaciones anmalas,...)

Regresin lineal simple


El anlisis de regresin sirve para predecir una medida en funcin de otra medida (o varias: regresin mltiple).
Y = Variable dependiente
predicha, medida, es una variable aleatoria explicada

X = Variable independiente
predictora, controlada, no es una variable aleatoria. explicativa

Es posible descubrir una relacin?


Y = f(X) + error
f es una funcin de un tipo determinado el error es aleatorio, pequeo, y no depende de X
20

Regresin Lineal Simple


El ejemplo del estudio de la altura en grupos familiares de Pearson:
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm. Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm. Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal simple.

Modelo de regresin lineal simple


En el modelo de regresin lineal simple, dado dos variables
Y (dependiente) X (independiente, explicativa)

buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante = b0 + b1X
b0 (ordenada en el origen, constante) b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad e = Y- se le denomina residuo o error residual.
22

En el ejemplo de Pearson y las alturas, l encontr:

= b0 + b1X
b0 = 85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm Extrapolacin salvaje!) b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

180 150 120 90 60 30 0


0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220
23

b1=0,5

b0=85 cm

La relacin entre las variables no es exacta. Es natural preguntarse entonces:


Cul es la mejor recta que sirve para predecir los valores de Y en funcin de los de X Qu error cometemos con dicha aproximacin (residual).

180 150 120 90 60 30 0


0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220

b1=0,5

b0=85 cm

24

También podría gustarte