Está en la página 1de 31

Regresin lineal

Marcelo Rodrguez
Ingeniero Estadstico - Magster en Estadstica
Universidad Catlica del Maule
Facultad de Ciencias Bsicas
Pedagoga en Matemtica
Estadstica I

01 de enero de 2012

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

1 / 31

Introduccin
Comnmente, cuando se realiza un estudio estadstico, se miden a una
misma unidad de anlisis, ms de una variable.

Definicin (Variable Dependiente)


Es la variable por predecir (o por modelar) y se denota con la letra Y .

Definicin (Variable Independiente)


Son las variables que se utilizan para predecir y se denota con la letra X.

Definicin (Relacin entre variables)


Se dice que dos variables estn relacionadas, si cambios producidos (causa)
en la variable independiente producen un efecto en la variable dependiente.

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

2 / 31

Relacin entre las variables


Definicin (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relacin entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguiente manera:
n
X

covxy =

(xi x)(yi y)

i=1

n1

Sxy
n1

Si la covarianza es negativa, entonces la relacin es inversa.


Si la covarianza es positiva, entonces la relacin es directa.
Si la covarianza es cero, entonces la relacin es nula (no relacionados).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relacin entre las
variables.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

3 / 31

Relacin entre las variables


Ejemplo
Considere un estudio donde se mide el ingreso mensual (X) y el gastos
mensual (Y ). Se considera una muestra de 10 individuos, los datos son:

Promedio

Ingreso (xi )
15,6
14,8
15,5
12,5
14,2
15,7
12,3
14,2
8,8
11,9
13,55

Gasto (yi )
17,4
18,4
16,5
15,2
19,9
22,1
14,8
17,3
10,3
14,6
16,65

(xi x)
2,05
1,25
1,95
-1,05
0,65
2,15
-1,25
0,65
-4,75
-1,65

(yi y)
0,75
1,75
-0,15
-1,45
3,25
5,45
-1,85
0,65
-6,35
-2,05
Suma

(xi x)(xi x)
1,5375
2,1875
-0,2925
1,5225
2,1125
11,7175
2,3125
0,4225
30,1625
3,3825
55,065

La covarianza sera covxy = 55,065


= 6, 118. Lo que indica es que el Ingreso
9
y el Gasto estn relacionados, de forma directa (a medida que aumenta el
Ingreso aumenta el gasto).
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

4 / 31

Grado de relacin entre las variables


Coeficiente de correlacin de Pearson

Definicin (Correlacin)
El coeficiente de correlacin de Pearson, indica la fuerza y la direccin de
una relacin lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas estn correlacionadas cuando los valores de una de
ellas varan sistemticamente con respecto a los valores de la otra.
n
X

(xi x)(yi y)

Sxy
r=v
=p
uX
n
n
Sxx Syy
X
u
t (xi x)2
(yi y)2
i=1

i=1

mrodriguez@ucm.cl (UCM)

i=1

http://bit.ly/mrodriguez

01/01/2012

5 / 31

Grado de relacin entre las variables


Coeficiente de correlacin de Pearson

Indica si los puntos tienen una tendencia a disponerse alineadamente


(excluyendo rectas horizontales y verticales). Es til para determinar si
hay relacin lineal (b
y = b0 + b1 x) entre dos variables.
Tiene el mismo signo que Covxy . La diferencia radica en que r est
acotado en [1, 1].
Si est cercana a -1, indica que las variables estn relacionadas en
forma inversa, si est cercana a +1, la relacin es directa y si est
cercana a 0, las variables no estn relacionadas.
Cuanto ms cerca est r de 1 o +1 mejor ser el grado de relacin
lineal. Siempre que no existan observaciones atpicas.

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

6 / 31

Grado de relacin entre las variables


Coeficiente de correlacin de Pearson

Ejemplo
Con los datos anteriores, calcule e interprete la correlacin.

Promedio

Ingreso (xi )
15,6
14,8
15,5
12,5
14,2
15,7
12,3
14,2
8,8
11,9
13,55

Gasto (yi )
17,4
18,4
16,5
15,2
19,9
22,1
14,8
17,3
10,3
14,6
16,65

Suma

(xi x)2
4,2025
1,5625
3,8025
1,1025
0,4225
4,6225
1,5625
0,4225
22,5625
2,7225
42,985

(yi y)2
0,5625
3,0625
0,0225
2,1025
10,5625
29,7025
3,4225
0,4225
40,3225
4,2025
94,385

55,065
La correlacin sera r = 42,98594,385
= 0, 865. Lo que indica es que el
Ingreso y Gasto estn relacionados, de forma directa casi perfecta (r
cercana a 1).
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

7 / 31

Grado de relacin entre las variables


Prueba de hiptesis para probar si la correlacin es significativa en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

8 / 31

Grado de relacin entre las variables


Prueba de hiptesis para probar si la correlacin es significativa en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

9 / 31

Grado de relacin entre las variables


Prueba de hiptesis para probar si la correlacin es significativa en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

10 / 31

Regresin Lineal Simple


Introduccin

(Regresin Lineal Simple)


El trmino regresin fue introducido por Galton en su libro Natural
inheritance (1889) refirindose a la ley de la regresin universal.
Se supone que se tiene una muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
correspondiente a la observacin conjunta de las variables X e Y .
El objetivo ser encontrar una relacin entre ambas variables, esta
relacin podra estar dada por una recta (ecuacin de regresin:
yb = b0 + b1 x).

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

11 / 31

Regresin Lineal Simple


Diagrama de dispersin

En un diagrama de dispersin, cada unidad de anlisis es un punto cuyas


coordenadas son los valores de las variables.
R2 Lineal = 0,747
22,0
20,0

Gasto

18,0
16,0
14,0
12,0
10,0
8,00

10,00

12,00

14,00

16,00

Ingreso

El error aleatorio;  son las desviaciones de los verdaderos valores de Y con


respecto a los valores estimados yb (recta).
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

12 / 31

Regresin Lineal Simple


La ecuacin de regresin

La ecuacin de prediccin esperada est dada por


yb = b0 + b1 x.
Donde, las estimaciones de los parmetros 1 y 0 son:
Sxy
b1 =
;
Sxx

y b0 = y b1 x

Intercepto (b0 ): es la estimacin de y cuando x = 0.


Pendiente (b1 ): es la estimacin de la pendiente de la recta (magnitud
del incremento (o decremento) de y por cada unidad de incremento en
x.)
Adems, se define el coeficiente de determinacin r2 , como el porcentaje
de la variabilidad total que explica el modelo.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

13 / 31

Regresin Lineal Simple


La ecuacin de regresin

Ejemplo
Considerando los datos del problema anterior, encuentre la ecuacin de
regresin entre el Ingreso y el Gasto.
La ecuacin de prediccin esperada est dada por
yb = b0 + b1 x,
\ = b0 + b1 Ingreso,
Gasto
Donde, las estimaciones de los parmetros 1 y 0 son:
55, 065
= 1, 281;
b1 =
42, 985
mrodriguez@ucm.cl (UCM)

y b0 = 16, 65 1, 281 13, 55 = 0, 708.

http://bit.ly/mrodriguez

01/01/2012

14 / 31

Regresin Lineal Simple


La ecuacin de regresin

Ejemplo
Entonces, la ecuacin sera:
\ = 0, 708 + 1, 281 Ingreso,
Gasto
Pendiente: Por cada unidad monetaria que se incrementa el Ingreso, el
gasto se incrementa en 1,281.
Intercepto: Un individuo con un ingreso muy pequeo (0), se estima
que su Gasto ser de -0,708. En este caso no tiene sentido.
Esta recta, puede servir para predecir, suponga que tiene un individuo con
un ingreso de 8, entonces se estima que su Gasto sera de
\ = 0, 708 + 1, 281 8 = 9, 54.
Gasto
Adems el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r2 = 0, 8652 = 0, 747).
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

15 / 31

Regresin Lineal Simple


Regresin Lineal Simple en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

16 / 31

Regresin Lineal Simple


Regresin Lineal Simple en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

17 / 31

Regresin Lineal Simple


Regresin Lineal Simple en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

18 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial

Un modelo de regresin se dice que es exponencial si


Resumen del modelo y estimaciones de los parmetros
dependiente:Volumen
yb = b0Variable
exp[
b1 x]
Ecuacin

Estimaciones de los parmetros


Constante

b1

,001
,266
Por ejemplo, considere el problemaExponencial
donde se mide
el Ingreso=X
y el
La variable independiente esDAP.
Impuesto=Y.

Volumen

Ingreso=X
16,9
8,9
17,7
2,1
11,5
19,9
6,2
17,1
14,7
18,6

Impuestos=Y
,117
,025
,131
,001
,037
,198
,012
,127
,089
,167

0,200

0,150

0,100

0,050

0,000
0,0

5,0

10,0

15,0

20,0

DAP

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

19 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial

(Modelo exponencial)
El modelo exponencial, se puede solucionar mediante una regresin
lineal simple.
Aplicar el logaritmo natural a la ecuacin
yb = b0 exp[b1 x]
.
Tendramos
w = ln[b
y ] = ln[b0 ] + b1 x
.
Encuentre la ecuacin de regresin lineal simple entre X y W .
Luego se debe aplicar la exponencial a w para despejar yb.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

20 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial

Ejemplo
Para los datos de Ingreso= X y Impuestos= Y, encuentre la ecuacin de
regresin yb = b0 exp[b1 x]. Considere lo siguiente:
Ingreso=X
16,9
8,9
17,7
2,1
11,5
19,9
6,2
17,1
14,7
18,6

Impuesto=Y
0,117
0,025
0,131
0,001
0,037
0,198
0,012
0,127
0,089
0,167

mrodriguez@ucm.cl (UCM)

W = ln[Y ]
-2,1456
-3,6889
-2,0326
-6,9078
-3,2968
-1,6195
-4,4228
-2,0636
-2,4191
-1,7898

La ecuacin de regresin entre X y W es


w = 6, 588 + 0, 266x.
2 = 0, 934.
Adems el rxw

Aplicando la exponencial y considerando


que w = ln[b
y ], tenemos
yb = exp[6, 588] exp[0, 266x]
yb = 0, 001 exp[0, 266x].

http://bit.ly/mrodriguez

01/01/2012

21 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial

Ejemplo
Tambin podemos encontrar la ecuacin de regresin lineal simple
2 = 0, 890.
entre X e Y. La cual sera, yb = 0, 055 + 0, 011x, con rxy
2 = 0, 934.
El modelo exponencial es yb = 0, 001 exp[0, 266x], con rxw
En los datos existe un rbol con Ingreso= 14, 7 y Impuesto= 0, 089. Si
utilizamos estos dos modelos para predecir el impuesto de un
individuos con un ingreso de 14,7, tenemos

Con el modelo de regresin lineal simple:


yb = 0, 055 + 0, 011 14, 7 = 0, 105.
Con el modelo exponencial:
yb = 0, 001 exp[0, 266 14, 7] = 0, 068.

Ambas estimaciones del impuesto estn cercanas a 0, 089, pero la del


modelo exponencial (0,068), est ms cercana. Adems, el r2 del
modelo exponencial est ms cercano al 100%.
En conclusin, entre estos dos modelos el mejor es el exponencial.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

22 / 31

Regresin
Estimacin curvilnea: Algunos modelos clsicos
Modelo
Lineal
Logartmico

Ecuacin
yb = b0 + b1 x
yb = b0 + b1 ln[x]

Inverso

yb = b0 + b1

Cuadrtico
Cbico
Potencia

yb = b0 + b1 x + b2 x2
yb = b0 + b1 x + b2 x2 + b3 x3

1
x

c
yb = b0 x1

Compuesto

x
yb = b0 b1

G


1
yb = exp b0 + b1
x
Logstica

yb =

1
(0 + 1 2x )

Crecimiento
yb = exp[b0 + b1 x]
Exponencial

Comentario
Este modelo ya se analiz con todo detalle.
Calcule T = ln[X], encuentre la ecuacin de regresin lineal entre T e Y.
Luego, en la ecuacin yb = b0 + b1 t, reemplace t por ln[x].

yb = b0 exp[b1 x]

mrodriguez@ucm.cl (UCM)

Calcule T =

1
X,

encuentre la ecuacin de regresin lineal entre T e Y.


Luego, en la ecuacin yb = b0 + b1 t, reemplace t por x1 .
Calcule X 2 y realice una regresin mltiple.
Calcule X 2 , X 3 y realice una regresin mltiple.
Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuacin de regresin entre
T y W . En la ecuacin w = b + m t, reemplace t = ln[x] y w = ln[b
y ].
Luego despeje yb. Entonces, los parmetros seran b0 = exp[b] y b1 = m.
Calcule W = ln[Y ]. Encuentre la ecuacin de regresin entre X y W .
En la ecuacin w = b + m x, reemplace w = ln[b
y ]. Luego despeje yb.
Entonces, los parmetros seran b0 = exp[b] y b1 = exp[m].
1
Calcule T = X , W = ln[Y ]. Encuentre la ecuacin de regresin entre
T y W . En la ecuacin w = b + m t, reemplace t =

1
x

y w = ln[b
y ].

Luego despeje yb. Entonces, los parmetros seran b0 = b y b1 = m.


Solucin por sistemas no lineales. Ingresar n mx. de iteraciones, usar 1000.
Calcule W = ln[Y ]. Encuentre la ecuacin de regresin entre X y W.
En la ecuacin w = b + m x, reemplace w = ln[y]. Luego despeje yb.
Entonces, los parmetros seran b0 = b y b1 = m.
Este modelo ya se analiz con todo detalle.
http://bit.ly/mrodriguez

01/01/2012

23 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

24 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

25 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

26 / 31

Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS
Resumen del modelo y estimaciones de los parmetros
Variable dependiente:Impuestos
Resumen del modelo
Ecuacin

R cuadrado

gl1

Estimaciones de los parmetros


gl2

Sig.

Constante

b1

Lineal

,890

64,951

,000

-,055

,011

Exponencial

,934

112,799

,000

,001

,266

La variable independiente esIngreso.

Impuestos
Observado
Lineal
Exponencial

,200

,150

,100

,050

,000
,0

5,0

10,0

15,0

20,0

Ingreso

mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

27 / 31

Regresin Lineal Mltiple


Introduccin

Tcnica de dependencia que puede


utilizarse para analizar la relacin entre
una nica variable dependiente (Y ) y
varias variables independientes x1 , x2 ,
. . . , xk .

ndice de sitio

28,0

Cada variable independiente es


ponderada (j ), de forma que las
ponderaciones indican su contribucin
relativa a la prediccin conjunta.

26,0

24,0

22,0

20,0

,0

30

18,0

1,20

,0

1,25

35

1,30

1,35

Den

,0
40

1,40

sida
d

ON
NG LISTWISE
mrodriguez@ucm.cl

1,45

,0
45
1,50

(UCM)

,0

50

en
Ar

El objetivo es usar las variables


independientes cuyos valores son
conocidos para predecir la nica
variable dependiente seleccionada por
el investigador.

http://bit.ly/mrodriguez

01/01/2012

28 / 31

Ejemplo de problema de Regresin Lineal Mltiple


En un estudio se desea saber cuales son los factores que influyen en la
asistencia al Psiclogo, por problemas de aprendizaje. Para este objetivo se
mide el nmero de veces que asiste la familia en el ao (y), el tamao de la
familia (x1 ) y la renta familiar (x2 ). Se seleccionan 8 familias y los datos se
entregan a continuacin :
Familia
1
2
3
4
5
6
7
8

Asistencia (y)
4
5
6
7
8
7
8
10

Tamao (x1 )
2
2
4
4
5
5
6
6

Renta (x2 )
14
16
14
17
18
21
17
25

El objetivo es encontrar una funcin que relacione:


Asistencia = 0 + 1 Tamao + 2 Renta + Error.
Bastara slo tener una estimacin de 0 , 1 , y 2 para tener definida por
completo la funcin anterior.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

29 / 31

Regresin Lineal Mltiple


El modelo lineal general

El modelo de regresin lineal sera


yi = 0 + 1 xi1 + 2 xi2 , . . . , k xik + i .
Donde

y1
y2

Y = . ,
..
yn

1 x11 x12 . . . x1n


1 x21 x22 . . . x2k

X= .
..
..
...
..
.
.
1 xn1 xn2 . . . xnk

0
1

= . ,
..
k

1
2

= . ,
..
n

j , son los parmetros desconocidos, j = 1, . . . , k. El n total de


parmetros es p = k + 1.
i es el isimo error aleatorio asociado con yi , i = 1, . . . , n.
El objetivo es estimar j , a esta estimacin la llamaremos bj .
La estimacin se los parmetros sera b = (XT X)1 XT Y. Entonces
ck xik .
el modelo estimado sera ybi = b0 + b1 xi1 + b2 xi2 , . . . ,
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

30 / 31

Regresin Lineal Mltiple


Ejemplo de estimacin de los parmetros.

Identificando las matrices y vectores, tenemos

Y=

4
5
..
.

X=

10

1 2 14
1 2 16

.. .. .. ,
. . .
1 6 25

0, 188
b = (XT X)1 XT Y = 0, 814 ,
0, 182

Entonces un modelo, estimado, para predecir el nmero de Asistencias


sera:
\ = 0, 188 + 0, 814 Tamao + 0, 182 Renta
Asistencia
Equivalentemente,
yb = 0, 188 + 0, 814 x1 + 0, 182 x2
Si los parmetros bj son muy cercanos a 0, las variables xi no estaran
influenciando en el modelo en la prediccin de y.
mrodriguez@ucm.cl (UCM)

http://bit.ly/mrodriguez

01/01/2012

31 / 31

También podría gustarte