Está en la página 1de 64

Estadstica Descriptiva:

4. Correlacin y Regresin Lineal


Ricardo anculef Alegra
Universidad Tcnica Federico Santa Mara
Estadstica Descriptiva
Objetivo

Obtener informacin desde una muestra, que permita
entender o formular hiptesis acerca del fenmeno que
se estudia.

Tipos de Anlisis:

Describir cmo se comporta una variable
Describir cmo una variable (digamos explicativa) afecta el
comportamiento de a otra (digamos dependiente)
Describir cmo interaccionan varias variables




Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Correlacin: Medida cuantitativa del grado de
asociacin entre dos variables X e Y continuas

Idea: Si X e Y estn correlacionadas un cambio en X se
corresponde con un cambio en Y y viceversa.

Si un incremento en X genera un incremento en Y
diremos que las variables estn correlacionadas
positivamente. En caso contrario diremos que estn
correlacionadas negativamente.




Estadstica Descriptiva
Correlacin en Anlisis Bivariado




Ejemplo: Columna del New York Times



Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Covarianza: La idea es medir los cambios con
respecto al nivel medio de cada variable




Claramente generaliza la varianza: cov(x,x)
Problema: la medida depende de las magnitudes
absolutas de x e y. Una mayor covarianza no significa
mayor asociacin

) ( ) (
1
) , cov(
1
y y x x
n
y x
i
n
i
i
=

=

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Coeficiente de Correlacin de Pearson: La idea es
normalizar la covarianza con una medida de dispersin
para X y para Y



Medida acotada entre -1 y 1 (probarlo! se sigue de la
desigualdad de Cauchy-Schwarz para productos puntos)
y x
xy

y x

) , cov(
=
> < > < s > < y y x x y x , , ,
2

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Observacin: Si x e y tienen una relacin lineal exacta
la correlacin de Pearson es igual al signo
de a
b ax y + =
b ax y
i i
+ = b x a y + =
) ( ) (
1
) , cov(
1
x a ax x x
n
y x
i
n
i
i
=

=
) var( ) , cov( x a y x =

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Observacin: Si x e y tienen una relacin lineal exacta
la correlacin de Pearson es igual al signo
de a
b ax y + =
b ax y
i i
+ = b x a y + =

= =
= =
n
i
i
n
i
i
x a ax
n
y y
n
y
1
2
1
2
) (
1
) (
1
) var(
) var( ) var(
2
x a y =

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Observacin: Si x e y tienen una relacin lineal exacta
la correlacin de Pearson es igual al signo
de a
b ax y + =
b ax y
i i
+ = b x a y + =
) (
) var( ) , cov(
a sign
a
x a

y x

x x y x
xy
=

= =

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Correlacin positiva (Pearson)
0 >
xy


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Correlacin negativa (Pearson)
0 <
xy


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Correlacin nula (Pearson)
0 =
xy


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Ejemplo 1: Se tiene la hiptesis de que el nmero de
aos de estudio est correlacionado positivamente con
el ingreso de las personas. Para corroborarlo se recogi
la siguiente muestra:

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Ejemplo 1:
Encuestado Ingreso Aos de Educacin
#1 1.250.000 19
#2 1.000.000 20
#3 400.000 16
#4 350.000 16
#5 410.000 18
#6 290.000 12
#7 350.000 14
#8 240.000 12
#9 500.000 16
#10 600.000 17

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Correlacin y Ruido

Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Limitaciones del Coeficiente de Pearson

81 . 0 =
5 . 7 = Y
12 . 4 =
Y


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Limitaciones del Coeficiente de Pearson

81 . 0 =
5 . 7 = Y
12 . 4 =
Y


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Limitaciones del Coeficiente de Pearson

81 . 0 =
5 . 7 = Y
12 . 4 =
Y


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Limitaciones del Coeficiente de Pearson

81 . 0 =
5 . 7 = Y
12 . 4 =
Y


Estadstica Descriptiva
Correlacin en Anlisis Bivariado



Anscombe's Quartet

Caso I Caso II Caso III Caso IV
x y X y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Estadstica Descriptiva
Regresin

Modelo de una variable y como funcin de otra x


x se denomina la variable independiente
y se denomina la variable dependiente
es el residuo, la parte que no logra ser explicada por
el modelo (f ser usualmente una funcin determinista)





X f Y + = ) (
Estadstica Descriptiva
Regresin

Modelo de una variable y como funcin de otra x


A partir de una muestra de valores de x e y,
queremos encontrar un modelo apropiado.
Qu tipo de funcin f utilizar?
Cmo seleccionar un modelo adecuado en base a
la muestra de observaciones?






X f Y + = ) (
Estadstica Descriptiva
Regresin



Qu funcin f utilizar?: Una funcin peridica?





X f Y + = ) (
) ( ) (
0 1
a x sen a x f + =
Estadstica Descriptiva
Regresin



Qu funcin f utilizar?
un polinomio?





X f Y + = ) (
0
1
1
2
2
) ( a x a x a x f + + =
Estadstica Descriptiva
Regresin



Qu funcin f utilizar?
una exponencial?





X f Y + = ) (
) exp( ) (
0 1
x a a x f =
Estadstica Descriptiva
Regresin



Qu funcin f utilizar?
una logstica?





X f Y + = ) (
) exp( 1
) exp(
) (
0
0
x a
x a
x f
+
=
Estadstica Descriptiva
Regresin



Graficar la muestra de valores (x,y) y estudiar la forma
de la posible relacin



X f Y + = ) (
x
y
x
y
Estadstica Descriptiva
Regresin Lineal

Una alternativa simple consiste en modelar y como
funcin lineal de x, es decir
x f y + = ) (
0 1
) ( b x b x f + =
x
y
Estadstica Descriptiva
Regresin Lineal

Una alternativa simple consiste en modelar y como
funcin lineal de x, es decir
x f y + = ) (
0 1
) ( b x b x f + =
0
b
x y b A A = /
1
x A
y A
x
y
Estadstica Descriptiva
Regresin Lineal

Qu parmetros b0 y b1 son apropiados para
modelar la relacin entre x e y?
Supongamos que hemos conseguido una muestra de
n pares de valores x e y:
{ } n i
i i
y x S s s = 1 : ) , (
{ } ) , ( , ), , ( ), , (
2 2 1 1 n n
y x y x y x S =
Estadstica Descriptiva
Regresin Lineal

Ejemplo:
El financiamiento entregado a la
autoridad Palestina contribuye a
mitigar el conflicto en la regin?
Estadstica Descriptiva
Regresin Lineal

Variables:
X: financiamiento entregado a la autoridad palestina.
Y: nmero de homicidios el ao siguiente.

Muestra: Si medimos x e y en
los ltimos aos tenemos:



X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
Estadstica Descriptiva
Regresin Lineal

Graficando X versus Y
x
y
Estadstica Descriptiva
Regresin Lineal

Graficando X e Y en cada ao
Estadstica Descriptiva
Regresin Lineal

Variables:
X: financiamiento entregado a la autoridad palestina.
Y: nmero de homicidios el ao siguiente.

Modelo: Postulamos un modelo lineal

x f y + = ) (
0 1
) ( b x b x f + =
Estadstica Descriptiva
Regresin Lineal

Ajustar el modelo lineal consiste en buscar
parmetros b0 y b1 que hagan el modelo adecuado
Cada combinacin de parmetros genera una
prediccin para el valor de y asociado a x
0 1
) ( b x b x f y + = ~
Estadstica Descriptiva
Regresin Lineal

b0 = 10 y b1 = 1
10 ) ( + = ~ x x f y
X Y f(X) Y-f(X)
1999 0 75 10 65
2000 50 250 60 190
2001 450 500 460 40
2002 375 275 385 - 110
2003 190 210 200 10
2004 300 240 310 -70
2005 290 375 300 75
2006 610 600 620 -20
Estadstica Descriptiva
Regresin Lineal

b0 = 50 y b1 = 0.5
50 5 . 0 ) ( + = ~ x x f y
X Y f(X) Y-f(X) Anterior
1999 0 75 50 25 65 -
2000 50 250 75 175 190 -
2001 450 500 275 225 40 +
2002 375 275 237 38 - 110 -
2003 190 210 145 65 10 +
2004 300 240 200 40 -70 -
2005 290 375 195 85 75 +
2006 610 600 355 245 -20 +
Estadstica Descriptiva
Regresin Lineal

b0 = 50 y b1 = 0.75
50 75 . 0 ) ( + = ~ x x f y
X Y f(X) Y-f(X) Anterior
1999 0 75 50 25 25 -
2000 50 250 87.5 162 175 -
2001 450 500 387.5 112 225 -
2002 375 275 331.25 -56.25 38 +
2003 190 210 192.5 17.5 65 -
2004 300 240 275 -35 40 -
2005 290 375 267 107.5 85 +
2006 610 600 507.5 92.5 245 -
Estadstica Descriptiva
Regresin Lineal

Lo que necesitamos es definir una funcin de error y
encontrar los parmetros b0 y b1 que la minimizan

Propuesta: minimizar error cuadrtico,

( )
2
2
) ( ) , ( x f y y x l =
( )
2
2
0 1
2
) , ( b x b y y x l = =
x
y
Estadstica Descriptiva
Regresin Lineal

Dada la muestra de observaciones buscamos el
modelo que minimiza el error promedio

( )

e e
= =
S x
i i
S x
i i S
i i
x f y y x l R
2
) ( ) , (
x
y
( )

e
=
S x
i i S
i
b x b y R
2
0 1
Estadstica Descriptiva
Regresin Lineal

Si los paramtros b0 y b1 minimizan



Se debe verificar

( )

e
=
S x
i i S
i
b x b y R
2
0 1
0
0
=
c
c
b
R
S
0
1
=
c
c
b
R
S
0
2
1
2
0 1
2
1 0
2
2
0
2

|
|
|
|
.
|

\
|
c
c
c c
c
c c
c
c
c
b
R
b b
R
b b
R
b
R
S S
S S
0 = V
S
R
0 H
Estadstica Descriptiva
Regresin Lineal

Ecuaciones normales: derivando

( )

e
= =
c
c
S x
i i
S
i
b x b y
b
R
0
0 1
0
( ) 0
0 1
1
= =
c
c

eS x
i i i
S
i
x b x b y
b
R
Estadstica Descriptiva
Regresin Lineal

Ecuaciones normales: reordenando y dividiendo por n

0
0 1
0
=
c
c
b x b y
b
R
S
0
0
2
1
1
1
=
c
c

x b x x y
b
R
i
i
i
i i
S
n
b
n
Estadstica Descriptiva
Regresin Lineal

Despejando b0 en la primera y reemplazando en la
segunda

( ) 0
1
2
1
1
=

x x b y x x y
i
i
i
i i
n
b
n
2
1
2
1
1
x b x x y x y
i
i
i
i i
n
b
n
=

) var( ) , cov(
1
x b y x =
) var(
) , cov(
1
x
y x
b =
Estadstica Descriptiva
Regresin Lineal

Estimadores de Mnimos Cuadrados del Modelo Lineal
para Y en funcin de X

) var(
) , cov(

1
x
y x
b =
x b y b
1 0

=
x b b x f y
1 0

) ( + = ~
Estadstica Descriptiva
Regresin Lineal

En nuestro ejemplo anterior, variables:
X: financiamiento entregado a la autoridad palestina.
Y: nmero de homicidios el ao siguiente.

Muestra


X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
125 . 283 = x
625 . 315 = y
Estadstica Descriptiva
Regresin Lineal

Calculamos la varianza de la variable predictora y la
covarianza entre las variables x e y


X Y
1999 0 75 -283.125 -240.625 80160
2000 50 250 -233.125 -65.625 54350
2001 450 500 166.875 184.375 27850
2002 375 275 91.875 -40.625 8440
2003 190 210 -93.125 -105.625 8670
2004 300 240 16.875 -75.625 280
2005 290 375 6.875 59.375 50
2006 610 600 326.875 284.375 10685
y y x x
2
) ( x x
Estadstica Descriptiva
Regresin Lineal

Tenemos entonces que


X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
2648 ) , cov( = y x
3583 ) var( = x
.7409 0
) var(
) , cov(

1
= =
x
y x
b
125 . 283 = x
625 . 315 = y
105.8577

1 0
= = x b y b
Estadstica Descriptiva
Regresin Lineal

Predicciones de nuestro modelo


X Y f(x)
1999 0 75 105.8501
2000 50 250 142.8964
2001 450 500 439.2672
2002 375 275 383.6977
2003 190 210 246.6262
2004 300 240 328.1281
2005 290 375 320.7189
2006 610 600 557.8155
x b b x f y
1 0

) ( + = ~
Estadstica Descriptiva
Regresin Lineal

Predicciones de nuestro modelo (magenta)


x
y
Estadstica Descriptiva
Regresin Lineal

Cmo juzgar cuantitativamente qu tan bueno es el
modelo?: Anlisis de Varianza.


( )
2
: ) (


i
i
y y y S variabilidad total de Y
( )
2
2


= =
i
i i
i
i S
y y R
variabilidad NO explicada
por el modelo
( )
2

)

(

=
i
i i
y y y S
variabilidad explicada por el
modelo
Estadstica Descriptiva
Regresin Lineal

Cmo juzgar cuantitativamente qu tan bueno es el
modelo?: Anlisis de Varianza.


( )
2

)

(

=
i
i i
y y y S
variabilidad explicada por el
modelo
y x b b x b b
n
y
i
i i
= + = + =
1 0 1 0

1

( )
2

(

=
i
i
y y y S
Estadstica Descriptiva
Regresin Lineal

Cmo juzgar cuantitativamente qu tan bueno es el
modelo?: Anlisis de Varianza.


( )
2
: ) (


i
i
y y y S variabilidad total de Y
( ) ( )
2 2

) (

+ =
i
i
i
i i
y y y y y S
variabilidad NO
explicada por el modelo
variabilidad explicada
por el modelo
Estadstica Descriptiva
Regresin Lineal

Coeficiente de Determinacin: Fraccin de la
variabilidad que s es explicada por el modelo lineal
(% de ajuste)


) (
)

(
y S
y S
D =
variabilidad explicada por el modelo
variabilidad total de Y
S
R y S
y S
D
+
=
)

(
)

(
variabilidad explicada
variabilidad explicada +
variabilidad NO explicada
Estadstica Descriptiva
Regresin Lineal

Coeficiente de Determinacin: Fraccin de la
variabilidad que s es explicada por el modelo lineal
( ) ( )
2
1 0
2

(

+ = =
i
i
i
i
y x b b y y y S
( )
2
1 1

)

(

=
i
i
x b x b y S
x b y b
1 0

=
( ) ) var(

)

(
2
1
2
2
1
x n b x x b y S
i
i
= =

Estadstica Descriptiva
Regresin Lineal

Coeficiente de Determinacin: Fraccin de la
variabilidad que s es explicada por el modelo lineal


) var(
) var(

) (
)

(
2
1
y n
x n b
y S
y S
D


= =
) var(
) var(

2
1
y
x b
D

=
Estadstica Descriptiva
Regresin Lineal

Coeficiente de Determinacin: Fraccin de la
variabilidad que s es explicada por el modelo lineal


) var( ) var(
) , ( cov
) var(
) var(

2 2
1
y x
y x
y
x b
D =

=
) var(
) , cov(

1
x
y x
b =
2
2
) var( ) var(
) , ( cov
xy

y x
y x
D = =
y x
xy

y x

) , cov(
=
Coeficiente de correlacin
de Pearson!!
Estadstica Descriptiva
Regresin Lineal

x
y
Relacin lineal?
x
Estadstica Descriptiva
Regresin Lineal

Idea: Transformaciones. Construir un modelo lineal
en una variable independiente auxiliar



Ejemplo:
X b b Y + + = ) (
1 0
) (X Z =
Z b b Y + + =
1 0
2
) ( X X Z = =
X b b Y + + =
2
1 0
Estadstica Descriptiva
Regresin Lineal

Transformaciones
X b b Y + + =
2
1 0
5 . 1
0
= b
5 . 0
1
= b
Estadstica Descriptiva
Regresin Lineal

Transformaciones Z b b Y + + =
1 0
5 . 1
0
= b
5 . 0
1
= b
Estadstica Descriptiva
Regresin Lineal

Transformaciones X b b Y + + = ) ln(
1 0
0
0
= b
5 . 0
1
= b
Estadstica Descriptiva
Regresin Lineal

Transformaciones Z b b Y + + =
1 0
0
0
= b
5 . 0
1
= b