Está en la página 1de 21

REGRESION Y CORRELACION

LINEALES

1
Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton (1889)
refirindose a la ley de la regresin universal:

Cada peculiaridad en un hombre es compartida por


sus descendientes, pero en promedio, en un grado
menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de
los de sus padres (otra variable). Francis Galton

Pearson realiz un estudio con ms de 1000 registros


de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre


(aprox.)

Conclusin: los padres muy altos tienen


tendencia a tener hijos que heredan parte de esta
Karl Pearson
altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.
Regresin

Describir la relacin entre dos variables numricas


El anlisis de regresin sirve para predecir una medida en funcin
de otra medida (o varias).

Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(x) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
Diagrama de dispersin , nube de puntos o Scaterplot
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

Variable dependiente y (peso)


100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Variable independiente x (altura)
REGRESION SIMPLE LINEAL

Finalidad Modelo

y x
Estimar los valores de y (variable
dependiente) a partir de los valores de x
(variable independiente)

y
y y
b
x

y
=tg q coeficiente de regresin
a q (pendiente)
Ordenada en el
origen
(intercepto)
x
x
Relacin directa e inversa

330 100

No hay relacion 90 Fuerte relacin


280
80 directa.
230
70
180
60
130
50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la


Para los valores de X mayores que la media
media tenemos valores de Y por
le corresponden valores de Y mayores
encima y por debajo en proporciones
tambin.
similares.
Para los valores de X menores que la media
80 le corresponden valores de Y menores
70 Cierta relacin tambin: relacin directa.
60 inversa
50
40
30 Para los valores de X mayores que la
20 media le corresponden valores de Y
10
menores. Esto es relacin inversa o
0
140 150 160 170 180 190 200 decreciente.
Varianza y Covarianza

Varianza: Medida de dispersin de una variable.

( ) 2 ( ) 2
() = () =
1

Covarianza: Medida de dispersin conjunta de dos variables.


, = , =
1

Parmetro Estimadores
COVARIANZA xy
Es una medida de la variacin lineal conjunta de dos variables

( y y )( x x )
y xy
N
centroide
+ yy
y Estimacin de xy

+ x x
, =

x x Es un estimador sesgado

xy < 0 asociacin lineal con pendiente negativa


Xy = 0 ausencia de asociacin lineal
xy > 0 asociacin lineal con pendiente positiva
Elsigno de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice nada
sobre el grado de relacin entre las variables.

Coef. de correlacin lineal de Pearson

r Valor en la poblacin

r Valor en la muestra

El coeficiente de correlacin lineal de Pearson de dos variables, r,


indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
CORRELACION LINEAL
Finalidad

Medir la intensidad de la asociacin lineal entre dos variables aleatorias

coeficiente de correlacin

(,)
r xy / x y =
()

coeficiente de determinacin

r2 r2

Proporcin de varianza compartida por las dos variables


Ajuste del modelo: Coeficiente de determinacin (R2)

Suma total de cuadrados:


) = +
= (

Suma de cuadrados explicada:
= ( )


2 =

Suma de cuadrados residual:
Interpretacin: El modelo
)
= ( explica el R2*100% de la
varianza de la variable
dependiente
Propiedades de r
Es adimensional
Slo toma valores entre -1y +1
Las variables NO estn correlacionadas r = 0
Relacin lineal perfecta entre dos variables r = +1 o r = -1
Excluimos los casos de puntos alineados horizontal o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin
lineal.
Siempre que no existan observaciones anmalas.

Relacin
inversa Relacin
perfecta directa
Variables
casi
NO correlacionadas
perfecta

-1 0 +1
0
0 Y
10 = 0.134
20 X + 2.122
30 40 X 50 Correlacin
60 70 80 90negativa
0 2 Y =4 X 6 8X 10 12 14 16
0
2
2
4
4
6
6
8

Y
8
10
10
12

-1 r 0
12
14
14
r=-1
16
16

Correlacin positiva 16 Y=X


16 Y = 0.134 X + 2.122

0 r +1
14
14
12
r=+1
12

10
10
Y

8
Y

6
6

4
4

2 2

0 0
0 10 20 30 40 50 60 70 80 90 0 2 4 6 8 10 12 13 14 16
X X
Ausencia de correlacin
16 Y = 0.093 X + 4.335 8 Y=4
14 7

12 6

10 5

Y
Y

8 4

6 3

4 2

2 1

0 0
20 25 30 35 40 45 50 55 60 20 25 30 35 40 45 50 55
X X

16 #DIV/0!
14

12

10

r=0
Y

0
0 1 2 3 4 5 6
X
Animacin: Evolucin de r y diagrama de dispersin
ESTIMACION DE r (rho)
r Cov
s x .s y
PRUEBA DE HIPOTESIS

r n2
Ho : r 0 tcalc Se compara con el valor critico (t tabulado)
1 r 2

CONSIDERACIONES PARA LA VALIDEZ DEL TEST

Los residuos ( e ) deben ser : Normales


Homocedasticos
Independientes

Testar la Ho: r = 0 equivale a ensayar la Ho: = 0


Animacin: Residuos del modelo de regresin

17
ESTADISTICOS USUALES

Varianza residual (insesgada) s 2y.x


( y
y ) 2

2
n2 n2

Error tipico de estimacin de y s y.x s2y.x

Error tipico de estimacin de b sb s y.x SCX

2 SCRegresin 2
Coeficiente de Determinacin R2 R (0 R 1)
SCtotal

2
S
R 2 1 e2
SY
y

ex
y
ey

x x

La recta de regresin de y sobre x no es la misma que la de x sobre y , salvo


que todos los puntos estn sobre la recta
Precauciones en la interpretacin de r

r significativo NO implica relacin de causalidad entre las variables


t x
y

r = 0 NO implica ausencia de asociacin entre las variables

y y

x x

r=0 r=0
Los problemas de regresin y de correlacin lineales se parecen
pero difieren
En la finalidad

En las variables

REGRESION CORRELACION

x variable independiente fija NO hay distincin entre variable


dependiente e independiente

y variable dependiente aleatoria x e y son variables aleatorias

También podría gustarte