Está en la página 1de 36

CORRELACIN Y REGRESIN

LINEAL SIMPLE
Csar Gutirrez Villafuerte
Seccin de Epidemiologa
Instituto de Medicina Tropical Daniel A. Carrin
Facultad de Medicina UNMSM
Correlacin y Regresin
Es posible tener inters en analizar la relacin entre
variables como:
presin sangunea y edad,
estatura y peso,
el ingreso familiar y los gastos mdicos,
los niveles de pobreza y las tasas de mortalidad
infantil.
La naturaleza y la intensidad de la relacin entre dos
variables como las mencionadas son examinadas por
medio del anlisis de CORRELACIN y REGRESIN.
Correlacin Lineal Simple
Tiene por objetivo medir y evaluar el grado de asociacin lineal
entre dos variables (intensidad de la relacin). Una manera de
visualizar la (posible) correlacin entre dos variables X e Y, es a
travs de un diagrama de dispersin.
Medida de Correlacin Lineal
Simple
Se realiza a travs del Coeficiente de Correlacin
Lineal de Pearson (r).
Puede tomar cualquier valor entre -1 y 1
r = 1 Indica correlacin lineal directa perfecta
r = -1 Indica correlacin lineal inversa perfecta
r = 0 Indica que las dos variables no estn
asociadas
Coeficiente de Correlacin Lineal
de Pearson
(

= =
=
n
i
i
n
i
i
n
i
i i
y y x x
y y x x
r
1
2
1
2
1
) ( ) (
) )( (
r = -1 r = 0 r = +1
0
2
4
6
8
10
0 2 4 6 8 10
0
2
4
6
8
10
0 2 4 6 8 10
0
2
4
6
8
10
0 2 4 6 8 10
0
2
4
6
8
10
0 2 4 6 8 10
0
2
4
6
8
10
0 2 4 6 8 10
r = -0.5 r = +0.5
r = - 0.067
r = - 0.798
r = 0.955
Inferencia sobre el Coeficiente de
correlacin poblacional
Si suponemos que los pares de observaciones (x
i
,y
i
) se
obtuvieron de forma aleatoria y que tanto X como Y estn
distribuidos normalmente, esta cantidad tiene una
distribucin t con (n-2) grados de libertad solo cuando la
hiptesis nula es verdadera.
0 :
0
= H
2
1
2
r
n r
t

=
Correlaciones
1 -.003
.985
96 49
-.003 1
.985
49 49
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
edad
EVA 7 das (cm)
edad
EVA 7
das (cm)
Correlaciones
1 -.391**
.000
96 95
-.391** 1
.000
95 95
Correlacin de Pearson
Sig. (unilateral)
N
Correlacin de Pearson
Sig. (unilateral)
N
edad
Aos de estudio
edad
Aos de
estudio
La correlacin es signif icante al nivel 0,01 (unilateral). **.
Inferencia sobre el Coeficiente de
correlacin poblacional
Correlaciones
1 -.391** -.003 -.014
.000 .985 .922
96 95 49 52
-.391** 1 -.457** -.230
.000 .001 .102
95 95 49 52
-.003 -.457** 1 .537**
.985 .001 .000
49 49 49 48
-.014 -.230 .537** 1
.922 .102 .000
52 52 48 52
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
edad
Aos de estudio
EVA 7 das (cm)
EVA antes de 7 das (cm)
edad
Aos de
estudio
EVA 7
das (cm)
EVA antes de
7 das (cm)
La correlacin es signif icativ a al niv el 0, 01 (bilateral). **.
Matriz de correlacin
Matriz de grficos de dispersin
Coeficiente de Correlacin por
rangos de Spearman
Como otras tcnicas paramtricas, el coeficiente de
correlacin de Pearson es muy sensible a los valores
atpicos.
Por lo tanto, es necesario determinar una medida de
asociacin ms firme cuando la distribucin de los valores
no es normal.
Una forma de hacerlo consiste en ordenar los dos
conjuntos de resultados x e y por separado y calcular un
coeficiente de correlacin por rangos.
Coeficiente de Correlacin por
rangos de Spearman
(

= =
=
n
i
r ri
n
i
r ri
n
i
r ri r ri
s
y y x x
y y x x
r
1
2
1
2
1
) ( ) (
) )( (
Correlaciones
1.000 .176 .375** -.282*
. .126 .001 .011
80 77 76 80
.176 1.000 .077 -.250*
.126 . .517 .028
77 77 74 77
.375** .077 1.000 -.057
.001 .517 . .626
76 74 76 76
-.282* -.250* -.057 1.000
.011 .028 .626 .
80 77 76 80
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Coef iciente de
correlacin
Sig. (bilateral)
N
Escala de integracin
social
Escala de proteccin
del ambient e escolar
Escala de padres
involucrados
Edad
Rho de Spearman
Escala de
integracin
social
Escala de
proteccin del
ambiente
escolar
Escala de
padres
involucrados Edad
La correlacin es signif icativ a al niv el 0, 01 (bilateral). **.
La correlacin es signif icativ a al niv el 0, 05 (bilateral). *.
Regresin Lineal Simple
Estima la forma o naturaleza de la relacin entre dos
variables, siendo su objetivo final el PREDECIR o
ESTIMAR el valor de una variable que corresponde al
valor dado de otra variable.
La funcin entre las variables es una lnea recta dada
por la ecuacin:
Y = |
0
+ |
1
X + c
Relacin entre el tamizaje en gestantes y la transmisin
vertical del VIH, segn provincias.
San Juan, 2008.
0
5
10
15
20
25
30
35
40
0 20 40 60 80 100
Proporcin de gestantes tamizadas (%)
T
a
s
a

d
e

t
r
a
n
s
m
i
s
i

n

v
e
r
t
i
c
a
l

(
%
)
Relacin entre el tamizaje en gestantes y la transmisin vertical
del VIH, segn provincias. San Juan, 2008.
y =-0.5385x +47.367
0
5
10
15
20
25
30
35
40
0 20 40 60 80 100
Proporcin de gestantes tamizadas (%)
T
a
s
a

d
e

t
r
a
n
s
m
i
s
i

n

v
e
r
t
i
c
a
l

(
%
)
El signo nos indica
que la relacin es
inversa
y = 47.4 - 0.54x
Relacin entre el nmero de parejas sexuales ocasionales y la
prevalencia de VIH en adultos jvenes. San Juan, 2008.
y =0.171x - 0.0018
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 1 2 3 4 5 6 7 8 9
Nmero de parejas sexuales ocasionales
P
r
e
v
a
l
e
n
c
i
a

d
e

V
I
H

(
%
)
El signo nos indica
que la relacin es
directa
y = 0.17 + 0.002x
Suposiciones de la Regresin
Lineal
Y es una variable aleatoria.
Para cada valor de X existe una subpoblacin de
valores de Y que tienen una distribucin normal.
Todas las subpoblaciones de Y tienen la misma
varianza.
Las medias de las subpoblaciones de Y forman una
lnea recta en la grfica de correlacin.
La variable X puede o no ser aleatoria, pero se
mide sin error.
Distribucin de los valores Y en el
diagrama de dispersin
Intervalo de confianza para la
estimacin de la recta de regresin
Coeficiente de Determinacin - r
2
Mide la proporcin o porcentaje de la variacin total
de Y que es explicada por el modelo de regresin.
0 r
2
1
Cuanto ms se aproxime a 1, mejor ser el ajuste
del modelo a los puntos del diagrama de dispersin.
r
2
= 0.116
r
2
= 0.462
CONCLUSIONS: the percent of in situ breast cancers in
black women and white women was correlated with the
number of facilities per 10,000 women, indicating that
population density is a factor in access for both racial
groups. There was a direct correlation of statewide
mammography rates with the number of facilities per
1000 square miles, indicating that the rate of screening
depends on availability.
No olvidar
Antes de realizar el anlisis de
regresin lineal, uno debe hacer el
grfico de dispersin para verificar que
la relacin entre las variables se
aproxima a una relacin lineal
Gracias por su atencin
cgutierrezv@epiredperu.net
www.epiredperu.net