Está en la página 1de 15

Bioestadstica

Pal E. Pachas MD, MPH (C),


MSc (C)
Instituto Nacional de Salud
Ministerio de Salud

Correlacin
y
regresin

Estudio conjunto de dos variables

A la derecha tenemos una posible manera


de recoger los datos obtenido observando
dos variables en varios individuos de una
muestra.
En cada fila tenemos los datos de un
individuo
Cada columna representa los valores de
cada variable.
Las individuos no se muestran en ningn
orden particular.

Dichas observaciones pueden ser


representadas en un diagrama de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.

Intentaremos reconocer a partir


de estos valores si hay relacin

Altura Peso
en cm. en Kg.
162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos
en un diagrama de dispersin.
Peso

r
Pa

qu
e
ec

o
s
e
lp
e
e

n ta
e
aum

la
n
o
c

ra
u
t
l
a

Talla

Coeficiente de correlacin
de Pearson

El coeficiente de correlacin
lineal de Pearson de dos
variables cuantitativas, r,
nos indica si los puntos
tienen una tendencia a
disponerse alineadamente
(excluyendo rectas
horizontales y verticales).

r es til para determinar si


hay relacin lineal entre dos
variables, pero no servir
para otro tipo de relaciones

Propiedades de r

Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos
variables r=+1 o r=-1
Excluimos los casos de puntos alineados
horiz. o verticalmente.

Cuanto ms cerca est r de +1 o -1


mejor ser el grado de relacin lineal.
Siempre que no existan observaciones
anmalas.
Relacin
inversa
perfecta

-1

Variables
incorreladas

Relacin
directa
casi
perfecta

+1

Correlaciones positivas

Correlaciones negativas

Otros coeficientes de
correlacin
Cuando las variables en vez de ser
cuantitativas
son ordinales, es posible preguntarse si
hay algn
Maurice George Kendall
tipo de correlacin entre ellas.
Disponemos para estos casos de dos
estadsticos :
(ro) de Spearman
(tau) de Kendall
Son estadsticos anlogos a r y que se usan
Charles Edward Spearman
cuando las variables son ordinales o
cuantitativas con distribucin no normal.

Anlisis de Regresin
Estudia la relacin funcional entre
variables; la finalidad es predecir
una variable en funcin de la(s)
otra(s).
X = Variable
Y = Variable
dependiente

Predicha
Explicada
Endgena
Respuesta

independiente
Predictora
Explicativa
Exgena

Es posible descubrir una relacin?


Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no
depende de X

Anlisis de Regresin
Simple
Intervienen solo dos variables:
Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple


(lineal) que nos permita aproximar Y mediante la
ecuacin:

= a + bX
Donde
es el valor estimado de Y para distintos valores de X
a es la interseccin o el valor estimado de Y cuando
X=0, es constante)
b es la pendiente de la lnea, o el cambio promedio de
Y para cada cambio en una unidad de X

Anlisis de Regresin
Simple
Y (var. dependiente)
Lnea de regresin

b
a

= a + bX
X (var. independiente)

a es la interseccin o el valor estimado de

Y cuando X=0, es

constante)
b es la pendiente de la lnea, o el cambio promedio de Y para cada
cambio en una unidad de X

Trazando lneas de
regresin
Ordenada
20

10

10
5

Abcisa

Esta grfica corresponde a


un valor fijo de a= 10 y un
valor de b diferente.
Muestra tres lneas que
corresponden a un valor fijo
de a y un valor diferente de
b.

Esta grfica
corresponde a un valor
diferente de a y un
valor fijo de b.

Lneas posibles de regresin en la


regresin lineal simple
Relacin lineal positiva

Y
Lnea de regresin

No hay relacin

Relacin lineal negativa

La pendiente b es
positiva

x
a Ordenada cuando X=0

La pendiente b es
negativa

La pendiente b es 0
a

Lnea de regresin

Lnea de regresin

Resumen sobre bondad de


ajuste
La bondad de ajuste de un modelo de regresin
se mide con el coeficiente de determinacin R2
R2 es la proporcin de la variacin total en la
variable dependiente Y, que es explicada por la
variacin en la variable independiente X
A R2 tambin se le denomina porcentaje de
variabilidad explicado por el modelo de
regresin.
R2 es el cuadrado del coeficiente de correlacin
(R2=r2 ), es una cantidad adimensional que slo
puede tomar valores en [0, 1]
Cuando un ajuste es bueno, R2 ser cercano a
uno, es malo cuando R2 es cercano a cero.