Está en la página 1de 18

RELACIN ENTRE DOS

O MS VARIABLES
Correlacin y regresin

RELACIN ENTRE DOS


VARIABLES
Los estudios descriptivos y comparativos
permiten inferir caractersticas de distintas
poblaciones
pero
no
nos
aportan
informacin
acerca
de
individuos
en
particular, sin embargo muchas veces el
inters de los investigadores est centrado
en establecer la relacin entre dos o ms
variables para luego predecir. Es decir
conocer el valor de una variable a la que
llamaremos dependiente a partir de otra
(variable independiente).
La correlacin estudia cuan estrecha es la
asociacin entre variables y la regresin
plantea un modelo
a travs del cual

Relaciones lineales
precisas
Relacin entre radio y circunferencia

Circunferencia

40

30

20

10

0
1

4
Radio

Relacin entre dimetro con el radio de la circunferencia est dada por la


ecuacin matemtica (Circunferencia = 2. Radio)

Diagrama de dispersin o
nube de puntos
Relacin
positiva
Relacin entre las
semanas de gestacin al momento del parto y el peso de
recin nacidos de madres hipertensas 1

1-Costa de Robert Sara et all. Antihypertensive Treatment in Pregnancy The 4


International Heart Health Conference . Osaka Japn Mayo 2001.

th

Diagrama de dispersin
Relacin negativa
Relacin entre el ingreso per cpita y la tasa de mortalidad al ao de vida en
Distintos pases de Amrica 1
80

mort1

60

40

20

0
0

1000

2000

3000
4000
ingreso.per.capita

5000

6000

UNICEF, Estado Mundial de la infancia 2005. Tabla de indicadores Bsicos.


www.unicef.org

Diagrama de dispersin
Sin relacin
Relacin entre la edad materna y las semanas de gestacin al momento del parto

1-Costa de Robert Sara et all. Antihypertensive Treatment in Pregnancy The 4


International Heart Health Conference . Osaka Japn Mayo 2001.

th

Correlacin
El coeficiente de correlacin de Pearson es el calculado para variables continuas,
si tenemos dos variables X e Y, la correlacin entre ellas se la nombra r (X,Y), o
solo r y est dada por:
r = (xi-x) (yi-y )
Donde xi e yi son los valores de X e Y para el
(xi-x)2(yi-y)2
individuo i
Correlacin perfecta negativa

Correlacin perfecta positiva

-1

+1

fuerte
negativa
-0.5

fuerte
positiva
+0.5

dbil
negativa
0
Sin correlacin
Sin Correlacin

dbil
positiva

Nivel de significacin del


coeficiente de correlacin

Cundo debemos confiar en que la correlacin en la muestra es una


buena estimacin de la correlacin en la poblacin?.
Esto depende de dos factores:
1- del tamao del coeficiente, a mayor r menor probabilidad de que
haya sido elegido por error.
2- el tamao de la muestra, cuanto mayor el tamao muestra, mayor
ser la probabilidad de encontrar un coeficiente de correlacin similar
en otras muestras, y en la poblacin general como un todo. 1
Utilizamos estos dos factores para calcular el error estndar de r
Ejemplo: si encontramos una correlacin positiva de 0.8 entre las
inasistencias a clases y el tiempo de viaja al colegio en una muestra
se 49 estudiantes, podemos estimar el error estndar EE como:
EE =1-(+0.80)2 = 1-0.64 = 0.36 = 0.05
49
7
7
Derek Rowntree. Statistic Without Tears, copyright 1981. Charles
ScribnerS Sons. Pag 154-154.

Intervalo de confianza y test


de hiptesis asintticos para r

Podemos obtener intervalos de confianza (IC) para la


correlacin en la poblacin, con la frmula: IC = r + z * EE, en
nuestro ejemplo el intervalo de confianza del 95%, para la
correlacin entre la distancia a la escuela y el nmero de
inasistencias se calcula de la siguiente forma:
IC = 0.80 + 1.64 * 0.05 = 0.80 + 0.08 o sea el intervalo ser de
0.72 a 0.88.
La hiptesis nula es de que no hay asociacin en la
poblacin, la correlacin es 0. El error estndar
,segn la frmula propuesta sera:
EE = 1 (02) En nuestro ejemplo: EE = 1/49
EE
= 1/7 = 0.14
n
Si tomamos un nivel de rechazo del 5%
0 + 1.96*
EE = + 0.27 . Nuestro coeficiente de correlacin de
0.80
est bastante alejado por lo que podemos

Uso y abuso del coeficiente de


correlacin
Debemos asumir que la distribucin de los datos debe
ser normal y que las observaciones deben ser
independientes.
Fallas en la interpretacin:
1- Se consideran correlaciones espurias
2- Inclusin en la muestra a individuos
con caractersticas
especiales
3- Muestras con subgrupos de individuos
de diferentes
caractersticas
4- Fijar acuerdos

Prediccin y regresin

Cuando contamos con datos de dos variables continuas


podemos correlacionarlas, pero generalmente nuestras
pretensiones van ms all y a menudo deseamos predecir el
valor de una variable conociendo solamente el valor de la otra.
Por ejemplo, si contamos con los datos de tasa de
alfabetizacin (TA) en adultos y de esperanza de vida al nacer
(EVN) en pases americanos1, y estamos interesados en
predecir la EVN a partir de las TA, podramos intentar utilizar
un anlisis donde la variable independiente sera la tasa de
alfabetizacin y la variable dependiente la esperanza de vida al
nacer. El problema que se plantea consiste en ajustar una recta
a partir de los datos que nos proporcione la mejor prediccin
de Y a partir de X, y esa recta se ajusta a travs de un
procedimiento llamado de los cuadrados mnimos.
En general la ecuacin de regresin es Y = a + b* X
UNICEF, Estado Mundial de la infancia 2005. Tabla de indicadores Bsicos.
www.unicef.org

Diagrama de dispersin, recta de


regresin y bandas de confianza

Coeficiente de
determinacin

El coeficiente de determinacin (R2) explica el porcentaje de la


variacin total observada en la variable dependiente. El
cuadrado de r coincide con R2. Por ejemplo si la correlacin
entre el peso de los hijos adultos y el peso de los padres es de
+0.80, R2 ser de 0.64. O sea que la recta de regresin puede
explicar el 64% de la variacin total observada en el del peso
de los hijos, el otro 36 % se debe buscar por otros factores
como por ejemplo el peso de la madre, la dieta el ejercicio, etc.
El coeficiente de determinacin al igual del coeficiente de
correlacin toma valores entre 0 y 1.
Cuando vale 0 no explica nada.
Cuando vale 1 la respuesta es explicada totalmente por la
regresin.

Control experimental
El reconocimiento de la necesidad de control
produjo avances insospechados en la ciencia, el
hecho de contar con grupos de control en los
estudios experimentales permiti minimizar el
sesgo producto de potenciales variables de
confusin.
El control experimental abarca:
1- Control por investigador de la variable
independiente
2- Control de los potenciales variables de
confusin
a- Asignacin al azar
b- A travs de criterios de exclusin
3- Control de los instrumentos de medicin,
de variabilidad inter-observador y el control de las

Control estadstico
Cmo puede el investigador controlar las
variables de confusin en un estudio
observacional?
Una forma sera estratificando
Si embargo Qu sucede cuando es
necesario
estratificar
por
muchas
variables, o cuando para estratificar
variables numricas es necesario hacer
categorizaciones a menudo arbitrarias?
El anlisis de regresin mltiple, conocido
desde haca muchos aos, fue las solucin
a este problema. Su utilidad fue puesta de

Anlisis de regresin
mltiple

El anlisis de regresin mltiple permite la


posibilidad de estudiar en forma simultanea a varios
predictores y su impacto sobre la variable
dependiente o resultado. Tambin brinda la
posibilidad de estudiar a las variables numricas
como tal sin necesidad de categorizarlas.

Difiere segn el tipo de variable dependiente, sin


embargo la idea bsica que subyace en la aplicacin
de este anlisis es que permite determinar la
contribucin de diferentes factores a un nico
evento y adems permite estimar cuanto contribuye
cada factor a la respuesta independientemente del
efecto de todos los dems.

En este tipo de estudios el control sobre las variable

Anlisis de regresin mltiple

Anlisis de regresin lineal mltiple: En este caso la


variable dependiente o resultado es continua, las variables
independientes pueden ser continuas o dicotmicas. 1
En el estudio INTERSALT fue analizada la relacin entre el
consumo de sal, medido por el Na en orina de 24hs, y la
presin arterial. Otras variables formaron parte del modelo
como el BMI, el consumo de alcohol y la edad2
Anlisis de regresin logstica mltiple: La variable
dependiente es dicotmica y las variables independientes
continuas o dicotmicas. 3
Este tipo de anlisis fue utilizado en el estudio Modo de
nacimiento y riesgo de transmisin del HIV4.
La regresin logstica permite calcular el odds ratio e IC, que
tienen un importante valor biolgico porque cuantifican el
incremento o decremento del riesgo, ajustado por las dems
variables.
1-Altman D G. Practical Statistics for Medical Reserch. First edition 1991. 350-351.

Anlisis de regresin mltiple

Regresin de Cox (Cox proportional hazards models):


La variable dependiente en este caso es tiempo hasta la
ocurrencia del evento y las covariables pueden ser
dicotmicas o continuas5 .
Se utiliz la regresin de Cox en el estudio CIBIS II donde
se analiz la eficacia de un beta bloqueante en la reduccin
de la mortalidad por todas las causas en pacientes con
insuficiencia cardaca crnica estable6.
La Regresin de Cox permite calcular el hazard ratio o
riesgo relativo que como sabemos tambin tiene un
importante valor biolgico.
El caso antes descripto el diseo fue experimental, con
asignacin de los pacientes al azar a dos grupos pero de
todos modos se utiliz un anlisis multivariable como la
regresin de Cox para calcular el riesgo relativo ajustado
por la causa y la severidad de la insuficiencia cardaca, lo
que permiti mejorar el diseo controlando de manera ms
efectiva a los confusores.