Está en la página 1de 18

RELACIN

ENTRE DOS O
MS VARIABLES
CORRELACI N Y REGRESI N
PSIC. MISAEL LIMA CARDENAS
RELACIN ENTRE DOS
VARIABLES
Los estudios descriptivos y comparativos permiten inferir
caractersticas de distintas poblaciones pero no nos
aportan informacin acerca de individuos en particular, sin
embargo muchas veces el inters de los investigadores
est centrado en establecer la relacin entre dos o ms
variables para luego predecir. Es decir conocer el valor de
una variable a la que llamaremos dependiente a partir de
otra (variable independiente).
La correlacin estudia cuan estrecha es la asociacin entre
variables y la regresin plantea un modelo a travs del
cual conocido el valor de una variable explicativa se puede
llegar a predecir el valor de la otra (variable respuesta).
Relaciones lineales
precisas
1 2 3 4 5 6 7
Radi o
0
10
20
30
40
C
i
r
c
u
n
f
e
r
e
n
c
i
a
Relacin entre radio y circunferencia
Relacin entre dimetro con el radio de la circunferencia est dada por la
ecuacin matemtica (Circunferencia = 2. Radio)
Diagrama de dispersin o nube de
puntos
Relacin positiva
Relacin entre las semanas de gestacin al momento del parto y el peso de
recin nacidos de madres hipertensas
1
1-Costa de Robert Sara et all. Antihypertensive Treatment in Pregnancy The 4
th
International Heart Health Conference . Osaka Japn Mayo 2001.

Diagrama de dispersin
Relacin negativa
0 1000 2000 3000 4000 5000 6000
ingreso.per.capita
0
20
40
60
80
m
o
r
t
1
Relacin entre el ingreso per cpita y la tasa de mortalidad al ao de vida en
Distintos pases de Amrica
1
UNICEF, Estado Mundial de la infancia 2005. Tabla de indicadores Bsicos.
www.unicef.org

Diagrama de dispersin
Sin relacin
Relacin entre la edad materna y las semanas de gestacin al momento del parto
1


1-Costa de Robert Sara et all. Antihypertensive Treatment in Pregnancy The 4
th
International Heart Health Conference . Osaka Japn Mayo 2001.


Correlacin
El coeficiente de correlacin de Pearson es el calculado para variables continuas,
si tenemos dos variables X e Y, la correlacin entre ellas se la nombra r (X,Y), o
solo r y est dada por:
r = (x
i
-x) (y
i
-y ) Donde x
i
e y
i
son los valores de X e Y para el
(x
i
-x)
2
(y
i
-y)
2
individuo i




-1 +1

fuerte fuerte
negativa positiva
-0.5 +0.5

dbil dbil
negativa positiva
0
Sin correlacin



Correlacin perfecta negativa
Correlacin perfecta positiva
Sin Correlacin
Nivel de significacin del
coeficiente de correlacin
Cundo debemos confiar en que la correlacin en la muestra es una
buena estimacin de la correlacin en la poblacin?.
Esto depende de dos factores:
1- del tamao del coeficiente, a mayor r menor probabilidad de que haya
sido elegido por error.
2- el tamao de la muestra, cuanto mayor el tamao muestra, mayor
ser la probabilidad de encontrar un coeficiente de correlacin similar en
otras muestras, y en la poblacin general como un todo.
1
Utilizamos estos dos factores para calcular el error estndar de r
Ejemplo: si encontramos una correlacin positiva de 0.8 entre las
inasistencias a clases y el tiempo de viaja al colegio en una muestra se 49
estudiantes, podemos estimar el error estndar EE como:
EE =1-(+0.80)
2
= 1-0.64 = 0.36 = 0.05
49 7 7
Derek Rowntree. Statistic Without Tears, copyright 1981. Charles ScribnerS Sons. Pag 154-154.

Intervalo de confianza y test de
hiptesis asintticos para r
Podemos obtener intervalos de confianza (IC) para la correlacin
en la poblacin, con la frmula: IC = r + z

* EE, en nuestro ejemplo


el intervalo de confianza del 95%, para la correlacin entre la
distancia a la escuela y el nmero de inasistencias se calcula de la
siguiente forma:
IC = 0.80 + 1.64 * 0.05 = 0.80 + 0.08 o sea el intervalo ser de 0.72
a 0.88.
La hiptesis nula es de que no hay asociacin en la poblacin, la correlacin
es 0. El error estndar ,segn la frmula propuesta sera:
EE = 1 (0
2
) En nuestro ejemplo: EE = 1/49 EE = 1/7 = 0.14
n
Si tomamos un nivel de rechazo del 5% 0 + 1.96* EE = + 0.27 . Nuestro
coeficiente de correlacin de 0.80 est bastante alejado por lo que podemos
rechazar la hiptesis nula (Ho) o de no diferencia.
Uso y abuso del coeficiente de
correlacin
Debemos asumir que la distribucin de los datos debe ser
normal y que las observaciones deben ser independientes.
Fallas en la interpretacin:
1- Se consideran correlaciones espurias
2- Inclusin en la muestra a individuos con caractersticas
especiales
3- Muestras con subgrupos de individuos de diferentes
caractersticas
4- Fijar acuerdos
. Interpretacin del coeficiente de correlacin




Prediccin y regresin
Cuando contamos con datos de dos variables continuas podemos
correlacionarlas, pero generalmente nuestras pretensiones van
ms all y a menudo deseamos predecir el valor de una variable
conociendo solamente el valor de la otra.
Por ejemplo, si contamos con los datos de tasa de alfabetizacin
(TA) en adultos y de esperanza de vida al nacer (EVN) en pases
americanos
1
, y estamos interesados en predecir la EVN a partir de
las TA, podramos intentar utilizar un anlisis donde la variable
independiente sera la tasa de alfabetizacin y la variable
dependiente la esperanza de vida al nacer. El problema que se
plantea consiste en ajustar una recta a partir de los datos que nos
proporcione la mejor prediccin de Y a partir de X, y esa recta se
ajusta a travs de un procedimiento llamado de los cuadrados
mnimos.
En general la ecuacin de regresin es Y = a + b* X
UNICEF, Estado Mundial de la infancia 2005. Tabla de indicadores Bsicos.
www.unicef.org
Diagrama de dispersin, recta de
regresin y bandas de confianza
Coeficiente de
determinacin
El coeficiente de determinacin (R
2
) explica el porcentaje de la
variacin total observada en la variable dependiente. El cuadrado
de r coincide con R
2
. Por ejemplo si la correlacin entre el peso
de los hijos adultos y el peso de los padres es de +0.80, R
2
ser de
0.64. O sea que la recta de regresin puede explicar el 64% de la
variacin total observada en el del peso de los hijos, el otro 36 %
se debe buscar por otros factores como por ejemplo el peso de la
madre, la dieta el ejercicio, etc.
El coeficiente de determinacin al igual del coeficiente de
correlacin toma valores entre 0 y 1.
Cuando vale 0 no explica nada.
Cuando vale 1 la respuesta es explicada totalmente por la
regresin.

Control experimental
El reconocimiento de la necesidad de control produjo avances insospechados
en la ciencia, el hecho de contar con grupos de control en los estudios
experimentales permiti minimizar el sesgo producto de potenciales variables
de confusin.
El control experimental abarca:
1- Control por investigador de la variable independiente
2- Control de los potenciales variables de confusin
a- Asignacin al azar
b- A travs de criterios de exclusin
3- Control de los instrumentos de medicin, de variabilidad inter-
observador y el control de las condiciones ambientales ligadas al experimento
El tipo de diseo que utiliza el control experimental es el ensayo clnico.


Control estadstico
Cmo puede el investigador controlar las variables de
confusin en un estudio observacional?
Una forma sera estratificando

Si embargo Qu sucede cuando es necesario
estratificar por muchas variables, o cuando para
estratificar variables numricas es necesario hacer
categorizaciones a menudo arbitrarias?
El anlisis de regresin mltiple, conocido desde haca
muchos aos, fue las solucin a este problema. Su
utilidad fue puesta de manifiesto en 1967 cuando fue
empleado en el estudio Framingham

Anlisis de regresin mltiple
El anlisis de regresin mltiple permite la posibilidad de estudiar en
forma simultanea a varios predictores y su impacto sobre la variable
dependiente o resultado. Tambin brinda la posibilidad de estudiar a las
variables numricas como tal sin necesidad de categorizarlas.

Difiere segn el tipo de variable dependiente, sin embargo la idea bsica
que subyace en la aplicacin de este anlisis es que permite determinar la
contribucin de diferentes factores a un nico evento y adems permite
estimar cuanto contribuye cada factor a la respuesta independientemente
del efecto de todos los dems.

En este tipo de estudios el control sobre las variable confusoras no se hace
a travs del diseo experimental sino por medio de tcnicas estadsticas.
Una limitante importante en el anlisis de regresin mltiple es que solo
se puede controlar por variables conocidas.
Anlisis de regresin mltiple
Anlisis de regresin lineal mltiple: En este caso la variable dependiente o
resultado es continua, las variables independientes pueden ser continuas o
dicotmicas.
1

En el estudio INTERSALT fue analizada la relacin entre el consumo de sal,
medido por el Na en orina de 24hs, y la presin arterial. Otras variables formaron
parte del modelo como el BMI, el consumo de alcohol y la edad
2

Anlisis de regresin logstica mltiple: La variable dependiente es dicotmica y
las variables independientes continuas o dicotmicas.
3

Este tipo de anlisis fue utilizado en el estudio Modo de nacimiento y riesgo de
transmisin del HIV
4
.
La regresin logstica permite calcular el odds ratio e IC, que tienen un
importante valor biolgico porque cuantifican el incremento o decremento del
riesgo, ajustado por las dems variables.

Anlisis de regresin mltiple
Regresin de Cox (Cox proportional hazards models): La variable dependiente
en este caso es tiempo hasta la ocurrencia del evento y las covariables pueden
ser dicotmicas o continuas
5
.
Se utiliz la regresin de Cox en el estudio CIBIS II donde se analiz la
eficacia de un beta bloqueante en la reduccin de la mortalidad por todas las
causas en pacientes con insuficiencia cardaca crnica estable
6
.
La Regresin de Cox permite calcular el hazard ratio o riesgo relativo que
como sabemos tambin tiene un importante valor biolgico.
El caso antes descripto el diseo fue experimental, con asignacin de los
pacientes al azar a dos grupos pero de todos modos se utiliz un anlisis
multivariable como la regresin de Cox para calcular el riesgo relativo ajustado
por la causa y la severidad de la insuficiencia cardaca, lo que permiti mejorar
el diseo controlando de manera ms efectiva a los confusores.

También podría gustarte