Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dot. Nm 0702005
Resumen
Cuando se desee evaluar el grado de asociacin o independencia de dos variables
cuantitativas debe recurrirse a tcnicas de correlacin y/o regresin, aunque tambin es
posible transformar una de ellas en una variable categrica u ordinal y luego aplicar un
ANOVA. La correlacin es una tcnica matemtica que evala la asociacin o relacin
entre dos variables cuantitativas, tanto en trminos de direccionalidad como de fuerza o
intensidad, proporcionando un coeficiente de correlacin (r de Pearson). La regresin lineal
simple es un modelo matemtico que explora la dependencia entre dos variables
cuantitativas (supone que en el modelo una es la variable dependiente y otra la
independiente), tratando de verificar si la citada relacin es lineal y aportando unos
coeficientes (a y b) que sirven para construir la ecuacin de la recta de prediccin. Ambas
tcnicas, basadas en la media y en la varianza de las variables evaluadas, tienen
importantes condiciones de aplicacin, entre las que destacan la independencia de las
observaciones y la normalidad, disponindose de alternativas no paramtricas (como el
coeficiente rho de Spearman) para la correlacin cuando estas no se cumplen. Con el
programa SPSS para Windows se pueden llevar a cabo ambos procedimientos y explorar
visualmente la relacin entre dos variables cuantitativas a travs de grficos de dispersin (o
nube de puntos).
0. INTRODUCCIN TERICA.
Cuando tengamos que evaluar la asociacin entre dos variables cuantitativas, hay que
recurrir a las tcnicas de CORRELACION Y REGRESION LINEAL SIMPLE.
La CORRELACIN evala la fuerza de asociacin entre las variables, de forma similar al
Riesgo Relativo y la OR en las variables categricas, indicando adems la direccin de esta
asociacin, de forma que sabremos si cuando aumenta el valor de una de ellas aumenta
tambin el valor de la otra variable (relacin directa) o por el contrario disminuye (relacin
indirecta).
El ndice resumen para evaluar la correlacin entre dos variables cuantitativas es el
COEFICIENTE DE CORRELACIN. Hay varios coeficientes, siendo el ms conocido el
llamado r de Pearson, cuyo clculo es paramtrico, esto es, se basa en la media y la
varianza, y asume varios supuestos:
a) Que las variables analizadas son simtricas (no hay una dependiente y otra
Correspondencia: marianoaguayo@telefonica.net
1 de 15
DocuWeb fabis.org
Cierta relacin
inversa
70
60
50
40
30
20
10
0
140
150
160
170
180
190
200
170
180
190
200
330
Incorrelacin
280
230
180
130
80
30
140
150
160
170
180
190
DocuWeb fabis.org
2 de 15
200
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
fabis.org, 2007
Por ltimo, debe recordarse que la estimacin del Coeficiente de Correlacin de Pearson en
muestras de suficiente tamao debe completarse con la estimacin por intervalos (clculo de
los intervalos de confianza de r) y el correspondiente test de hiptesis, que parte de la
hiptesis nula de que el r vale cero en la poblacin (es una prueba a travs del estadstico t
de Student).
Por tanto, a la hora de interpretar adecuadamente un Coeficiente de Correlacin se deben
tener en cuenta los siguientes aspectos:
1.
2.
3.
4.
Su signo
Su magnitud
Su significacin estadstica
Sus intervalos de confianza
DocuWeb fabis.org
3 de 15
DocuWeb fabis.org
Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensin. En esta base de
datos, la variable TAD (presin arterial diastlica, medida en mm de Hg) es cuantitativa y
desearamos saber si est relacionada con la edad de los individuos (otra variable
cuantitativa, cuya medida son los aos cumplidos), esto es, responder a la pregunta hay
relacin en la edad de los individuos y su presin diastlica?
DocuWeb fabis.org
4 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
fabis.org, 2007
Grfico
Como ya puede verse a simple vista, estas dos variables
muestran una escasa correlacin lineal, arrojando una
nube de puntos muy dispersa, con parejas de valores en
los cuatro sectores del plano cartesiano. El coeficiente de
correlacin ser un nmero ms prximo a cero (ninguna
correlacin) que a la unidad (correlacin lineal perfecta).
120
110
100
90
80
70
60
40
45
50
55
60
En el siguiente cuadro de dilogo debemos seleccionar las variables cuantitativas que vamos
a correlacionar, y as mismo indicar el tipo de Coeficiente de Correlacin que deseamos
calcular (el de Pearson es el paramtrico y el de Spearman es el no paramtrico) y si el
contraste o Prueba de significacin es unilateral o bilateral. Adems, en la pestaa
Opciones podemos hacer que se muestren algunos estadsticos, como las medias y
desviaciones tpicas y los productos cruzados y covarianzas.
Puede comprobarse que las pruebas de Kolmogorov-Smirnov y de Shapiro-Wilks detectan que la variable
presin arterial diastlica no se ajusta a la Ley Normal.
DocuWeb fabis.org
5 de 15
DocuWeb fabis.org
Correlaciones
La salida de SPSS muestra primero
una tabla o cuadro resumen de las
variables que se van a correlacionar,
Desviacin
aportando los tres ndices que
Media
N
tpica
sintetizan las distribuciones: media,
PRESIN ARTERIAL
82,74
12,503
50
desviacin tpica y tamao muestral. Y
DIASTLICA
enseguida una tabla con la correlacin
EDAD EN AOS
49,22
5,132
50
lineal (por defecto), en la que vemos
CUMPLIDOS
una doble entrada con cuatro celdas
cuyos valores en ngulo se repiten. Es una obviedad que hace el programa pero nos recuerda que en
la correlacin las variables juegan un papel simtrico y son intercambiables.
Estadsticos descriptivos
Correlaciones no paramtricas
DocuWeb fabis.org
6 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
Correlaciones
Rho de Spearman
PRESIN ARTERIAL
DIASTLICA
EDAD EN AOS
CUMPLIDOS
Coeficiente de
correlacin
Sig. (bilateral)
N
Coeficiente de
correlacin
Sig. (bilateral)
N
PRESIN
ARTERIAL
DIASTLICA
EDAD EN
AOS
CUMPLIDOS
1,000
-,154
.
50
,287
50
-,154
1,000
,287
50
.
50
fabis.org, 2007
Estos resultados se interpretan como sigue: Existe una baja o escasa correlacin lineal
entre la presin arterial diastlica y la edad de los individuos. Esta baja correlacin lineal en
la muestra analizada hace que en el contraste de hiptesis (que parte de una H0 de que r
vale cero) se termine aceptando la hiptesis nula y concluyendo que dichas variables no
estn correlacionadas en la poblacin de la que proviene la muestra.
Llegados a este punto, parece obvio que no es afortunado explorar la asociacin lineal de
estas dos variables mediante una REGRESIN LINEAL SIMPLE, por lo que el anlisis
debera terminar aqu.
2.1. Empezamos por la evaluacin grfica, pero en este caso analizaremos la posible
relacin lineal a travs de un procedimiento ms verstil y completo que nos ofrece SPSS en
la opcin Grficos Interactivos:
Debe aclararse aqu que esta evaluacin de correlacin es conceptualmente incorrecta, ya que las dos variables
estn autocorrelacionadas en cada individuo, pudiendo considerarse dos mediciones de la presin arterial en
cada sujeto. Realizaremos el ejercicio con carcter puramente acadmico.
DocuWeb fabis.org
7 de 15
DocuWeb fabis.org
Grfico interactivo
DocuWeb fabis.org
8 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
200
175
fabis.org, 2007
150
125
100
60
80
100
120
Vemos que a simple vista la correlacin entre estas dos variables es elevada y de direccin positiva
(cuando crece una crece la otra). En el mismo grfico ya se muestra la ecuacin de la lnea recta que
se ajusta con los datos:
PAS = 9,40 + (1,49 * PAD)
2
Tambin nos ofrece otro parmetro de la Regresin Lineal: el Coeficiente de Determinacin (R ), que
en nuestro ejemplo vale 0,64. Este valor expresa cunto del valor de la PAS est predicho o
determinado por la PAD (un 64%).
2.2. Una vez que comprobemos que las distribuciones de ambas variables sigue una ley
Normal, se llevara a cabo la evaluacin de la correlacin entre estas dos variables, con
el procedimiento en SPSS que ya se ha mostrado antes. Estos seran los resultados:
Correlaciones
Correlaciones
PRESIN ARTERIAL
DIASTLICA
PRESIN ARTERIAL
SISTLICA
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
PRESIN
ARTERIAL
DIASTLICA
1
PRESIN
ARTERIAL
SISTLICA
,802**
,000
50
50
,802**
1
,000
50
50
Correlaciones no paramtricas
DocuWeb fabis.org
9 de 15
DocuWeb fabis.org
Correlaciones
PRESIN
ARTERIAL
DIASTLICA
Rho de Spearman
PRESIN ARTERIAL
DIASTLICA
PRESIN ARTERIAL
SISTLICA
Coeficiente de
correlacin
Sig. (bilateral)
N
Coeficiente de
correlacin
Sig. (bilateral)
N
1,000
PRESIN
ARTERIAL
SISTLICA
,732**
.
50
,000
50
,732**
1,000
,000
50
.
50
Y en el siguiente cuadro de dilogo se seleccionan las variables, que ahora vemos deben
colocarse en las ventanas correspondientes distinguiendo cul es la dependiente y cual es
la independiente. En la opcin Estadsticos podemos marcar los que deseamos obtener en
la salida:
DocuWeb fabis.org
10 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
fabis.org, 2007
Regresin
El primer recuadro es un resumen del procedimiento:
Variables introducidas/eliminadas
Modelo
1
Variables
introducidas
PRESIN
ARTERIAL
DIASTLICA
Variables
eliminadas
a
Mtodo
.
Introducir
El segundo recuadro es un resumen del modelo de Regresin Lineal, con el Coeficiente de Regresin
2
(R) y el Coeficiente de Determinacin (R ).
Resumen del modelo
Modelo
1
,802a
R cuadrado
,644
R cuadrado
corregida
,636
Error tp. de la
estimacin
13,971
A continuacin aparece un contraste de hiptesis ANOVA para la regresin, que separa la variabilidad
explicada por la Regresin y la variabilidad no explicada o Residual, y calcula un estadstico F y una
significacin estadstica.
DocuWeb fabis.org
11 de 15
DocuWeb fabis.org
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
16932,566
9369,614
26302,180
gl
1
48
49
Media
cuadrtica
16932,566
195,200
F
86,745
Sig.
,000a
Esta es una primera aproximacin inferencial al modelo de Regresin Lineal, que evala globalmente
el modelo. En nuestro ejemplo es estadsticamente significativo (p<0,001) y concluye rechazando la
hiptesis nula y aceptando la H1 (existe asociacin entre las dos variables mediante una regresin
lineal).
La segunda aproximacin inferencial se muestra en el siguiente cuadro, donde se ofrecen los
coeficientes del modelo (columna encabezada B):
la constante (a) o valor de la ordenada en el origen (en nuestro ejemplo vale 9,401)
el coeficiente de regresin (b) o pendiente de la recta (en nuestro caso vale 1,487)
(Constante)
Error tp.
9,401
13,355
1,487
PAD
a Variable dependiente: PAS
,160
Coeficientes
estandarizados
Sig.
Beta
,704
,802
9,314
,485
,000
Intervalo de confianza
para B al 95%
Lmite
inferior
-17,452
1,166
Lmite
superior
36,254
1,808
Si se lo hubisemos solicitado, el programa tambin nos habr calculado los intervalos de confianza
de los coeficientes de regresin, teniendo sentido slo para el coeficiente b.
DocuWeb fabis.org
12 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
fabis.org, 2007
Al aplicar esta opcin se genera en la base de datos una nueva variable con los residuos no estandarizados
(SPSS la llama por defecto RES_1 y la etiqueta como Unstandardized), y se obtiene el la ventana de resultados
el siguiente cuadro resumen de estadsticos calculados:
Estadsticos sobre los residuos(a)
Mnimo
Valor pronosticado
Mximo
Media
Desviacin
tp.
98,61
187,82
132,42
18,589
50
-18,478
31,522
,000
13,828
50
-1,819
2,980
,000
1,000
50
Residuo tip.
-1,323
2,256
,000
,990
50
Residuo bruto
Con la nueva variable RES_1 deberamos evaluar, como ya sabemos, si sigue una
distribucin normal, seleccionndola en la ventana de dependientes en el procedimiento
Analizar > Estadsticos descriptivos > Explorar
Y marcando en la pestaa grficos la opcin grficos con pruebas de normalidad.
DocuWeb fabis.org
13 de 15
DocuWeb fabis.org
Anexo.
Tabla de datos del estudio sobre Hipertensin y Obesidad.
Se trata de un pequeo estudio transversal (n=50) en el que se pretende explorar la
asociacin de la hipertensin arterial y el sobrepeso (obesidad).
Como veis se han recogido cinco variables:
Edad: en aos cumplidos
Sexo (1=hombre; 2=mujer)
Tensin diastlica (PAD): en mm de Hg
Tensin sistlica (PAS): en mm de Hg
Obesidad: como dicotmica (1=obeso; 2= No obeso)
En la parte de estadstica descriptiva se trata de explorar la distribucin de las
variables cuantitativas y obtener las medidas resumen de todas ellas, as como sus
representaciones grficas. Tambin es interesante que analicis sus distribuciones y
estadsticos sintticos en los dos grupos que pueden obtenerse por la variable
"obesidad".
Podrais obtener una variable nueva de tipo dicotmico que tuviera informacin
resumen de las variables TAS y TAD. Esto es, una variable que podas llamar HTA
(hipertensin arterial), que agrupara en una categora a los "hipertensos" (TAS >= 140
y/o TAD >=90) y en otra categora a los "normotensos".
EDAD
PAS
PAD
SEXO
OBESIDAD
41
120
70
41
140
80
41
110
80
42
120
85
42
120
86
42
140
90
42
180
110
43
120
70
43
120
86
43
140
90
44
110
80
45
120
70
45
120
80
45
122
80
47
130
80
47
120
80
47
155
80
47
110
80
47
150
85
48
110
70
48
150
100
48
160
102
48
160
110
49
110
70
49
150
90
DocuWeb fabis.org
14 de 15
Contraste de hiptesis con SPSS para Windows: (III) Asociacin entre dos variables
cuantitativas. Correlacin y regresin lineal simple
49
139
90
50
145
70
50
100
70
50
120
85
50
160
100
51
120
80
52
100
60
52
100
70
52
150
80
52
160
100
53
125
75
53
115
75
53
110
78
53
170
100
54
100
60
54
120
80
54
120
80
54
190
120
55
135
80
57
95
70
57
150
75
57
130
80
57
180
95
59
150
80
59
150
80
DocuWeb fabis.org
1= HOMBRE
1= OBESO
2= MUJER
2= NO OBESO
fabis.org, 2007
15 de 15