I Apunte Asociación Entre Variables

1 Asociación entre variables
Motivación
Al estudiar las medidas de resumen se vio que una serie de observaciones

pueden describirse con medidas de posición como el promedio o la mediana,
complementadas con medidas de dispersión como la desviación estándar o los
percentiles. Esto último permite, entre otras cosas, fijar límites a los valores que se
consideran frecuentes, normales o aceptables para una variable, por ejemplo, la
estatura, el peso, el C.I., el nivel de ansiedad, la glicemia, etc.
Hay situaciones en que por la descripción del comportamiento de una

variable, ésta gana en precisión cuando se conoce el valor de otra variable que se
relaciona con ella en forma conocida, por ejemplo, el peso normal de un adulto hombre
puede describirse con el promedio y la desviación estándar del peso de los hombres
adultos. Sin embargo, el conocimiento de su estatura permite precisar su peso
adecuado, dado que el peso guarda una relación estrecha con la estatura.
Otro ejemplo, sea X = dosis distintas de cierto somnífero e Y = duración del

sueño inducido por el somnífero.
Las relaciones entre dos variables pueden adoptar diferentes formas. En

esta parte del curso se estudiará el grado de relación que existe entre esas dos
variables, denominado Análisis de Correlación y estudiaremos la relación en línea recta
denominado Análisis de Regresión Lineal.
1.1 Análisis de Correlación Lineal
El análisis de correlación lineal estudia el comportamiento reciproco de dos

variables. Para hacerlo es necesario medir simultáneamente a las dos variables en cada
uno de los elementos de un conjunto de unidades de observación. Por ejemplo, en cada
individuo de un grupo de hombres adultos se mide el peso y la estatura; en cada
enfermo de un grupo de pacientes se mide la temperatura axilar y la presión sistólica;
en cada árbol de un huerto se mide el número de frutas y se calcula el promedio del
tamaño de las frutas.
Se encuentra, así, una medida del grado de asociación o correlación que

existe entre las dos variables cuantitativas y se verá cómo dócimar o contrastar sobre
la correlación en una población normal bivariada.
Simbolicemos por X a una de las variables y por Y a la otra. El objetivo del

estudio de la correlación es conocer si al variar los valores de X en determinado sentido
en las unidades de observación, el valor de Y aumenta, disminuye o se mantiene igual
en esas unidades.
Ejemplo: observar si hombres con mayor estatura pesan más que hombres con menor
estatura; observar si al haber mayor temperatura corporal, la presión sistólica también
aumenta; observar si a mayor número de frutas en el árbol, el tamaño de éstas
disminuye.
1
La manera más sencilla de presentar y analizar la relación entre dos
variables es a través del gráfico de dispersión. Este muestra una nube de puntos en
que cada uno de los puntos representa una observación de X e Y, denotado por el par
ordenado (x,y).
Ejemplos de gráficos:
a) Ingesta diaria de calorías y la esperanza de vida de las mujeres: asociación

lineal positiva.
b) Porcentaje de personas alfabetizadas y tasa de natalidad: asociación lineal

negativa.
2
c) Inteligencia y nivel de ansiedad: ausencia de asociación.
3
El coeficiente de correlación de Pearson
Sea (x,y) una variable aleatoria bidimensional cuantitativa.
La covarianza entre x e y se define como:
Cov( x, y)  EXY x  E( x)y  E( y)  E( xy )  E( x) E( y)

En que Exy indica la esperanza respecto de la distribución conjunta Fxy de x e y. En
términos más descriptivos la covarianza da cuenta de la variabilidad conjunta de las
dos variables.
Pearson propuso como medida de correlación poblacional la siguiente versión

estandarizada de la covarianza (rho):
cov( x, y )

Var ( x)Var ( y )
se conoce como coeficiente de correlación lineal de Pearson.
El coeficiente de correlación lineal tiene las siguientes propiedades:
1. Está siempre entre -1 y 1, es decir
-1    1
2. Asume el valor -1 o +1 si hay correlación lineal perfecta, es decir
Y  EY    X  E X 
que es la definición de una línea recta.
Como es preciso intentar conocer el valor del coeficiente de correlación y

ante la imposibilidad de observar a toda la población se debe toma una muestra
aleatoria para estimar dicho valor. (Tarea: definir el concepto de estimación).
Sea X , Y ,......... X
1 n , Yn  una muestra de tamaño n . El estimador de  es el
coeficiente de correlación en la muestra (r ) :
4
r
 x  X y  Y 
i i
 x  X   y  Y 
2 2
i i
en que se ha estimado las varianzas y la covarianza usando las varianzas y covarianza

muestral.
Usando un poco de álgebra, se obtiene la siguiente expresión alternativa para

r :
r
x y i i  nXY
 x  nX  y  nY 2
2 2 2
i i
Interpretacióndescriptiva: si r es:
-1 correlación negativa perfecta

+1 correlación positiva perfecta
0 no existe correlación entre las variables
Con más detalle:
-0,95 correlación negativa muy fuerte

-0,85 correlación negativa fuerte
-0,7 correlación negativa considerable
-0,65 correlación negativa aceptable
-0,5 correlación negativa media
-0,25 correlación negativa débil
-0,1 correlación negativa muy débil
+0,1 correlación positiva muy débil
+0,25 correlación positiva débil
+0,5 correlación positiva media
+0,65 correlación positiva aceptable
+0,7 correlación positiva considerable
+0,85 correlación positiva fuerte
+0,95 correlación positiva muy fuerte
Los programas estadísticos de computación calculan el coeficiente de correlación y

reportan si éste es significativo o no. (Tarea: definir el concepto de “significación
estadística”.
5
Por ejemplo, si el coeficiente de correlación muestral es 0,7831, su significación está
dada por el valor p = 0,001 lo que indica que es un valor significativo con una
confianza del 99 %.
Significación del coeficiente de correlación
Ahora interesa analizar si r es significativo para la población, es decir, si los datos de la

muestra están lo suficientemente asociados como para generalizar (inferir) a la
población de origen de los datos.
Para ello se realizara una prueba de hipótesis con dos hipótesis. La primera llamada
nula ( H 0 ) que indica que la asociación en la población no es significativa y la otra
llamada alternativa ( H 1 ) que indica que la asociación si es significativa.
H0 :   0
H1 :   0
En los resultados de SPSS se encuentra un indicador llamado valor-p (Sig.) que permite
decidir entre ambas hipótesis. Observando este indicador se establece la siguiente
regla:
a) Si el valor-p  0,01 se rechaza H 0 al 99% de confianza
b) Si el 0,01  valor-p  0,05 se rechaza H 0 al 95% de confianza
c) Si valor-p > 0,05 no se rechaza H 0 , que indica que n o hay significación estadística.
Coeficiente de determinación
El coeficiente de determinación es el cuadrado del coeficiente de correlación y se
denota por R2
R2 = r2
Este valor indica la varianza de factores comunes, es decir, el porcentaje de variación
de una variable debido a la variación de la otra variable y viceversa.
Ejemplo: Suponga que la correlación entre “productividad” y “asistencia al trabajo” es

0,8. El coeficiente de determinación es 0,64.
Interpretación: la productividad explica el 64% de la variación de la asistencia al

trabajo y viceversa.
Ejemplo
6
En 18 alumnos de primer año de una escuela se ha realizado un estudio de
correlación entre el test que mide el coeficiente intelectual y las notas obtenidas en los
exámenes.
CI 107 120 77 136 111 140 97 117 126 92 90 110 123 110 103 96 133 102
Examen 59 60 26 80 66 66 50 68 67 31 40 41 57 50 44 43 72 32
Realice el gráfico de dispersión, comente si visualmente se aprecia algún grado de

correlación entre las variables y calcule el coeficiente de correlación y de
determinación.
Solución: Salida y Pasos SPSS: Análizar  Correlaciones  Bivariadas
Diagrama de dispersión
Asociación entre Coeficiente Intelectual y Notas
80
70
60
Notas
50
40
30
20
70 80 90 100 110 120 130 140
CI
Estadísticos descriptivos
Media Desviación típica N

Coeficiente
110,56 17,106 18
Intelectual
Notas 52,89 15,560 18
Matriz de Correlaciones
7
CI Notas
CI Correlación de
1 ,869(**)
Pearson
Sig. (bilateral) ,000
N 18 18
Notas Correlación de
,869(**) 1
Pearson
Sig. (bilateral) ,000
N 18 18
** La correlación es significativa al nivel 0,01 (bilateral).
1.2 Correlación Parcial
1. Introducción
La correlación parcial y múltiple representa una importante extensión de la

teoría y las técnicas de la correlación simple o lineal de 2 variables a problemas que
implican tres o más variables. La correlación entre dos variables es a veces engañosa y
puede ser errónea si hay poca o ninguna correlación entre las variables, con excepción
de la producida por su común dependencia de una tercera variable (o de varias
variables).
Por ejemplo, muchos atributos aumentan en forma regular con la edad,

desde los 6 hasta los 18 años aproximadamente, tales como la talla, peso, fuerza física,
puntajes en test mentales, vocabulario, aptitud para lectura y conocimientos generales.
Por sobre una gran amplitud de edades, la correlación entre cualesquiera dos de estas
características será casi seguramente positiva y probablemente alta, debido al factor de
madurez común fuertemente relacionado con ambas variables. En efecto, la correlación
puede caer hasta cero si se elimina la variabilidad causada por diferencias de edad. El
factor edad puede controlarse de dos maneras: (1) experimentalmente, seleccionando
niños que tengan todos la misma edad, y (2) estadísticamente, manteniendo constante
la variabilidad de edad por medio de una correlación parcial. Para obtener niños de la
misma o aproximadamente la misma edad, tal vez tengamos que reducir drásticamente
la magnitud de nuestras muestras. Por eso, la correlación parcial, puesto que utiliza
todos los datos, es a menudo preferible al control experimental.
La correlación parcial es a menudo útil en análisis en que han de

descartarse los efectos de alguna o algunas variables. Pero su valor principal reside en
el hecho de que nos permite plantear una ecuación de regresión múltiple de dos o más
variables, mediante la cual podemos predecir otra variable o criterio.
2. Notación
r12.3 representa la correlación parcial entre las variables 1 y 2 si la variable 3

se ha mantenido constante o ha sido “parcializada”.
8
Por ejemplo, si las variables son 1= puntaje en vocabulario, 2= talla en pulgadas y 3=
edad. En este caso r12.3 significa que la edad se hizo constante, dejando la correlación
neta entre el puntaje en vocabulario y talla en pulgadas.
r12.345 representa la correlación entre 1 y 2 en que 3, 4 y 5 han sido parcializadas de la

correlación.
En resumen, los números a la derecha del punto representan variables cuya influencia
ha sido eliminada; los de la izquierda, representan las dos variables correlacionadas.
Cálculo de las r parciales
r12  r13 r23

r12.3 
(1  r132 )(1  r232 )
Un problema ilustrativo de correlación parcial
Un investigador deseaba estudiar las relaciones de inteligencia general y

hábitos de estudio con el éxito académico de un grupo de 450 estudiantes
universitarios. El éxito académico se definió como la cantidad de puntos honoríficos
logrados por cada estudiante al final del primer semestre. La nota A recibió3 puntos
honoríficos; B, 2; C, 1, y D recibió 0. La inteligencia general se midió por medio de una
combinación de test colectivos y la aplicación a los estudios se definió por el número de
horas dedicadas al estudio durante la semana. La información respecto de los hábitos
de estudio se obtuvo con un cuestionario estregado a los estudiantes en el momento
del ingreso. Ese cuestionario abarcaba una variedad de posibles actividades
estudiantiles, no haciéndose demasiado hincapié en el tema estudios. El coeficiente de
confiabilidad de los informes respecto a estudios (según retest después de
aproximadamente 8 semanas) era de 0,86.
Los datos son los siguientes:
(1) Puntos (2) Inteligencia (3) Horas de estudio

honoríficos general por semana
r12 = 0,60 r13 = 0,32 r23 = - 0,35
Se calcula el coeficiente parcial r12.3 sustituyendo los valores dados en la

tabla anterior. El resultado obtenido es 0,80. Esto significa que, si todos los estudiantes
hubieran estudiado la misma cantidad de horas por semana, la correlación entre puntos
honoríficos e inteligencia general habría sido de 0,80 en vez de 0,60. Si los hábitos de
estudio de los estudiantes son iguales, existe naturalmente una relación mucho más
estrecha entre los puntos honoríficos logrados y la inteligencia que si los hábitos de
estudio varían.
La correlación parcial entre puntos honoríficos (1) y horas de estudio (3), si
la inteligencia general (2) es un factor constante. Sustituyendo los valores de la tabla,
se obtiene una correlación parcial de 0,71 contra un r13 de 0,32. Este resultado
9
significa que, si nuestro grupo hubiera tenido el mismo nivel de inteligencia (el mismo
puntaje en los tests de inteligencia dados), habría habido una correspondencia mucho
más estrecha entre el éxito académico y las horas de estudio que si los estudiantes
poseyeran magnitudes distintas de habilidad general. Esta es, por cierto, la respuesta a
esperarse.
Se calcula r23.1 y sustituyendo los valores correspondientes, se obtienen una
correlación parcial de –0,72. Este interesantísimo resultado significa que en un grupo
en que cada estudiante obtiene la misma cantidad de puntos honoríficos, la correlación
entre inteligencia general y horas de estudio sería mucho más alta – negativamente –
que el r obtenido entre inteligencia general y horas de estudio de un grupo de
estudiantes en el cual el rendimiento académico varía ampliamente. Cuanto más
inteligente sea el estudiante, tanto menos necesita estudiar para alcanzar un
determinado estándar de rendimiento académico.
10

I Apunte Asociación Entre Variables

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

I Apunte Asociación Entre Variables

Cargado por

Copyright:

Formatos disponibles

1 Asociación entre variables

Al estudiar las medidas de resumen se vio que una serie de observaciones

Hay situaciones en que por la descripción del comportamiento de una

Otro ejemplo, sea X = dosis distintas de cierto somnífero e Y = duración del

Las relaciones entre dos variables pueden adoptar diferentes formas. En

1.1 Análisis de Correlación Lineal

El análisis de correlación lineal estudia el comportamiento reciproco de dos

Se encuentra, así, una medida del grado de asociación o correlación que

Simbolicemos por X a una de las variables y por Y a la otra. El objetivo del

a) Ingesta diaria de calorías y la esperanza de vida de las mujeres: asociación

b) Porcentaje de personas alfabetizadas y tasa de natalidad: asociación lineal

Sea (x,y) una variable aleatoria bidimensional cuantitativa.

La covarianza entre x e y se define como:

Cov( x, y)  EXY x  E( x)y  E( y)  E( xy )  E( x) E( y)

Pearson propuso como medida de correlación poblacional la siguiente versión

se conoce como coeficiente de correlación lineal de Pearson.

El coeficiente de correlación lineal tiene las siguientes propiedades:

1. Está siempre entre -1 y 1, es decir

2. Asume el valor -1 o +1 si hay correlación lineal perfecta, es decir

Como es preciso intentar conocer el valor del coeficiente de correlación y

en que se ha estimado las varianzas y la covarianza usando las varianzas y covarianza

Usando un poco de álgebra, se obtiene la siguiente expresión alternativa para

-1 correlación negativa perfecta

-0,95 correlación negativa muy fuerte

Los programas estadísticos de computación calculan el coeficiente de correlación y

Significación del coeficiente de correlación

Ahora interesa analizar si r es significativo para la población, es decir, si los datos de la

a) Si el valor-p  0,01 se rechaza H 0 al 99% de confianza

b) Si el 0,01  valor-p  0,05 se rechaza H 0 al 95% de confianza

El coeficiente de determinación es el cuadrado del coeficiente de correlación y se

Ejemplo: Suponga que la correlación entre “productividad” y “asistencia al trabajo” es

Interpretación: la productividad explica el 64% de la variación de la asistencia al

Realice el gráfico de dispersión, comente si visualmente se aprecia algún grado de

Solución: Salida y Pasos SPSS: Análizar  Correlaciones  Bivariadas

Asociación entre Coeficiente Intelectual y Notas

70 80 90 100 110 120 130 140

Media Desviación típica N

1.2 Correlación Parcial

La correlación parcial y múltiple representa una importante extensión de la

Por ejemplo, muchos atributos aumentan en forma regular con la edad,

La correlación parcial es a menudo útil en análisis en que han de

r12.3 representa la correlación parcial entre las variables 1 y 2 si la variable 3

r12.345 representa la correlación entre 1 y 2 en que 3, 4 y 5 han sido parcializadas de la

Cálculo de las r parciales

r12  r13 r23

Un investigador deseaba estudiar las relaciones de inteligencia general y

Los datos son los siguientes:

(1) Puntos (2) Inteligencia (3) Horas de estudio

r12 = 0,60 r13 = 0,32 r23 = - 0,35

Se calcula el coeficiente parcial r12.3 sustituyendo los valores dados en la

También podría gustarte