Está en la página 1de 3

Asignatura: Análisis Estadístico de Datos

Medidas de Asociación

Uno de los motivos por los que se estudian conjuntamente dos variables es para ver si existe relación entre ellas,
pudiendo "predecir" en caso de haberla valores de una a partir de la otra. Una forma de detectar la posible
relación entre las variables es gráficamente, y el gráfico utilizado es conocido como diagrama de dispersión o
nube de puntos. Otra forma es a través de medidas numéricas tales como la covarianza o el coeficiente de
correlación de Pearson. Centraremos fundamentalmente nuestro interés en la asociación de tipo lineal.

Diagrama de dispersión

Se construye representando los pares de valores observados en un eje cartesiano. Proporciona una buena
descripción de la relación existente entre las variables.

Ejemplos de casos que pueden darse:

 En a) hay ausencia de relación (independencia).


 En b) existe asociación lineal positiva (varían en general en el mismo sentido).
 En c) existe asociación lineal negativa (varían en sentido contrario).
 En d) existe fuerte asociación, pero no lineal.

Covarianza

Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el
diagrama de dispersión. Presenta la siguiente expresión:

 Datos sin tabular:


N

∑ ( x i− x́ ) ( y i− ý )
σ x , y = i=1
N

 Datos tabulados:
k p


∑ ∑ nij ( x i−x́ ) ( y j −ý )
σ x , y = i=1 j=1
N

Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no
lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo,
como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de
Asignatura: Análisis Estadístico de Datos

asociación lineal ni comparar la asociación existente entre distintos pares de variables. Para dar solución a este
problema se obtiene el coeficiente de correlación.

El coeficiente de correlación

Es una medida adimensional del grado de asociación lineal existente entre dos variables. Se define como:

σ x,y
ρ x , y=
σx∙σy

Algunas observaciones y propiedades:

 Su signo viene determinado por el de la covarianza. Indicará por tanto si la asociación es positiva o
negativa, y vale 0 cuando la covarianza vale 0 (ausencia de asociación lineal).

 −1 ≤ ρx,y ≤ 1. Valores próximos a -1 indican fuerte asociación lineal negativa, valores próximos a 1 indican
fuerte asociación lineal positiva, y valores próximos a 0 indican ausencia de asociación lineal (pero
puede existir otro tipo de asociación, por ejemplo, exponencial, cuadrática, etc.)

 No se debe interpretar el coeficiente sin haber visto previamente el diagrama de dispersión (podría por
ejemplo haber algún dato atípico).

 Un coeficiente de correlación alto (en valor absoluto) indica que las variables toman valores
relacionados entre sí entre los elementos observados, pero no permite concluir la existencia de ninguna
relación de causalidad entre las variables. Por ejemplo, supongamos que se estudian conjuntamente las
variables X=N° de matrimonios mensuales (en una ciudad) e Y ="Temperatura del mes", obteniéndose
un coeficiente de correlación de 0.7. Eso significa que, en efecto, suele haber más matrimonios a medida
que mejoran las temperaturas, pero esto no implica que un aumento de matrimonios aumente la
temperatura del mes, ni que una ola de calor cause una avalancha de matrimonios.

Ejemplo:

1. Las notas de 12 alumnos en Matemática y Cálculo son las siguientes:

Matemátic
a Cálculo
5 3
4 3
7 5
7 6
2 1
4 4
6 5
7 6
6 4
5 4
6 6
7 7
   

a. Dé a conocer el diagrama de dispersión de las variables.


b. Determinar el coeficiente de correlación e interpretarlo.

2. Los valores de dos variables X e Y se distribuyen según la siguiente tabla:

X\Y 0 2 4
Asignatura: Análisis Estadístico de Datos

1 1 2 12
2 3 7 4
3 10 3 2

a. Determinar el coeficiente de correlación e interpretarlo.

Ejercicios:

1. Determinar el grado de dependencia existente entre los años de estudio completados (X) y las faltas de
ortografía cometidas en un dictado (Y) tal y como se encontró en la siguiente muestra de 10
entrevistados. Hacer el diagrama de dispersión.

X 10 3 12 11 6 8 14 9 10 2
Y 1 7 2 3 5 4 1 2 3 10

2. Una fábrica de una cierta marca de refrescos ha tomado al azar 10 semanas de un año, observando la
temperatura media, en grados centígrados (X) correspondiente a cada una de ellas y la cantidad de
refrescos pedidos durante cada uno de dichos períodos, en miles (Y). La información obtenida es la
siguiente:

X 10 28 12 31 30 19 24 5 9 15
Y 21 65 19 72 75 39 67 11 12 24

Dibujar el diagrama de dispersión. Hallar el coeficiente de correlación lineal e interpretarlo.

3. Se está estudiando la relación existente entre la edad de los hombres (X) y de las mujeres (Y) a la hora
de contraer matrimonio. Se recogen los datos del año 1971 en la tabla siguiente:

10 - 20 20 - 30 30 - 40 40 - 50 50 - 60
10 - 20 4187 1352 176 23 4
20 - 30 1125 107299 10202 432 109
30 - 40 134 8731 86999 1526 515
40 - 50 16 485 2845 6232 2602
50 - 60 3 104 517 1110 1886

¿Existe una dependencia lineal fuerte entre la edad de los hombres y la edad de las mujeres a la hora de
contraer matrimonio?

También podría gustarte