Está en la página 1de 51

Medidas de Asociación

entre variables numéricas o


cuantitativas
(intervalo/razón)
Estadística Aplicada a las CCSS
Igor Sádaba
Recordatorio
• Hasta ahora… El análisis de la asociación entre variables
cualitativas (nominales y ordinales) se realizaba
representándolas mediante tablas de contingencia y
examinando su dependencia (existencia de la misma, grado y
dirección, según el tipo de variables) a través de ciertos
estadísticos cuyo ejemplo paradigmático era χ2.
• En el caso de trabajar con variables cuantitativas las
recodificábamos en grupos volviéndolas cualitativas.
• Gran parte de las variables relevantes en CCSS son
cualitativas… ¡¡pero no todas!! (además, la
economía, la psicología, la demografía, etc. pujan
fuerte por cuantificarlo todo y la tendencia es a
trabajar en los sondeos y barómetros con variables
cuantitativas).
• La asociación entre variables que pueden ser
traducidas a magnitudes numéricas hay que
analizarla de otra forma. Nos interesa tanto la
fuerza como la dirección de la asociación entre dos
“conjuntos de números” (inversión en campaña
electoral y número de votos, edades de
matrimonio de hombres y mujeres, etc.).
Ejemplos…
• Relación entre edad y salario.
• Relación entre desarrollo económico (PIB) y natalidad (nº
hijos por habitante).
• Relación entre altura y distancia al trabajo.
• Relación entre la tasa de inflación y la tasa de paro (curva de
Phillips).
• Relación entre la tasa de criminalidad y la tasa de desempleo.
• Relación entre desempleo o PIB y tasa de abstención
electoral.
• Relación entre inversión en educación y tasa de abandono
escolar.
• Etc.
Curva de Phillips
Como siempre… seguimos un cierto
protocolo
1. Representar las dos variables (ahora
tablas de contingencia no tienen sentido)
 Diagrama de dispersión.
2. Calcular algún tipo de medida e
interpretarla Coef. Correlación (lineal).
3. Elaborar un modelo de relación de las
dos variables (¡¡esto es nuevo!!) 
Regresión lineal.
1) Diagrama de Dispersión…

Representación
gráfica (en unos ejes
cartesianos) de la
relación entre dos
variables. Es una
representación
visual de la nube de
puntos (pares de
datos de las
variables).
Es la manera más directa e intuitiva de
formarse una primera impresión sobre el tipo
de relación entre las dos variables cuantitativas
Ejemplo: Diagrama de dispersión
Ej.: PIB per cápita y Tasa de
Natalidad
• En el ejemplo anterior ¿qué tipo de asociación podemos
interpretar?
• Parece intuirse una relación fuerte e inversa: a más PIB
menor natalidad y a menor PIB mayor natalidad.
• En el diagrama de dispersión, al igual que con los
porcentajes de una tabla de contingencia, podemos
intentar visualizar aproximadamente la relación entre las
variables.
• “Los países ricos generan riqueza y los países pobres
generan bebés” (Mulberg, 2005: 128)
Tipos de diagramas de dispersión

Relaciones lineales (línea recta)


(A=positiva/directa y B=negativa/inversa)
Relación no lineal (D)
o ausencia de relación (C)
• Ejemplo: ¿hay relación entre la ratio alumno/profesor y las
notas de los alumnos/as?
• Ejemplo: ¿hay relación entre el PIB de los países y la inversión
en Ciencia (I+D)?
Múltiples ejemplos en Ciencias Sociales
Por lo tanto se tratará de identificar la posible relación
observado el diagrama de dispersión (forma de la nube de
puntos, alineación alrededor de una recta, dispersión de los
puntos, casos atípicos o fuera de la nube, etc.)
“Cultura política y
Democracia Estable”
(Inglehart, REIS 1988)
2) Cálculo medidas correlación y
Cuantificación.
• Se quiere estudiar la variación conjunta (covariación) de dos
variables cuantitativas: esto es, la correlación (si existe, cuál es
su fuerza y el sentido).
• Se desea obtener una medida estadística que nos informe con
precisión de lo que podemos intuir o visualizar en la nube de
puntos mediante un cálculo estadístico para todos los datos.
Ello nos va a permitir poder comparar diferentes diagramas de
dispersión.
• Se querría, a partir de ello, poder hacer predicciones de una
variable dependiente (salario, visitas a museos) conociendo
valores de la independiente (edad, clase social): esto es,
realizar una regresión.
Así que…
• Existen varios estadísticos que permiten cuantificar la relación…
coeficiente de correlación linea r de Pearson, r de Spearman, Tau-b
de Kendall, etc. Como siempre nos quedamos con el más simple y
fácilmente interpretable.
• Y existen varios tipos de correlaciones: las bivariadas (las normales
entre dos variables), las parciales (cuando se controla o elimina el
efecto de terceras variables) y la idea de distancia (que se aplica a
cualquier tipo de variable).
• Nosotros vamos a trabajar solo con las correlaciones lineales (y el
coeficiente r) porque son las más sencillas. r: Estadístico utilizado
para medir la magnitud de la relación (supuestamente lineal) entre
variables cuantitativas.
• Compara con un modelo ideal de relación lineal entre las variables:
y= bx+a. Mide la cantidad de dispersión en relación con la ecuación
lineal (cuánto nos acercamos o alejamos de esa recta).
• Fácilmente interpretable: +1.0 (asociación lineal perfecta positiva) a -
1.0 (asociación lineal perfecta negativa) pasando por 0.0 (ausencia de
asociación lineal). r está entre -1 y +1.
Coeficiente de correlación lineal o de Pearson (r)
• Desarrollado por Karl Pearson (1857-1936) y conceptualizado
por Francis Galton. El más conocido y utilizado.
• Índice que mide el grado de covariación entre distintas
variables relacionadas linealmente.

 xi yi 
i ( xi  X )( yi  Y )  i N  x y 
r 
 x y  x y

cov( x, y ) x y i i
r  i

 x y n· x y
Interpretación del coef. r
• Una correlación nos proporciona tres datos principales:
• 1) La existencia o no de una relación lineal entre las variables (si da
diferente de cero, ≠0)
• 2) La dirección de esta relación, si es que existe (por su signo
positivo o negativo)
• 3) El grado de esta relación (por el valor absoluto del coeficiente).
Toma valores entre -1 y +1.
• Una relación positiva entre dos variables indica que sus
valores varían de forma “parecida”: los casos que puntúan
alto en una variable lo hacen igualmente alto en la otra y
viceversa.
• Además, al igual que otros estadísticos que se utilizan para
medir y cuantificar, r viene acompañado de un cierto nivel
de confianza que nos indica la confiabilidad a la hora de
generalizar y extrapolar la relación encontrada entre las
dos variables cuantitativas a otras muestras.
r2, Coeficiente de determinación
• r2 se denomina coeficiente de determinación.
• Se interpreta como el porcentaje de variación de la variable dependiente
explicado por la variable independiente (o el modelo de correlación
planteado). Mide la “bondad del ajuste” de la recta de regresión.
• Toma valores entre 0 y 1.
• r2 = variación de la variable dependiente que queda explicada por su
relación con la independiente. 1-r2 = variación de la variable que queda
sin explicar.
• r2/(1-r2)= (lo explicado/lo sin explicar).
Fuente: Transparencia Internacional 2005
Ejemplo típico: peso y altura
Altura 175 180 162 157 180 173 171 168 165 165

Peso 80 82 57 63 78 65 66 67 62 58
Se realizan los cálculos
• Estatura media = 169,6 x  169'6 x  7'2139
• Peso medio = 67,8
y  67'8  y  8'7567

175  80  180  82  162  57  


 xy   169'6  67'8  52'32
10

52'32
rxy   0'8282 R 2  (0'8282)2  100  68'59%
7'2139 8'7567
Ahora interpretar este caso…
Correlaciones

Tasa de
Producto natalidad
interior bruto (por 1. 000
per-capita habitantes)
Producto interior bruto Correlación de Pearson 1 -,651**
per-capita Sig. (bilateral) ,000
N 109 109
Tasa de natalidad Correlación de Pearson -,651** 1
(por 1. 000 habitantes) Sig. (bilateral) ,000
N 109 109
**. La correlación es signif icat iv a al niv el 0,01 (bilat eral).

r=-0.651, r<0 y |r|>0, correlación alta pero negativa.


r2=0.424 (42.4%)-> Coeficiente Determinación
Correlaciones

Tasa de
Aumento de natalidad Tasa Mujeres
la población (por 1.000 Nacimientos/ alf abetizadas
(% anual) habitantes) Def unciones (%)
Aumento de la población Correlación de Pearson 1 ,861** ,800** -,638**
(% anual) Sig. (bilateral) ,000 ,000 ,000
N 109 109 108 85
Tasa de natalidad (por 1. Correlación de Pearson ,861** 1 ,483** -,835**
000 habitantes) Sig. (bilateral) ,000 ,000 ,000
N 109 109 108 85
Tasa Correlación de Pearson ,800** ,483** 1 -,148
Nacimientos/Def unciones Sig. (bilateral) ,000 ,000 ,178
N
108 108 108 85

Mujeres alf abetizadas (%) Correlación de Pearson -,638** -,835** -,148 1


Sig. (bilateral) ,000 ,000 ,178
N 85 85 85 85
**. La correlación es signif icativ a al niv el 0, 01 (bilateral).
Correlaciones

Mortalidad
inf antil
(muertes por Tasa de
1000 natalidad Mujeres
Habit ant es nacimient os Ingesta diaria (por 1.000 alf abetizadas
por Km2 v iv os) de calorías habitantes) (%)
Habit ant es por Km2 Correlación de Pearson 1 -,142 ,067 -,153 ,029
Sig. (bilateral) ,139 ,570 ,113 ,795
N 109 109 75 109 85
Mortalidad inf antil Correlación de Pearson -,142 1 -,777** ,865** -,843**
(muertes por 1000 Sig. (bilateral) ,139 ,000 ,000 ,000
nacimient os v iv os)
N 109 109 75 109 85
Ingesta diaria de calorías Correlación de Pearson ,067 -,777** 1 -,762** ,548**
Sig. (bilateral) ,570 ,000 ,000 ,000
N 75 75 75 75 59
Tasa de natalidad (por 1. Correlación de Pearson -,153 ,865** -,762** 1 -,835**
000 habitantes) Sig. (bilateral) ,113 ,000 ,000 ,000
N 109 109 75 109 85
Mujeres alf abetizadas (%) Correlación de Pearson ,029 -,843** ,548** -,835** 1
Sig. (bilateral) ,795 ,000 ,000 ,000
N 85 85 59 85 85
**. La correlación es signif icativ a al niv el 0, 01 (bilateral).
Ejemplo: uso de correlaciones entre las puntuaciones
de las valoraciones de los líderes políticos (CIS, 2004)
Cuestiones importantes y limitaciones del
coeficiente r de Pearson
• El valor del coeficiente de correlación es
independiente de cualquier unidad usada para medir
las variables.
• El valor del coeficiente de correlación se altera de
forma importante ante la presencia de valores
extremos (sensible a valores atípicos).
• No todas las relaciones entre variables cuantitativas
son “lineales” (línea recta). Existe una gran cantidad
de variables importantes asociadas de forma no lineal
(curvilínea).
• Además la r de Pearson no puede utilizarse con datos
“muy sesgados” o que no siguen el patrón de
distribución normal. Le afectan mucho los datos
anómalos.
No siempre sirve la línea recta…
Ejemplo EEUU y
Curva de Phillips:
¿es lineal?
Correlación vs. Causalidad
• La correlación no implica causalidad. La causalidad
es un juicio que requiere más información que un
simple valor cuantitativo de un coeficiente de
correlación. Gran debate en las ciencias.
• Que dos variables estén correlacionadas puede
deberse a que una sea la causa de la otra, pero
también a que sea la otra la causa de la primera, o
bien a que haya terceros factores que generen las
dos, o simplemente, a una coincidencia.
Por lo tanto… cuidado…
• Un coeficiente de correlación alto no permite concluir la
existencia de ninguna relación de causalidad de una
variable respecto de la otra.
• Podemos tener una correlación alta y sin embargo la
asociación entre ambas variables deberse al efecto de otra
variable encubierta. Un ejemplo de relación espuria es la
alta correlación en zonas rurales entre el número de
cigüeñas observadas en un mes y el número de
nacimientos en dicho mes.
• Más: García Ferrando, M. (1985) “Análisis y modelización
causal en sociología”, REIS 29/85, pp.143-164.
http://www.reis.cis.es/REISWeb/PDF/REIS_029_07.pdf
Más ejemplos en:
http://www.tylervigen.com/spurious-correlations

También podría gustarte