Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Representación
gráfica (en unos ejes
cartesianos) de la
relación entre dos
variables. Es una
representación
visual de la nube de
puntos (pares de
datos de las
variables).
Es la manera más directa e intuitiva de
formarse una primera impresión sobre el tipo
de relación entre las dos variables cuantitativas
Ejemplo: Diagrama de dispersión
Ej.: PIB per cápita y Tasa de
Natalidad
• En el ejemplo anterior ¿qué tipo de asociación podemos
interpretar?
• Parece intuirse una relación fuerte e inversa: a más PIB
menor natalidad y a menor PIB mayor natalidad.
• En el diagrama de dispersión, al igual que con los
porcentajes de una tabla de contingencia, podemos
intentar visualizar aproximadamente la relación entre las
variables.
• “Los países ricos generan riqueza y los países pobres
generan bebés” (Mulberg, 2005: 128)
Tipos de diagramas de dispersión
xi yi
i ( xi X )( yi Y ) i N x y
r
x y x y
cov( x, y ) x y i i
r i
x y n· x y
Interpretación del coef. r
• Una correlación nos proporciona tres datos principales:
• 1) La existencia o no de una relación lineal entre las variables (si da
diferente de cero, ≠0)
• 2) La dirección de esta relación, si es que existe (por su signo
positivo o negativo)
• 3) El grado de esta relación (por el valor absoluto del coeficiente).
Toma valores entre -1 y +1.
• Una relación positiva entre dos variables indica que sus
valores varían de forma “parecida”: los casos que puntúan
alto en una variable lo hacen igualmente alto en la otra y
viceversa.
• Además, al igual que otros estadísticos que se utilizan para
medir y cuantificar, r viene acompañado de un cierto nivel
de confianza que nos indica la confiabilidad a la hora de
generalizar y extrapolar la relación encontrada entre las
dos variables cuantitativas a otras muestras.
r2, Coeficiente de determinación
• r2 se denomina coeficiente de determinación.
• Se interpreta como el porcentaje de variación de la variable dependiente
explicado por la variable independiente (o el modelo de correlación
planteado). Mide la “bondad del ajuste” de la recta de regresión.
• Toma valores entre 0 y 1.
• r2 = variación de la variable dependiente que queda explicada por su
relación con la independiente. 1-r2 = variación de la variable que queda
sin explicar.
• r2/(1-r2)= (lo explicado/lo sin explicar).
Fuente: Transparencia Internacional 2005
Ejemplo típico: peso y altura
Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58
Se realizan los cálculos
• Estatura media = 169,6 x 169'6 x 7'2139
• Peso medio = 67,8
y 67'8 y 8'7567
52'32
rxy 0'8282 R 2 (0'8282)2 100 68'59%
7'2139 8'7567
Ahora interpretar este caso…
Correlaciones
Tasa de
Producto natalidad
interior bruto (por 1. 000
per-capita habitantes)
Producto interior bruto Correlación de Pearson 1 -,651**
per-capita Sig. (bilateral) ,000
N 109 109
Tasa de natalidad Correlación de Pearson -,651** 1
(por 1. 000 habitantes) Sig. (bilateral) ,000
N 109 109
**. La correlación es signif icat iv a al niv el 0,01 (bilat eral).
Tasa de
Aumento de natalidad Tasa Mujeres
la población (por 1.000 Nacimientos/ alf abetizadas
(% anual) habitantes) Def unciones (%)
Aumento de la población Correlación de Pearson 1 ,861** ,800** -,638**
(% anual) Sig. (bilateral) ,000 ,000 ,000
N 109 109 108 85
Tasa de natalidad (por 1. Correlación de Pearson ,861** 1 ,483** -,835**
000 habitantes) Sig. (bilateral) ,000 ,000 ,000
N 109 109 108 85
Tasa Correlación de Pearson ,800** ,483** 1 -,148
Nacimientos/Def unciones Sig. (bilateral) ,000 ,000 ,178
N
108 108 108 85
Mortalidad
inf antil
(muertes por Tasa de
1000 natalidad Mujeres
Habit ant es nacimient os Ingesta diaria (por 1.000 alf abetizadas
por Km2 v iv os) de calorías habitantes) (%)
Habit ant es por Km2 Correlación de Pearson 1 -,142 ,067 -,153 ,029
Sig. (bilateral) ,139 ,570 ,113 ,795
N 109 109 75 109 85
Mortalidad inf antil Correlación de Pearson -,142 1 -,777** ,865** -,843**
(muertes por 1000 Sig. (bilateral) ,139 ,000 ,000 ,000
nacimient os v iv os)
N 109 109 75 109 85
Ingesta diaria de calorías Correlación de Pearson ,067 -,777** 1 -,762** ,548**
Sig. (bilateral) ,570 ,000 ,000 ,000
N 75 75 75 75 59
Tasa de natalidad (por 1. Correlación de Pearson -,153 ,865** -,762** 1 -,835**
000 habitantes) Sig. (bilateral) ,113 ,000 ,000 ,000
N 109 109 75 109 85
Mujeres alf abetizadas (%) Correlación de Pearson ,029 -,843** ,548** -,835** 1
Sig. (bilateral) ,795 ,000 ,000 ,000
N 85 85 59 85 85
**. La correlación es signif icativ a al niv el 0, 01 (bilateral).
Ejemplo: uso de correlaciones entre las puntuaciones
de las valoraciones de los líderes políticos (CIS, 2004)
Cuestiones importantes y limitaciones del
coeficiente r de Pearson
• El valor del coeficiente de correlación es
independiente de cualquier unidad usada para medir
las variables.
• El valor del coeficiente de correlación se altera de
forma importante ante la presencia de valores
extremos (sensible a valores atípicos).
• No todas las relaciones entre variables cuantitativas
son “lineales” (línea recta). Existe una gran cantidad
de variables importantes asociadas de forma no lineal
(curvilínea).
• Además la r de Pearson no puede utilizarse con datos
“muy sesgados” o que no siguen el patrón de
distribución normal. Le afectan mucho los datos
anómalos.
No siempre sirve la línea recta…
Ejemplo EEUU y
Curva de Phillips:
¿es lineal?
Correlación vs. Causalidad
• La correlación no implica causalidad. La causalidad
es un juicio que requiere más información que un
simple valor cuantitativo de un coeficiente de
correlación. Gran debate en las ciencias.
• Que dos variables estén correlacionadas puede
deberse a que una sea la causa de la otra, pero
también a que sea la otra la causa de la primera, o
bien a que haya terceros factores que generen las
dos, o simplemente, a una coincidencia.
Por lo tanto… cuidado…
• Un coeficiente de correlación alto no permite concluir la
existencia de ninguna relación de causalidad de una
variable respecto de la otra.
• Podemos tener una correlación alta y sin embargo la
asociación entre ambas variables deberse al efecto de otra
variable encubierta. Un ejemplo de relación espuria es la
alta correlación en zonas rurales entre el número de
cigüeñas observadas en un mes y el número de
nacimientos en dicho mes.
• Más: García Ferrando, M. (1985) “Análisis y modelización
causal en sociología”, REIS 29/85, pp.143-164.
http://www.reis.cis.es/REISWeb/PDF/REIS_029_07.pdf
Más ejemplos en:
http://www.tylervigen.com/spurious-correlations