Documentos de Académico
Documentos de Profesional
Documentos de Cultura
G4a Relacionesentrecuantis
G4a Relacionesentrecuantis
net/publication/327667193
CITATIONS READS
0 12,845
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Andrés Santana on 15 September 2018.
Manual de Stata
Breve guía de estudio. Tema 4. Relaciones entre variables
cuantitativas
(Andrés Santana: andres.santana@uam.es y José Rama: jose.rama@uam.es)
Para saber más: Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata (Madrid,
Tecnos, 2017) bit.ly/SantanaRamaStata
O también: Santana, Andrés, 2017, Análisis Cuantitativo: Técnicas para describir y explicar en
ciencias sociales, Barcelona, Editorial UOC, http://www.editorialuoc.cat/analisis-cuantitativo
Con Vs, tiene sentido hablar del orden de sus valores y de las distancias entre ellos. Puedes
estudiar si, cuando una crece, otra tiende a crecer o a decrecer (si se mueven de manera conjunta o
disjunta). También puedes estudiar la fortaleza de tal relación. Como es habitual, hay dos
estrategias (complementarias) para estudiar estas relaciones:
• Análisis numérico con el coeficiente de covarianza (COV) y el coeficiente de correlación
(COR).
• Análisis con gráficos multivariantes de covarianza (GMC). Destacan las nubes de puntos
(NP) y los gráficos de ajuste (GA).
Cierra “cis3126” sin guardar cambios. En este capítulo, usarás parte de una base de datos “gigante”
(“Democracy Crossnational Data, Release 3.0 Spring 2009”), que Pipa Norris comparte
gratuitamente en su web de Harvard. Ve a Moodle y obtén una versión en Stata 13 (fichero
“nordemor.dta”) con pocas variables ya preparadas para trabajar. Descárgala en “C:/DATA/TC”,
establece esta ruta como DT, comprueba que tienes el fichero en tu DT, y ábrelo (recuerda que
debes usar un “ado” para ello). Si estás trabajando desde un ordenador nuevo, puede que necesites
descargar el “ado” o incluso crear las carpetas y subcarpetas de la ruta.
1. Covarianza
Los estadísticos más empleados para estudiar relaciones entre Vs son la covarianza y la
correlación. La covarianza entre dos Vs (V1 y V2) informa del sentido (pero no de la intensidad)
de la relación entre ellas. Por ejemplo, tendría sentido sospechar que la esperanza de vida al nacer
tienda a moverse en la misma dirección que el porcentaje del PIB gastado en salud. Para
comprobar si esto es así, podrías usar la instrucción ‘correlate’, acompañada de la opción
‘covariance’:
correlate espvida gsalud, covariance
La orden no solo saca la covarianza de las variables solicitadas, sino que también muestra sus
varianzas. En sentido estricto, no muestra nada que no hayas pedido, ya que la varianza de
“espvida” es la covarianza de “espvida” consigo misma:
(obs=174)
| espvida gsalud
-------------+------------------
espvida | 153.4
gsalud | 10.8514 3.02027
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 2
En la primera línea, ves que se han usado 174 casos (todos los países que tienen información de la
esperanza de vida al nacer y del porcentaje del PIB gastado en salud). En la “matriz de varianzas y
covarianzas”, las varianzas están en la diagonal: la de “espvida” vale 153,4 (años al cuadrado,
aunque eso no figura en la matriz) y la de “gsalud” es 3,02. La covarianza está en la columna de
“espvida” y la fila de “gsalud”, y vale 10,85. El signo de la covarianza sirve para saber si las
variables se mueven conjuntamente (covarianza positiva) o disjuntamente (negativa). Si la
covarianza fuera nula, no habría ninguna relación lineal entre las variables. El valor de 10,85
indica que, cuando el gasto en salud crece, la esperanza de vida también tiende a crecer. Tiene
sentido, ¿no es así?
Podrías continuar tu estudio investigando la relación entre la esperanza de vida y una medida de
desigualdad, el coeficiente de gini:
correlate espvida gini, covariance
El coeficiente de gini crece a medida que aumenta la desigualdad en una población. Por lo tanto,
tus expectativas se cumplirán si las variables se mueven en sentidos opuestos. Esto es,
precisamente, lo que sucede, ya que la covarianza entre “espvida” y “gini” es negativa (-67,0):
(obs=126)
| espvida gini
-------------+------------------
espvida | 169.052
gini | -66.9627 107.329
Podrías objetar que habrías ahorrado tiempo sacando directamente la covarianza entre las tres:
correlate espvida gsalud gini, covariance
No hay duda de que tienes razón: en una sola tabla se aprecia que (a) la covarianza entre esperanza
de vida y gasto en salud es positiva; (b) la covarianza entre aquélla y coeficiente de gini es
negativa; y (c) la covarianza entre gasto en salud y gini también es negativa:
(obs=126)
| espvida gsalud gini
-------------+---------------------------
espvida | 169.052
gsalud | 12.1904 3.29022
gini | -66.9627 -5.57995 107.329
Alto ahí. Si observas con atención, verás que la covarianza entre esperanza de vida y gasto en salud
ha pasado de 10,85 a 12,19. También apreciarás que sus varianzas no coinciden con las que
obtuviste en la primera correlación. Esto se debe a que, al cambiar las variables, cambia el número
de casos en el que se basan todos los resultados. Vamos a estudiar esta cuestión detalladamente:
-------------------+-----------------------------------------------------------------------------
VAR (espvida) | 153.40 153,40 169,05 169,05
VAR (gsalud) | 3.32 3,02 3,29
COV (espv,gsal) | 10,85 12,19
N (casos válidos) | 174 189 126 174 126 126
Al sacar la covarianza entre “espvida” y “gsalud”, Stata usa 174 casos y vuelve a obtener el valor
de 153,4 para la varianza de “espvida”. Sin embargo, si has estado muy atento, habrás observado
que, al sacar la covarianza entre “espvida” y “gini”, la varianza de “espvida” pasa a valer 169,1.
Esto no es un error, se debe a que ahora la has calculado con las 126 observaciones que tienen
información tanto de “espvida” como de “gini”. Una manera de comprobar que el cambio se debe
solo a los casos empleados es repetir el análisis univariante pero restringirlo a los 126 casos en que
hay información también para “gini”:
summarize espvida if gini != .
Esta orden se lee así: “saca un ‘summarize’ de la variable ‘espvida’ si la variable ‘gini’ no toma el
valor de caso perdido”, esto es, sácalo para todas las observaciones en las que dispongas de
información acerca de la desigualdad. El símbolo ‘!=’ significa “no es igual a” y el símbolo ‘.’
significa caso perdido. Efectivamente, obtienes de nuevo una varianza de 169,1 (la puedes calcular
elevando al cuadrado la desviación estándar; la he añadido a los resultados del ‘summarize’):
Variable | Obs Mean Std. Dev. Min Max Variance
-------------+------------------------------------------------------------------------
espvida | 126 65.7619 13.00199 31.3 82.2 169.0517
La varianza de “gsalud” tampoco permanece insensible a las variables incluidas en cada análisis.
En el univariante, que usa 189 casos, vale 3,32; el valor cambia a 3,02 cuando pides la covarianza
entre “espvida” y “gsalud”, que emplea los 174 países que tienen información tanto de “gsalud”
como de “espvida”; y vuelve a cambiar, esta vez a 3,29, cuando sacas la covarianza entre las tres,
calculada a partir de los 126 países que tienen información sobre “espvida”, “gsalud” y “gini”.
Al final de la sección anterior ya advertimos que la covarianza entre esperanza de vida y gasto en
salud pasa de 10,85 (cuando se pide calcular solo la covarianza entre ambas) a 12,19 (cuando se
incluye también “gini” en la instrucción). Como habías anticipado al final de la sección precedente,
esto se debe a que el primer valor se calcula para los 174 casos con información de “espvida” y
“gsalud” y el segundo, para los 126 casos que también tienen información de “gini”. Esta discusión
debe conducirte a sacar las siguientes conclusiones acerca de los análisis multivariantes:
• Primero, salvo en circunstancias excepcionales en las que puedas y decidas solicitar
expresamente que la instrucción se comporte de otra manera, las órdenes para analizar
relaciones entre variables se ejecutan exclusivamente para los casos en los que dispongas
de información acerca del valor de todas las variables explicitadas.
• Segundo, y como consecuencia de lo anterior, el número de casos al que aplica una orden
dependerá de las variables que hayas explicitado. Si añades variables con lagunas de
información para algunos casos, estos casos no se incluirán para ninguna de las variables
explicitadas.
• Tercero, de lo anterior se sigue que, por norma general, tus análisis no serán comparables
si aplican a conjuntos de variables diferentes, ya que se referirán a casos (muestras)
asimismo diferentes.
• Cuarto, debes plantearte con especial cuidado si verdaderamente necesitas incluir
determinadas variables en un análisis multivariante, si su inclusión afecta de manera
importante al número de casos.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 4
3. Correlación
La covarianza se expresa en unidades de V1 por unidades de V2, con lo que está sujeta a efectos de
escala y su magnitud no sirve para medir la “fortaleza” o intensidad del movimiento conjunto (o
disjunto) de V1 y V2. Esta limitación ha dado pie a la amplia difusión del coeficiente de
correlación, que es adimensional. La correlación entre dos variables V1 y V2 informa del sentido
y la intensidad de la relación entre ellas, y se calcula dividiendo su covarianza por el producto de
las desviaciones estándar de cada una. Al ser éstas positivas, su signo es por construcción el mismo
que el de la covarianza y se interpreta análogamente.
correlate espvida gsalud
correlate espvida gini
En efecto, la correlación de “espvida” con “gsalud” es positiva (0,50). La correlación de “espvida”
con “gini” es negativa, de -0,4971, y está basada en 126 casos (no muestro el ‘output’ por
economía de espacio). Por cierto, fíjate en que, ahora, la diagonal siempre vale “1”:
(obs=174)
| espvida gsalud
-------------+------------------
espvida | 1.0000
gsalud | 0.5041 1.0000
La correlación oscila entre menos uno y más uno: cuanto más cerca de 1 esté su valor absoluto,
más intensa es la relación entre las variables, y cuanto más cerca esté de 0, más débil es. Si se
tienen en cuenta tanto el signo como la magnitud, cabe distinguir entre los siguientes casos:
• Si ρ = 1, decimos que hay una correlación positiva (o relación directa) perfecta entre las
variables (dado como están definidas y escaladas): por cada 1% que sube V1, V2 sube
siempre un b%. La relación es perfecta, matemática, lineal. Si ρ está entre 0 y 1, la
correlación es positiva, pero imperfecta, probabilística. Si V1 sube, V2 tiende a subir; y si
V1 baja, V2 tiende a bajar, pero esto no necesariamente sucede siempre, ni en porcentajes
definidos o fijos. Obviamente, cuanto más cerca esté ρ de 1, mayor será la intensidad del
movimiento conjunto (en la misma dirección) de las variables.
• Si ρ = 0, no hay correlación lineal entre las variables (la correlación entre ellas es nula, no
están linealmente correlacionadas entre sí). Los incrementos (o decrementos) en los valores
de una de las variables no están asociados ni a incrementos ni a decrementos sistemáticos
en los valores de la otra. Cuando V1 tiende a cambiar en una dirección, no se observa
ninguna tendencia definida (lineal) de V2 a cambiar ni en el mismo sentido ni en el
opuesto. Esto no excluye la posibilidad de relaciones no lineales; por ejemplo, parabólicas.
• Si ρ = -1, existe correlación inversa (o negativa) perfecta: por cada 1% que sube V1, V2
cae siempre un c%. Si -1 < ρ < 0, la correlación es negativa pero imperfecta. El crecimiento
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 5
de una tiende a venir de la mano del decrecimiento de la otra; cuando una cambia en una
dirección, la otra tiende a cambiar en la opuesta.
Esta discusión habrá servido para clarificar por qué la diagonal de una matriz de correlaciones es
siempre igual a 1: ¡obviamente, la correlación de una variable consigo misma siempre es perfecta!
Al igual que sucedía con la covarianza, si envías una orden para obtener las correlaciones entre un
grupo de variables, Stata usará solamente los casos que tengan información de todas las variables:
correlate espvida gsalud gini exports npartidos inmigran
Entre los casos perdidos por unas y otras variables, pierdes algo más de un 50% de los países. Los
coeficientes diferirán de los que se obtendrían solicitando correlaciones dos a dos (o “bivariadas”).
Por ejemplo, la correlación bivariada entre “espvida” y “gsalud” se calculaba con 174 casos y era
0,5041, mientras que la que se obtiene ahora (también llamada correlación “parcial”) se calcula
justo con la mitad de casos y es algo mayor, de 0,5660.
(obs=87)
| espvida gsalud gini exports npartidos inmigran
-------------+------------------------------------------------------
espvida | 1.0000
gsalud | 0.5660 1.0000
gini | -0.5312 -0.3922 1.0000
exports | 0.2435 0.0610 -0.1554 1.0000
npartidos | 0.3337 0.3317 -0.2912 0.0538 1.0000
inmigran | 0.3654 0.4091 -0.2781 0.6024 0.1478 1.0000
inclusión reduce el número de casos empleados por la instrucción a 31 (ya que careces de
información sobre “espvida”, “gsalud” o “gini” para cinco de los casos considerados por Lijphart).
(obs=31)
| espvida gsalud gini Enpplip
-------------+------------------------------------
espvida | 1.0000
gsalud | 0.5302 1.0000
gini | -0.7006 -0.4931 1.0000
Enpplip | 0.1543 0.1555 -0.3077 1.0000
Es decir, la inclusión de esta cuarta variable ha reducido la muestra en 95 observaciones (de 126 a
31). En términos porcentuales, esto significa una pérdida del 75,4% de los casos… ¡muy superior
al efecto que tuvo la peste negra sobre la población europea! El cambio drástico en la muestra
comporta un cambio asimismo importante en los coeficientes de correlación; por poner un
ejemplo, el coeficiente de correlación entre “espvida” y “gini” pasa de -0,4971 (cuando se incluyen
solo tres variables y se calcula para 126 países) a -0,7006 (cuando se calcula para las cuatro). El
“precio” pagado por la inclusión de esta variable es que tus conclusiones aplicarán a un conjunto
de países mucho menor que el original.
correlación no es nulo), si éstos no son suficientemente claros, no nos arriesgaremos a aceptar que
las variables están relacionadas. En ciencias sociales, el “casi imposible” suele implicar que haya
una probabilidad inferior al 5% de obtener un coeficiente como el observado por puro azar.
Entonces diremos que “la relación es significativa”.
Obviamente, cuanto mayor sea el coeficiente de correlación hallado (en valor absoluto), más difícil
es que se deba al azar. Esta línea de razonamiento implica que la probabilidad de obtener un
coeficiente de correlación de 0,50 por puro azar es considerablmente menor que la de obtener uno
de 0,11. Probablemente no sea tan obvio, pero, cuanto mayor sea el número de casos, menor es la
probabilidad de que un coeficiente de determinado tamaño haya sido obtenido por azar.
6. Correlación 2.0
Por suerte, puedes delegar en Stata el cálculo de si las correlaciones detectadas son (o no)
suficientemente altas (en valor absoluto) como para no poder rechazar la existencia de una
correlación entre las variables:
pwcorr espvida gsalud gini exports npartidos inmigran, star(0.05)
La instrucción ‘pwcorr’ permite solicitar, con la opción ‘star(0.05)’, que vengan acompañadas de
un asterisco todas las correlaciones que solo hayan podido ser obtenidas por azar con una
probabilidad inferior a 0.05 = 5%. He escogido 5% porque es el umbral más popular en ciencias
sociales, pero podría haber escogido cualquier otro, por ejemplo, 1%, indicando star(0.01):
| espvida gsalud gini exports npartidos inmigran
-------------+------------------------------------------------------
espvida | 1.0000
gsalud | 0.5041* 1.0000
gini | -0.4971* -0.2969* 1.0000
exports | 0.1721* 0.0313 -0.0550 1.0000
npartidos | 0.3078* 0.2656* -0.2437* -0.0860 1.0000
inmigran | 0.3189* 0.1806* -0.2748* 0.4775* 0.1101 1.0000
Con este lindar del 5%, la correlación entre “espvida” y “gsalud” (que vale 0,50) es efectivamente
signficativa (tiene asterisco), mientras que la correlación entre “npartidos” e “inmigran” (que vale
0,11) no es significativa. La correlación entre “gsalud” y “exports” (que vale 0,03) tampoco es
“estadísticamente significativa”. Tu conclusión será que “espvida” y “gsalud” tienden a moverse
de manera conjunta y “espvida” y “gini” tienden a moverse de manera disjunta, mientras que no
puedes garantizar que “gsalud” y “exports” se mueven ni conjunta ni disjuntamente.
Posiblemente, te estarás preguntando por qué he “dado el cambiazo” recurriendo a ‘pwcorr’ en
lugar de a ‘correlate’. Al fin y al cabo, sabes que ‘pwcorr’ calcula correlaciones “bivariadas” y que
mencioné que, generalmente, estarás interesado en sacar correlaciones “parciales” (que obtienes
con ‘correlate’). El motivo de darte “gato por liebre” es de lo más mundano: ‘pwcorr’ permite
mostrar los asteriscos y ‘correlate’ no lo hace. Afortunadamente, también puedes emplear ‘pwcorr’
para sacar correlaciones “parciales”: para hacerlo, basta con que añadas la opción ‘casewise’.
7. La correlación es bidireccional
La correlación es un concepto simétrico, bidireccional: si V1 está positivamente correlacionada con
V2, por definición, V2 ha de estar positivamente correlacionada con V1.
correlate gini espvida
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 8
Además, el coeficiente es idéntico al que obtenías cuando ponías las variables en orden inverso.
Esta es la razón por la que las celdas encima de la diagonal están vacías, ya que sería redundante
mostrar la misma información que en las de debajo.
(obs=126)
| gini espvida
-------------+------------------
gini | 1.0000
espvida | -0.4971 1.0000
8. Nubes de puntos
Los gráficos más empleados para estudiar relaciones entre Vs son las nubes de puntos (NP) y los
gráficos de ajuste (GA). Las NP también se conocen con el nombre de ‘diagramas de dispersión’,
y se obtienen con la orden ‘graph twoway scatter’ (o, simplemente, ‘scatter’):
graph twoway scatter espvida gini, scale(1.4)
He añadido la opción ‘scale(1.4)’ para que las etiquetas de los ejes salgan un 40% mayores de lo
normal y, así, se puedan leer pese a reducir el tamaño del gráfico. Una NP es un gráfico
bidimensional compuesto por dos ejes de coordenadas y un conjunto de puntos. En la NP del
ejemplo, el coeficiente de Gini está en el eje horizontal y la esperanza de vida, en el vertical,
mientras que los puntos representan a cada uno de los (126) países para los que hay datos de ambas
variables. Las coordenadas (= situación) del punto en el gráfico dependen de los valores de las dos
variables; por ejemplo, el punto que está más a la derecha está a una altura algo menor de 50
porque corresponde a Namibia (gini = 70,7; esperanza de vida = 47,2).
80
70
Esperanza_vida
60
50
40
30
20 30 40 50 60 70
Gini
9. Gráficos de ajuste
Dado que una NP muestra un punto para cada observación de la base de datos, puede que
represente múltiples puntos para un mismo valor de V2 si difieren en sus valores de V1. Los
gráficos de ajuste (GA) suponen una opción alternativa (o incluso complementaria), y muestran un
único punto por cada valor posible de V2, tanto si hay muchos casos con ese valor, como si hay
solo uno… pero también si no hay ninguno. Para escoger el valor mostrado cuando V2 no tiene
ninguna o tiene múltiples observaciones, los GA deben usar algún tipo de función de ajuste (lineal,
cuadrática, etcétera). La más conocida y empleada es la lineal. Los gráficos de ajuste lineal
(GAL) representan (para cada posible V2) el valor esperado o promedio de V1:
graph twoway lfit espvida gsalud, name(GA1) ysize(2) scale(2)
graph twoway lfit espvida gini, name(GA2) ysize(2) scale(2)
graph combine GA1 GA2, ysize(2) scale(1.35)
La ‘l’ de ‘lfit’ indica que el ajuste, o "fit" en inglés, es lineal. He añadido alguna opción al
comando básico (‘graph twoway lfit V1 V2’) para modificar algo el aspecto final de los gráficos. A
continuación, se muestra el resultado de estas tres instrucciones.
50 60 70 80 90
40 50 60 70 80
Fitted values
0 2 4 6 8 20 30 40 50 60 70
Gasto_salud Gini
los gráficos que tienen una escala cuantitativa tanto en el eje horizontal como en el vertical (‘graph
twoway’). Obviamente, las nubes de puntos (‘graph twoway scatter’) también pertenecen a la
misma familia. Una peculiaridad importante de estos “gráficos bivariados” es que se pueden
combinar. Acabas de ver cómo combinarlos con ‘graph combine’. También se pueden superponer
en un solo gráfico:
graph twoway scatter espvida gini || lfit espvida gini ||, scale(1.4)
Para indicar que deseas superponer ambos gráficos, tecleas ‘||’ entre ambos. Es importante que no
pongas ‘graph twoway’ en el segundo gráfico. Si quieres añadir opciones, la manera más correcta
de hacerlo es volver a teclear ‘||’ después del segundo gráfico, y ponerlas a continuación.
80
70
60
50
40
30
20 30 40 50 60 70
Gini
El resultado es un gráfico muy vistoso que superpone la NP y el GAL. Así, muestras con puntos
cada uno de los casos y, además, exhibes la línea con el mejor ajuste lineal de estos datos. ¿Aún no
te parece suficiente? ¿Crees que deberías incluir también el coeficiente de correlación?
graph twoway scatter espvida gini || lfit espvida gini ||, scale(1.4) subtitle(rho = -0.4971)
Una manera sencilla es añadir la opción ‘subtitle’ y poner como argumento cuál es esa correlación
(la conoces gracias a las tablas que sacaste anteriormente). Verás que, en la franja superior del
gráfico, aparece el valor del coeficiente de correlación:
rho = -0.4971
30 40 50 60 70 80
20 30 40 50 60 70
Gini
Si eres un perfeccionista, le querrás añadir títulos a los ejes, con las opciones ‘xtitle’ y ‘ytitle’. Si
quieres algo aún más sofisticado, puedes incluir no sólo la mejor predicción puntual del ajuste
entre las dos variables, sino también unas bandas de predicción con el nivel de confianza que te
interese. Basta con substituir ‘lfit’ por ‘lfitci’ (si no pones nada, Stata asume que quieres el 95%):
graph twoway lfitci gini espvida || scatter gini espvida ||, scale(1.4) subtitle(rho = -0.4971)
xtitle(“Índice de gini”) ytitle(“Esperanza de vida (años)”)
El resultado es extremadamente profesional. Es preferible poner primero ‘lfitci’, porque, de lo
contrario, las áreas sombreadas de los intervalos de confianza “taparían” a los puntos debajo de
ellas:
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 11
rho = -0.4971
20 30 40 50 60 70
30 40 50 60 70 80
Índice de gini
Como en el caso de las otras guías, creemos que con los materiales de esta guía gratuita tienes lo
suficiente para entender esta lección y empezar a realizar tus propios análisis. Sin embargo, estos
análisis son muy versátiles y se pueden matizar de múltiples maneras para conseguir el resultado
deseado. Si eres de los que quiere conocer más opciones y posibilidades, te animamos a que veas
nuestro libro:
Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata, Madrid, Tecnos, 2017,
bit.ly/SantanaRamaStata