Está en la página 1de 12

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/327667193

Manual de Stata. Breve guía de estudio. Tema 4. Relaciones entre variables


cuantitativas

Preprint · September 2018


DOI: 10.13140/RG.2.2.11895.68008

CITATIONS READS

0 12,845

2 authors:

Andrés Santana Jose Rama


Universidad Autónoma de Madrid Universidad Autónoma de Madrid
122 PUBLICATIONS   156 CITATIONS    106 PUBLICATIONS   161 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Bapolau (base de datos de políticos autonómicos) View project

The political and social effects of COVID-19 View project

All content following this page was uploaded by Andrés Santana on 15 September 2018.

The user has requested enhancement of the downloaded file.


http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 1

Manual de Stata
Breve guía de estudio. Tema 4. Relaciones entre variables
cuantitativas
(Andrés Santana: andres.santana@uam.es y José Rama: jose.rama@uam.es)
Para saber más: Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata (Madrid,
Tecnos, 2017) bit.ly/SantanaRamaStata
O también: Santana, Andrés, 2017, Análisis Cuantitativo: Técnicas para describir y explicar en
ciencias sociales, Barcelona, Editorial UOC, http://www.editorialuoc.cat/analisis-cuantitativo

Con Vs, tiene sentido hablar del orden de sus valores y de las distancias entre ellos. Puedes
estudiar si, cuando una crece, otra tiende a crecer o a decrecer (si se mueven de manera conjunta o
disjunta). También puedes estudiar la fortaleza de tal relación. Como es habitual, hay dos
estrategias (complementarias) para estudiar estas relaciones:
• Análisis numérico con el coeficiente de covarianza (COV) y el coeficiente de correlación
(COR).
• Análisis con gráficos multivariantes de covarianza (GMC). Destacan las nubes de puntos
(NP) y los gráficos de ajuste (GA).
Cierra “cis3126” sin guardar cambios. En este capítulo, usarás parte de una base de datos “gigante”
(“Democracy Crossnational Data, Release 3.0 Spring 2009”), que Pipa Norris comparte
gratuitamente en su web de Harvard. Ve a Moodle y obtén una versión en Stata 13 (fichero
“nordemor.dta”) con pocas variables ya preparadas para trabajar. Descárgala en “C:/DATA/TC”,
establece esta ruta como DT, comprueba que tienes el fichero en tu DT, y ábrelo (recuerda que
debes usar un “ado” para ello). Si estás trabajando desde un ordenador nuevo, puede que necesites
descargar el “ado” o incluso crear las carpetas y subcarpetas de la ruta.

1. Covarianza
Los estadísticos más empleados para estudiar relaciones entre Vs son la covarianza y la
correlación. La covarianza entre dos Vs (V1 y V2) informa del sentido (pero no de la intensidad)
de la relación entre ellas. Por ejemplo, tendría sentido sospechar que la esperanza de vida al nacer
tienda a moverse en la misma dirección que el porcentaje del PIB gastado en salud. Para
comprobar si esto es así, podrías usar la instrucción ‘correlate’, acompañada de la opción
‘covariance’:
correlate espvida gsalud, covariance
La orden no solo saca la covarianza de las variables solicitadas, sino que también muestra sus
varianzas. En sentido estricto, no muestra nada que no hayas pedido, ya que la varianza de
“espvida” es la covarianza de “espvida” consigo misma:
(obs=174)
| espvida gsalud
-------------+------------------
espvida | 153.4
gsalud | 10.8514 3.02027
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 2

En la primera línea, ves que se han usado 174 casos (todos los países que tienen información de la
esperanza de vida al nacer y del porcentaje del PIB gastado en salud). En la “matriz de varianzas y
covarianzas”, las varianzas están en la diagonal: la de “espvida” vale 153,4 (años al cuadrado,
aunque eso no figura en la matriz) y la de “gsalud” es 3,02. La covarianza está en la columna de
“espvida” y la fila de “gsalud”, y vale 10,85. El signo de la covarianza sirve para saber si las
variables se mueven conjuntamente (covarianza positiva) o disjuntamente (negativa). Si la
covarianza fuera nula, no habría ninguna relación lineal entre las variables. El valor de 10,85
indica que, cuando el gasto en salud crece, la esperanza de vida también tiende a crecer. Tiene
sentido, ¿no es así?
Podrías continuar tu estudio investigando la relación entre la esperanza de vida y una medida de
desigualdad, el coeficiente de gini:
correlate espvida gini, covariance
El coeficiente de gini crece a medida que aumenta la desigualdad en una población. Por lo tanto,
tus expectativas se cumplirán si las variables se mueven en sentidos opuestos. Esto es,
precisamente, lo que sucede, ya que la covarianza entre “espvida” y “gini” es negativa (-67,0):
(obs=126)
| espvida gini
-------------+------------------
espvida | 169.052
gini | -66.9627 107.329

Podrías objetar que habrías ahorrado tiempo sacando directamente la covarianza entre las tres:
correlate espvida gsalud gini, covariance
No hay duda de que tienes razón: en una sola tabla se aprecia que (a) la covarianza entre esperanza
de vida y gasto en salud es positiva; (b) la covarianza entre aquélla y coeficiente de gini es
negativa; y (c) la covarianza entre gasto en salud y gini también es negativa:
(obs=126)
| espvida gsalud gini
-------------+---------------------------
espvida | 169.052
gsalud | 12.1904 3.29022
gini | -66.9627 -5.57995 107.329

Alto ahí. Si observas con atención, verás que la covarianza entre esperanza de vida y gasto en salud
ha pasado de 10,85 a 12,19. También apreciarás que sus varianzas no coinciden con las que
obtuviste en la primera correlación. Esto se debe a que, al cambiar las variables, cambia el número
de casos en el que se basan todos los resultados. Vamos a estudiar esta cuestión detalladamente:

2. Relación entre variables y casos en los análisis multivariantes


Una buena costumbre es sacar siempre ADUs antes de acometer análisis más sofisticados:
summarize espvida gsalud gini, covariance
Gracias a esta instrucción, sabes que el número de casos válidos de tus variables es 174, 189 y 126.
También puedes obtener sus varianzas (elevando al cuadrado las desviaciones estándar), que,
redondeando, son 153,40; 3,32 y 107,33. Teniendo también en cuenta los resultados de las órdenes
de covarianza vistas más arriba, puedes construir la siguiente tabla de resumen:
Análisis | Univariante bivariado bivariado trivariado
Variable | espv gsal gini espv y gsal espv y gini las tres
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 3

-------------------+-----------------------------------------------------------------------------
VAR (espvida) | 153.40 153,40 169,05 169,05
VAR (gsalud) | 3.32 3,02 3,29
COV (espv,gsal) | 10,85 12,19
N (casos válidos) | 174 189 126 174 126 126

Al sacar la covarianza entre “espvida” y “gsalud”, Stata usa 174 casos y vuelve a obtener el valor
de 153,4 para la varianza de “espvida”. Sin embargo, si has estado muy atento, habrás observado
que, al sacar la covarianza entre “espvida” y “gini”, la varianza de “espvida” pasa a valer 169,1.
Esto no es un error, se debe a que ahora la has calculado con las 126 observaciones que tienen
información tanto de “espvida” como de “gini”. Una manera de comprobar que el cambio se debe
solo a los casos empleados es repetir el análisis univariante pero restringirlo a los 126 casos en que
hay información también para “gini”:
summarize espvida if gini != .
Esta orden se lee así: “saca un ‘summarize’ de la variable ‘espvida’ si la variable ‘gini’ no toma el
valor de caso perdido”, esto es, sácalo para todas las observaciones en las que dispongas de
información acerca de la desigualdad. El símbolo ‘!=’ significa “no es igual a” y el símbolo ‘.’
significa caso perdido. Efectivamente, obtienes de nuevo una varianza de 169,1 (la puedes calcular
elevando al cuadrado la desviación estándar; la he añadido a los resultados del ‘summarize’):
Variable | Obs Mean Std. Dev. Min Max Variance
-------------+------------------------------------------------------------------------
espvida | 126 65.7619 13.00199 31.3 82.2 169.0517

La varianza de “gsalud” tampoco permanece insensible a las variables incluidas en cada análisis.
En el univariante, que usa 189 casos, vale 3,32; el valor cambia a 3,02 cuando pides la covarianza
entre “espvida” y “gsalud”, que emplea los 174 países que tienen información tanto de “gsalud”
como de “espvida”; y vuelve a cambiar, esta vez a 3,29, cuando sacas la covarianza entre las tres,
calculada a partir de los 126 países que tienen información sobre “espvida”, “gsalud” y “gini”.
Al final de la sección anterior ya advertimos que la covarianza entre esperanza de vida y gasto en
salud pasa de 10,85 (cuando se pide calcular solo la covarianza entre ambas) a 12,19 (cuando se
incluye también “gini” en la instrucción). Como habías anticipado al final de la sección precedente,
esto se debe a que el primer valor se calcula para los 174 casos con información de “espvida” y
“gsalud” y el segundo, para los 126 casos que también tienen información de “gini”. Esta discusión
debe conducirte a sacar las siguientes conclusiones acerca de los análisis multivariantes:
• Primero, salvo en circunstancias excepcionales en las que puedas y decidas solicitar
expresamente que la instrucción se comporte de otra manera, las órdenes para analizar
relaciones entre variables se ejecutan exclusivamente para los casos en los que dispongas
de información acerca del valor de todas las variables explicitadas.
• Segundo, y como consecuencia de lo anterior, el número de casos al que aplica una orden
dependerá de las variables que hayas explicitado. Si añades variables con lagunas de
información para algunos casos, estos casos no se incluirán para ninguna de las variables
explicitadas.
• Tercero, de lo anterior se sigue que, por norma general, tus análisis no serán comparables
si aplican a conjuntos de variables diferentes, ya que se referirán a casos (muestras)
asimismo diferentes.
• Cuarto, debes plantearte con especial cuidado si verdaderamente necesitas incluir
determinadas variables en un análisis multivariante, si su inclusión afecta de manera
importante al número de casos.
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 4

3. Correlación
La covarianza se expresa en unidades de V1 por unidades de V2, con lo que está sujeta a efectos de
escala y su magnitud no sirve para medir la “fortaleza” o intensidad del movimiento conjunto (o
disjunto) de V1 y V2. Esta limitación ha dado pie a la amplia difusión del coeficiente de
correlación, que es adimensional. La correlación entre dos variables V1 y V2 informa del sentido
y la intensidad de la relación entre ellas, y se calcula dividiendo su covarianza por el producto de
las desviaciones estándar de cada una. Al ser éstas positivas, su signo es por construcción el mismo
que el de la covarianza y se interpreta análogamente.
correlate espvida gsalud
correlate espvida gini
En efecto, la correlación de “espvida” con “gsalud” es positiva (0,50). La correlación de “espvida”
con “gini” es negativa, de -0,4971, y está basada en 126 casos (no muestro el ‘output’ por
economía de espacio). Por cierto, fíjate en que, ahora, la diagonal siempre vale “1”:
(obs=174)
| espvida gsalud
-------------+------------------
espvida | 1.0000
gsalud | 0.5041 1.0000

La correlación es adimensional y, al no depender de la escala de las variables, su magnitud informa


objetivamente sobre la intensidad de la variación conjunta (o disjunta) de las variables. Las dos
correlaciones recién mostradas son “bastante fuertes” (del orden de 0,5 en valor absoluto), mientras
que la correlación entre, digamos, el número de partidos que consigue algún escaño y el porcentaje
de inmigrantes es “muy baja” (cercana a 0,11):
(obs=102)
| npartidos inmigran
-------------+------------------
npartidos | 1.0000
inmigran | 0.1101 1.0000

La correlación oscila entre menos uno y más uno: cuanto más cerca de 1 esté su valor absoluto,
más intensa es la relación entre las variables, y cuanto más cerca esté de 0, más débil es. Si se
tienen en cuenta tanto el signo como la magnitud, cabe distinguir entre los siguientes casos:
• Si ρ = 1, decimos que hay una correlación positiva (o relación directa) perfecta entre las
variables (dado como están definidas y escaladas): por cada 1% que sube V1, V2 sube
siempre un b%. La relación es perfecta, matemática, lineal. Si ρ está entre 0 y 1, la
correlación es positiva, pero imperfecta, probabilística. Si V1 sube, V2 tiende a subir; y si
V1 baja, V2 tiende a bajar, pero esto no necesariamente sucede siempre, ni en porcentajes
definidos o fijos. Obviamente, cuanto más cerca esté ρ de 1, mayor será la intensidad del
movimiento conjunto (en la misma dirección) de las variables.
• Si ρ = 0, no hay correlación lineal entre las variables (la correlación entre ellas es nula, no
están linealmente correlacionadas entre sí). Los incrementos (o decrementos) en los valores
de una de las variables no están asociados ni a incrementos ni a decrementos sistemáticos
en los valores de la otra. Cuando V1 tiende a cambiar en una dirección, no se observa
ninguna tendencia definida (lineal) de V2 a cambiar ni en el mismo sentido ni en el
opuesto. Esto no excluye la posibilidad de relaciones no lineales; por ejemplo, parabólicas.
• Si ρ = -1, existe correlación inversa (o negativa) perfecta: por cada 1% que sube V1, V2
cae siempre un c%. Si -1 < ρ < 0, la correlación es negativa pero imperfecta. El crecimiento
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 5

de una tiende a venir de la mano del decrecimiento de la otra; cuando una cambia en una
dirección, la otra tiende a cambiar en la opuesta.
Esta discusión habrá servido para clarificar por qué la diagonal de una matriz de correlaciones es
siempre igual a 1: ¡obviamente, la correlación de una variable consigo misma siempre es perfecta!
Al igual que sucedía con la covarianza, si envías una orden para obtener las correlaciones entre un
grupo de variables, Stata usará solamente los casos que tengan información de todas las variables:
correlate espvida gsalud gini exports npartidos inmigran
Entre los casos perdidos por unas y otras variables, pierdes algo más de un 50% de los países. Los
coeficientes diferirán de los que se obtendrían solicitando correlaciones dos a dos (o “bivariadas”).
Por ejemplo, la correlación bivariada entre “espvida” y “gsalud” se calculaba con 174 casos y era
0,5041, mientras que la que se obtiene ahora (también llamada correlación “parcial”) se calcula
justo con la mitad de casos y es algo mayor, de 0,5660.
(obs=87)
| espvida gsalud gini exports npartidos inmigran
-------------+------------------------------------------------------
espvida | 1.0000
gsalud | 0.5660 1.0000
gini | -0.5312 -0.3922 1.0000
exports | 0.2435 0.0610 -0.1554 1.0000
npartidos | 0.3337 0.3317 -0.2912 0.0538 1.0000
inmigran | 0.3654 0.4091 -0.2781 0.6024 0.1478 1.0000

Generalmente, te interesarán las correlaciones “parciales” y no las “bivariadas”, pero, si quisieras


obtener estas últimas, podrías obtener una matriz de correlaciones similar a la anterior. Para ello,
no es necesario que saques la correlación para cada pareja por separado (y que luego te embarques
en un penoso trabajo de edición para disponerlas en forma de matriz escalonada):
pwcorr espvida gsalud gini exports npartidos inmigran
En efecto, sustituyendo ‘correlate’ por ‘pwcorr’ obtienes la matriz deseada:
| espvida gsalud gini exports npartidos inmigran
-------------+------------------------------------------------------
espvida | 1.0000
gsalud | 0.5041 1.0000
gini | -0.4971 -0.2969 1.0000
exports | 0.1721 0.0313 -0.0550 1.0000
npartidos | 0.3078 0.2656 -0.2437 -0.0860 1.0000
inmigran | 0.3189 0.1806 -0.2748 0.4775 0.1101 1.0000

4. El efecto “peste negra”


La cuarta conclusión sobre la relación entre casos y variables era que, en tus análisis
multivariantes, debías prestar especial atención a la inclusión de de variables que pudieran afectar
de manera importante al número de casos. Merece la pena ilustrar esta conclusión mostrando qué
es lo que sucedería si decidieras extender tu análisis de tres variantes a una cuarta, el número
efectivo de partidos políticos, tal y como lo calcula Lijphart (Enpplip).
correlate espvida gsalud gini Enpplip, covariance
Ésta es una de las variables de la base de datos sobre características de los sistemas electorales
creada por Lijphart que, como quizá sepas, se restringe a 36 países. Como puedes apreciar, su
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 6

inclusión reduce el número de casos empleados por la instrucción a 31 (ya que careces de
información sobre “espvida”, “gsalud” o “gini” para cinco de los casos considerados por Lijphart).
(obs=31)
| espvida gsalud gini Enpplip
-------------+------------------------------------
espvida | 1.0000
gsalud | 0.5302 1.0000
gini | -0.7006 -0.4931 1.0000
Enpplip | 0.1543 0.1555 -0.3077 1.0000

Es decir, la inclusión de esta cuarta variable ha reducido la muestra en 95 observaciones (de 126 a
31). En términos porcentuales, esto significa una pérdida del 75,4% de los casos… ¡muy superior
al efecto que tuvo la peste negra sobre la población europea! El cambio drástico en la muestra
comporta un cambio asimismo importante en los coeficientes de correlación; por poner un
ejemplo, el coeficiente de correlación entre “espvida” y “gini” pasa de -0,4971 (cuando se incluyen
solo tres variables y se calcula para 126 países) a -0,7006 (cuando se calcula para las cuatro). El
“precio” pagado por la inclusión de esta variable es que tus conclusiones aplicarán a un conjunto
de países mucho menor que el original.

5. Diferencias que importan y diferencias no significativas


He dicho que la correlación entre ‘espvida’ y ‘gsalud’ es “bastante fuerte” y la correlación entre
‘npartidos’ e ‘inmigran’ es “muy baja”. Ciertamente, me baso en datos objetivos: la primera es
0,50 y la segunda solo 0,11, lo cual representa una diferencia sustancial en una escala de 0 a 1 (en
valor absoluto). Ahora bien, ninguna de las dos, ni siquiera la segunda, es igual a 0,0.
Probablemente, no encontremos nunca o casi nunca un coeficiente de correlación exactamente
igual a cero. La pregunta del millón es: ¿existe una manera objetiva de saber dónde está la frontera
entre una “correlación baja” y una “ausencia de correlación lineal sistemática”?
Lo que queremos, en definitiva, es distinguir entre las variables que están correlacionadas
(digamos que positivamente) y las que no. La clave para hacerlo es partir de la “duda sistemática”,
de la sospecha de que ningún par de variables está correlacionado (positivamente) excepto que el
valor (absoluto) de su coeficiente de correlación sea tan alto que resulte casi imposible aceptar
que sea cero. Es decir, partimos de la hipótesis inicial, o hipótesis “nula”, de que “V1 y V2 no
están correlacionadas”.
H0: no hay relación entre las variables (rho = 0)
Es una hipótesis conservadora, que sólo abandonaremos si resulta “casi imposible” mantenerla (a
la vista del coeficiente de correlación observado). La idea es que los científicos (serios) no estamos
dispuestos a afirmar que existe una relación entre dos variables si no estamos muy, pero que muy
seguros de ello. Preferimos no afirmar que existe tal relación, aunque haya indicios de que están
relacionadas, si dichos indicios no son “suficientemente” contundentes.
Para que entiendas por qué actuamos así, será útil recurrir a una comparación con los sistemas
“garantistas” de los modernos estados de derecho. En estos sistemas, partimos de la presunción de
inocencia o, para ser más precisos, de no culpabilidad. Para declarar que alguien acusado de un
delito es culpable, exigimos una evidencia muy contundente en este sentido y, en caso de que no
sea “sobradamente” concluyente, preferimos declararlo “no culpable”. Sabemos que se nos van a
“escapar” criminales, pero lo que queremos evitar a toda costa es enviar a un inocente al cadalso.
Análogamente, los científicos queremos evitar a toda costa dar por buena una relación que no
existe. Incluso si tenemos “indicios” de que dos variables no son independientes (el coeficiente de
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 7

correlación no es nulo), si éstos no son suficientemente claros, no nos arriesgaremos a aceptar que
las variables están relacionadas. En ciencias sociales, el “casi imposible” suele implicar que haya
una probabilidad inferior al 5% de obtener un coeficiente como el observado por puro azar.
Entonces diremos que “la relación es significativa”.
Obviamente, cuanto mayor sea el coeficiente de correlación hallado (en valor absoluto), más difícil
es que se deba al azar. Esta línea de razonamiento implica que la probabilidad de obtener un
coeficiente de correlación de 0,50 por puro azar es considerablmente menor que la de obtener uno
de 0,11. Probablemente no sea tan obvio, pero, cuanto mayor sea el número de casos, menor es la
probabilidad de que un coeficiente de determinado tamaño haya sido obtenido por azar.

6. Correlación 2.0
Por suerte, puedes delegar en Stata el cálculo de si las correlaciones detectadas son (o no)
suficientemente altas (en valor absoluto) como para no poder rechazar la existencia de una
correlación entre las variables:
pwcorr espvida gsalud gini exports npartidos inmigran, star(0.05)
La instrucción ‘pwcorr’ permite solicitar, con la opción ‘star(0.05)’, que vengan acompañadas de
un asterisco todas las correlaciones que solo hayan podido ser obtenidas por azar con una
probabilidad inferior a 0.05 = 5%. He escogido 5% porque es el umbral más popular en ciencias
sociales, pero podría haber escogido cualquier otro, por ejemplo, 1%, indicando star(0.01):
| espvida gsalud gini exports npartidos inmigran
-------------+------------------------------------------------------
espvida | 1.0000
gsalud | 0.5041* 1.0000
gini | -0.4971* -0.2969* 1.0000
exports | 0.1721* 0.0313 -0.0550 1.0000
npartidos | 0.3078* 0.2656* -0.2437* -0.0860 1.0000
inmigran | 0.3189* 0.1806* -0.2748* 0.4775* 0.1101 1.0000

Con este lindar del 5%, la correlación entre “espvida” y “gsalud” (que vale 0,50) es efectivamente
signficativa (tiene asterisco), mientras que la correlación entre “npartidos” e “inmigran” (que vale
0,11) no es significativa. La correlación entre “gsalud” y “exports” (que vale 0,03) tampoco es
“estadísticamente significativa”. Tu conclusión será que “espvida” y “gsalud” tienden a moverse
de manera conjunta y “espvida” y “gini” tienden a moverse de manera disjunta, mientras que no
puedes garantizar que “gsalud” y “exports” se mueven ni conjunta ni disjuntamente.
Posiblemente, te estarás preguntando por qué he “dado el cambiazo” recurriendo a ‘pwcorr’ en
lugar de a ‘correlate’. Al fin y al cabo, sabes que ‘pwcorr’ calcula correlaciones “bivariadas” y que
mencioné que, generalmente, estarás interesado en sacar correlaciones “parciales” (que obtienes
con ‘correlate’). El motivo de darte “gato por liebre” es de lo más mundano: ‘pwcorr’ permite
mostrar los asteriscos y ‘correlate’ no lo hace. Afortunadamente, también puedes emplear ‘pwcorr’
para sacar correlaciones “parciales”: para hacerlo, basta con que añadas la opción ‘casewise’.

7. La correlación es bidireccional
La correlación es un concepto simétrico, bidireccional: si V1 está positivamente correlacionada con
V2, por definición, V2 ha de estar positivamente correlacionada con V1.
correlate gini espvida
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 8

Además, el coeficiente es idéntico al que obtenías cuando ponías las variables en orden inverso.
Esta es la razón por la que las celdas encima de la diagonal están vacías, ya que sería redundante
mostrar la misma información que en las de debajo.
(obs=126)
| gini espvida
-------------+------------------
gini | 1.0000
espvida | -0.4971 1.0000

Naturalmente, la covarianza también es bidireccional. Cuando se detecta la existencia de algún tipo


de correlación (ya sea ésta positiva o negativa) entre dos variables, V1 y V2, se puede deber a tres
cosas:
1. Se trata de una relación causal en la que V1 es la causa de V2.
2. Se trata de una relación causal en la que V2 es la causa de V1.
3. Se trata de una relación espuria, no hay ninguna relación causal entre V1 y V2. La
existencia de relaciones espurias se traduce en una frase popular entre los investigadores:
“la correlación no implica causación”. Aunque, generalmente, no quepa esperar relaciones
causales si no hay correlación, la sentencia inversa también es cierta: “la ausencia de
correlación tampoco implica ausencia de causación”.

8. Nubes de puntos
Los gráficos más empleados para estudiar relaciones entre Vs son las nubes de puntos (NP) y los
gráficos de ajuste (GA). Las NP también se conocen con el nombre de ‘diagramas de dispersión’,
y se obtienen con la orden ‘graph twoway scatter’ (o, simplemente, ‘scatter’):
graph twoway scatter espvida gini, scale(1.4)
He añadido la opción ‘scale(1.4)’ para que las etiquetas de los ejes salgan un 40% mayores de lo
normal y, así, se puedan leer pese a reducir el tamaño del gráfico. Una NP es un gráfico
bidimensional compuesto por dos ejes de coordenadas y un conjunto de puntos. En la NP del
ejemplo, el coeficiente de Gini está en el eje horizontal y la esperanza de vida, en el vertical,
mientras que los puntos representan a cada uno de los (126) países para los que hay datos de ambas
variables. Las coordenadas (= situación) del punto en el gráfico dependen de los valores de las dos
variables; por ejemplo, el punto que está más a la derecha está a una altura algo menor de 50
porque corresponde a Namibia (gini = 70,7; esperanza de vida = 47,2).
80
70
Esperanza_vida

60
50
40
30

20 30 40 50 60 70
Gini

De manera general, en el caso de dos variables, V y Z, el eje de abscisas u horizontal es la escala


de la segunda variable (V) y el eje de ordenadas o vertical representa la escala de la primera
variable (Z). Cada observación es representada por un punto cuya posición horizontal depende de
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 9

su valor en V y cuya posición vertical depende de su valor en Z. Cuanto mayor es V, más a la


derecha está el punto y, cuanto mayor es Z, más arriba está. La interpretación de las NP depende de
dónde se concentran los puntos:
(1) Las variables se mueven de manera conjunta (hay una relación positiva entre ellas) si se
concentran en los cuadrantes superior derecho (V y Z altas) e inferior izquierdo (V y Z bajas).
(2) Las variables se mueven de manera disjunta (relación inversa o negativa) si se concentran
en los cuadrantes superior izquierdo (V baja y Z alta) o inferior derecho (V alta y Z baja).
(3) No hay relación lineal sistemática ni positiva ni negativa entre las variables si los datos no
tienden a agruparse de acuerdo con ninguno de los patrones mencionados. Ello sucede si: (A)
se distribuyen aleatoriamente por todas las regiones; (B) se agrupan “verticalmente”; (C) se
agrupan “horizontalmente”; o (D) adoptan configuraciones más complejas, como una parábola.

9. Gráficos de ajuste
Dado que una NP muestra un punto para cada observación de la base de datos, puede que
represente múltiples puntos para un mismo valor de V2 si difieren en sus valores de V1. Los
gráficos de ajuste (GA) suponen una opción alternativa (o incluso complementaria), y muestran un
único punto por cada valor posible de V2, tanto si hay muchos casos con ese valor, como si hay
solo uno… pero también si no hay ninguno. Para escoger el valor mostrado cuando V2 no tiene
ninguna o tiene múltiples observaciones, los GA deben usar algún tipo de función de ajuste (lineal,
cuadrática, etcétera). La más conocida y empleada es la lineal. Los gráficos de ajuste lineal
(GAL) representan (para cada posible V2) el valor esperado o promedio de V1:
graph twoway lfit espvida gsalud, name(GA1) ysize(2) scale(2)
graph twoway lfit espvida gini, name(GA2) ysize(2) scale(2)
graph combine GA1 GA2, ysize(2) scale(1.35)
La ‘l’ de ‘lfit’ indica que el ajuste, o "fit" en inglés, es lineal. He añadido alguna opción al
comando básico (‘graph twoway lfit V1 V2’) para modificar algo el aspecto final de los gráficos. A
continuación, se muestra el resultado de estas tres instrucciones.
50 60 70 80 90

40 50 60 70 80
Fitted values

0 2 4 6 8 20 30 40 50 60 70
Gasto_salud Gini

Técnicamente, el valor esperado de V1 se calcula minimizando la distancia al cuadrado de los


valores de V1 con respecto a la recta (V1 = a + b* V2).

10. Combinación de gráficos y estadísticos


A menudo, las NP se abrevian como ‘scatter’ y los GAL, como ‘lfit’. Sin embargo, como queda
claro por la instrucción completa (‘graph twoway lfit’), los GAL pertenecen a la "gran familia" de
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 10

los gráficos que tienen una escala cuantitativa tanto en el eje horizontal como en el vertical (‘graph
twoway’). Obviamente, las nubes de puntos (‘graph twoway scatter’) también pertenecen a la
misma familia. Una peculiaridad importante de estos “gráficos bivariados” es que se pueden
combinar. Acabas de ver cómo combinarlos con ‘graph combine’. También se pueden superponer
en un solo gráfico:
graph twoway scatter espvida gini || lfit espvida gini ||, scale(1.4)
Para indicar que deseas superponer ambos gráficos, tecleas ‘||’ entre ambos. Es importante que no
pongas ‘graph twoway’ en el segundo gráfico. Si quieres añadir opciones, la manera más correcta
de hacerlo es volver a teclear ‘||’ después del segundo gráfico, y ponerlas a continuación.
80
70
60
50
40
30

20 30 40 50 60 70
Gini

Esperanza_vida Fitted values

El resultado es un gráfico muy vistoso que superpone la NP y el GAL. Así, muestras con puntos
cada uno de los casos y, además, exhibes la línea con el mejor ajuste lineal de estos datos. ¿Aún no
te parece suficiente? ¿Crees que deberías incluir también el coeficiente de correlación?
graph twoway scatter espvida gini || lfit espvida gini ||, scale(1.4) subtitle(rho = -0.4971)
Una manera sencilla es añadir la opción ‘subtitle’ y poner como argumento cuál es esa correlación
(la conoces gracias a las tablas que sacaste anteriormente). Verás que, en la franja superior del
gráfico, aparece el valor del coeficiente de correlación:
rho = -0.4971
30 40 50 60 70 80

20 30 40 50 60 70
Gini

Esperanza_vida Fitted values

Si eres un perfeccionista, le querrás añadir títulos a los ejes, con las opciones ‘xtitle’ y ‘ytitle’. Si
quieres algo aún más sofisticado, puedes incluir no sólo la mejor predicción puntual del ajuste
entre las dos variables, sino también unas bandas de predicción con el nivel de confianza que te
interese. Basta con substituir ‘lfit’ por ‘lfitci’ (si no pones nada, Stata asume que quieres el 95%):
graph twoway lfitci gini espvida || scatter gini espvida ||, scale(1.4) subtitle(rho = -0.4971)
xtitle(“Índice de gini”) ytitle(“Esperanza de vida (años)”)
El resultado es extremadamente profesional. Es preferible poner primero ‘lfitci’, porque, de lo
contrario, las áreas sombreadas de los intervalos de confianza “taparían” a los puntos debajo de
ellas:
http://bit.ly/SantanaTwitter | http://bit.ly/SantanaFacebook | 11

rho = -0.4971
20 30 40 50 60 70

30 40 50 60 70 80
Índice de gini

95% CI Fitted values


Gini

También podrías darle un título al gráfico (con la opción ‘title’):

Como en el caso de las otras guías, creemos que con los materiales de esta guía gratuita tienes lo
suficiente para entender esta lección y empezar a realizar tus propios análisis. Sin embargo, estos
análisis son muy versátiles y se pueden matizar de múltiples maneras para conseguir el resultado
deseado. Si eres de los que quiere conocer más opciones y posibilidades, te animamos a que veas
nuestro libro:

Santana, Andrés, y José Rama, Manual de Análisis de Datos con Stata, Madrid, Tecnos, 2017,
bit.ly/SantanaRamaStata

View publication stats

También podría gustarte