Está en la página 1de 55

1

Manual de Stata

6 Grficos con Stata


Una de las capacidades bsicas que ha de tener cualquier aplicacin estadstica es la de ser capaz de generar grficos. Tan importante es la capacidad de tratamiento de variables y la de generacin de estadsticos como la de hacer que se muestren los datos representados mediante una imagen, que en muchas ocasiones dice bastante ms que mil nmeros. Hay muy diversos tipos de grficos en la representacin estadstica, pero con objeto de simplificar la amplia variedad existente, stos pueden ubicarse en dos clasificaciones: por un lado, la del nmero de dimensiones que representan, y por el otro, el tipo de variables representado. En el primer caso, se pueden encontrar grficos unidimensionales (representan los valores y frecuencias de cada variable independientemente de las dems, si las hubiere), grficos bidimensionales, en los que se muestran distribuciones conjuntas de dos variables, y representaciones multidimensionales, donde se muestran distribuciones multivariantes. Es necesario precisar que no siempre coincide el concepto de dimensin con el de variable: en un grfico unidimensional pueden representarse dos o ms variables, en cuyo caso, segn se construya el grfico, se podr estudiar la asociacin existente entre ellas1 o comparar sus caractersticas representadas. Por otro lado, los grficos tambin pueden clasificarse segn el tipo de variable que quieren representar: hay grficos que se adecuan especialmente a variables cualitativas, como son el grfico de sectores o el de barras, mientras que otros, como las nubes de puntos o el histograma estn indicados principalmente para variables cuantitativas. La aplicacin Stata es capaz de producir grficos de tres modos distintos:
a) En primer lugar, existe una instruccin que contiene la mayor parte de los grficos ms usuales. Se trata de la instruccin graph, que ser la nica que ser abordada en este captulo2. b) En segundo lugar, existen otra serie de instrucciones que son capaces de realizar grficos ms especficos. En este caso, nos encontramos instrucciones como la de

Para estudiar asociacin en grficos unidimensionales es preciso aadir a su representacin de nica entrada otra dimensin. Esto se logra, como se ver ms adelante, mediante dos modos: Con over la operacin se realiza en los mismos ejes del grfico, con by se construye otro grfico paralelo. La versin 8 proporciona una sintaxis bastante diferente de las de versiones anteriores de Stata para la ejecucin de grficos. Sin embargo, permite que los antiguos usuarios y los viejos programa puedan ejecutarse. Para ello, ha de cambiarse la instruccin graph por graph7 o bien, en el interior de un programa, advertir al comienzo que se est trabajando con una versin anterior a la 8, con la instruccin version.
2

Manual de Stata
dotplot, que realiza histogramas basados en puntos, o stem, que realiza un grfico de tallo y hoja. c) Tambin Stata dispone de ciertos procedimientos de operaciones estadsticas que se pueden complementar con algn tipo de grfico. De este modo, instrucciones grficas como greigen, rvfplot o cluster dendrogram slo son posibles tras la realizacin de previos anlisis estadsticos como factor, regress y cluster, respectivamente.

Con la instruccin ms especfica de grficos (graph) se pueden realizar dos modalidades de representacin de variables:
a) las univariadas, como son los grficos de sectores (pie), los de barras (bar), los de puntos (dot) y los de caja (box). y b) las bivariadas, en grficos de dos dimensiones (twoway) o mltiples (matrix).

La instruccin graph es sin lugar a dudas la ms compleja de cuantas contiene el programa Stata. Dado que en un grfico pueden controlarse muchos aspectos, son necesarias muchas opciones que lo hagan posible. Para explicar con la mayor facilidad en este captulo la mayor parte de las posibilidades de esta instruccin, se ha considerado conveniente dividirlo en cuatro apartados: en los dos primeros se pasa repaso a los distintos tipos de ilustraciones de los datos. Se han dividido en dos para exponer en el primero de ellos los grficos unidimensionales y en el segundo los bidimensionales. A un aprendiz de Stata estos dos primeros le bastan para conocer y producir los diferentes tipos de grficos. El tercer apartado expone la construccin y el tratamiento especfico que Stata proporciona a los grficos. Ensea, por un lado, cmo se pueden grabar, recuperar, combinar, imprimir o exportar a otra aplicacin estas figuras y, por otro, habla de la herramienta de los esquemas para facilitar la mejor presentacin posible de los grficos, para acabar en la exponsicin de un ejemplo de solicitud de grficos mediante mens. Finalmente, se cierra este captulo presentando los componentes de los grficos (ttulos, ejes, elementos y leyendas). Cada uno de ellos tiene mltiples opciones de modulacin, que el usuario ms familiarizado con Stata puede cambiar, para dar una apariencia ms personal a los grficos.

6.1 Grficos unidimensionales


6.1.1 Grficos de sectores
Los grficos de sectores son representaciones de los datos en un crculo cuyos segmentos representan proporcionalmente la frecuencia de los valores contenidos en una o varias variables. La instruccin mnima para realizar grficos de sectores es la siguiente:
graph pie listadevariables

Manual de Stata

Hay que tener en cuenta que esta instruccin produce un grfico en el que cada variable explicitada se representa en un sector cuya rea es proporcional a la suma de los valores de todos los casos en la variable en cuestin. Esto implica que, para obtener un grfico de sectores en el que un sector represente a los hombres y el otro a las mujeres, los datos han de disponerse de dos posibles modos:
1) Si se dispone de un fichero con un solo caso y dos variables: Hombre y Mujer, con valores que representen sus respectivas frecuencias, tal como el representado en la Ilustracin 6.1,
Ilustracin 6.1

basta con indicar la modalidad simple de la instruccin


graph pie Hombre Mujer

para producir el siguiente grfico:


Ilustracin 6.2

Hombre

Mujer

2) Sin embargo, lo ms comn es disponer los datos por individuo en una variable categrica, como puede ser el sexo, con 5.000 sujetos y dos valores, hombre y mujer, en cuya circunstancia habra que escribir la instruccin del siguiente modo: graph pie, over(sexo)

donde sexo es la variable que se quiere representar en el grfico de sectores.

Manual de Stata

Con la anterior instruccin se genera el grfico de la Ilustracin 6.3, donde puede advertirse, adems de la ligera mayora de mujeres en la muestra, que el programa pone automticamente a cada uno de los sectores las etiquetas de los valores que tiene la variable original.
Ilustracin 6.3

hombre

mujer

La instruccin graph pie admite la posibilidad de introducir una variable categrica para la obtencin de tantos grficos como valores tenga sta. Por ejemplo, en el caso de que se quieran obtener los diferentes perfiles de sexo, en funcin de los distintos votantes, hay que emplear la opcin by(variable).
graph pie, over(sexo) by(Voto_2000)

Esta orden da lugar al siguiente grfico bidimensional, donde se puede estudiar el perfil de gnero de los votantes de cada uno de los partidos:
Ilustracin 6.4
PP PS OE IU

Otros

Bl anc o

NC

hombre
Graphs by Partido votado

mujer

6.1.2 Grficos de barras


Los grficos de barras tambin son tiles para la representacin de variables no cuantitativas, pero son ms recomendables que los de sectores, en el caso de que se tenga un nmero mayor de categoras en la variable que se quiere representar. Consiste en dibujar un rectngulo para cada variable o valor representado con longitud proporcional a su valor, suma o frecuencia. Para su obtencin, se necesitan

Manual de Stata

instrucciones con opciones bastantes distintas a la de los grficos de sectores. Sin embargo, la sintaxis general es muy similar a la anterior:
graph bar listadevariables

De este modo, la instruccin del primer grfico realizado con la opcin pie, ahora quedara del siguiente modo3:
graph bar Hombre Mujer, nolabel

y producira el siguiente grfico:


Ilustracin 6.5
60 0 20 40

Hombre

Mujer

No obstante, como en la mayor parte de las ocasiones, se disponen los datos en un fichero en el que cada registro representa un caso, en cuya situacin, en los grficos de barra no puede emplearse directamente la opcin over como se aplic en la modalidad de sectores. Para poder hacer algo similar, hay que confeccionar el grfico en dos pasos: en el primero, mediante dos instrucciones, se genera una constante ficticia, equivalente al peso en porcentaje del caso4, y en el segundo se pide la representacin del recuento de sta5 cruzada con la variable propiamente dicha, que en el ejemplo siguiente es sexo. Y esto es debido a que Stata considera el grfico de barras ms como un caso de

En esta instruccin se produce la paradoja de que para que aparezca en la leyenda los nombres de las variables (Hombre y Mujer), se debe especificar la opcin nolabel. Si esta no aparece, las etiquetas que apareceran seran las automticas del grafico, es decir, Mean of Hombre y Mean of Mujer
4

Si se quiere representar proporciones, en lugar de porcentajes, basta son sustituir el 100 por un 1.

Otro modo de hacerlo es convirtiendo la variable nominal en tantas dicotmicas como valores tenga, mediante la opcin generate del comando tabulate, para a continuacin pedir el grfico de barras de las nuevas variables dicotmicas. Sin embargo, en esta modalidad la nica forma de que aparezcan adecuadamente las etiquetas de los valores de la variable es mediante la compleja opcin legend(order() Vase ms abajo.

Manual de Stata

variable numrica (de intervalo o de razn) que de variable con atributos (nominal u ordinal).
tabulate sexo generate casos=100/r(N) bar (count) casos, over(sexo)
Ilustracin 6.6
15,000 0 5,000 count of casos 10,000

hombre

mu jer

Tambin en estos grficos cabe la posibilidad de realizar un control por una segunda variable para realizar un grfico bidimensional de barras, que es muy til para representar grficamente tablas de contingencia (vase el captulo X). En la Ilustracin 6.7, por ejemplo, se utiliza el sexo como independiente y se emplea la intencin de voto como variable dependiente, para ver su distribucin en hombres y mujeres:
Ilustracin 6.7
1,000 0 PP PSOE IU OtrosBlanco NC 200 count of casos 400 600 800

PP PSOE IU OtrosBlanco NC

hombre

mujer

En esta Ilustracin se observan claramente dos grupos comparable de barras: unas para los hombres y otras para las mujeres. Para conseguirlo se ha tenido que escribir esta instruccin6:

Es obvio que las etiquetas del eje que el programa crea por omisin no es la deseable en el caso de que se quiera publicar el grfico en castellano. Para arreglarla, es preciso leer el apartado de opciones lo que all se especifica para el cambio de ejes.

Manual de Stata

graph bar count(casos), over(Voto_2000) over (sexo)

Hay otro modo de que se produzcan un resultado similar al anterior. Se trata de mostrar tantos grficos como valores tenga la variable que se especifique detrs de la opcin by(variable). Incluso, si se desea, puede obtenerse al mismo tiempo el grfico correspondiente al conjunto de la muestra, si se aade despus de la variable la opcin total:
graph bar count(casos), over(Voto_2000) by (sexo, total )
Ilustracin 6.8
hombre mujer

count of casos

0 PP 500 1,000 1,500 2,000

500 1,000 1,500 2,000

PSOE

IU

Otros Blanco NC

PP

PSOE

IU

Otros Blanco NC

Total

0 PP

PSOE

IU

Otros Blanco NC

Graphs by pp42

Especialmente en este grfico se nota cmo hasta ahora lo que se representan son frecuencias y no porcentajes. Para obtenerlos, o para representar proporciones7, en lugar de frecuencias, hay que solicitar la estadstica (sum), en lugar de count, que apareca en los anteriores grficos.
graph bar (sum) casos, over(Voto_2000)

Sacar porcentajes o frecuencias segn se haya construido la variable ficticia con la que se construyen los grficos de barras (casos, en este ejemplo). Como ms arriba se construy dividiendo 100 por el tamao de la muestra (_N), entonces se obtienen porcentajes. Si se hubiera utilizado 1, en lugar de 100, se habran obtenido proporciones.

Manual de Stata
Ilustracin 6.9
40 0 10 sum of casos 20 30

PP

PSOE

IU

Otros

Blanco

NC

Una variante ineludible del grfico de barras es la apilada, en la que en lugar de aparecer paralelas las barras correspondientes a las categoras de la variable, aparecen contiguas en la misma columna. Esta alternativa facilita, en la mayor parte de los casos, la comparacin entre categoras. Para obtenerla, es necesario aadir a la instruccin dos opciones: la primera es asyvar, que trata a la variable expresada en over() como si fueran valores de distintas variables. Por eso las barras aparecen dibujadas con distintos colores. La segunda opcin es stack, que como su propio nombre indica es la que hace que las barras queden apiladas.
graph bar count(casos), over(Voto_2000) asyvar by(pp42) stack
Ilustracin 6.10
hombre mujer

count of casos

1,000

2,000

3,000

PP IU Blanco
Graphs by pp42

PSOE Otros NC

Como puede fcilmente apreciarse, por el hecho de acumular el nmero de casos, las alturas no alcanzan el tope y la de las mujeres, ms numerosas en la muestra, es ms alta que la de los hombres. Para igualar las bases de la comparacin, es preciso aadir la opcin percent, en cuyo caso la escala que representan las frecuencias cambia hasta tener el mximo de 100 y, en consecuencia todas las barras se igualan.
graph bar sum(casos), over(Voto_2000) asyvar by(pp42) stack percent

Manual de Stata
Ilustracin 6.11
hombre
100

mujer

percent

20

40

60

80

mean of Voto1 mean of Voto3


Graphs by pp42

mean of Voto2 mean of Voto4

Finalmente hay que sealar que todos los grficos de barra aqu expuestos pueden dibujarse horizontalmente. Para ello, slo es preciso cambiar la segunda palabra de la instruccin por hbar en lugar de bar. Por ejemplo, si se desea, dibujar la intencin de voto en barras horizontales, se debera escribir la siguiente lnea:
graph hbar (sum) casos, over(Voto-2000) asyvar

De este modo, se obtiene el siguiente grfico con barras de distinto color por haber especificado la opcin asyvar:
Ilustracin 6.12

10

20 sum of casos PP IU Blanco PSOE Otros NC

30

40

6.1.3 Grficos de puntos


Los grficos de punto son considerados por Stata como los grficos de barra. De hecho, prcticamente las instrucciones de uno y otro presentan la misma sintaxis, con la nica diferencia de que en lugar de poner la palabra clave bar, se ha de escribir dot. Esto es as, porque este programa estadstico trata los grficos de barra como si de variables cuantitativas se tratara. De esta manera, al escribir la siguiente instruccin:

10

Manual de Stata
graph dot (sum) casos, over(Voto_2000)

Se muestra el siguiente grfico:


Ilustracin 6.13

PP

PSOE

IU

Otros

Blanco

NC

10

20 sum of casos

30

40

En la Ilustracin 6.13 se advierten claramente las diferencias entre el grfico de barras y el de puntos. Para cada categora se representa la proporcin de casos mediante una marca, representada con smbolos (crculos en este caso) que estn ubicados en una gua de puntos, en lugar de estar representadas mediante una barra de tamao proporcional al nmero, porcentaje o cualquier otro estadstico de las variables especificadas. Y si se desea que todos los puntos aparezcan en la misma lnea, para una mejor comparacin de los porcentajes en este caso, es preciso aadir la opcin asyvar
graph dot (sum) casos, over(Voto_2000) asyvar

con el resultado que se muestra a continuacin:


Ilustracin 6.14

10

20 sum of casos PP IU Blanco PSOE Otros NC

30

40

6.1.4 Histogramas
Los histogramas son grficos que se emplean para la representacin de variables cuantitativas continuas. Consisten en dividir los valores en una serie de intervalos y

11

Manual de Stata

representar cada uno de stos con un rea proporcional a su tamao. Generalmente los valores se expresan en el eje de abscisas de un grfico de coordenadas, mientras que, en el caso de que todos los intervalos tengan amplitud constante, en las ordenadas se expresan las frecuencias absolutas o relativas correspondientes a cada grupo de valores. En Stata basta con dos palabras para generar un grfico de este tipo: el comando histogram8 seguido del nombre de la variable que se quiere representar:
histogram pp43

Sin ninguna otra especificacin aadida, el histograma aparece del siguiente modo:
Ilustracin 6.15
.025 0 20 .005 Density .01 .015 .02

40

60 Edad

80

100

En l se aprecia cmo el programa ha dividido la variable edad con valores comprendidos entre los 18 y los 98 aos en cuarenta y tres sectores iguales, opcin sta ltima que se adopta en caso de no indicarle lo contrario. Y son 43, porque adopta la siguiente frmula: ln( N ) k = min N ,10 ln(10) Como quiera que est representando 24.000 casos y la raz de este nmero es 155.9, mientras que diez veces el cociente de su logaritmo entre el de 10 da un resultado de 43, stos son los intervalos que dibuja.

sta (histogram) es una de las instrucciones especficas (diferentes a graph) para realizar grficos. Sin embargo, en este caso se puede obtener el mismo resultado con el siguiente bloque de rdenes: graph twoway histogram, especialmente til cuando se quiere integrar los histogramas con otro tipo de representacin bivariada. Por eso, en este contexto donde se estn viendo los grficos de una sola variable, y por razones de brevedad slo se seala la primera forma de solicitarlos.

12

Manual de Stata

Para obtener un nmero no automtico de intervalos en el histograma, existe la opcin bin(#), siendo # el nmero de ellos que se quiere queden dibujados. De este modo si se desean ocho intervalos en lugar de los que 43 anteriores, debera escribirse:
histogram pp43, bin(8)
Ilustracin 6.16
.02 0 20 .005 Density .01 .015

40

60 Edad

80

100

Pero tambin es posible especificar, en lugar del nmero de intervalos, el ancho que se desea tengan las barras a travs de la opcin width(#) e incluso el punto de partida con start(#). Y obvio es que ambas se pueden combinar para obtener un histograma a gusto del usuario:
histogram pp43, start(15) width(10)

Con esta ltima instruccin, el histograma adopta la siguiente forma:


Ilustracin 6.17
.02 0 .005 Density .01 .015

20

40

60 Edad

80

100

Dos opciones adicionales permiten mejorar la presentacin del histograma. Por un lado, frequency hace mostrar las frecuencias, en lugar de los porcentajes. Por el otro, normal sobrescribe en el histograma la curva de Gauss para que pueda compararse la distribucin emprica con la distribucin normal. La instruccin en su conjunto sera
histogram pp43, start(15) width(10) frequency normal

Y el resultado muestra tanto las frecuencias como la curva normal:

13

Manual de Stata
Ilustracin 6.18
5000 0 1000 Frequency 2000 3000 4000

20

40

60 Edad

80

100

6.1.5 Grficos de densidad


Una alternativa de los histogramas a la representacin de las variables continuas son los grficos de densidad, que pueden ser considerados como un mtodo de suavizacin de las frecuencias de una variable. As como el histograma divide la distribucin en un conjunto de tramos a los que se les representa por una frecuencia atribuida constante, en el caso de los grficos de densidad tambin se procede a una divisin del rango de la variable representada en una serie de intervalos, pero en lugar de asignar una probabilidad constante, se atribuye a cada valor un peso con el que se asigna la probabilidad final. El resultado es un polgono de frecuencias suavizado. Existen muy distintos modos de obtener representaciones de densidad para la misma variable. Bsicamente depende de dos parmetros: sobre todo, del ancho de los intervalos; pero tambin del mtodo empleado para calcular los pesos9 . Este grfico unidimensional puede realizarse con Stata de dos modos: uno es mediante una instruccin propia llamada kdensity, en la que pueden especificarse como opciones el ancho de los intervalos (width(#)), el mtodo (vase nota 9), la comparacin con una distribucin normal (normal) o de Student (student) e incluso la generacin de dos nuevas variables (generate (variable_con_valores, variable_con_frecuencias), para ver el resultado no slo grfica, sino tambin numricamente. Otra manera de realizarlo es a travs de la instruccin graph twoway, mediante la que pueden combinarse en los mismos ejes un histograma y un grfico de densidad, con

El algoritmo utilizado por defecto es el de Epanechnikov, pero tambin emplea, siempre que se especifique en las opciones los siguientes: biweight, cosine, gaussian, parzen, rectangular y triangular.

14

Manual de Stata

objeto de que se aprecie el papel suavizador que tiene la estimacin de las frecuencias con el sistema proporcionado por el segundo.
graph twoway (histogram tmi) (kdensity tmi)
Ilustracin 6.19
.025 0 0 .005 Density/kdensity tmi .01 .015 .02

50 100 150 Tasa de mortalidad infantil /1000 1998/x Density kdensity tmi

200

En el histograma se aprecia cmo las alturas correspondientes a las tasas de mortalidad infantil del conjunto de pases representados se ven afectadas por la acumulacin de casos en una determinada categora (en este caso, especialmente la primera y la quinta barra. Ambas quedan suavizadas mediante la lnea que se genera con la ponderacin de Epanechnikov. En el siguiente grfico, en lugar de comparar la lnea de densidad con el histograma, se comparan tres distintas. La primera (lnea continua) est realizada con unos intervalos de longitud 5, pequeos por tanto, que generan una curva de frecuencias poco suavizada. La tercera y ltima (la punteada) est construida con intervalos de ancho 20 y, consecuentemente, posee un suavizado considerable. La intermedia (lnea discontinua) est hecha con la opcin por omisin, que se calcula automticamente con una compleja frmula que tiene en cuenta la varianza y el nmero de casos de la variable. Con estos datos, el resultado obtenido mediante programacin estaba en torno al valor 13. A travs del examen del grfico, se deduce claramente que se trata de un valor intermedio situado entre el primero y el ltimo.
Ilustracin 6.20
.02 0 0 .005 kdensity tmi .01 .015

50 Kdensity (5)

100 x Kdensity

150 Kdensity (20)

200

15

Manual de Stata

6.1.6 Grficos de caja


Los grficos de caja poseen una peculiar importancia en el anlisis exploratorio de datos. Consisten en la representacin de los datos en un rectngulo de anchura arbitraria y longitud igual al rango intercuartlico. Esto se logra dibujando uno de los lmites del rectngulo en el primer cuartil y el otro en el tercero. Entre el uno y el otro tambin se dibuja en el rectngulo otra lnea que representa la mediana. De cada extremo del rectngulo ha de salir tambin una lnea con longitud nunca superior a vez y media el rango intercuartlico, que llegue hasta el caso que cumpla esa condicin. Finalmente, siempre que haya al menos un valor de la variable fuera de esos rangos (casos extremos), ha de expresarse en forma de puntos. La forma de obtener estos grficos con Stata es similar a la de los otros grficos ya contemplados. Cambia, en este caso la palabra clave que sigue a la instruccin graph:
graph box listadevariables

As, para obtener la representacin de la variable edad, basta con escribir la siguiente instruccin.
graph box edad

Y el resultado muestra el mnimo en 18, el mximo en 98, una mediana prxima a 44, y cuartiles respectivos de 30 y 63 aos.
Ilustracin 6.21
100

El nmero solicitado de variables puede ser mayor que uno, en cuyo caso para cada una de ellas se dibuja una caja paralela, a fin de que se puedan comparar las distribuciones. Con las reservas propias del carcter ordinal de estas variables, se puede poner como ejemplo comparativo la atribucin ideolgica que hacen los encuestados a los partidos espaoles con representacin parlamentaria en el conjunto nacional:
graph box ideo01-ideo03

20

40

Edad 60

80

16

Manual de Stata
Ilustracin 6.22
10 0 2 4 6 8

iu psoe

pp

stats | ideo01 ideo02 ideo03 ---------+--------------------p25 | 2 6 3 p50 | 2 7 4 p75 | 3 8 5 -------------------------------

En este grfico se observa cmo el primer rectngulo, correspondiente a Izquierda Unida no tiene lnea mediana en el rectngulo, porque este estadstico coincide con el primer cuartil. La lnea inferior del rectngulo llega a 1 porque es el valor emprico inferior, pero la superior slo llega hasta el 4, porque al ser variable discreta no existe empricamente el supuesto mximo (45), esto es, el tercer cuartil (3) ms vez y media el rango intercuartlico (15). En cambio hay cuestionarios no se sabe cuntos por medio del grfico- que han recogido para esta variable valores desde el 5 hasta el 10. El rectngulo del medio, el correspondiente al PP, tiene un rango intercuartlico de dos puntos (entre el 6 y el 8) con mediana en el 7. Por eso la lnea de abajo alcanza hasta el 3, esto es 6 menos vez y media el rango, que tiene en este caso el valor de 2. Y la de arriba, llega hasta el mximo valor posible, es decir el 10, porque parte desde el valor 8 del tercer cuartil. En el siguiente ejemplo, en lugar de representar distintas variables, se dibuja una sola (la ubicacin en la escala ideolgica del PP, p1502), pero en tantos grupos como valores tenga una variable de control (el partido poltico al que se vot, Voto_2000). A dichos efectos, es preciso utilizar la opcin over(variable):
graph box p1502, over(Voto_2000)

17

Manual de Stata
Ilustracin 6.23
10 pp 0 2 4 6 8

PP

PSOE

IU

Otros

Blanco

NC

De la Ilustracin 6.23Ilustracin 6.24 se concluye que los que votaron a partidos distintos del PP, consideran a ste ms de derechas que los que lo votaron, los que lo hicieron en blanco, o que los que no contestaron a la pregunta. Y anlogamente puede representarse ms de una variable (en este caso, las valoraciones de las ideologas de dos partidos) por una o varias variables de control (en este ejemplo, el voto en las ltimas elecciones y el sexo):
graph box p4502 p4503, over(Voto_2000) over(sexo)
Ilustracin 6.24
10 0 PP PSOE IU OtrosBlanco NC 2 4 6 8

PP PSOE IU OtrosBlanco NC

hom bre
pp psoe

mujer

En este caso, puede deducirse tambin que quienes votaron a IU ven al PSOE ms a la derecha que el resto, y que entre hombres y mujeres hay escasas diferencias en la percepcin ideolgica de los partidos polticos mayoritarios.

6.2 Grficos bidimensionales


La versin 8 de Stata agrupa bajo la orden graph twoway 29 modalidades diferentes de grficos. Algunas poseen caractersticas muy similares, pero otras son extremadamente diferentes e incluso difciles de considerar como bidimensionales. El

18

Manual de Stata

programa considera bidimensional todo aquel grfico en el que los dos ejes o escalas (la X, o eje horizontal, y la Y, o eje vertical) son numricos. Segn esa definicin un histograma siempre es considerado bidimensional10, del mismo modo que ciertos grficos de barras y puntos, aunque propiamente sean unidimensionales, el programa los puede tratar como bidimensionales, siempre y cuando estn representndose variables cuantitativas (en un eje se representa el valor de sta variable y en el otro, segn sea el caso, su frecuencia o el valor en otra variable). Una caracterstica esencial y verstil de esta instruccin es la de poder combinar en el mismo grfico distintas representaciones, sean de la misma o de diferente modalidad. Basta para ello separar las rdenes de los distintos grficos por parntesis, como ya se hizo en la instruccin que gener la Ilustracin 6.19. En general, la instruccin para realizar grficos bidimensionales presenta la siguiente sintaxis:
graph twoway modalidad [lista_de_variables] [weight=variable] [if exp] [in rango], [opciones_comunes] [opciones especficas]

Las modalidades de grficos bidimensionales posibles en la versin 8 de Stata pueden ser agrupadas en los siete siguientes grupos: nubes de puntos, grficos de lneas, grficos de rea, grficos de ajuste, grficos de funcin, grficos de barra y grficos de rangos. Vanse a continuacin las caractersticas e instrucciones de cada uno de ellos.

6.2.1 Nubes de puntos


Las nubes de puntos son los grficos especficos para el estudio de la relacin entre dos variables cuantitativas y continuas. En un eje de ordenadas, compuesto por una dimensin horizontal, donde generalmente se representa la variable independiente o influyente, y otra vertical, donde se ubica la dependiente o influida, cada caso se representa mediante un punto situado en las coordenadas correspondientes a sus valores en las dos variables representadas. Son idneos cuando existe un nmero intermedio de casos, aproximadamente entre 10 y 300. Menos casos pueden conducir a conclusiones errneas sobre los datos y ms casos producen superposiciones de puntos de tal naturaleza que no permiten valorar claramente donde se produce el grueso de la asociacin entre las variables. Aunque la sintaxis completa de este tipo de grficos es graph twoway scatter, basta con la ltima palabra para que Stata reconozca la instruccin y genere inmediatamente

A pesar de eso, en este captulo la modalidad del histograma ha sido considerada entre los grficos unidimensionales. La orden que se explic fue histogram. Pero de ahora en adelante, es conveniente saber que sta es una abreviatura de graph twoway histogram. Esto es importante porque este tipo de grficos puede mezclarse con otros de naturaleza propiamente bidimensional.

10

19

Manual de Stata

una nube de puntos que relaciona dos variables de naturaleza cuantitativa. As, con la base de datos mundial, se puede representar la relacin existente entre el producto nacional bruto y la esperanza de vida al nacer por pases. Basta con escribir estas tres palabras:
scatter evn pnbppa

para producir la siguiente imagen:


Ilustracin 6.25
80 40 0 Esperanza de vida al nacer 1998 50 60 70

10000

20000 30000 PNB por unidad de compra

40000

Como la principal utilidad de las nubes de puntos es estudiar la relacin y asociacin entre variables cuantitativas, mediante un examen de la distribucin de los casos en el grfico puede observarse si dos variables poseen relacin, es decir, si son dependientes o independientes una de otra; o dicho con otras palabras, si a valores altos de una de ellas le corresponden o no valores altos (o bajos) de la otra. Puede haber muy distintos tipos de asociaciones. En la Ilustracin 6.26 se exponen cuatro modelos diferentes y reales de asociacin entre variables. En primer lugar, se expone la relacin entre el producto nacional bruto (PNB) y la tasa de inflacin. Como puede apreciarse la mayor parte de los pases se concentran entre el 0 y el 10%. Slo unos pocos, pero todos en la franja de renta baja, estn por encima o por debajo de estos topes. La distribucin bivariable es muy distinta en el grfico superior derecho. En ste se relaciona el PNB con las lneas telefnicas por mil habitantes y puede verse claramente cmo a valores bajos de la primera variable le corresponden valores tambin pequeos de la segunda, mientras que los pases de alta renta tienen en contrapartida tasas de lneas telefnicas elevadas. En este caso se est ante una asociacin lineal positiva puesto que los puntos siguen una pauta recta ascendente. En el tercer grfico sucede lo contrario. La pauta sigue siendo una lnea recta, pero los valores bajos de le tasa de mortalidad infantil estn asociados lgicamente con valores altos de esperanza de vida al nacer y, a medida que va aumentando esta tasa, va disminuyendo la altura en el eje vertical en la que estn situados los pases que tienen esperanza de vida menor. En esta situacin tambin existe una asociacin lineal, pero negativa. Finalmente, el grfico inferior derecho muestra una asociacin particular en la medida en que fcilmente se aprecia que no es lineal, sino curvilnea. Tambin ocurre que las altas esperanzas de vida al nacer se encuentran en pases con alta renta y las bajas en los de bajo PNB, pero se aprecia que entre los de bajo nivel econmico un ligero ascenso del producto produce

20

Manual de Stata

un considerable aumento de la esperanza de vida, mientras que, entre los pases de alto nivel econmico, el enriquecimiento en similares cuantas conlleva muchos menores progresos en el nmero de aos que la gente vive.
Ilustracin 6.26
E speranza de vida al nacer 1998 Tasa m edia de crecim ient o anual 1998-1999 40 50 60 70 80 -40 -20 0 20 Lineas t elef onicas (x 1000 hbs) 1998 0 200 400 600 800

10000 20000 30000 PNB por unidad de compra

40000

10000 20000 30000 PNB por unidad de compra

40000

50 100 150 Tasa de mortalidad infantil /1000 1998

200

E speranza de vida al nacer 1998 40 50 60 70 80

10000 20000 30000 PNB por unidad de compra

40000

En el caso de las representaciones de variables discretas, la instruccin scatter cuenta con una opcin (jitter(#)), que aade una perturbacin aleatoria a cada punto tanto ms amplia cuanto mayor sea el nmero indicado entre parntesis, con objeto de que no se superpongan todos los puntos en el mismo lugar, siendo imposible juzgar la cuanta de los casos acumulados. En la Ilustracin 6.27, se muestran sendas nubes de puntos del cruce de la percepcin de la ideloga (en una escala del 1 al 10) de Izquierda Unida con el sexo (con valores discretos arbitrarios 1 para hombres y 2 para mujeres). En la de la izquierda, parece como si tan slo se prepresentaran 19 casos slo falta hombres que hayan dado el valor 9 a la ideologa de Izquierda Unida; en cambio, en la de la derechas, se ve que la mayor concentracin de casos se encuentra, tanto para hombres como para mujeres, en los tres valores ms bajos, correspondientes lgicamente a la izquierda. Para producir los grficos mencionados, las respectivas instrucciones han sido: scatter ideo01 sexo scatter ideo01 sexo, jitter(10)

21

Manual de Stata
Ilustracin 6.27
10 10 iu 4 2 0 1 1.2 1.4 sexo 1.6 1.8 2 0 1 2 4 6 8

iu

1.2

1.4 sexo

1.6

1.8

6.2.2 Grficos de matriz


Para un anlisis exploratorio del conjunto de relaciones entre ms de dos variables, el programa Stata dispone de la modalidad matrix en su programa de grficos11. sta produce tantos grficos de dispersin como pares de contrastes se puedan realizar entre una serie de variables. De este modo, si se escriben tres variables, tres son los posibles grficos no redundantes que se generan en la Ilustracin 6.28.
graph matrix evn tmi pnbppa, half
Ilustracin 6.28

Cuando se dispone de una variable dependiente y un conjunto de variables independientes, lo ms adecuado es ubicar la primera al final de la lista. De este modo en la ltima fila de la matriz de grficos se dispone del conjunto de cruces de las

Paradjicamente, aunque represente relaciones bivariadas entre variables, este grfico no es tratado como bidimensional por Stata. La razn es sencilla, por su propia naturaleza de inclusin de mltiples graficos bivariados no puede incrustarse con otros grficos sencillos. Operativamente, la instruccin graph twoway slo es aplicable a grficos que puedan integrarse entre ellos. Sin embargo, este tipo de grfico se incluye en este apartado por su alta similitud de contenido y uso con los grficos de dispersin.

11

22

Manual de Stata

variables independientes (ubicadas en el eje horizontal de abscisas) con la variable dependiente (situada en el de eje vertical). La opcin half, utilizada en el reciente ejemplo, sirve para que slo se reproduzcan los grficos de la parte inferior de la matriz, pues el resto es redundante. Tambin se puede utilizar la opcin jitter(#), con la misma utilidad que en los grficos bidimensionales, adems de todas las opciones de ttulo, control de las caractersticas de los ejes y de los elementos, en este caso de los puntos.

6.2.3 Grficos de lneas


Los casos dibujados en una nube de puntos pueden conectarse entre s siguiendo distintas reglas a fin de que mejore la apreciacin de la pauta que siguen los puntos o a fin de que se de una sensacin de continuidad en los datos, como puede ser en el caso de datos que representen funciones o en el caso de representacin de series temporales. Existen dos instrucciones que permiten desarrollar este tipo de grficos. La primera (connected) dibuja los puntos y los conecta. La segunda (line) tan slo hace la conexin y deja invisibles los puntos. A ambas es recomendable acompaarlas con la opcin sort, que ordena los casos en funcin de la variable independiente (en el eje horizontal) para que la conexin se produzca entre casos contiguos y no se produzcan cruces entre las lneas dibujadas. A continuacin se exponen las dos instrucciones que generan los grficos compuestos representados en la prxima figura:
graph twoway connected evn tmi, sort graph twoway line evn tmi, sort

Como puede apreciarse las diferencias entre ambas est en la presencia o ausencia de puntos representado a los casos:
Ilustracin 6.29
80 80 0 50 100 150 Tas a de mortalidad infantil /1000 1998 200 40 0 E s peranza de vida al nacer 1998 50 60 70

40

E s peranza de vida al nacer 1998 50 60 70

50 100 150 Tas a de mortalidad infantil /1000 1998

200

6.2.4 Grficos de rea


Son una modalidad de los anteriores, puesto que lo nico que los diferencia es que aparece rellena el rea existente entre la lnea formada por la conexin de los puntos y el

23

Manual de Stata

eje horizontal. Son idneos cuando se quiere representar frecuencias o tambin cuando se representan cantidades, puesto que proporcionan al lector una considerable sensacin de volumen. Adems de la opcin sort, siempre recomendable en este tipo de grficos, tiene otras dos importantes: La primera es horizontal, que permite cambiar la orientacin del grfico, poniendo en el eje vertical la segunda variable (la independiente) y en el eje horizontal la primera (la dependiente). La segunda es base(#), que permite indicarle al grfico el punto de arranque del rea. Como ejemplo de uso, se utiliza los mismos datos de los grficos de lnea para que se aprecien sus semejanzas.
graph twoway area evn tmi, sort

El grfico de rea solicitado en la anterior instruccin presenta el siguiente aspecto:


Ilustracin 6.30
80

40
0

Esperanza de vida al nacer 1998 70 60 50

50 10 0 1 50 T asa de mortalidad infantil /1000 1998

200

6.2.5 Grficos de ajuste


En lugar de dibujar lneas quebradas que unan a todos los puntos de una distribucin bivariada, se puede optar por trazar una lnea recta o curva- que trate de pasar lo ms cerca posible de los puntos con el fin de dar cuenta simplificada de la realidad, esto es, generar un modelo de relacin entre las variables que explique de modo simple cmo una variable cambia sus valores, en la medida en que otra variable modifica los suyos. El ajuste ms simple y utilizado, aunque no el nico, como se ver ms adelante, es la lnea recta. Y el criterio ms comn que se utiliza (vase el primer captulo dedicado

24

Manual de Stata

a la regresin) es el de mnimos cuadrados, esto es, se traza la recta cuya distancia cuadrtica respecto a los puntos empricos reales sea mnima.12 A pesar de la aparente complicacin del proceso de ajuste de la recta, mediante el programa grfico de Stata, el trazado de esta lnea es extremadamente simple. Basta con pedir un grfico bidimensional con la modalidad lfit y aportar las variables que han de ubicarse respectivamente en el eje vertical y horizontal. As escribiendo la siguiente instruccin:
graph twoway lfit evn tmi

En lugar de dibujarse los puntos empricos, se traza la lnea que mejor ajusta la distancia cuadrtica de stos a la recta. Es preciso notar que en el eje vertical aparecen los valores ajustados de la esperanza de vida al nacer, en lugar de la variable propiamente dicha.
Ilustracin 6.31
80

30
0

40

Fitted values 60 50

70

50 10 0 1 50 T asa de mortalidad infantil /1000 1998

200

Mucho ms til que dibujar slo la recta ajustada es representar junto con ella los puntos que representan los valores medidos de ambas variables. Como se ha dicho al inicio de los grfico bidimensionales, la instruccin graph twoway posee la facultad de dibujar en los mismos ejes varios grficos al mismo tiempo con una gran facilidad; basta con expresar los distintos grficos entre parntesis, o separarlos por dos lneas verticales (||). Por ello, las dos siguientes instrucciones dan el mismo resultado:
graph twoway (lfit evn tmi) (scatter evn tmi) graph twoway lfit evn tmi || scatter evn tmi

El mtodo de ajuste de lneas es contemplado con ms detenimiento en el captulo destinado a la regresin.

12

25

Manual de Stata

De esta forma, adems de los puntos que representan cada uno de los casos empricos de los que se disponen datos, aparece la lnea recta que mejor ajusta los valores empricos de la tasa de mortalidad infantil y la esperanza de vida al nacer:

Ilustracin 6.32
Fitted values/Esperanza de vida al nacer 1998 80 70 60 50 40 30
0

50 10 0 1 50 T asa de mortalidad infantil /1000 1998


Fitted values Esperanza de vida al nacer 1998

200

Adems del ajuste lineal, la opcin grfica de Stata permite otros ajustes inmediatos. El cuadrtico (qfit) y el polinmico (fpfit)13, por un lado, son ajustes en ltima instancia lineales. El ajuste lowess es un suavizado basado en regresiones ponderadas localmente de los valores yi. Los ajustes mband y mspline dividen la distribucin de la variable independiente en distintos sectores (bandas) y, a travs de la mediana en cada una de ellas construye un ajuste no suavizado, como en el primer caso; o suavizado, como en el segundo. Mediante las cuatro instrucciones siguientes posteriormente combinadas se obtienen los cuatro grficos de la prxima figura, donde pueden comprobarse las diferentes caractersticas de los ajustes expuestos en sus respectivos ttulos:
twoway (qfit evn pnbppa) (scatter evn pnbppa), title(Ajuste qfit) twoway (fpfit evn pnbppa) (scatter evn pnbppa), title(Ajuste fpfit) twoway (lowess evn pnbppa) (scatter evn pnbppa), title(Ajuste lowess) twoway (mspline evn pnbppa) (scatter evn pnbppa), title(Ajuste mspline)

Este ajuste implica la realizacin de una regresin fraccional polinmica en la que el programa busca las mejores potencias sobre la variable independientes para que ajuste los valores de la variable dependiente. Vase para ms detalle la instruccin fracpoly en el manual de Stata (Vol. 1, p.399).

13

26

Manual de Stata
Ilustracin 6.33

Ajuste qfit
predicted evn/EVN 40 50 60 70 80 Fitted values/EVN 40 50 60 70 80

Ajuste fpfit

10000 20000 30000 PNB por unidad de compra Fitted values EVN

40000

10000 20000 30000 PNB por unidad de compra predicted evn EVN

40000

10000 20000 30000 PNB por unidad de compra Median spline EVN

40000

lowess evn pnbppa/EVN 40 50 60 70 80

Ajuste mspline
Median spline/EVN 40 50 60 70 80

Ajuste lowess

10000 20000 30000 PNB por unidad de compra lowess evn pnbppa

40000 EVN

6.2.6 Grficos de funcin


Son aquellos en los que se representa la curva resultante de aplicar una funcin a una variable de rango establecido (entre los valores de 0 y 1, en caso de que el usuario no lo indique en las opciones) La sintaxis de estos grficos es sencilla:
graph twoway function var_dep=f(x), opciones

La expresin var_dep=f(x)14 es la que representa a la funcin que se quiere representar. As, si se desea dibujar una recta con parmetros a=2 y b=.5, la instruccin siguiente genera la lnea deseada.
graph twoway function y=2+.5*x

En este caso x representa la variable que va a fluctuar un nmero determinado de veces (300 por omisin) en un rango dado (entre 0 y 1, si nada se especifia)

14

27

Manual de Stata

El grfico muestra el valor en la variable y al aplicar la expresin tras el igual a 300 valores comprendidos entre el 0 y el 1.
Ilustracin 6.34
2.5 y 2 0 2.1 2.2 2.3 2.4

.2

.4 x

.6

.8

El usuario, a travs de las opciones puede controlar tanto el nmero de estimaciones de la funcin, como el rango de la variable x. As, si se desea representar la funcin de probabilidad de la normal slo a travs de nueve valores, la instruccin necesaria es la que se expone a continuacin:
graph twoway function y=normden(x), range(-2.5 2.5) n(9)
Ilustracin 6.35
.4 0 .1 z .2 .3

-2

0 x

Como puede apreciarse, la curva normal pierde su apariencia de campana curvada por tener tan pocos puntos de referencia:

6.2.7 Grficos de barra


En este apartado se consideran cuatro grficos similares a las nubes de punto, de los que se diferencian en que poseen una gua que une el punto (representado o no) con el eje de abscisas. Por tanto, aunque algunos de ellos parezcan haberse visto en el apartado de grficos unidimensionales, en el fondo son muy distintos, pues en lugar de representar una variable cualitativa con su frecuencia o con otro estadstico de otra variable, se representan los valores de dos variables cuantitativas, la mayor parte de las veces siendo la independiente (expresada en el eje horizontal) el tiempo.

28

Manual de Stata

Las cuatro modalidades consideradas semejantes en este apartado son: barras (bar), en el caso de que lo que una al punto sea una columna; lneas con o sin puntos (dropline o spikes), cuando en lugar de una columna se une el punto representado con los ejes mediante una lnea recta y puntos guiados, y puntos (dots), en el caso que se quiera que quede como gua todo el eje vertical (incluido el espacio superior al punto). Un mismo ejemplo al que se le aplican las cuatro modalidades muestra la similitud de todos estos tipos de grficos.
Ilustracin 6.36

Poblacion (millones) 1999 0 500 1000 1500

5,000,000 10,000,00015,000,00020,000,000 Superficie km2 1996

Poblacion (millones) 1999 0 500 1000 1500

Grfico de barras

Grfico de clavos (spike)

5,000,000 10,000,00015,000,00020,000,000 Superficie km2 1996

Poblacion (millones) 1999 0 500 1000 1500

5,000,000 10,000,00015,000,00020,000,000 Superficie km2 1996

Poblacion (millones) 1999 0 500 1000 1500

Grficos de lneas cadas (dropline)

Grficos de puntos

5,000,000 10,000,00015,000,00020,000,000 Superficie km2 1996

En estas cuatro representaciones de ms de 200 pases aparece la variable extensin territorial en el eje horizontal y la altura de los puntos, lneas o barras indican el tamao de sus respectivas poblaciones. Como en el fondo son iguales, en todos ellos destacan del resto los siete pases mayores del planeta. En sentido decreciente son Rusia, Estados Unidos, China, Canad, Brasil, Australia y la India. ste ltimo tiene una poblacin aproximada de 1.000 millones de habitantes slo superados por los 1.250 de China. Los cinco restantes pases de gran extensin tienen una poblacin mucho ms reducida, por debajo de los 300 millones de habitantes. Y, entre los pases pequeos, destaca Indonesia por su poblacin por encima de lo 200 millones de habitantes. Para que el lector vea claro el comentario anterior y su representacin, se expone a continuacin los datos de los pases con ms de 5 millones de km2 de superficie, o con ms de 200 millones de habitantes:
sortg supkm2 list pais pob supkm2

29

Manual de Stata
Ilustracin 6.37
+-----------------------------------+ | pais pob supkm2 | |-----------------------------------| | Rusia 146.9 17075400 | | Estados Unidos 273 9363123 | | China 1250 9326400 | | Canada 30.6 9221000 | | Brasil 168 8456500 | |-----------------------------------| | Australia 18.8 7682300 | | India 998 3287590 | | Indonesia 207 1904569 | +-----------------------------------+

1. 2. 3. 4. 5. 6. 7. 16.

Una de las opciones especficas de estos cuatro subtipos de grficos es la de invertir la orientacin de la representacin y poner horizontalmente el sentido de las lneas o de los puntos que conectan el eje de las marcas de cada caso.
graph twoway dot pob supkm2, horizontal

As, la anterior instruccin da lugar al siguiente grfico de puntos horizontal.


Ilustracin 6.38
2000000 0 0 Superficie km2 1996 5000000 10000000 15000000

500 1000 Poblacion (millones) 1999

1500

Es interesante resaltar que la variable nombrada en segundo lugar (la extensin) pasa al eje vertical, y consecuentemente la poblacin cambia al horizontal. Est opcin slo produce un giro de 90 grados en la representacin, pero las rejillas siguen siendo horizontales, guiando en este caso la variable extensin del pas. Si se quisiera levantar los puntos desde la variable poblacin, bastara con ponerla en la instruccin en segundo lugar, a continuacin de la primera variable, es decir, de supkm2, sin indicar la opcin horizontal.

6.2.8 Grficos de rango


Son aquellos que, para cada valor de la variable independiente, se representan dos puntos distintos correspondientes a dos valores de sendas variables dependientes. Hay varias formas de presentacin de presentacin, pero todos ellos se caracterizan por lo que se acaba de definir. Por un lado, las dos variables representadas pueden estar unidas entre ellas sea por barras (rbar), por lneas verticales (rspike), por lneas rematadas (rcap o rcapsim) o por reas (rarea). Otra posibilidad es que se representen las dos series con dos lneas

30

Manual de Stata

conectadas, pero paralelas entre s, insertando o no los puntos que representan los diversos casos (rconnected y rline). La sintaxis de este tipo de grficos comienza con la orden graph twoway, despus contina con la modalidad de grfico deseada y seguidamente ha de ponerse en primer lugar las dos variables representadas en el eje vertical y, a continuacin, la variable independiente, es decir la del eje horizontal. El orden de las dos primeras es irrelevante puesto que mediante la barra o el rea se representa la distancia absoluta entre los dos valores. A continuacin se presenta para mostrar las distintas modalidades de representacin de los grficos de rango cuatro modelos distintos de ellos obtenidos con las siguientes instrucciones:
graph graph graph graph twoway rbar lintfno pcx1000 pnbppa twoway rcap lintfno pcx1000 pnbppa twoway rarea lintfno pcx1000 pnbppa, sort twoway rline lintfno pcx1000 pnbppa, sort

La combinacin de estas cuatro instrucciones da lugar a los siguientes grficos:


Ilustracin 6.39

pcx1000/lintfno 200 400 600 800

10000

20000 pnbppa

30000

40000

lintfno/pcx1000 200 400 600 800

Grfico de rangos (rbar)

Grfico de rangos (rcap)

10000

20000 pnbppa

30000

40000

pcx1000/lintfno 200 400 600 800

10000

20000 pnbppa

30000

40000

pcx1000/lintfno 200 400 600 800

Grfico de rangos (rarea)

Grfico de rangos (rline)

10000

20000 pnbppa

30000

40000

Las variables que definen el rango son el nmero de lneas telefnicas (mximo) y el nmero de ordenadores personales (mnimo) por mil habitantes. La variable independiente es el producto nacional bruto per cpita. Los grficos muestran bajo diversas formas cmo los dos indicadores de desarrollo tecnolgico crecen a medida que lo hace el PNB per cpita y dejan entrever que donde ms divergencias se da entre

31

Manual de Stata

telfonos y ordenadores es en algunos pases con producto nacional bruto per cpita medio. Tambin podran clasificarse en esta categora aquellos grficos que ajustan datos y dan un determinado rango de ocurrencia. Se corresponden con los grficos lfit, qfit y fpfit, es decir, ajustes lineales, cuadrticos y polinmicos fraccionales; pero, en lugar de aportar una sola curva, muestran dos correspondientes a la probabilidad sealada. En estos casos, la modalidad del grfico se indica con las palabras claves lfitci, qfitci y fpfitci. Adems, en este tipo de grfico son importantes las opciones level(#), donde se indica el porcentaje de confianza deseado para la representacin y stdf, en el caso de que se desee contar con el error tpico del pronstico, en lugar del de la prediccin15, o la opcin stdr, si se desea utilizar para el clculo de los intervalos el error tpico de los residuales. Un par de ejemplos con las opciones por omisin muestran dos grficos con los intervalos basados en el error tpico de la prediccin y un 95% de confianza, salvo en el caso de que se modifique este parmetro con la instruccin set level.
graph twoway (qfitci evn pnbppa) (scatter evn pnbppa) graph twoway (fpfitci evn pnbppa) (scatter evn pnbppa)
Ilustracin 6.40

6.3 Construccin de grficos


De lo dicho hasta el momento puede sacarse la conclusin de que por cada grfico que se desee obtener hay que escribir una instruccin distinta. Adems, si se ha trabajado con los grficos de Stata, no es difcil darse cuenta de que nada ms generar un grfico el anterior desaparece y si no se han tomado precauciones anteriores, quedar perdido a menos que se vuelva a repetir la instruccin. En este apartado se van a ver

15

Vase el captulo de la regresin.

32

Manual de Stata

toda una serie de posibilidades que tiene este programa con el objeto de tratar, guardar, recuperar, imprimir y trasladar los grficos producidos. En primer lugar, por su facilidad e inmediatez, hay que mencionar la posibilidad de copiar el grfico a otra aplicacin lo ms comn es que se haga a un procesador de textos. Esta tarea slo requiere colocar el cursor encima del grfico, pulsar el botn derecho y a continuacin aparece un men textual en el que la primera opcin es Copy Graph. Con ella el grfico se guarda en el portapapeles de Windows. Por ello, si se cambia de programa, con slo darle la instruccin Pegar, se reproduce la ilustracin acabada de copiar. Otro modo de hacer lo mismo, con mayor estabilidad, pero menor rapidez, consiste en grabar el grfico en un fichero. Para ello, bien se pulsa la opcin Save Graph que aparece en el men textual del grfico, obtenido al pulsar el botn derecho sobre l, bien se escribe justo despus de realizado un grfico la instruccin graph export nombre_de _fichero.ext que realiza la misma operacin, pero mediante una lnea de instruccin, en lugar de con men16. Una vez grabado el grfico en un fichero, se puede recuperar desde cualquier programa que permita la incorporacin de ficheros en los siguientes formatos grficos: printer network graphic, post-script o windows metafile. Sobre todo cuando se trabaja con ficheros de secuencias de instrucciones, pero tambin en el resto de ocasiones, si se trabaja con distintos grficos, es conveniente ponerles un nombre. Por omisin, todo grfico que se presenta en la correspondiente pantalla propia, recibe el nombre de Graph. Si se realiza un segundo grfico, sin ponerle nombre, tambin recibe el mismo nombre, ocupando la posicin de la memoria que detentaba el anterior. Por ello, si se acta de esta forma, se pierde para siempre el primer grfico, a menos que haya sido grabado en un fichero. Al darle un nombre distinto, el anterior queda en memoria interna del ordenador y quedar ah hasta que se haga otro grfico con el mismo nombre, o hasta que el usuario salga del programa. Para poner un nombre distinto y as evitar que desaparezca de la memoria interna el grfico anterior, hay que incluir en el grfico la opcin name(nombre). Y para saber en un determinado momento los grficos que estn disponibles en la memoria interna ha de escribirse la siguiente instruccin:

Poner extensin al nombre del fichero es el modo ms cmodo de indicarle el formato con el que se desea grabar el grfico. En la versin de windows de Stata, los formatos posibles son postscript (.ps), postscript encapsulado (.eps), metafile (.mf), metafile mejorado (.emf) y network portable (png). El autor recomienda este ltimo formato pues con l se reproduce con mayor fidelidad el grfico, en el caso de importarlo con cualquier otro programa.

16

33
graph dir

Manual de Stata

En el siguiente ejemplo, correspondiente a la Ilustracin 6.40, se da sendos nombres a los dos grficos correspondientes a los ajustes cuadrtico y polinmico de la esperanza de vida al nacer con el producto nacional bruto per cpita. La penltima instruccin sirve para mostrar los ficheros residentes en la memoria, y con la ltima se puede representar el primer grfico, aun a pesar de que fuera temporalmente sustituido por el segundo.
graph twoway (qfitci evn tmi) (scatter evn tmi), name(cuadratico) graph twoway (fpfitci evn pnbppa) (scatter evn pnbppa), name(polinomico) graph dir graph display cuadratico

Una de las utilidades ms manifiestas de poder disponer varios grficos en la memoria es la combinacin de ellos en uno solo mediante la instruccin graph combine, que posee entre otras las opciones rows(#) y cols(#), que permiten controlar el nmero de filas y columnas que tendr la composicin. En el caso anterior, basta con poner la instruccin compuesta seguida por los correspondientes ttulos de los grficos.
graph combine cuadratico polinomico

Otra operacin til con los grficos es la de grabarlos en la memoria externa, generalmente en el disco duro, con objeto de que quede permanentemente a disposicin del usuario, incluso despus de acabada una sesin de trabajo con Stata. Es muy similar a la operacin export, con la diferencia de que se graba en un modo especfico de este programa y no puede ser incorporado a ningn procesador de textos, por ejemplo, ni a ningn otro programa, como uno de presentaciones. Estos ficheros slo pueden ser utilizados por Stata, para combinarlos con otros grficos, para imprimirlos, o tambin para exportarlos a otro formato que permita el intercambio a otras utilidades. Hay dos modos de grabar un grfico en un fichero. La primera es al mismo tiempo que se crea: utilizando la opcin ,saving(nombre_del_fichero), se graba en el fichero mencionado, al tiempo que se representa en la pantalla. La segunda es despus de que se ha ejecutado y visto el grfico, mediante una nueva instruccin, que tiene la siguiente estructura:
graph save nombre del fichero

Esta instruccin tiene dos opciones: ,replace permite sobrescribir un fichero sin que aparezca un mensaje de error y ,asis graba de tal forma el grfico que no puede alterarse su presentacin posteriormente. Una vez grabado un fichero puede volverse a usar por Stata utilizando la siguiente instruccin:
graph use nombre_del_fichero

34

Manual de Stata

E incluso tambin puede recuperarse en compaa de otros a travs de la ya referida instruccin graph combine, en la que pueden usarse tanto el nombre interno del grfico, siempre que ya est cargado, como el nombre externo, siempre que est presente en el formato Stata de grfico. O dicho de otra manera, es preciso insistir en que los grficos exportados, no pueden volverse a recuperar. Slo son recuperables los ficheros grabados en el formato propio del programa.

6.3.1 Esquemas
En el apartado 6.3 de este captulo se ha visto una gran cantidad de opciones que pueden controlarse en los grficos. A pesar de haber visto un nmero elevado de ellas, no se han contemplado todas, ya que la rutina grfica del Stata es de tal calibre que permite cambiar el mnimo detalle de un grfico. Dada la complejidad de estas opciones y subopciones, esta herramienta estadstica ha buscado simplificar al usuario la produccin de grficos a travs de los esquemas. Los esquemas son conjuntos de opciones con los que los grficos son representados en la pantalla. Ejemplo de las especificaciones que puede contener un esquema son el tipo y tamao de letra, los colores de fondo y de los cuadros, los sucesivos colores que incorporan los elementos (sectores, barras, lneas, ) de los distintos tipos de grficos, el grosor y la textura de las lneas, la presencia y en su caso la forma- o ausencia de marcas, ejes rejillas, etc. Por omisin, Stata trabaja con uno de la docena de esquemas que tiene disponibles17. Para saber los nombres disponibles y cul est activo en un determinado momento se emplean respectivamente las siguientes dos instrucciones:
graph query, schemes query graphics

El resultado de ella puede variar de ordenador a ordenador, segn los esquemas en l incorporados a travs de internet o de la propia construccin. Un ejemplo de listado es el siguiente:

El usuario pude importar nuevos esquemas por Internet y con un poco de destreza incluso puede construir nuevos esquemas a partir de los existentes, que residen en los directorios de los ficheros .ado.

17

35

Manual de Stata
Ilustracin 6.41
Available schemes are economist see s1color see s1manual see s1mono see s1rcolor see s2color see s2colorg see s2manual see s2mono see sj see Graphics settings set graphics set scheme set printcolor set copycolor help help help help help help help help help help scheme_economist scheme_s1color scheme_s1manual scheme_s1mono scheme_s1rcolor scheme_s2color scheme_s2colorg scheme_s2manual scheme_s2mono scheme_sj

on sj automatic automatic

may be automatic, asis, gs1, gs2, gs3 may be automatic, asis, gs1, gs2, gs3

En la primera parte de este recuadro aparecen todos los esquemas disponibles en la mquina. En la segunda parte, se expresa que el esquema puesto por defecto (set scheme) es el sj, que corresponde a los que se han empleado hasta el momento, que es el utilizado en las publicaciones del Stata Journal. Como puede apreciarse, ademas de ste y del propio del semanario The Economist, aparecen dos esquemas en blanco y negro (s1mono y s2mono), dos estilos en color (s1color y s2color) y dos estilos manuales (s1manual y s2manual). Para cambiar el esquema del prximo grfico hay que introducir la instruccin set scheme nombre_del estilo. Hacindolo as, el grfico de la Ilustracin 6.61, se convierte en este otro con el esquema de The Economist:
Ilustracin 6.42
Partidos
PP PSOE IU 10 8

6 4 2 0

6.3.2 Grficos con mens


Dado que controlar las mltiples posibilidades que ofrecen las posibilidades grficas de Stata es complicado y requiere un conocimiento pormenorizado de opciones y subopciones, resulta de gran utilidad recurrir a los mens que se ofrecen a partir de la versin 8 de este programa estadstico. No obstante hay que reparar en que, -salvo en los grficos de sectores para los que se dispone de una posibilidad inmediata ubicada en el men de los grficos fciles- para la representacin simple de variables categricas, no basta con poner esta variable en la casilla correspondiente. Como se vio en el apartado 6.1, para la construccin de grficos unidimensionales de variables, hay que

36

Manual de Stata

generar una nueva con el peso de cada caso, que es la que aparece en el eje de frecuencias, mientras que la que genera los distintos valores de la variable aparece bajo la opcin over. Un ejemplo con un grfico de barras del sexo mostrado a travs de los diversos mens ayudar a realizar la representacin de las variables cualitativas. Para no complicar excesivamente el ejemplo, se recurre a la modalidad de grficos simples (Graphics/Easy Graphs/Bar charts). Una vez que se han seleccionado desde el men estas tres opciones, aparece un cuadro de dilogo con seis pestaas (main, para exponer la variables del grfico y su tratamiento; over, para incluir las variables que marcan los distintos segmentos del grfico; if/in, para seleccionar los casos que se desean exponer en el grfico; titles, para poner ttulos, subtitulos, aclaraciones y notas adicionales al grfico; yaxis, para manejar la apariencia de la escala vertical, y options para propsitos diversos. De ellas las dos primeras son las ms importantes para el grfico deseado y han de ser dispuestas del modo siguiente:
Ilustracin 6.43

En el cuadro de dilogo de la de la izquierda aparece en Statistic la modalidad sums (count nomissing, en el caso de que se desee frecuencias absolutas y no relativas) y en Varable(s), se ha insertado la variable instrumental que se crea a fin de que aparezcan porcentajes o proporciones en lugar de sumas (vase el apartado 6.1.2). En el de la derecha, en la ventana de las variables de cruce, es donde aparece la verdadera variable de la que se desea la representacin. El nombre que posee la variable en el fichero es el que aparece en la primera ventanilla y en el momento de la instruccin puede drsele una nueva etiqueta en la casilla relabel. Con estas dos instrucciones bastara para confeccionar el grfico deseado. No obstante puede ser mejorado slo con dos detalles. En primer lugar, dando un ttulo distinto al eje vertical que representa en este caso a los porcentajes. Esto se logra

37

Manual de Stata

especificndolo en la casilla title de la penltima pestaa. Y, en segundo lugar, haciendo que el programa trate a la variable de cruce, como variable principal. Para ello, en la ltima pestaa, puede marcarse la casilla Treat first over() group as Y-variables. De este modo, cada barra, que representa cada uno de los valores de la variable, ser dibujada con un color o tonalidad diferente.
Ilustracin 6.44

6.4 Opciones grficas


Una vez visto cmo proceder para obtener lo bsico de los distintos grficos que Stata genera con su instruccin graph, se van a considerar otros elementos que, aunque auxiliares, son muy importantes para la definicin final de los grficos. Para cualquier tipo de grficos, independientemente de la instruccin que lo genere o de las caractersticas propias de su forma, pueden distinguirse una serie de elementos complementarios, a veces considerados secundarios, pero muy importantes para la presentacin adecuada. Sin pretensin de ser exhaustivos, aqu se presenta una lista de ellos:
Ttulos, etiquetas y notas: Cumplen la funcin de aclarar al lector qu es lo que se est representando. Entre ellos, el ttulo principal de un grfico es un elemento esencial para exponerlo en un ndice de una publicacin donde haya un nmero elevado de grficos. En muchas ocasiones, estos textos deben acompaarse de una lnea adicional que complementa la informacin del primero. Las etiquetas sirven para aclarar el contenido de determinados componentes del grfico, sean stos ejes o elementos. Finalmente, las notas suelen ocupar la parte baja del grfico y su empleo ms habitual es la cita de las fuentes de los datos del grfico.

38

Manual de Stata

Ejes: Son escalas donde se ubican los valores o las frecuencias de las variables representadas. En teora puede haber grficos sin ejes, como los de sectores, y los puede haber hasta con nueve; pero lo ms frecuente es que un grfico slo tenga uno o dos. En los mismos ejes se ubican las marcas y las cuadrculas. Las primeras son pequeos signos, generalmente perpendiculares al eje, que especifican donde se encuentra un determinado valor. Las cuadrculas, en cambio, son lneas que tienen su origen en un determinado eje y llegan hasta el otro extremo del grfico con el fin de poder ubicar la posicin de un determinado elemento dentro del conjunto. Elementos: Son cada uno de los componentes esenciales de un grfico, que representan sea un caso o un grupo de casos, sea un valor o conjunto de valores. Son elementos, por ejemplo, los sectores de un grfico circular, los rectngulos que forman un diagrama de barras, los puntos de una nube de puntos o las lneas que representan una regresin. En general, aun teniendo en cuenta las excepciones de las distintas variedades, los elementos pueden diferenciarse de cuatro maneras distintas. En primer lugar, por la forma. De este modo, para distinguir distintos tipos de casos, puede utilizarse un crculo, un cuadrado o cualquier otra forma similar, segn se quieran expresar los de una clase u otra. En segundo lugar, por el tamao tambin se pueden diferenciar unos elementos de otros, aunque en la mayor parte de los grficos el tamao suele emplearse para distinguir la frecuencia de unos determinados casos o valores. En tercer lugar, por la posicin, pues en muchas ocasiones un valor no est representado por el tamao del elemento, sino por lo cercano o alejado que est del punto de origen de una escala. En cuarto lugar, los grficos pueden utilizar el color para diferenciar los elementos. As un valor puede quedar representado con un color y el resto de valores con otros. Y finalmente, de modo alternativo o complementario al color, se pueden utilizar distintas tramas al dibujar cualquier elemento, como por ejemplo lneas continuas, discontinuas o punteadas, o barras con superficies lisas, rayadas o punteadas. Leyendas: Son el repertorio de smbolos que se utilizan en un grfico, junto al significado que stos poseen. Sirven para descifrar el significado de las formas, colores o tramas que se emplean para la representacin de los datos y son voluntarias aunque altamente recomendables.

6.4.1 Ttulos
Para ser entendido sin necesidad de aclaraciones adicionales todo grfico necesita llevar un conjunto de textos que aclaren al lector qu es lo que est viendo. Entre stos, destacan por ser del conjunto del grfico los ttulos, los subttulos (captions) y las notas. En la instruccin graph de Stata se ponen los textos y, en consecuencia, los ttulos, a travs de opciones. Las ms comunes y utilizadas son title, subtitle, caption y note. Un ejemplo con todas, nos muestra donde se ubican por omisin cada una de ellas. Tambin cabe destacar cmo un determinado ttulo puede tener varias lneas siempre y cuando cada una de ellas aparezca encerrada entre comillas.

39

Manual de Stata
graph pie, over(pp42) title(Grfico 1 Sexo) subtitle(Encuesta 2000) caption(Fuente CIS. 2000. Estudio 2384) note(Elaboracin propia) El grfico resultante de la instruccin anterior es el siguiente:
Ilustracin 6.45
Grfico 1 Sexo
Encuesta postel ectoral 2000

hombre
Elaboracin propia

mujer

Fuente CIS. 2000. Estudio 2384

A los ttulos se les puede cambiar su apariencia mediante subopciones. Las ms importantes son el tamao de la letra, el color, la alineacin, la posicin. Las palabras claves para indicarlas son respectivamente size, color, aligment y position.

En cada una de ellas, se ha de especificar un valor numrico o textual. As, por ejemplo, en el tamao, hay que indicarle un valor size(#) relativo al tamao del grfico, o un factor multiplicador en relacin al tamao de la letra por omisin(*#). Pero tambin se pude ubicar dentro del parntesis una palabra clave indicativa del tamao deseado (tiny, small, medium, large, huge). En el caso del color, las opciones han de especificarse en ingls o en formato RGB formado por tres nmeros que indican en una escala de 0 a 255 la cantidad de rojo, verde y azul que contiene el color deseado. En el alineamiento, las palabras claves que se pueden utilizar son (left, center y right). Y en la posicin, se puede indicar un nmero del 1 al 12, que representan las posiciones de los nmeros en la esfera de un reloj tradicional. Es evidente que a cada texto, tras la especificacin del contenido, seguido de coma, se le puede indicar tantas subopciones como se desee. Un ejemplo, lo dir mejor que un conjunto de palabras:
graph pie, over(pp42) title(Grfico 1 Sexo, position(11) justification(left)) subtitle(Encuesta postelectoral 2000, position(11) size(small)) caption(Fuente CIS. 2000. Estudio 2384, size(*.8)) note(Elaboracin propia, size(4))

Esta compleja instruccin compuesta de opciones y subopciones da lugar al siguiente grfico:

40

Manual de Stata
Ilustracin 6.46
Grfico 1 Sexo
Encuesta postelectoral 2000

hombre

mujer

Elaboracin propia
Fuente CIS. 2000. Estudi o 2384

6.4.2 Ejes
Los ejes son escalas donde se ubican los valores o las frecuencias de las variables representadas. No todos los grficos tienen el mismo nmero de ejes. As, un grfico de sectores no los posee, pues las frecuencias quedan representadas proporcionalmente por cada uno de los sectores del crculo. Una nube de puntos posee claramente dos ejes, uno para cada variable. Paradjicamente, un histograma dispone de dos ejes: uno correspondiente a los valores de la variable y otro a sus frecuencias absolutas o relativas. Por su parte, el grfico de caja slo dispone de uno, donde se representan los valores de la variable que se desea representar. Ha de quedar claro, pues, que adems del nmero de ejes que pueda tener un grfico, en unos se representan valores, que a su vez pueden ser cuantitativos o cualitativos, y en otros se representan frecuencias. Los que se refieren a las frecuencias o a las variables dependientes son conocidos como eje y, mientras que los que afectan a valores o a variables independientes son denominados como eje x. Dentro de los ejes pueden a su vez distinguirse otra serie de componentes. Entre ellos, los ms importantes son el ttulo, la escala, las etiquetas, las marcas y las guas. Empezando por el ttulo, ha de decirse que, aunque el ordenador titule por defecto los ejes, se pueden cambiar o hacer que desaparezcan. Para ello, se emplea la opcin y|xtitle. En el siguiente ejemplo, se utiliza sta slo en el eje x, pues al tratarse de un grfico de barras slo cuenta con una dimensin. Sin embargo, aunque slo tenga una, si se desea poner un ttulo al eje vertical, puede utilizarse la opcin b1title (o l1title si se pide un grfico de barras horizontales18). De este modo, aadiendo dos opciones (ytitle y l1title) al grfico de la Ilustracin 6.12, sus ejes quedan titulados.
graph hbar (sum) casos, over(Voto_2000) asyvar title(Voto en ltimas elecciones (2000))

18

Las letras iniciales b y l son abreviaturas de bottom y left respectivamente.

41

Manual de Stata
ytitle(Porcentaje) l1title(Partido poltico)
Ilustracin 6.47
Voto en ltimas elecciones (2000)

Partido poltico
0

10

20 Porcentaje PP IU Blanco

30 PSOE Otros NC

40

Las opciones de escala pueden aplicarse a los ejes de frecuencias o a los de valores cuantitativos. No son lgicamente vlidas ni en el grfico de sectores, ni en el eje X de los grficos de barras, puntos o cajas. Estas opciones determinan si la escala que va a dibujarse es normal, logartmica (no aplicable en el caso de frecuencias) o invertida, el rango con el que se traza, la colocacin y la apariencia de la lnea que la representa. Las posibilidades de escala han de especificarse dentro de la opcin yscale() o de la de xscale(), segn se quiera cambiar una u otra. Las ms comunes son (log) para expresar la escala en trminos logartmicos, (reverse) para invertir la escala, (alt) para colocarla en el lado opuesto del grfico, (range(# #)) para dibujar un eje con rango mayor del que poseen los datos19 y (off) si se desea hacer desaparecer el eje. Un ejemplo de uso de la escala logartmica permite darse cuenta de que no cambian los valores originales de la variable. Lo nico que vara es la disposicin de la escala. En el ejemplo es de notar cmo la distancia entre los 20 y los 40 aos (la segunda edad dobla la primera) es idntica a la que existe entre los 40 y los 80.
graph box edad1, title(Grfico de caja) b1title(n=5.283) yscale(log) ytitle(Edad (Escala logartmica))

Esta opcin no puede acortar el rango de una variable. Slo sirve para extenederlo. Si se desea acotar el rango de valores que se exponen en un grfico, ha de emplearse la especificacin if. De este modo si se quisiera hacer un histograma con slo a los menores de 50 aos, habra que escribir la siguiente instruccin: histogram edad1 if edad1<50

19

42

Manual de Stata
Ilustracin 6.48
Grfico de caja
80 20 Edad (Escala logartmica) 40 60 100

n=5.283

Existen otros aspectos que pueden modificarse en los ejes. Los ms importantes de ellos son las marcas, las guas y sus correspondientes etiquetas. Las primeras son signos ubicados en el eje que indican dnde estn representados los valores o frecuencias de la variable del grfico. Lo comn es que las marcas estn colocadas en intervalos regulares del eje. No obstante, hay la posibilidad de distinguir dos tipos de marcas: las principales y las secundarias. Tanto las marcas como las etiquetas principales pueden ser controladas mediante la opcin y|xlabel(lista) segn se quieran modificar las del eje y o las del x. El contenido de la lista se ajusta a la sintaxis general del programa Stata. El formato ms til en este contexto es el de min(intervalo)max, esto es, hay que poner el valor mnimo de la escala, el mximo y entre ellos y entre parntesis cada cuantas unidades se desea que aparezca un valor etiquetado. Pero tambin puede expresarse un solo nmero precedido de #, en cuyo caso el programa pondr el nmero de etiquetas indicado en intervalos regulares. En este ejemplo de histograma se utilizan los dos sistemas: uno en el eje vertical de frecuencias (porcentajes) y otro en el eje horizontal de los valores de la variable:
histogram edad1, percent title(Histograma de edades) xtitle(Valores) ytitle(Porcentaje) ylabel(0(.5)5) xlabel(#8)
Ilustracin 6.49
Histograma de edades
Porcentaje 1 1.5 2 2.5 3 3.5 4 4.5 5

0
20

.5

30

40

50

60 Valores

70

80

90

43

Manual de Stata

Hay un tercer modo de referirse a las etiquetas, muy til, para cuando se quiere expresar el valor literal de stas. Se trata de poner el valor numrico seguido del texto que se desea sustituya a los dgitos. De este modo, en el caso de que se desee poner letra a los siete das de la semana en el eje X, habra que escribir las siguiente opcin: xlabel(1 L 2 M 3 X 4 J 5 V 6 S 7 D). Tambin pueden controlarse las etiquetas de las marcas menores. En este caso, las opciones que deben emplearse son y|xmlabel(lista). Adems en estas opciones puede expresarse en lugar de las otras la expresin ##X, donde X significa el nmero de divisiones que quieren realizarse entre dos marcas mayores. El mnimo nmero posible es 2, en cuyo caso se pondr una marca menor entre dos mayores. ste y los nmeros 5 y 10, en cuyos casos se pondran cuatro y nueve marcas respectivamente entre cada dos mayores, son los ms frecuentes de uso. Tanto y|xlabel como y|xmlabel, pueden contener subopciones que afectan a la suprensin (noticks) o apariencia (tlength(), tposition(), tlstyle(), tlwidth(), tlcolor() y tlpattern()) de las marcas, o cambian el formato (format(%fmt), alternate, labgap(), labstyle() labsize() y labcolor()) o ngulo (angle(#)) de las etiquetas. Adems, con las opciones de las etiquetas tambin pueden manejarse las guas internas del grfico (rejillas). Por defecto slo aparecen en las marcas (o etiquetas) mayores del eje Y del grfico. Pero no slo se pueden omitir stas (nogrid), sino tambin es posible incorporar las del eje X (grid). Adems, son alterables el color (glcolor()), el ancho (glwidth()) y el estilo (glpattern()) de la lnea. Todo ello ha de hacerse como una subopcin de y|xlabel o de y|xmlabel. Algunas de las ltimas posibilidades sealadas se emplean en el siguiente ejemplo grfico.
histogram edad1, ylabel(0(.01).03, angle(0)) ymlabel(##2, angle(0) grid glpattern(dash)) xlabel( 20(10)90) xmlabel(##2) title(Histograma de edades) xtitle(Valores) ytitle(Densidad)
Ilustracin 6.50
Histograma de edades
.03

.025

.02 Densidad

.015

.01

.005

0 20
25

30

35

40

4 5

50 60 Valores

55

65

70

75

80

85

90

44

Manual de Stata

Stata permite manejar las marcas de los ejes no slo a travs de la instruccin y|xlabel, sino tambin de modo directo, a travs de y|xtick o y|xmtick, con lo que se indica que se pongan marcas sin etiquetas en los ejes.
histogram edad1, ytick (0(.0025).03) ymtick(##2, grid glpattern(dash)) xmtick(##10) xlabel( 20(10)90) xmlabel(##2) xtitle(Valores) ytitle(Densidad) title(Histograma de edades)

El mismo grfico anterior con las opciones ymtick() y xmtick() aadidas da lugar a este otro:
Ilustracin 6.51
Histograma de edades
.03 Densidad 0 .01 .02

20

25

30

35

40

45

50

60 Valores

55

65

70

75

80

85

90

Es preciso notar que, aun no habiendo puesto la opcin ylabel, el grfico muestra etiquetas por omisin a las frecuencias relativas. Por ello, la funcin de ytick es la de multiplicar las marcas mayores. Por otro lado, tambin es curioso apreciar cmo la instruccin ymtick aade las marcas menores a la implcita ylabel, en lugar de hacerlo con la explcita opcin ytick.

6.4.3 Elementos
Se han definido los elementos como cada uno de los componentes esenciales de un grfico, que representan sea un caso o un grupo de casos, sea un valor o conjunto de valores. Estos componentes grficos traducen las propiedades numricas o las cualidades de las distribuciones que se desean representar con el tamao o la posicin, la mayora de ocasiones, pero en otras ocasiones con el color, la forma o la trama, estos elementos. Cada tipo de grfico suele utilizar un elemento peculiar para representar los datos. De este modo, los sectores son los elementos de un grfico circular; los rectngulos, los del diagrama de barras y los del histograma; los puntos, los del grfico de puntos y los del diagrama de dispersin; las lneas, los de los grficos de densidad, de funcin o de ajuste, y en el caso de los grficos de caja, los elementos son las cajas, la lnea mediana, la lnea de extensin y los puntos que representan a los casos extremos y desviados.

45

Manual de Stata

Por eso en este apartado, se presentar elemento por elemento para indicar cmo pueden configurarse cada uno de ellos.

6.4.4 Sectores
En el grfico de sectores cada segmento circular representa cada uno de los valores de una variable nominal y se dibuja con un rea proporcional a la frecuencia con la que el valor en cuestin aparece en la distribucin. La opcin dentro de la instruccin graph pie que controla estos elementos es pie(#, subopciones) y tiene como especificacin entre parntesis el nmero del sector al que se quiere cambiar y un par de subopciones posibles: el color (, color(value)) y la posicin respecto al centro (, explode). De este modo, si se desea que el primer sector se seccione y se dibuje en azul, habr que escribir la opcin pie con las siguientes subopciones.
graph pie, pie(1, color(blue) explode) over(sexo1) title(Sexo del entrevistado)

Y el resultado ser el siguiente grfico:


Ilustracin 6.52
Sexo del entrevistado

Hombre

Mujer

Otras importantes caractersticas que puede incorporarse a los sectores son sus respectivas etiquetas. Es mucho ms evidente que stas aparezcan dentro o cerca de los sectores, que en un recuadro aparte como es la leyenda del grfico como aparece en la base del grfico de la Figura anterior. Para que el programa ponga etiquetas a los sectores habr que utilizar la siguiente opcin: , plabel({_all|#} {name|percent|sum|Texto}, subopciones) Esta opcin contiene dos parmetros: en primer lugar, ha de especificarse si se quiere dar una instruccin general para todos los sectores (_all) o slo para uno en particular (#), representado por un nmero que empieza a contar por el sector que comienza a las 12 en una esfera de reloj. En segundo lugar, ha de expresarse una de tres palabras claves (name, si se desea la etiqueta del valor representado por el sector; percent, si se quiere que aparezca el porcentaje que representa el valor en el conjunto del crculo

46

Manual de Stata

represtnado; sum, si se opta por la frecuencia absoluta, en lugar de la relativa) o entre comillas el texto literal que se quiere que aparezca en cada sector. A continuacin, optativamente se pueden aadir subopciones para controlar el lugar y la forma con la que se plasmarn las etiquetas pertinentes. Las subopciones posibles ms relevantes son gap(#), para expresar la distancia al centro donde se desea que se escriba el texto; format(%formato) para que los nmeros aparezcan con el nmero de decimales o en la notacin cientfica deseada; size (tiny|small|medsmall| medium|large|huge) para indicar el tamao de los caracteres, y color(red|green|blue...) para manejar su color. A continuacin se expone un ejemplo donde aparecen en cada sector tanto las etiquetas de los valores, como sus correspondientes porcentajes, sin que se superpongan las unas sobre los otros.
graph pie, pie(1, explode) over(sexo1) title("Sexo del entrevistado") plabel(_all name, gap(-15) size(*1.5)) plabel(_all percent, gap(5))

El resultado grfico de la anterior instruccin es el siguiente:


Ilustracin 6.53
Sexo del entrevistado

52.32%

Mujer

Hom bre

47.68%

Hombre

Mujer

6.4.5 Barras
Los elementos del grfico de barras son las columnas y la apariencia de stas son controlables a travs de cuatro opciones: bar, bargap, outergap y blabel. La opcin bar, que permite manejar la apariencia particular de cada una de las barras, tiene la siguiente sintaxis general:
bar(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea) blpattern(pauta de la lnea))

Uno de los aspectos de las barras que puede ser modificado son las lneas exteriores que las dibujan. stas adems de poder controlarse como subopciones de una determinada barra, pueden modificarse directamente mediante las opciones

47

Manual de Stata

blcolor(color) y blwidth(tamao), en cuyo caso la especificacin afecta a todas las barras de un determinado grfico. La opcin bargap(#) determina la anchura con la que se dibujan las barras, sabiendo que el 0 equivale a barras unidas y los nmeros negativos montan las barras entre ellas. Complementariamente, la opcin outergrap(#) indica el porcentaje de espacio que dejan las barras en el extremo del grfico y, en este caso, el 25, indica que las barras ocupan todo el espacio del eje de representacin. Y, finalmente, la opcin blabel es particularmente til para poner etiquetas al conjunto de barras de un grfico. Los argumentos de esta opcin son none que es el que opera por omisin-, bar, para representar el porcentaje de una determinada barra, total, para indicar los porcentajes de las barras acumuladas, name, para poner como etiquetas las de las variables expuestas en la dimensin y, y group, para indicale que se pongan las etiquetas de la variables en la dimensin z, es decir, la expuesta en la primera opcin over().
graph hbar (sum) casos, bar(1, bcolor(blue)) bar(2, bcolor(red)) bar(3, bcolor(green)) bar(4, bcolor(brown)) bar(5, bcolor(gray)) bar(6, bcolor(yellow) blcolor(black) blwidth(thick)) bargap (-50) outergap(-25) blabel(bar, position(inside) format(%3.1f)) over(Voto_2000) asyvar title(Voto en ltimas elecciones (2000)) ytitle(Porcentaje) l1title(Partido poltico)

De este modo, se asignan distintos colores a las barras, abarcan todo el eje y se superponen entre ellas en un 50% de su tamao:
Ilustracin 6.54
Voto en ltimas elecciones (2000)
33.6

Partido poltico

20.0 4.3 8.4 2.0 31.7

10

20 Porcentaje PP IU Blanco

30 PSOE Otros NC

40

48

Manual de Stata

Hay grficos bidimensionales (los histogramas y los grficos de barras incluidos en twoway) que tambin usan barras, pero las manejan de manera algo distinta a los grficos unidimensionales. La principal diferencia es que en lugar de utilizar las opciones bar, outergap y bargap, se usan las siguientes: especficamente, barwitdh(#) para el ancho, en unidades de la variable X; genricamente, bcolor(color) para el color interno, y blcolor(color), blwith(anchura) y blpattern(modelo) para el color, anchura y modelo de las lneas con las que se dibujan las barras. Las obvias diferencias se ven an mucho mejor mediante un ejemplo de un grfico de barras de doble entrada:
graph twoway bar pob supkm2, bcolor(green) blcolor(black) barwidth(500000) blwidth(thick) title(Grfico de barras (Twoway)) xlabel(, format(%10.0f))

Con el siguiente resultado:


Ilustracin 6.55
1500

Grfico de barras (Twoway)

0 0

Poblacion (millones) 1999 500 1000

5000000

10000000 Superf icie km2 1996

15000000

2000000

6.4.6 Puntos
Las principales caractersticas que pueden definirse de los puntos son la forma, el tamao y el color. Aunque son claves en los grficos bidimensionales, tambin aparecen entre los unidimensionales, en los llamados diagramas de puntos, que como ya se ha sealado son equivalentes a los diagramas de barras, pero sustituidas stas por unas marcas ubicadas en lneas. Segn el tipo de grfico donde estn presentes, el tratamiento de los puntos es ligeramente distinto. La sintaxis para determinar la apariencia de los marcadores en el grfico de puntos es la siguiente:
marker(#, mcolor(color) msymbol(smbolo) msize(tamao))

Donde el color puede indicarse bien en ingls (red, green, blue, yellow, ...) o bien con el formato RGB compuesto por tres nmeros que indican la cantidad de rojo, verde o

49

Manual de Stata

azul del color deseado; el smbolo puede ser un crculo (O), un diamante(D), un tringulo(T), un cuadrado(S), un aspa(X), (todas estas opciones pueden expresarse tambin en minscula para reducir su tamao o seguida de una h para que el smbolo quede sin el interior relleno), una cruz(+),un punto(p) o un smbolo invisible(i), y el tamao puede tener los siguientes valores: tiny, small, medsmall, medium large, huge (adems, las dos primeras y las dos ltimas puede estar precedidas de una v (very) para acentuar sus caractersticas). De este modo, con la siguiente instruccin
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje) marker(1, mcolor(blue) msymbol(Oh) msize(huge)) marker(2, mcolor(red) msize(medium) msymbol(S)) marker(3, mcolor(green) msize(small) msymbol(D)) marker(4, mcolor(maroon) msymbol(+)) marker(6, mcolor(black) msize(large) msymbol(T))

Se obtiene la siguiente secuencia grfica de puntos.


Ilustracin 6.56

10

20 Porcentaje PP IU Blanco PSOE Otros NC

30

40

En este tipo de grficos, los puntos (markers), que representan un determinado estadstico, se extienden bien sobre una serie de puntos (dots), una lnea o un rectngulo. Por defecto lo hace sobre la primera, en cuyo caso puede controlarse tanto el nmero de puntos (ndots), como su forma y tamao a travs de la opcin dots, que tiene la misma sintaxis (msize, msymbol y mcolor) que marker, salvo el nmero inicial inexistente, ya que todas las series de puntos han de poseer el mismo formato. De modo muy parecido son diseables los puntos en los diagramas de dispersin. En estas representaciones bidimensionales las opciones son msize, msymbol y mcolor, sin necesidad de que estn precedidas de una opcin anterior como marker o dots. Otra interesante posibilidad es la de darles un tamao proporcional al tamao de una determinada variable, si sta se especifica como si fuera el peso [weight=variable] de la instruccin.
graph twoway scatter evn pnbppa [weight=pob], mcolor(green)

50

Manual de Stata

Con la instruccin anterior, se muestra un grfico con puntos verdes de tamao proporcional a la poblacin del pas representado.
Ilustracin 6.57
80 40 0 Esperanza de vida al nacer 1998 50 60 70

10000

20000 30000 PNB por unidad de compra

40000

Adems, se pueden poner etiquetas a los puntos con la opcin mlabel(variable). sta se puede complementar con las opciones mlabposition(#), mlabgap(#), mlabangle(#), mlabsize(#) y mlabcolor(red|green|blue) para cambiar el aspectos de las etiquetas. Y, de igual modo, pueden realizarse determinadas operaciones con la variable a fin de que slo aparezcan las etiquetas con determinadas caractersticas como prueba el siguiente ejemplo.
generate etipais=pais if pob>150 graph twoway scatter evn pnbppa [weight=pob], mcolor(green) mlabel(etipais) mlabposition(12)

Como puede apreciarse en el prximo grfico, la ponderacin de los puntos y su etiquetaje son incompatibles y, por ello, cuando se etiquetan, la especificacin del peso ([weight=peso])0 es ignorada20.

Hay un medio indirecto para hacer que aparezcan tanto las ponderaciones como las etiquetas. Consiste en pedir dos grficos y superponerlos. En este ejemplo la instruccin quedara como sigue: graph twoway (scatter evn pnbppa [weight=pob], mcolor(green)) (scatter evn pnbppa, mlabel(etipais) msymbol(i)), legend(off)

20

51

Manual de Stata
Ilustracin 6.58
80

Estados Unidos

Esperanza de vida al nacer 1998 70 60 50

China

Brasil
Indonesia Ind a i

40
0

10000

20 000 PNB por unidad de compra

3 0000

40000

6.4.7 Lneas
Las lneas pueden aparecer tanto en los grficos unidimensionales de puntos, como en los bidimensionales. En los primeros, slo tienen un carcter instrumental, pues en lugar de una serie de puntos, los marcadores pueden disponerse sobre una lnea, siempre y cuando se especifique la opcin linetype(line). En este caso, la(s) lnea(s) por la(s) que se extienden los puntos (markers) tambin puede ser modificada(s) mediante opciones y subopciones de la instruccin graph. Los atributos susceptibles de modificacin son el color (lcolor), la anchura (lwidth) y la forma (lpattern). Todos ellos han de ser incluidos dentro de un parntesis precedido por la palabra clave lines(). Las opciones de color de las lneas son las mismas que la de los sectores, las barras o los puntos. Las opciones de ancho son none, thin, medthin, medium y thick. La especificacin thin puede estar precedida hasta por dos v para reducir su tamao y thick puede escribirse hasta con tres v minsculas por delante para aumentar el tamao del grosor de la lnea. Finalmente, las formas (lpattern) que puede adoptar una lnea se pueden indicar bien medienate una palabra clave como solid, dash, dot, dash_dot, shortdash, shortdash_dot, longdash, longdash_dot o blank, bien mediante una formula combinatoria entre comillas compuestas por lneas(l) guiones (_ y -) puntos(.) o espacios (#). Un ejemplo con estas tres opciones ayuda a conocer su disposicin en el conjunto de la instruccin:
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje) title(Recuerdo de voto en elecciones 2000) linetype(line) line(lcolor(red) lpattern(-##.##l) lwidth(vvthin))

52

Manual de Stata
Ilustracin 6.59
Recuerdo de voto en elecciones 2000

10

20 Porcentaje PP IU Blanco PSOE Otros NC

30

40

El uso de puntos y lneas es ms extendido en los grficos de dos dimensiones. Como se vio anteriormente, pueden aparecer en los grficos de lnea, rea, ajuste y rango. El modo de controlar su forma, tamao y color es similar al de los puntos. Mientras que en el caso de los marcadores se empleaban directamente las opciones msymbol, mcolor y msize enumerando los diferentes smbolos, colores o tamaos que se queran dar a las distintas series; cuando de lneas se trata, stas se modulan con las opciones clpattern(pauta), clcolor(color) y clwidth(anchura), escribiendo en el interior del parntesis la serie de distintos formatos deseados, uno por cada lnea representada en el grfico. El ejemplo ms cercano se encuentra en la Ilustracin 6.50Ilustracin 6.60. Como muestra de la manipulacin de las caractersticas de las lneas, se va a representar en el mismo grfico tres series que constituyen el porcentaje del PIB correspondiente a la agricultura, la industria y los servicios. Todas ellas estn representadas en el mismo grfico y eje. Cada una de ellas con un color y ancho distinto, especificados en las opciones, y con una pauta distinta de lnea, cambiada segn las opciones por omisin del programa.
graph twoway line pibag pibin pibse rnbppa, ytitle("%") sort clcolor(red green blue) clwidth(2 1 .1)
Ilustracin 6.60
80 0 0 20 % 40 60

10000 20000 Renta per cpita (poder de compra) PIB en agricultura PIB en serv icios PIB en industria

30000

53

Manual de Stata

En otros grficos bidimensionales, en general en aquellos en que las lneas son verticales o representan una superficie, tales como los grficos de rango, rea y clavos, hay que sustituir las opciones clwidth, clpattern y clcolor, por blwidth, blpattern y blcolor, respectivamente.

6.4.8 Cajas
Quedan por referirse las opciones tpicas de los elementos de los grficos de caja, que son las ms complicadas de todas por la propia naturaleza de este tipo de representaciones de variables. En estos grficos, se pueden distinguir cuatro subelementos. El ms obvio es la caja (box), que aglutina al 50% de casos centrales. Dentro de la caja hay que representar a la mediana medtype bien mediante una lnea (line o cline), bien mediante otro smbolo (marker). Como extensin de la caja se encuentran las lneas cwispers que se extienden vez y media el rango intercuartlico. Finalmente, forman tambin parte de este grfico los smbolos (markers) que representan los casos extremos de la distribucin. Las cajas son muy parecidas a las barras del correspondiente tipo de grfico. Por eso, su modo de cambiarlas es idntico. Lo nico que varan son dos cosas: en primer lugar, la opcin se denomina box, en lugar bar. Y, en segundo lugar, la distancia entre las cajas puede establecerse mediante la instruccin boxgap(#), en lugar de la que se empleaba para las barras (bargap()). Sin embargo, la opcin outergap(#), para determinar el espacio entre el lmite del grfico y las cajas extremas, funciona del mismo modo. Recurdese que la sintaxis de la primera opcin es como sigue: box(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea)) La lnea (o marca) de la mediana se puede determinar mediante la opcin medtype(tipo). Existen tres tipos: la lnea comn (line), una lnea especificada por el usuario (cline) o un smbolo(marker), cuyas caractersticas pueden tambin controlarse a travs de otra opcin medmarker(), que controla la apariencia del smbolo del mismo modo que se hace con los puntos, es decir, mediante las especificaciones msymbol, msize y mcolor. Las lneas que salen de las cajas (wiskers) poseen a su vez tres posiblidades de modificacin. Para que funcione cualquiera de ellas ha de explicitarse la opcin cwiskers adems de la correspondiente a lo que se desea cambiar. As, si se quiere cambiar la apariencia de la lnea ha de aadirse la opcin lines(lcolor(color) lwidth(anchura) lpattern(forma)). Si se quiere cambiar la anchura de la lnea que marca el tope, se ha de especificar la opcin alsize(#), fijada en 67 puntos por omisin. Y, por ltimo, si se desea poner unos topes a sta ltima ha de aadirse la opcin capsize(#), fijada en 0, si no se menciona explcitamente. Finalmente, la opcin marker funciona exactamente igual que la opcin del mismo nombre en los grficos de punto. Esto es, se le puede indicar bsicamente el color, la forma y el tamao a los smbolos que representan los casos desviados y extremos.

54

Manual de Stata

Y como ejemplo de todas estas instrucciones, se expone a continuacin una orden que cambia sustancialmente la forma de la Ilustracin 6.22.
graph box p4501-p4503, title(Posicin ideolgica atribuida a partidos polticos) cwhiskers lines(lcolor(red)) capsize(10) alsize(50) marker(1, mcolor(green) msymbol(O) msize(huge)) marker(2, mcolor(blue)) marker(3, mcolor(red) msize(small)) box(1, bcolor(green)) box(2, bcolor(blue)) box(3, bcolor(red)) medtype(cline) medline(lcolor(yellow))

La consecuencia de todas estas opciones es la siguiente:


Ilustracin 6.61
Posicin ideolgica atribuida a partidos polticos
10 0 2 4 6 8

iu psoe

pp

6.4.9 Leyendas
Se han definido las leyendas como un repertorio de smbolos acompaados por sus respectivos significados. En los grficos que hasta ahora se han explicado aparecen automticamente etiquetas en los sectores y, siempre y cuando haya ms de una variable en el eje Y, en los de barras, puntos y cajas. En el siguiente ejemplo compuesto, se muestra cmo en un grfico de caja aparece la leyenda si se representan ms de una variable, pero no si se representa una sola:
Ilustracin 6.62
10 10 0 2 2 4 4 6 iu 6 8 8

iu psoe 0

pp

55

Manual de Stata

Son mltiples los aspectos de la leyenda que pueden ser controlados mediante la opcin legend(). Para obtener una lista de todas, el usuario de Stata, puede solicitar la ayuda help legend_options. Aqu slo se presentarn las que a juicio de los autores se consideran ms relevantes para el uso cotidiano de los grficos. La subopcin title Texto pone un encabezamiento al conjunto. La especificacin de order(# Etiqueta) permite cambiar el orden y el texto de la presentacin de los smbolos de la leyenda. Las subopciones rows(#) y cols(#) controlan el nmero de filas o columnas que van a quedar representadas en el recuadro de la leyenda. Y, finalmente, la subopcin position(#), con un nmero del 1 al 12, ubica la leyenda en un determinado lugar del grfico. Un ejemplo aclarar la sintaxis y el resultado de cada una de estas especificaciones:
graph box p4501-p4503, legend(title(Partidos) order(2 PP 3 PSOE 1 IU) cols(3) position(12))

El grfico del lado derecho de la figura anterior se convertir en este otro:


Ilustracin 6.63
Partidos
PP 10 PSOE IU

También podría gustarte