Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5 Graficos
5 Graficos
Manual de Stata
Para estudiar asociacin en grficos unidimensionales es preciso aadir a su representacin de nica entrada otra dimensin. Esto se logra, como se ver ms adelante, mediante dos modos: Con over la operacin se realiza en los mismos ejes del grfico, con by se construye otro grfico paralelo. La versin 8 proporciona una sintaxis bastante diferente de las de versiones anteriores de Stata para la ejecucin de grficos. Sin embargo, permite que los antiguos usuarios y los viejos programa puedan ejecutarse. Para ello, ha de cambiarse la instruccin graph por graph7 o bien, en el interior de un programa, advertir al comienzo que se est trabajando con una versin anterior a la 8, con la instruccin version.
2
Manual de Stata
dotplot, que realiza histogramas basados en puntos, o stem, que realiza un grfico de tallo y hoja. c) Tambin Stata dispone de ciertos procedimientos de operaciones estadsticas que se pueden complementar con algn tipo de grfico. De este modo, instrucciones grficas como greigen, rvfplot o cluster dendrogram slo son posibles tras la realizacin de previos anlisis estadsticos como factor, regress y cluster, respectivamente.
Con la instruccin ms especfica de grficos (graph) se pueden realizar dos modalidades de representacin de variables:
a) las univariadas, como son los grficos de sectores (pie), los de barras (bar), los de puntos (dot) y los de caja (box). y b) las bivariadas, en grficos de dos dimensiones (twoway) o mltiples (matrix).
La instruccin graph es sin lugar a dudas la ms compleja de cuantas contiene el programa Stata. Dado que en un grfico pueden controlarse muchos aspectos, son necesarias muchas opciones que lo hagan posible. Para explicar con la mayor facilidad en este captulo la mayor parte de las posibilidades de esta instruccin, se ha considerado conveniente dividirlo en cuatro apartados: en los dos primeros se pasa repaso a los distintos tipos de ilustraciones de los datos. Se han dividido en dos para exponer en el primero de ellos los grficos unidimensionales y en el segundo los bidimensionales. A un aprendiz de Stata estos dos primeros le bastan para conocer y producir los diferentes tipos de grficos. El tercer apartado expone la construccin y el tratamiento especfico que Stata proporciona a los grficos. Ensea, por un lado, cmo se pueden grabar, recuperar, combinar, imprimir o exportar a otra aplicacin estas figuras y, por otro, habla de la herramienta de los esquemas para facilitar la mejor presentacin posible de los grficos, para acabar en la exponsicin de un ejemplo de solicitud de grficos mediante mens. Finalmente, se cierra este captulo presentando los componentes de los grficos (ttulos, ejes, elementos y leyendas). Cada uno de ellos tiene mltiples opciones de modulacin, que el usuario ms familiarizado con Stata puede cambiar, para dar una apariencia ms personal a los grficos.
Manual de Stata
Hay que tener en cuenta que esta instruccin produce un grfico en el que cada variable explicitada se representa en un sector cuya rea es proporcional a la suma de los valores de todos los casos en la variable en cuestin. Esto implica que, para obtener un grfico de sectores en el que un sector represente a los hombres y el otro a las mujeres, los datos han de disponerse de dos posibles modos:
1) Si se dispone de un fichero con un solo caso y dos variables: Hombre y Mujer, con valores que representen sus respectivas frecuencias, tal como el representado en la Ilustracin 6.1,
Ilustracin 6.1
Hombre
Mujer
2) Sin embargo, lo ms comn es disponer los datos por individuo en una variable categrica, como puede ser el sexo, con 5.000 sujetos y dos valores, hombre y mujer, en cuya circunstancia habra que escribir la instruccin del siguiente modo: graph pie, over(sexo)
Manual de Stata
Con la anterior instruccin se genera el grfico de la Ilustracin 6.3, donde puede advertirse, adems de la ligera mayora de mujeres en la muestra, que el programa pone automticamente a cada uno de los sectores las etiquetas de los valores que tiene la variable original.
Ilustracin 6.3
hombre
mujer
La instruccin graph pie admite la posibilidad de introducir una variable categrica para la obtencin de tantos grficos como valores tenga sta. Por ejemplo, en el caso de que se quieran obtener los diferentes perfiles de sexo, en funcin de los distintos votantes, hay que emplear la opcin by(variable).
graph pie, over(sexo) by(Voto_2000)
Esta orden da lugar al siguiente grfico bidimensional, donde se puede estudiar el perfil de gnero de los votantes de cada uno de los partidos:
Ilustracin 6.4
PP PS OE IU
Otros
Bl anc o
NC
hombre
Graphs by Partido votado
mujer
Manual de Stata
instrucciones con opciones bastantes distintas a la de los grficos de sectores. Sin embargo, la sintaxis general es muy similar a la anterior:
graph bar listadevariables
De este modo, la instruccin del primer grfico realizado con la opcin pie, ahora quedara del siguiente modo3:
graph bar Hombre Mujer, nolabel
Hombre
Mujer
No obstante, como en la mayor parte de las ocasiones, se disponen los datos en un fichero en el que cada registro representa un caso, en cuya situacin, en los grficos de barra no puede emplearse directamente la opcin over como se aplic en la modalidad de sectores. Para poder hacer algo similar, hay que confeccionar el grfico en dos pasos: en el primero, mediante dos instrucciones, se genera una constante ficticia, equivalente al peso en porcentaje del caso4, y en el segundo se pide la representacin del recuento de sta5 cruzada con la variable propiamente dicha, que en el ejemplo siguiente es sexo. Y esto es debido a que Stata considera el grfico de barras ms como un caso de
En esta instruccin se produce la paradoja de que para que aparezca en la leyenda los nombres de las variables (Hombre y Mujer), se debe especificar la opcin nolabel. Si esta no aparece, las etiquetas que apareceran seran las automticas del grafico, es decir, Mean of Hombre y Mean of Mujer
4
Si se quiere representar proporciones, en lugar de porcentajes, basta son sustituir el 100 por un 1.
Otro modo de hacerlo es convirtiendo la variable nominal en tantas dicotmicas como valores tenga, mediante la opcin generate del comando tabulate, para a continuacin pedir el grfico de barras de las nuevas variables dicotmicas. Sin embargo, en esta modalidad la nica forma de que aparezcan adecuadamente las etiquetas de los valores de la variable es mediante la compleja opcin legend(order() Vase ms abajo.
Manual de Stata
variable numrica (de intervalo o de razn) que de variable con atributos (nominal u ordinal).
tabulate sexo generate casos=100/r(N) bar (count) casos, over(sexo)
Ilustracin 6.6
15,000 0 5,000 count of casos 10,000
hombre
mu jer
Tambin en estos grficos cabe la posibilidad de realizar un control por una segunda variable para realizar un grfico bidimensional de barras, que es muy til para representar grficamente tablas de contingencia (vase el captulo X). En la Ilustracin 6.7, por ejemplo, se utiliza el sexo como independiente y se emplea la intencin de voto como variable dependiente, para ver su distribucin en hombres y mujeres:
Ilustracin 6.7
1,000 0 PP PSOE IU OtrosBlanco NC 200 count of casos 400 600 800
PP PSOE IU OtrosBlanco NC
hombre
mujer
En esta Ilustracin se observan claramente dos grupos comparable de barras: unas para los hombres y otras para las mujeres. Para conseguirlo se ha tenido que escribir esta instruccin6:
Es obvio que las etiquetas del eje que el programa crea por omisin no es la deseable en el caso de que se quiera publicar el grfico en castellano. Para arreglarla, es preciso leer el apartado de opciones lo que all se especifica para el cambio de ejes.
Manual de Stata
Hay otro modo de que se produzcan un resultado similar al anterior. Se trata de mostrar tantos grficos como valores tenga la variable que se especifique detrs de la opcin by(variable). Incluso, si se desea, puede obtenerse al mismo tiempo el grfico correspondiente al conjunto de la muestra, si se aade despus de la variable la opcin total:
graph bar count(casos), over(Voto_2000) by (sexo, total )
Ilustracin 6.8
hombre mujer
count of casos
PSOE
IU
Otros Blanco NC
PP
PSOE
IU
Otros Blanco NC
Total
0 PP
PSOE
IU
Otros Blanco NC
Graphs by pp42
Especialmente en este grfico se nota cmo hasta ahora lo que se representan son frecuencias y no porcentajes. Para obtenerlos, o para representar proporciones7, en lugar de frecuencias, hay que solicitar la estadstica (sum), en lugar de count, que apareca en los anteriores grficos.
graph bar (sum) casos, over(Voto_2000)
Sacar porcentajes o frecuencias segn se haya construido la variable ficticia con la que se construyen los grficos de barras (casos, en este ejemplo). Como ms arriba se construy dividiendo 100 por el tamao de la muestra (_N), entonces se obtienen porcentajes. Si se hubiera utilizado 1, en lugar de 100, se habran obtenido proporciones.
Manual de Stata
Ilustracin 6.9
40 0 10 sum of casos 20 30
PP
PSOE
IU
Otros
Blanco
NC
Una variante ineludible del grfico de barras es la apilada, en la que en lugar de aparecer paralelas las barras correspondientes a las categoras de la variable, aparecen contiguas en la misma columna. Esta alternativa facilita, en la mayor parte de los casos, la comparacin entre categoras. Para obtenerla, es necesario aadir a la instruccin dos opciones: la primera es asyvar, que trata a la variable expresada en over() como si fueran valores de distintas variables. Por eso las barras aparecen dibujadas con distintos colores. La segunda opcin es stack, que como su propio nombre indica es la que hace que las barras queden apiladas.
graph bar count(casos), over(Voto_2000) asyvar by(pp42) stack
Ilustracin 6.10
hombre mujer
count of casos
1,000
2,000
3,000
PP IU Blanco
Graphs by pp42
PSOE Otros NC
Como puede fcilmente apreciarse, por el hecho de acumular el nmero de casos, las alturas no alcanzan el tope y la de las mujeres, ms numerosas en la muestra, es ms alta que la de los hombres. Para igualar las bases de la comparacin, es preciso aadir la opcin percent, en cuyo caso la escala que representan las frecuencias cambia hasta tener el mximo de 100 y, en consecuencia todas las barras se igualan.
graph bar sum(casos), over(Voto_2000) asyvar by(pp42) stack percent
Manual de Stata
Ilustracin 6.11
hombre
100
mujer
percent
20
40
60
80
Finalmente hay que sealar que todos los grficos de barra aqu expuestos pueden dibujarse horizontalmente. Para ello, slo es preciso cambiar la segunda palabra de la instruccin por hbar en lugar de bar. Por ejemplo, si se desea, dibujar la intencin de voto en barras horizontales, se debera escribir la siguiente lnea:
graph hbar (sum) casos, over(Voto-2000) asyvar
De este modo, se obtiene el siguiente grfico con barras de distinto color por haber especificado la opcin asyvar:
Ilustracin 6.12
10
30
40
10
Manual de Stata
graph dot (sum) casos, over(Voto_2000)
PP
PSOE
IU
Otros
Blanco
NC
10
20 sum of casos
30
40
En la Ilustracin 6.13 se advierten claramente las diferencias entre el grfico de barras y el de puntos. Para cada categora se representa la proporcin de casos mediante una marca, representada con smbolos (crculos en este caso) que estn ubicados en una gua de puntos, en lugar de estar representadas mediante una barra de tamao proporcional al nmero, porcentaje o cualquier otro estadstico de las variables especificadas. Y si se desea que todos los puntos aparezcan en la misma lnea, para una mejor comparacin de los porcentajes en este caso, es preciso aadir la opcin asyvar
graph dot (sum) casos, over(Voto_2000) asyvar
10
30
40
6.1.4 Histogramas
Los histogramas son grficos que se emplean para la representacin de variables cuantitativas continuas. Consisten en dividir los valores en una serie de intervalos y
11
Manual de Stata
representar cada uno de stos con un rea proporcional a su tamao. Generalmente los valores se expresan en el eje de abscisas de un grfico de coordenadas, mientras que, en el caso de que todos los intervalos tengan amplitud constante, en las ordenadas se expresan las frecuencias absolutas o relativas correspondientes a cada grupo de valores. En Stata basta con dos palabras para generar un grfico de este tipo: el comando histogram8 seguido del nombre de la variable que se quiere representar:
histogram pp43
Sin ninguna otra especificacin aadida, el histograma aparece del siguiente modo:
Ilustracin 6.15
.025 0 20 .005 Density .01 .015 .02
40
60 Edad
80
100
En l se aprecia cmo el programa ha dividido la variable edad con valores comprendidos entre los 18 y los 98 aos en cuarenta y tres sectores iguales, opcin sta ltima que se adopta en caso de no indicarle lo contrario. Y son 43, porque adopta la siguiente frmula: ln( N ) k = min N ,10 ln(10) Como quiera que est representando 24.000 casos y la raz de este nmero es 155.9, mientras que diez veces el cociente de su logaritmo entre el de 10 da un resultado de 43, stos son los intervalos que dibuja.
sta (histogram) es una de las instrucciones especficas (diferentes a graph) para realizar grficos. Sin embargo, en este caso se puede obtener el mismo resultado con el siguiente bloque de rdenes: graph twoway histogram, especialmente til cuando se quiere integrar los histogramas con otro tipo de representacin bivariada. Por eso, en este contexto donde se estn viendo los grficos de una sola variable, y por razones de brevedad slo se seala la primera forma de solicitarlos.
12
Manual de Stata
Para obtener un nmero no automtico de intervalos en el histograma, existe la opcin bin(#), siendo # el nmero de ellos que se quiere queden dibujados. De este modo si se desean ocho intervalos en lugar de los que 43 anteriores, debera escribirse:
histogram pp43, bin(8)
Ilustracin 6.16
.02 0 20 .005 Density .01 .015
40
60 Edad
80
100
Pero tambin es posible especificar, en lugar del nmero de intervalos, el ancho que se desea tengan las barras a travs de la opcin width(#) e incluso el punto de partida con start(#). Y obvio es que ambas se pueden combinar para obtener un histograma a gusto del usuario:
histogram pp43, start(15) width(10)
20
40
60 Edad
80
100
Dos opciones adicionales permiten mejorar la presentacin del histograma. Por un lado, frequency hace mostrar las frecuencias, en lugar de los porcentajes. Por el otro, normal sobrescribe en el histograma la curva de Gauss para que pueda compararse la distribucin emprica con la distribucin normal. La instruccin en su conjunto sera
histogram pp43, start(15) width(10) frequency normal
13
Manual de Stata
Ilustracin 6.18
5000 0 1000 Frequency 2000 3000 4000
20
40
60 Edad
80
100
El algoritmo utilizado por defecto es el de Epanechnikov, pero tambin emplea, siempre que se especifique en las opciones los siguientes: biweight, cosine, gaussian, parzen, rectangular y triangular.
14
Manual de Stata
objeto de que se aprecie el papel suavizador que tiene la estimacin de las frecuencias con el sistema proporcionado por el segundo.
graph twoway (histogram tmi) (kdensity tmi)
Ilustracin 6.19
.025 0 0 .005 Density/kdensity tmi .01 .015 .02
50 100 150 Tasa de mortalidad infantil /1000 1998/x Density kdensity tmi
200
En el histograma se aprecia cmo las alturas correspondientes a las tasas de mortalidad infantil del conjunto de pases representados se ven afectadas por la acumulacin de casos en una determinada categora (en este caso, especialmente la primera y la quinta barra. Ambas quedan suavizadas mediante la lnea que se genera con la ponderacin de Epanechnikov. En el siguiente grfico, en lugar de comparar la lnea de densidad con el histograma, se comparan tres distintas. La primera (lnea continua) est realizada con unos intervalos de longitud 5, pequeos por tanto, que generan una curva de frecuencias poco suavizada. La tercera y ltima (la punteada) est construida con intervalos de ancho 20 y, consecuentemente, posee un suavizado considerable. La intermedia (lnea discontinua) est hecha con la opcin por omisin, que se calcula automticamente con una compleja frmula que tiene en cuenta la varianza y el nmero de casos de la variable. Con estos datos, el resultado obtenido mediante programacin estaba en torno al valor 13. A travs del examen del grfico, se deduce claramente que se trata de un valor intermedio situado entre el primero y el ltimo.
Ilustracin 6.20
.02 0 0 .005 kdensity tmi .01 .015
50 Kdensity (5)
100 x Kdensity
200
15
Manual de Stata
As, para obtener la representacin de la variable edad, basta con escribir la siguiente instruccin.
graph box edad
Y el resultado muestra el mnimo en 18, el mximo en 98, una mediana prxima a 44, y cuartiles respectivos de 30 y 63 aos.
Ilustracin 6.21
100
El nmero solicitado de variables puede ser mayor que uno, en cuyo caso para cada una de ellas se dibuja una caja paralela, a fin de que se puedan comparar las distribuciones. Con las reservas propias del carcter ordinal de estas variables, se puede poner como ejemplo comparativo la atribucin ideolgica que hacen los encuestados a los partidos espaoles con representacin parlamentaria en el conjunto nacional:
graph box ideo01-ideo03
20
40
Edad 60
80
16
Manual de Stata
Ilustracin 6.22
10 0 2 4 6 8
iu psoe
pp
En este grfico se observa cmo el primer rectngulo, correspondiente a Izquierda Unida no tiene lnea mediana en el rectngulo, porque este estadstico coincide con el primer cuartil. La lnea inferior del rectngulo llega a 1 porque es el valor emprico inferior, pero la superior slo llega hasta el 4, porque al ser variable discreta no existe empricamente el supuesto mximo (45), esto es, el tercer cuartil (3) ms vez y media el rango intercuartlico (15). En cambio hay cuestionarios no se sabe cuntos por medio del grfico- que han recogido para esta variable valores desde el 5 hasta el 10. El rectngulo del medio, el correspondiente al PP, tiene un rango intercuartlico de dos puntos (entre el 6 y el 8) con mediana en el 7. Por eso la lnea de abajo alcanza hasta el 3, esto es 6 menos vez y media el rango, que tiene en este caso el valor de 2. Y la de arriba, llega hasta el mximo valor posible, es decir el 10, porque parte desde el valor 8 del tercer cuartil. En el siguiente ejemplo, en lugar de representar distintas variables, se dibuja una sola (la ubicacin en la escala ideolgica del PP, p1502), pero en tantos grupos como valores tenga una variable de control (el partido poltico al que se vot, Voto_2000). A dichos efectos, es preciso utilizar la opcin over(variable):
graph box p1502, over(Voto_2000)
17
Manual de Stata
Ilustracin 6.23
10 pp 0 2 4 6 8
PP
PSOE
IU
Otros
Blanco
NC
De la Ilustracin 6.23Ilustracin 6.24 se concluye que los que votaron a partidos distintos del PP, consideran a ste ms de derechas que los que lo votaron, los que lo hicieron en blanco, o que los que no contestaron a la pregunta. Y anlogamente puede representarse ms de una variable (en este caso, las valoraciones de las ideologas de dos partidos) por una o varias variables de control (en este ejemplo, el voto en las ltimas elecciones y el sexo):
graph box p4502 p4503, over(Voto_2000) over(sexo)
Ilustracin 6.24
10 0 PP PSOE IU OtrosBlanco NC 2 4 6 8
PP PSOE IU OtrosBlanco NC
hom bre
pp psoe
mujer
En este caso, puede deducirse tambin que quienes votaron a IU ven al PSOE ms a la derecha que el resto, y que entre hombres y mujeres hay escasas diferencias en la percepcin ideolgica de los partidos polticos mayoritarios.
18
Manual de Stata
programa considera bidimensional todo aquel grfico en el que los dos ejes o escalas (la X, o eje horizontal, y la Y, o eje vertical) son numricos. Segn esa definicin un histograma siempre es considerado bidimensional10, del mismo modo que ciertos grficos de barras y puntos, aunque propiamente sean unidimensionales, el programa los puede tratar como bidimensionales, siempre y cuando estn representndose variables cuantitativas (en un eje se representa el valor de sta variable y en el otro, segn sea el caso, su frecuencia o el valor en otra variable). Una caracterstica esencial y verstil de esta instruccin es la de poder combinar en el mismo grfico distintas representaciones, sean de la misma o de diferente modalidad. Basta para ello separar las rdenes de los distintos grficos por parntesis, como ya se hizo en la instruccin que gener la Ilustracin 6.19. En general, la instruccin para realizar grficos bidimensionales presenta la siguiente sintaxis:
graph twoway modalidad [lista_de_variables] [weight=variable] [if exp] [in rango], [opciones_comunes] [opciones especficas]
Las modalidades de grficos bidimensionales posibles en la versin 8 de Stata pueden ser agrupadas en los siete siguientes grupos: nubes de puntos, grficos de lneas, grficos de rea, grficos de ajuste, grficos de funcin, grficos de barra y grficos de rangos. Vanse a continuacin las caractersticas e instrucciones de cada uno de ellos.
A pesar de eso, en este captulo la modalidad del histograma ha sido considerada entre los grficos unidimensionales. La orden que se explic fue histogram. Pero de ahora en adelante, es conveniente saber que sta es una abreviatura de graph twoway histogram. Esto es importante porque este tipo de grficos puede mezclarse con otros de naturaleza propiamente bidimensional.
10
19
Manual de Stata
una nube de puntos que relaciona dos variables de naturaleza cuantitativa. As, con la base de datos mundial, se puede representar la relacin existente entre el producto nacional bruto y la esperanza de vida al nacer por pases. Basta con escribir estas tres palabras:
scatter evn pnbppa
10000
40000
Como la principal utilidad de las nubes de puntos es estudiar la relacin y asociacin entre variables cuantitativas, mediante un examen de la distribucin de los casos en el grfico puede observarse si dos variables poseen relacin, es decir, si son dependientes o independientes una de otra; o dicho con otras palabras, si a valores altos de una de ellas le corresponden o no valores altos (o bajos) de la otra. Puede haber muy distintos tipos de asociaciones. En la Ilustracin 6.26 se exponen cuatro modelos diferentes y reales de asociacin entre variables. En primer lugar, se expone la relacin entre el producto nacional bruto (PNB) y la tasa de inflacin. Como puede apreciarse la mayor parte de los pases se concentran entre el 0 y el 10%. Slo unos pocos, pero todos en la franja de renta baja, estn por encima o por debajo de estos topes. La distribucin bivariable es muy distinta en el grfico superior derecho. En ste se relaciona el PNB con las lneas telefnicas por mil habitantes y puede verse claramente cmo a valores bajos de la primera variable le corresponden valores tambin pequeos de la segunda, mientras que los pases de alta renta tienen en contrapartida tasas de lneas telefnicas elevadas. En este caso se est ante una asociacin lineal positiva puesto que los puntos siguen una pauta recta ascendente. En el tercer grfico sucede lo contrario. La pauta sigue siendo una lnea recta, pero los valores bajos de le tasa de mortalidad infantil estn asociados lgicamente con valores altos de esperanza de vida al nacer y, a medida que va aumentando esta tasa, va disminuyendo la altura en el eje vertical en la que estn situados los pases que tienen esperanza de vida menor. En esta situacin tambin existe una asociacin lineal, pero negativa. Finalmente, el grfico inferior derecho muestra una asociacin particular en la medida en que fcilmente se aprecia que no es lineal, sino curvilnea. Tambin ocurre que las altas esperanzas de vida al nacer se encuentran en pases con alta renta y las bajas en los de bajo PNB, pero se aprecia que entre los de bajo nivel econmico un ligero ascenso del producto produce
20
Manual de Stata
un considerable aumento de la esperanza de vida, mientras que, entre los pases de alto nivel econmico, el enriquecimiento en similares cuantas conlleva muchos menores progresos en el nmero de aos que la gente vive.
Ilustracin 6.26
E speranza de vida al nacer 1998 Tasa m edia de crecim ient o anual 1998-1999 40 50 60 70 80 -40 -20 0 20 Lineas t elef onicas (x 1000 hbs) 1998 0 200 400 600 800
40000
40000
200
40000
En el caso de las representaciones de variables discretas, la instruccin scatter cuenta con una opcin (jitter(#)), que aade una perturbacin aleatoria a cada punto tanto ms amplia cuanto mayor sea el nmero indicado entre parntesis, con objeto de que no se superpongan todos los puntos en el mismo lugar, siendo imposible juzgar la cuanta de los casos acumulados. En la Ilustracin 6.27, se muestran sendas nubes de puntos del cruce de la percepcin de la ideloga (en una escala del 1 al 10) de Izquierda Unida con el sexo (con valores discretos arbitrarios 1 para hombres y 2 para mujeres). En la de la izquierda, parece como si tan slo se prepresentaran 19 casos slo falta hombres que hayan dado el valor 9 a la ideologa de Izquierda Unida; en cambio, en la de la derechas, se ve que la mayor concentracin de casos se encuentra, tanto para hombres como para mujeres, en los tres valores ms bajos, correspondientes lgicamente a la izquierda. Para producir los grficos mencionados, las respectivas instrucciones han sido: scatter ideo01 sexo scatter ideo01 sexo, jitter(10)
21
Manual de Stata
Ilustracin 6.27
10 10 iu 4 2 0 1 1.2 1.4 sexo 1.6 1.8 2 0 1 2 4 6 8
iu
1.2
1.4 sexo
1.6
1.8
Cuando se dispone de una variable dependiente y un conjunto de variables independientes, lo ms adecuado es ubicar la primera al final de la lista. De este modo en la ltima fila de la matriz de grficos se dispone del conjunto de cruces de las
Paradjicamente, aunque represente relaciones bivariadas entre variables, este grfico no es tratado como bidimensional por Stata. La razn es sencilla, por su propia naturaleza de inclusin de mltiples graficos bivariados no puede incrustarse con otros grficos sencillos. Operativamente, la instruccin graph twoway slo es aplicable a grficos que puedan integrarse entre ellos. Sin embargo, este tipo de grfico se incluye en este apartado por su alta similitud de contenido y uso con los grficos de dispersin.
11
22
Manual de Stata
variables independientes (ubicadas en el eje horizontal de abscisas) con la variable dependiente (situada en el de eje vertical). La opcin half, utilizada en el reciente ejemplo, sirve para que slo se reproduzcan los grficos de la parte inferior de la matriz, pues el resto es redundante. Tambin se puede utilizar la opcin jitter(#), con la misma utilidad que en los grficos bidimensionales, adems de todas las opciones de ttulo, control de las caractersticas de los ejes y de los elementos, en este caso de los puntos.
Como puede apreciarse las diferencias entre ambas est en la presencia o ausencia de puntos representado a los casos:
Ilustracin 6.29
80 80 0 50 100 150 Tas a de mortalidad infantil /1000 1998 200 40 0 E s peranza de vida al nacer 1998 50 60 70
40
200
23
Manual de Stata
eje horizontal. Son idneos cuando se quiere representar frecuencias o tambin cuando se representan cantidades, puesto que proporcionan al lector una considerable sensacin de volumen. Adems de la opcin sort, siempre recomendable en este tipo de grficos, tiene otras dos importantes: La primera es horizontal, que permite cambiar la orientacin del grfico, poniendo en el eje vertical la segunda variable (la independiente) y en el eje horizontal la primera (la dependiente). La segunda es base(#), que permite indicarle al grfico el punto de arranque del rea. Como ejemplo de uso, se utiliza los mismos datos de los grficos de lnea para que se aprecien sus semejanzas.
graph twoway area evn tmi, sort
40
0
200
24
Manual de Stata
a la regresin) es el de mnimos cuadrados, esto es, se traza la recta cuya distancia cuadrtica respecto a los puntos empricos reales sea mnima.12 A pesar de la aparente complicacin del proceso de ajuste de la recta, mediante el programa grfico de Stata, el trazado de esta lnea es extremadamente simple. Basta con pedir un grfico bidimensional con la modalidad lfit y aportar las variables que han de ubicarse respectivamente en el eje vertical y horizontal. As escribiendo la siguiente instruccin:
graph twoway lfit evn tmi
En lugar de dibujarse los puntos empricos, se traza la lnea que mejor ajusta la distancia cuadrtica de stos a la recta. Es preciso notar que en el eje vertical aparecen los valores ajustados de la esperanza de vida al nacer, en lugar de la variable propiamente dicha.
Ilustracin 6.31
80
30
0
40
Fitted values 60 50
70
200
Mucho ms til que dibujar slo la recta ajustada es representar junto con ella los puntos que representan los valores medidos de ambas variables. Como se ha dicho al inicio de los grfico bidimensionales, la instruccin graph twoway posee la facultad de dibujar en los mismos ejes varios grficos al mismo tiempo con una gran facilidad; basta con expresar los distintos grficos entre parntesis, o separarlos por dos lneas verticales (||). Por ello, las dos siguientes instrucciones dan el mismo resultado:
graph twoway (lfit evn tmi) (scatter evn tmi) graph twoway lfit evn tmi || scatter evn tmi
12
25
Manual de Stata
De esta forma, adems de los puntos que representan cada uno de los casos empricos de los que se disponen datos, aparece la lnea recta que mejor ajusta los valores empricos de la tasa de mortalidad infantil y la esperanza de vida al nacer:
Ilustracin 6.32
Fitted values/Esperanza de vida al nacer 1998 80 70 60 50 40 30
0
200
Adems del ajuste lineal, la opcin grfica de Stata permite otros ajustes inmediatos. El cuadrtico (qfit) y el polinmico (fpfit)13, por un lado, son ajustes en ltima instancia lineales. El ajuste lowess es un suavizado basado en regresiones ponderadas localmente de los valores yi. Los ajustes mband y mspline dividen la distribucin de la variable independiente en distintos sectores (bandas) y, a travs de la mediana en cada una de ellas construye un ajuste no suavizado, como en el primer caso; o suavizado, como en el segundo. Mediante las cuatro instrucciones siguientes posteriormente combinadas se obtienen los cuatro grficos de la prxima figura, donde pueden comprobarse las diferentes caractersticas de los ajustes expuestos en sus respectivos ttulos:
twoway (qfit evn pnbppa) (scatter evn pnbppa), title(Ajuste qfit) twoway (fpfit evn pnbppa) (scatter evn pnbppa), title(Ajuste fpfit) twoway (lowess evn pnbppa) (scatter evn pnbppa), title(Ajuste lowess) twoway (mspline evn pnbppa) (scatter evn pnbppa), title(Ajuste mspline)
Este ajuste implica la realizacin de una regresin fraccional polinmica en la que el programa busca las mejores potencias sobre la variable independientes para que ajuste los valores de la variable dependiente. Vase para ms detalle la instruccin fracpoly en el manual de Stata (Vol. 1, p.399).
13
26
Manual de Stata
Ilustracin 6.33
Ajuste qfit
predicted evn/EVN 40 50 60 70 80 Fitted values/EVN 40 50 60 70 80
Ajuste fpfit
10000 20000 30000 PNB por unidad de compra Fitted values EVN
40000
10000 20000 30000 PNB por unidad de compra predicted evn EVN
40000
10000 20000 30000 PNB por unidad de compra Median spline EVN
40000
Ajuste mspline
Median spline/EVN 40 50 60 70 80
Ajuste lowess
10000 20000 30000 PNB por unidad de compra lowess evn pnbppa
40000 EVN
La expresin var_dep=f(x)14 es la que representa a la funcin que se quiere representar. As, si se desea dibujar una recta con parmetros a=2 y b=.5, la instruccin siguiente genera la lnea deseada.
graph twoway function y=2+.5*x
En este caso x representa la variable que va a fluctuar un nmero determinado de veces (300 por omisin) en un rango dado (entre 0 y 1, si nada se especifia)
14
27
Manual de Stata
El grfico muestra el valor en la variable y al aplicar la expresin tras el igual a 300 valores comprendidos entre el 0 y el 1.
Ilustracin 6.34
2.5 y 2 0 2.1 2.2 2.3 2.4
.2
.4 x
.6
.8
El usuario, a travs de las opciones puede controlar tanto el nmero de estimaciones de la funcin, como el rango de la variable x. As, si se desea representar la funcin de probabilidad de la normal slo a travs de nueve valores, la instruccin necesaria es la que se expone a continuacin:
graph twoway function y=normden(x), range(-2.5 2.5) n(9)
Ilustracin 6.35
.4 0 .1 z .2 .3
-2
0 x
Como puede apreciarse, la curva normal pierde su apariencia de campana curvada por tener tan pocos puntos de referencia:
28
Manual de Stata
Las cuatro modalidades consideradas semejantes en este apartado son: barras (bar), en el caso de que lo que una al punto sea una columna; lneas con o sin puntos (dropline o spikes), cuando en lugar de una columna se une el punto representado con los ejes mediante una lnea recta y puntos guiados, y puntos (dots), en el caso que se quiera que quede como gua todo el eje vertical (incluido el espacio superior al punto). Un mismo ejemplo al que se le aplican las cuatro modalidades muestra la similitud de todos estos tipos de grficos.
Ilustracin 6.36
Grfico de barras
Grficos de puntos
En estas cuatro representaciones de ms de 200 pases aparece la variable extensin territorial en el eje horizontal y la altura de los puntos, lneas o barras indican el tamao de sus respectivas poblaciones. Como en el fondo son iguales, en todos ellos destacan del resto los siete pases mayores del planeta. En sentido decreciente son Rusia, Estados Unidos, China, Canad, Brasil, Australia y la India. ste ltimo tiene una poblacin aproximada de 1.000 millones de habitantes slo superados por los 1.250 de China. Los cinco restantes pases de gran extensin tienen una poblacin mucho ms reducida, por debajo de los 300 millones de habitantes. Y, entre los pases pequeos, destaca Indonesia por su poblacin por encima de lo 200 millones de habitantes. Para que el lector vea claro el comentario anterior y su representacin, se expone a continuacin los datos de los pases con ms de 5 millones de km2 de superficie, o con ms de 200 millones de habitantes:
sortg supkm2 list pais pob supkm2
29
Manual de Stata
Ilustracin 6.37
+-----------------------------------+ | pais pob supkm2 | |-----------------------------------| | Rusia 146.9 17075400 | | Estados Unidos 273 9363123 | | China 1250 9326400 | | Canada 30.6 9221000 | | Brasil 168 8456500 | |-----------------------------------| | Australia 18.8 7682300 | | India 998 3287590 | | Indonesia 207 1904569 | +-----------------------------------+
1. 2. 3. 4. 5. 6. 7. 16.
Una de las opciones especficas de estos cuatro subtipos de grficos es la de invertir la orientacin de la representacin y poner horizontalmente el sentido de las lneas o de los puntos que conectan el eje de las marcas de cada caso.
graph twoway dot pob supkm2, horizontal
1500
Es interesante resaltar que la variable nombrada en segundo lugar (la extensin) pasa al eje vertical, y consecuentemente la poblacin cambia al horizontal. Est opcin slo produce un giro de 90 grados en la representacin, pero las rejillas siguen siendo horizontales, guiando en este caso la variable extensin del pas. Si se quisiera levantar los puntos desde la variable poblacin, bastara con ponerla en la instruccin en segundo lugar, a continuacin de la primera variable, es decir, de supkm2, sin indicar la opcin horizontal.
30
Manual de Stata
conectadas, pero paralelas entre s, insertando o no los puntos que representan los diversos casos (rconnected y rline). La sintaxis de este tipo de grficos comienza con la orden graph twoway, despus contina con la modalidad de grfico deseada y seguidamente ha de ponerse en primer lugar las dos variables representadas en el eje vertical y, a continuacin, la variable independiente, es decir la del eje horizontal. El orden de las dos primeras es irrelevante puesto que mediante la barra o el rea se representa la distancia absoluta entre los dos valores. A continuacin se presenta para mostrar las distintas modalidades de representacin de los grficos de rango cuatro modelos distintos de ellos obtenidos con las siguientes instrucciones:
graph graph graph graph twoway rbar lintfno pcx1000 pnbppa twoway rcap lintfno pcx1000 pnbppa twoway rarea lintfno pcx1000 pnbppa, sort twoway rline lintfno pcx1000 pnbppa, sort
10000
20000 pnbppa
30000
40000
10000
20000 pnbppa
30000
40000
10000
20000 pnbppa
30000
40000
10000
20000 pnbppa
30000
40000
Las variables que definen el rango son el nmero de lneas telefnicas (mximo) y el nmero de ordenadores personales (mnimo) por mil habitantes. La variable independiente es el producto nacional bruto per cpita. Los grficos muestran bajo diversas formas cmo los dos indicadores de desarrollo tecnolgico crecen a medida que lo hace el PNB per cpita y dejan entrever que donde ms divergencias se da entre
31
Manual de Stata
telfonos y ordenadores es en algunos pases con producto nacional bruto per cpita medio. Tambin podran clasificarse en esta categora aquellos grficos que ajustan datos y dan un determinado rango de ocurrencia. Se corresponden con los grficos lfit, qfit y fpfit, es decir, ajustes lineales, cuadrticos y polinmicos fraccionales; pero, en lugar de aportar una sola curva, muestran dos correspondientes a la probabilidad sealada. En estos casos, la modalidad del grfico se indica con las palabras claves lfitci, qfitci y fpfitci. Adems, en este tipo de grfico son importantes las opciones level(#), donde se indica el porcentaje de confianza deseado para la representacin y stdf, en el caso de que se desee contar con el error tpico del pronstico, en lugar del de la prediccin15, o la opcin stdr, si se desea utilizar para el clculo de los intervalos el error tpico de los residuales. Un par de ejemplos con las opciones por omisin muestran dos grficos con los intervalos basados en el error tpico de la prediccin y un 95% de confianza, salvo en el caso de que se modifique este parmetro con la instruccin set level.
graph twoway (qfitci evn pnbppa) (scatter evn pnbppa) graph twoway (fpfitci evn pnbppa) (scatter evn pnbppa)
Ilustracin 6.40
15
32
Manual de Stata
toda una serie de posibilidades que tiene este programa con el objeto de tratar, guardar, recuperar, imprimir y trasladar los grficos producidos. En primer lugar, por su facilidad e inmediatez, hay que mencionar la posibilidad de copiar el grfico a otra aplicacin lo ms comn es que se haga a un procesador de textos. Esta tarea slo requiere colocar el cursor encima del grfico, pulsar el botn derecho y a continuacin aparece un men textual en el que la primera opcin es Copy Graph. Con ella el grfico se guarda en el portapapeles de Windows. Por ello, si se cambia de programa, con slo darle la instruccin Pegar, se reproduce la ilustracin acabada de copiar. Otro modo de hacer lo mismo, con mayor estabilidad, pero menor rapidez, consiste en grabar el grfico en un fichero. Para ello, bien se pulsa la opcin Save Graph que aparece en el men textual del grfico, obtenido al pulsar el botn derecho sobre l, bien se escribe justo despus de realizado un grfico la instruccin graph export nombre_de _fichero.ext que realiza la misma operacin, pero mediante una lnea de instruccin, en lugar de con men16. Una vez grabado el grfico en un fichero, se puede recuperar desde cualquier programa que permita la incorporacin de ficheros en los siguientes formatos grficos: printer network graphic, post-script o windows metafile. Sobre todo cuando se trabaja con ficheros de secuencias de instrucciones, pero tambin en el resto de ocasiones, si se trabaja con distintos grficos, es conveniente ponerles un nombre. Por omisin, todo grfico que se presenta en la correspondiente pantalla propia, recibe el nombre de Graph. Si se realiza un segundo grfico, sin ponerle nombre, tambin recibe el mismo nombre, ocupando la posicin de la memoria que detentaba el anterior. Por ello, si se acta de esta forma, se pierde para siempre el primer grfico, a menos que haya sido grabado en un fichero. Al darle un nombre distinto, el anterior queda en memoria interna del ordenador y quedar ah hasta que se haga otro grfico con el mismo nombre, o hasta que el usuario salga del programa. Para poner un nombre distinto y as evitar que desaparezca de la memoria interna el grfico anterior, hay que incluir en el grfico la opcin name(nombre). Y para saber en un determinado momento los grficos que estn disponibles en la memoria interna ha de escribirse la siguiente instruccin:
Poner extensin al nombre del fichero es el modo ms cmodo de indicarle el formato con el que se desea grabar el grfico. En la versin de windows de Stata, los formatos posibles son postscript (.ps), postscript encapsulado (.eps), metafile (.mf), metafile mejorado (.emf) y network portable (png). El autor recomienda este ltimo formato pues con l se reproduce con mayor fidelidad el grfico, en el caso de importarlo con cualquier otro programa.
16
33
graph dir
Manual de Stata
En el siguiente ejemplo, correspondiente a la Ilustracin 6.40, se da sendos nombres a los dos grficos correspondientes a los ajustes cuadrtico y polinmico de la esperanza de vida al nacer con el producto nacional bruto per cpita. La penltima instruccin sirve para mostrar los ficheros residentes en la memoria, y con la ltima se puede representar el primer grfico, aun a pesar de que fuera temporalmente sustituido por el segundo.
graph twoway (qfitci evn tmi) (scatter evn tmi), name(cuadratico) graph twoway (fpfitci evn pnbppa) (scatter evn pnbppa), name(polinomico) graph dir graph display cuadratico
Una de las utilidades ms manifiestas de poder disponer varios grficos en la memoria es la combinacin de ellos en uno solo mediante la instruccin graph combine, que posee entre otras las opciones rows(#) y cols(#), que permiten controlar el nmero de filas y columnas que tendr la composicin. En el caso anterior, basta con poner la instruccin compuesta seguida por los correspondientes ttulos de los grficos.
graph combine cuadratico polinomico
Otra operacin til con los grficos es la de grabarlos en la memoria externa, generalmente en el disco duro, con objeto de que quede permanentemente a disposicin del usuario, incluso despus de acabada una sesin de trabajo con Stata. Es muy similar a la operacin export, con la diferencia de que se graba en un modo especfico de este programa y no puede ser incorporado a ningn procesador de textos, por ejemplo, ni a ningn otro programa, como uno de presentaciones. Estos ficheros slo pueden ser utilizados por Stata, para combinarlos con otros grficos, para imprimirlos, o tambin para exportarlos a otro formato que permita el intercambio a otras utilidades. Hay dos modos de grabar un grfico en un fichero. La primera es al mismo tiempo que se crea: utilizando la opcin ,saving(nombre_del_fichero), se graba en el fichero mencionado, al tiempo que se representa en la pantalla. La segunda es despus de que se ha ejecutado y visto el grfico, mediante una nueva instruccin, que tiene la siguiente estructura:
graph save nombre del fichero
Esta instruccin tiene dos opciones: ,replace permite sobrescribir un fichero sin que aparezca un mensaje de error y ,asis graba de tal forma el grfico que no puede alterarse su presentacin posteriormente. Una vez grabado un fichero puede volverse a usar por Stata utilizando la siguiente instruccin:
graph use nombre_del_fichero
34
Manual de Stata
E incluso tambin puede recuperarse en compaa de otros a travs de la ya referida instruccin graph combine, en la que pueden usarse tanto el nombre interno del grfico, siempre que ya est cargado, como el nombre externo, siempre que est presente en el formato Stata de grfico. O dicho de otra manera, es preciso insistir en que los grficos exportados, no pueden volverse a recuperar. Slo son recuperables los ficheros grabados en el formato propio del programa.
6.3.1 Esquemas
En el apartado 6.3 de este captulo se ha visto una gran cantidad de opciones que pueden controlarse en los grficos. A pesar de haber visto un nmero elevado de ellas, no se han contemplado todas, ya que la rutina grfica del Stata es de tal calibre que permite cambiar el mnimo detalle de un grfico. Dada la complejidad de estas opciones y subopciones, esta herramienta estadstica ha buscado simplificar al usuario la produccin de grficos a travs de los esquemas. Los esquemas son conjuntos de opciones con los que los grficos son representados en la pantalla. Ejemplo de las especificaciones que puede contener un esquema son el tipo y tamao de letra, los colores de fondo y de los cuadros, los sucesivos colores que incorporan los elementos (sectores, barras, lneas, ) de los distintos tipos de grficos, el grosor y la textura de las lneas, la presencia y en su caso la forma- o ausencia de marcas, ejes rejillas, etc. Por omisin, Stata trabaja con uno de la docena de esquemas que tiene disponibles17. Para saber los nombres disponibles y cul est activo en un determinado momento se emplean respectivamente las siguientes dos instrucciones:
graph query, schemes query graphics
El resultado de ella puede variar de ordenador a ordenador, segn los esquemas en l incorporados a travs de internet o de la propia construccin. Un ejemplo de listado es el siguiente:
El usuario pude importar nuevos esquemas por Internet y con un poco de destreza incluso puede construir nuevos esquemas a partir de los existentes, que residen en los directorios de los ficheros .ado.
17
35
Manual de Stata
Ilustracin 6.41
Available schemes are economist see s1color see s1manual see s1mono see s1rcolor see s2color see s2colorg see s2manual see s2mono see sj see Graphics settings set graphics set scheme set printcolor set copycolor help help help help help help help help help help scheme_economist scheme_s1color scheme_s1manual scheme_s1mono scheme_s1rcolor scheme_s2color scheme_s2colorg scheme_s2manual scheme_s2mono scheme_sj
on sj automatic automatic
may be automatic, asis, gs1, gs2, gs3 may be automatic, asis, gs1, gs2, gs3
En la primera parte de este recuadro aparecen todos los esquemas disponibles en la mquina. En la segunda parte, se expresa que el esquema puesto por defecto (set scheme) es el sj, que corresponde a los que se han empleado hasta el momento, que es el utilizado en las publicaciones del Stata Journal. Como puede apreciarse, ademas de ste y del propio del semanario The Economist, aparecen dos esquemas en blanco y negro (s1mono y s2mono), dos estilos en color (s1color y s2color) y dos estilos manuales (s1manual y s2manual). Para cambiar el esquema del prximo grfico hay que introducir la instruccin set scheme nombre_del estilo. Hacindolo as, el grfico de la Ilustracin 6.61, se convierte en este otro con el esquema de The Economist:
Ilustracin 6.42
Partidos
PP PSOE IU 10 8
6 4 2 0
36
Manual de Stata
generar una nueva con el peso de cada caso, que es la que aparece en el eje de frecuencias, mientras que la que genera los distintos valores de la variable aparece bajo la opcin over. Un ejemplo con un grfico de barras del sexo mostrado a travs de los diversos mens ayudar a realizar la representacin de las variables cualitativas. Para no complicar excesivamente el ejemplo, se recurre a la modalidad de grficos simples (Graphics/Easy Graphs/Bar charts). Una vez que se han seleccionado desde el men estas tres opciones, aparece un cuadro de dilogo con seis pestaas (main, para exponer la variables del grfico y su tratamiento; over, para incluir las variables que marcan los distintos segmentos del grfico; if/in, para seleccionar los casos que se desean exponer en el grfico; titles, para poner ttulos, subtitulos, aclaraciones y notas adicionales al grfico; yaxis, para manejar la apariencia de la escala vertical, y options para propsitos diversos. De ellas las dos primeras son las ms importantes para el grfico deseado y han de ser dispuestas del modo siguiente:
Ilustracin 6.43
En el cuadro de dilogo de la de la izquierda aparece en Statistic la modalidad sums (count nomissing, en el caso de que se desee frecuencias absolutas y no relativas) y en Varable(s), se ha insertado la variable instrumental que se crea a fin de que aparezcan porcentajes o proporciones en lugar de sumas (vase el apartado 6.1.2). En el de la derecha, en la ventana de las variables de cruce, es donde aparece la verdadera variable de la que se desea la representacin. El nombre que posee la variable en el fichero es el que aparece en la primera ventanilla y en el momento de la instruccin puede drsele una nueva etiqueta en la casilla relabel. Con estas dos instrucciones bastara para confeccionar el grfico deseado. No obstante puede ser mejorado slo con dos detalles. En primer lugar, dando un ttulo distinto al eje vertical que representa en este caso a los porcentajes. Esto se logra
37
Manual de Stata
especificndolo en la casilla title de la penltima pestaa. Y, en segundo lugar, haciendo que el programa trate a la variable de cruce, como variable principal. Para ello, en la ltima pestaa, puede marcarse la casilla Treat first over() group as Y-variables. De este modo, cada barra, que representa cada uno de los valores de la variable, ser dibujada con un color o tonalidad diferente.
Ilustracin 6.44
38
Manual de Stata
Ejes: Son escalas donde se ubican los valores o las frecuencias de las variables representadas. En teora puede haber grficos sin ejes, como los de sectores, y los puede haber hasta con nueve; pero lo ms frecuente es que un grfico slo tenga uno o dos. En los mismos ejes se ubican las marcas y las cuadrculas. Las primeras son pequeos signos, generalmente perpendiculares al eje, que especifican donde se encuentra un determinado valor. Las cuadrculas, en cambio, son lneas que tienen su origen en un determinado eje y llegan hasta el otro extremo del grfico con el fin de poder ubicar la posicin de un determinado elemento dentro del conjunto. Elementos: Son cada uno de los componentes esenciales de un grfico, que representan sea un caso o un grupo de casos, sea un valor o conjunto de valores. Son elementos, por ejemplo, los sectores de un grfico circular, los rectngulos que forman un diagrama de barras, los puntos de una nube de puntos o las lneas que representan una regresin. En general, aun teniendo en cuenta las excepciones de las distintas variedades, los elementos pueden diferenciarse de cuatro maneras distintas. En primer lugar, por la forma. De este modo, para distinguir distintos tipos de casos, puede utilizarse un crculo, un cuadrado o cualquier otra forma similar, segn se quieran expresar los de una clase u otra. En segundo lugar, por el tamao tambin se pueden diferenciar unos elementos de otros, aunque en la mayor parte de los grficos el tamao suele emplearse para distinguir la frecuencia de unos determinados casos o valores. En tercer lugar, por la posicin, pues en muchas ocasiones un valor no est representado por el tamao del elemento, sino por lo cercano o alejado que est del punto de origen de una escala. En cuarto lugar, los grficos pueden utilizar el color para diferenciar los elementos. As un valor puede quedar representado con un color y el resto de valores con otros. Y finalmente, de modo alternativo o complementario al color, se pueden utilizar distintas tramas al dibujar cualquier elemento, como por ejemplo lneas continuas, discontinuas o punteadas, o barras con superficies lisas, rayadas o punteadas. Leyendas: Son el repertorio de smbolos que se utilizan en un grfico, junto al significado que stos poseen. Sirven para descifrar el significado de las formas, colores o tramas que se emplean para la representacin de los datos y son voluntarias aunque altamente recomendables.
6.4.1 Ttulos
Para ser entendido sin necesidad de aclaraciones adicionales todo grfico necesita llevar un conjunto de textos que aclaren al lector qu es lo que est viendo. Entre stos, destacan por ser del conjunto del grfico los ttulos, los subttulos (captions) y las notas. En la instruccin graph de Stata se ponen los textos y, en consecuencia, los ttulos, a travs de opciones. Las ms comunes y utilizadas son title, subtitle, caption y note. Un ejemplo con todas, nos muestra donde se ubican por omisin cada una de ellas. Tambin cabe destacar cmo un determinado ttulo puede tener varias lneas siempre y cuando cada una de ellas aparezca encerrada entre comillas.
39
Manual de Stata
graph pie, over(pp42) title(Grfico 1 Sexo) subtitle(Encuesta 2000) caption(Fuente CIS. 2000. Estudio 2384) note(Elaboracin propia) El grfico resultante de la instruccin anterior es el siguiente:
Ilustracin 6.45
Grfico 1 Sexo
Encuesta postel ectoral 2000
hombre
Elaboracin propia
mujer
A los ttulos se les puede cambiar su apariencia mediante subopciones. Las ms importantes son el tamao de la letra, el color, la alineacin, la posicin. Las palabras claves para indicarlas son respectivamente size, color, aligment y position.
En cada una de ellas, se ha de especificar un valor numrico o textual. As, por ejemplo, en el tamao, hay que indicarle un valor size(#) relativo al tamao del grfico, o un factor multiplicador en relacin al tamao de la letra por omisin(*#). Pero tambin se pude ubicar dentro del parntesis una palabra clave indicativa del tamao deseado (tiny, small, medium, large, huge). En el caso del color, las opciones han de especificarse en ingls o en formato RGB formado por tres nmeros que indican en una escala de 0 a 255 la cantidad de rojo, verde y azul que contiene el color deseado. En el alineamiento, las palabras claves que se pueden utilizar son (left, center y right). Y en la posicin, se puede indicar un nmero del 1 al 12, que representan las posiciones de los nmeros en la esfera de un reloj tradicional. Es evidente que a cada texto, tras la especificacin del contenido, seguido de coma, se le puede indicar tantas subopciones como se desee. Un ejemplo, lo dir mejor que un conjunto de palabras:
graph pie, over(pp42) title(Grfico 1 Sexo, position(11) justification(left)) subtitle(Encuesta postelectoral 2000, position(11) size(small)) caption(Fuente CIS. 2000. Estudio 2384, size(*.8)) note(Elaboracin propia, size(4))
40
Manual de Stata
Ilustracin 6.46
Grfico 1 Sexo
Encuesta postelectoral 2000
hombre
mujer
Elaboracin propia
Fuente CIS. 2000. Estudi o 2384
6.4.2 Ejes
Los ejes son escalas donde se ubican los valores o las frecuencias de las variables representadas. No todos los grficos tienen el mismo nmero de ejes. As, un grfico de sectores no los posee, pues las frecuencias quedan representadas proporcionalmente por cada uno de los sectores del crculo. Una nube de puntos posee claramente dos ejes, uno para cada variable. Paradjicamente, un histograma dispone de dos ejes: uno correspondiente a los valores de la variable y otro a sus frecuencias absolutas o relativas. Por su parte, el grfico de caja slo dispone de uno, donde se representan los valores de la variable que se desea representar. Ha de quedar claro, pues, que adems del nmero de ejes que pueda tener un grfico, en unos se representan valores, que a su vez pueden ser cuantitativos o cualitativos, y en otros se representan frecuencias. Los que se refieren a las frecuencias o a las variables dependientes son conocidos como eje y, mientras que los que afectan a valores o a variables independientes son denominados como eje x. Dentro de los ejes pueden a su vez distinguirse otra serie de componentes. Entre ellos, los ms importantes son el ttulo, la escala, las etiquetas, las marcas y las guas. Empezando por el ttulo, ha de decirse que, aunque el ordenador titule por defecto los ejes, se pueden cambiar o hacer que desaparezcan. Para ello, se emplea la opcin y|xtitle. En el siguiente ejemplo, se utiliza sta slo en el eje x, pues al tratarse de un grfico de barras slo cuenta con una dimensin. Sin embargo, aunque slo tenga una, si se desea poner un ttulo al eje vertical, puede utilizarse la opcin b1title (o l1title si se pide un grfico de barras horizontales18). De este modo, aadiendo dos opciones (ytitle y l1title) al grfico de la Ilustracin 6.12, sus ejes quedan titulados.
graph hbar (sum) casos, over(Voto_2000) asyvar title(Voto en ltimas elecciones (2000))
18
41
Manual de Stata
ytitle(Porcentaje) l1title(Partido poltico)
Ilustracin 6.47
Voto en ltimas elecciones (2000)
Partido poltico
0
10
20 Porcentaje PP IU Blanco
30 PSOE Otros NC
40
Las opciones de escala pueden aplicarse a los ejes de frecuencias o a los de valores cuantitativos. No son lgicamente vlidas ni en el grfico de sectores, ni en el eje X de los grficos de barras, puntos o cajas. Estas opciones determinan si la escala que va a dibujarse es normal, logartmica (no aplicable en el caso de frecuencias) o invertida, el rango con el que se traza, la colocacin y la apariencia de la lnea que la representa. Las posibilidades de escala han de especificarse dentro de la opcin yscale() o de la de xscale(), segn se quiera cambiar una u otra. Las ms comunes son (log) para expresar la escala en trminos logartmicos, (reverse) para invertir la escala, (alt) para colocarla en el lado opuesto del grfico, (range(# #)) para dibujar un eje con rango mayor del que poseen los datos19 y (off) si se desea hacer desaparecer el eje. Un ejemplo de uso de la escala logartmica permite darse cuenta de que no cambian los valores originales de la variable. Lo nico que vara es la disposicin de la escala. En el ejemplo es de notar cmo la distancia entre los 20 y los 40 aos (la segunda edad dobla la primera) es idntica a la que existe entre los 40 y los 80.
graph box edad1, title(Grfico de caja) b1title(n=5.283) yscale(log) ytitle(Edad (Escala logartmica))
Esta opcin no puede acortar el rango de una variable. Slo sirve para extenederlo. Si se desea acotar el rango de valores que se exponen en un grfico, ha de emplearse la especificacin if. De este modo si se quisiera hacer un histograma con slo a los menores de 50 aos, habra que escribir la siguiente instruccin: histogram edad1 if edad1<50
19
42
Manual de Stata
Ilustracin 6.48
Grfico de caja
80 20 Edad (Escala logartmica) 40 60 100
n=5.283
Existen otros aspectos que pueden modificarse en los ejes. Los ms importantes de ellos son las marcas, las guas y sus correspondientes etiquetas. Las primeras son signos ubicados en el eje que indican dnde estn representados los valores o frecuencias de la variable del grfico. Lo comn es que las marcas estn colocadas en intervalos regulares del eje. No obstante, hay la posibilidad de distinguir dos tipos de marcas: las principales y las secundarias. Tanto las marcas como las etiquetas principales pueden ser controladas mediante la opcin y|xlabel(lista) segn se quieran modificar las del eje y o las del x. El contenido de la lista se ajusta a la sintaxis general del programa Stata. El formato ms til en este contexto es el de min(intervalo)max, esto es, hay que poner el valor mnimo de la escala, el mximo y entre ellos y entre parntesis cada cuantas unidades se desea que aparezca un valor etiquetado. Pero tambin puede expresarse un solo nmero precedido de #, en cuyo caso el programa pondr el nmero de etiquetas indicado en intervalos regulares. En este ejemplo de histograma se utilizan los dos sistemas: uno en el eje vertical de frecuencias (porcentajes) y otro en el eje horizontal de los valores de la variable:
histogram edad1, percent title(Histograma de edades) xtitle(Valores) ytitle(Porcentaje) ylabel(0(.5)5) xlabel(#8)
Ilustracin 6.49
Histograma de edades
Porcentaje 1 1.5 2 2.5 3 3.5 4 4.5 5
0
20
.5
30
40
50
60 Valores
70
80
90
43
Manual de Stata
Hay un tercer modo de referirse a las etiquetas, muy til, para cuando se quiere expresar el valor literal de stas. Se trata de poner el valor numrico seguido del texto que se desea sustituya a los dgitos. De este modo, en el caso de que se desee poner letra a los siete das de la semana en el eje X, habra que escribir las siguiente opcin: xlabel(1 L 2 M 3 X 4 J 5 V 6 S 7 D). Tambin pueden controlarse las etiquetas de las marcas menores. En este caso, las opciones que deben emplearse son y|xmlabel(lista). Adems en estas opciones puede expresarse en lugar de las otras la expresin ##X, donde X significa el nmero de divisiones que quieren realizarse entre dos marcas mayores. El mnimo nmero posible es 2, en cuyo caso se pondr una marca menor entre dos mayores. ste y los nmeros 5 y 10, en cuyos casos se pondran cuatro y nueve marcas respectivamente entre cada dos mayores, son los ms frecuentes de uso. Tanto y|xlabel como y|xmlabel, pueden contener subopciones que afectan a la suprensin (noticks) o apariencia (tlength(), tposition(), tlstyle(), tlwidth(), tlcolor() y tlpattern()) de las marcas, o cambian el formato (format(%fmt), alternate, labgap(), labstyle() labsize() y labcolor()) o ngulo (angle(#)) de las etiquetas. Adems, con las opciones de las etiquetas tambin pueden manejarse las guas internas del grfico (rejillas). Por defecto slo aparecen en las marcas (o etiquetas) mayores del eje Y del grfico. Pero no slo se pueden omitir stas (nogrid), sino tambin es posible incorporar las del eje X (grid). Adems, son alterables el color (glcolor()), el ancho (glwidth()) y el estilo (glpattern()) de la lnea. Todo ello ha de hacerse como una subopcin de y|xlabel o de y|xmlabel. Algunas de las ltimas posibilidades sealadas se emplean en el siguiente ejemplo grfico.
histogram edad1, ylabel(0(.01).03, angle(0)) ymlabel(##2, angle(0) grid glpattern(dash)) xlabel( 20(10)90) xmlabel(##2) title(Histograma de edades) xtitle(Valores) ytitle(Densidad)
Ilustracin 6.50
Histograma de edades
.03
.025
.02 Densidad
.015
.01
.005
0 20
25
30
35
40
4 5
50 60 Valores
55
65
70
75
80
85
90
44
Manual de Stata
Stata permite manejar las marcas de los ejes no slo a travs de la instruccin y|xlabel, sino tambin de modo directo, a travs de y|xtick o y|xmtick, con lo que se indica que se pongan marcas sin etiquetas en los ejes.
histogram edad1, ytick (0(.0025).03) ymtick(##2, grid glpattern(dash)) xmtick(##10) xlabel( 20(10)90) xmlabel(##2) xtitle(Valores) ytitle(Densidad) title(Histograma de edades)
El mismo grfico anterior con las opciones ymtick() y xmtick() aadidas da lugar a este otro:
Ilustracin 6.51
Histograma de edades
.03 Densidad 0 .01 .02
20
25
30
35
40
45
50
60 Valores
55
65
70
75
80
85
90
Es preciso notar que, aun no habiendo puesto la opcin ylabel, el grfico muestra etiquetas por omisin a las frecuencias relativas. Por ello, la funcin de ytick es la de multiplicar las marcas mayores. Por otro lado, tambin es curioso apreciar cmo la instruccin ymtick aade las marcas menores a la implcita ylabel, en lugar de hacerlo con la explcita opcin ytick.
6.4.3 Elementos
Se han definido los elementos como cada uno de los componentes esenciales de un grfico, que representan sea un caso o un grupo de casos, sea un valor o conjunto de valores. Estos componentes grficos traducen las propiedades numricas o las cualidades de las distribuciones que se desean representar con el tamao o la posicin, la mayora de ocasiones, pero en otras ocasiones con el color, la forma o la trama, estos elementos. Cada tipo de grfico suele utilizar un elemento peculiar para representar los datos. De este modo, los sectores son los elementos de un grfico circular; los rectngulos, los del diagrama de barras y los del histograma; los puntos, los del grfico de puntos y los del diagrama de dispersin; las lneas, los de los grficos de densidad, de funcin o de ajuste, y en el caso de los grficos de caja, los elementos son las cajas, la lnea mediana, la lnea de extensin y los puntos que representan a los casos extremos y desviados.
45
Manual de Stata
Por eso en este apartado, se presentar elemento por elemento para indicar cmo pueden configurarse cada uno de ellos.
6.4.4 Sectores
En el grfico de sectores cada segmento circular representa cada uno de los valores de una variable nominal y se dibuja con un rea proporcional a la frecuencia con la que el valor en cuestin aparece en la distribucin. La opcin dentro de la instruccin graph pie que controla estos elementos es pie(#, subopciones) y tiene como especificacin entre parntesis el nmero del sector al que se quiere cambiar y un par de subopciones posibles: el color (, color(value)) y la posicin respecto al centro (, explode). De este modo, si se desea que el primer sector se seccione y se dibuje en azul, habr que escribir la opcin pie con las siguientes subopciones.
graph pie, pie(1, color(blue) explode) over(sexo1) title(Sexo del entrevistado)
Hombre
Mujer
Otras importantes caractersticas que puede incorporarse a los sectores son sus respectivas etiquetas. Es mucho ms evidente que stas aparezcan dentro o cerca de los sectores, que en un recuadro aparte como es la leyenda del grfico como aparece en la base del grfico de la Figura anterior. Para que el programa ponga etiquetas a los sectores habr que utilizar la siguiente opcin: , plabel({_all|#} {name|percent|sum|Texto}, subopciones) Esta opcin contiene dos parmetros: en primer lugar, ha de especificarse si se quiere dar una instruccin general para todos los sectores (_all) o slo para uno en particular (#), representado por un nmero que empieza a contar por el sector que comienza a las 12 en una esfera de reloj. En segundo lugar, ha de expresarse una de tres palabras claves (name, si se desea la etiqueta del valor representado por el sector; percent, si se quiere que aparezca el porcentaje que representa el valor en el conjunto del crculo
46
Manual de Stata
represtnado; sum, si se opta por la frecuencia absoluta, en lugar de la relativa) o entre comillas el texto literal que se quiere que aparezca en cada sector. A continuacin, optativamente se pueden aadir subopciones para controlar el lugar y la forma con la que se plasmarn las etiquetas pertinentes. Las subopciones posibles ms relevantes son gap(#), para expresar la distancia al centro donde se desea que se escriba el texto; format(%formato) para que los nmeros aparezcan con el nmero de decimales o en la notacin cientfica deseada; size (tiny|small|medsmall| medium|large|huge) para indicar el tamao de los caracteres, y color(red|green|blue...) para manejar su color. A continuacin se expone un ejemplo donde aparecen en cada sector tanto las etiquetas de los valores, como sus correspondientes porcentajes, sin que se superpongan las unas sobre los otros.
graph pie, pie(1, explode) over(sexo1) title("Sexo del entrevistado") plabel(_all name, gap(-15) size(*1.5)) plabel(_all percent, gap(5))
52.32%
Mujer
Hom bre
47.68%
Hombre
Mujer
6.4.5 Barras
Los elementos del grfico de barras son las columnas y la apariencia de stas son controlables a travs de cuatro opciones: bar, bargap, outergap y blabel. La opcin bar, que permite manejar la apariencia particular de cada una de las barras, tiene la siguiente sintaxis general:
bar(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea) blpattern(pauta de la lnea))
Uno de los aspectos de las barras que puede ser modificado son las lneas exteriores que las dibujan. stas adems de poder controlarse como subopciones de una determinada barra, pueden modificarse directamente mediante las opciones
47
Manual de Stata
blcolor(color) y blwidth(tamao), en cuyo caso la especificacin afecta a todas las barras de un determinado grfico. La opcin bargap(#) determina la anchura con la que se dibujan las barras, sabiendo que el 0 equivale a barras unidas y los nmeros negativos montan las barras entre ellas. Complementariamente, la opcin outergrap(#) indica el porcentaje de espacio que dejan las barras en el extremo del grfico y, en este caso, el 25, indica que las barras ocupan todo el espacio del eje de representacin. Y, finalmente, la opcin blabel es particularmente til para poner etiquetas al conjunto de barras de un grfico. Los argumentos de esta opcin son none que es el que opera por omisin-, bar, para representar el porcentaje de una determinada barra, total, para indicar los porcentajes de las barras acumuladas, name, para poner como etiquetas las de las variables expuestas en la dimensin y, y group, para indicale que se pongan las etiquetas de la variables en la dimensin z, es decir, la expuesta en la primera opcin over().
graph hbar (sum) casos, bar(1, bcolor(blue)) bar(2, bcolor(red)) bar(3, bcolor(green)) bar(4, bcolor(brown)) bar(5, bcolor(gray)) bar(6, bcolor(yellow) blcolor(black) blwidth(thick)) bargap (-50) outergap(-25) blabel(bar, position(inside) format(%3.1f)) over(Voto_2000) asyvar title(Voto en ltimas elecciones (2000)) ytitle(Porcentaje) l1title(Partido poltico)
De este modo, se asignan distintos colores a las barras, abarcan todo el eje y se superponen entre ellas en un 50% de su tamao:
Ilustracin 6.54
Voto en ltimas elecciones (2000)
33.6
Partido poltico
10
20 Porcentaje PP IU Blanco
30 PSOE Otros NC
40
48
Manual de Stata
Hay grficos bidimensionales (los histogramas y los grficos de barras incluidos en twoway) que tambin usan barras, pero las manejan de manera algo distinta a los grficos unidimensionales. La principal diferencia es que en lugar de utilizar las opciones bar, outergap y bargap, se usan las siguientes: especficamente, barwitdh(#) para el ancho, en unidades de la variable X; genricamente, bcolor(color) para el color interno, y blcolor(color), blwith(anchura) y blpattern(modelo) para el color, anchura y modelo de las lneas con las que se dibujan las barras. Las obvias diferencias se ven an mucho mejor mediante un ejemplo de un grfico de barras de doble entrada:
graph twoway bar pob supkm2, bcolor(green) blcolor(black) barwidth(500000) blwidth(thick) title(Grfico de barras (Twoway)) xlabel(, format(%10.0f))
0 0
5000000
15000000
2000000
6.4.6 Puntos
Las principales caractersticas que pueden definirse de los puntos son la forma, el tamao y el color. Aunque son claves en los grficos bidimensionales, tambin aparecen entre los unidimensionales, en los llamados diagramas de puntos, que como ya se ha sealado son equivalentes a los diagramas de barras, pero sustituidas stas por unas marcas ubicadas en lneas. Segn el tipo de grfico donde estn presentes, el tratamiento de los puntos es ligeramente distinto. La sintaxis para determinar la apariencia de los marcadores en el grfico de puntos es la siguiente:
marker(#, mcolor(color) msymbol(smbolo) msize(tamao))
Donde el color puede indicarse bien en ingls (red, green, blue, yellow, ...) o bien con el formato RGB compuesto por tres nmeros que indican la cantidad de rojo, verde o
49
Manual de Stata
azul del color deseado; el smbolo puede ser un crculo (O), un diamante(D), un tringulo(T), un cuadrado(S), un aspa(X), (todas estas opciones pueden expresarse tambin en minscula para reducir su tamao o seguida de una h para que el smbolo quede sin el interior relleno), una cruz(+),un punto(p) o un smbolo invisible(i), y el tamao puede tener los siguientes valores: tiny, small, medsmall, medium large, huge (adems, las dos primeras y las dos ltimas puede estar precedidas de una v (very) para acentuar sus caractersticas). De este modo, con la siguiente instruccin
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje) marker(1, mcolor(blue) msymbol(Oh) msize(huge)) marker(2, mcolor(red) msize(medium) msymbol(S)) marker(3, mcolor(green) msize(small) msymbol(D)) marker(4, mcolor(maroon) msymbol(+)) marker(6, mcolor(black) msize(large) msymbol(T))
10
30
40
En este tipo de grficos, los puntos (markers), que representan un determinado estadstico, se extienden bien sobre una serie de puntos (dots), una lnea o un rectngulo. Por defecto lo hace sobre la primera, en cuyo caso puede controlarse tanto el nmero de puntos (ndots), como su forma y tamao a travs de la opcin dots, que tiene la misma sintaxis (msize, msymbol y mcolor) que marker, salvo el nmero inicial inexistente, ya que todas las series de puntos han de poseer el mismo formato. De modo muy parecido son diseables los puntos en los diagramas de dispersin. En estas representaciones bidimensionales las opciones son msize, msymbol y mcolor, sin necesidad de que estn precedidas de una opcin anterior como marker o dots. Otra interesante posibilidad es la de darles un tamao proporcional al tamao de una determinada variable, si sta se especifica como si fuera el peso [weight=variable] de la instruccin.
graph twoway scatter evn pnbppa [weight=pob], mcolor(green)
50
Manual de Stata
Con la instruccin anterior, se muestra un grfico con puntos verdes de tamao proporcional a la poblacin del pas representado.
Ilustracin 6.57
80 40 0 Esperanza de vida al nacer 1998 50 60 70
10000
40000
Adems, se pueden poner etiquetas a los puntos con la opcin mlabel(variable). sta se puede complementar con las opciones mlabposition(#), mlabgap(#), mlabangle(#), mlabsize(#) y mlabcolor(red|green|blue) para cambiar el aspectos de las etiquetas. Y, de igual modo, pueden realizarse determinadas operaciones con la variable a fin de que slo aparezcan las etiquetas con determinadas caractersticas como prueba el siguiente ejemplo.
generate etipais=pais if pob>150 graph twoway scatter evn pnbppa [weight=pob], mcolor(green) mlabel(etipais) mlabposition(12)
Como puede apreciarse en el prximo grfico, la ponderacin de los puntos y su etiquetaje son incompatibles y, por ello, cuando se etiquetan, la especificacin del peso ([weight=peso])0 es ignorada20.
Hay un medio indirecto para hacer que aparezcan tanto las ponderaciones como las etiquetas. Consiste en pedir dos grficos y superponerlos. En este ejemplo la instruccin quedara como sigue: graph twoway (scatter evn pnbppa [weight=pob], mcolor(green)) (scatter evn pnbppa, mlabel(etipais) msymbol(i)), legend(off)
20
51
Manual de Stata
Ilustracin 6.58
80
Estados Unidos
China
Brasil
Indonesia Ind a i
40
0
10000
3 0000
40000
6.4.7 Lneas
Las lneas pueden aparecer tanto en los grficos unidimensionales de puntos, como en los bidimensionales. En los primeros, slo tienen un carcter instrumental, pues en lugar de una serie de puntos, los marcadores pueden disponerse sobre una lnea, siempre y cuando se especifique la opcin linetype(line). En este caso, la(s) lnea(s) por la(s) que se extienden los puntos (markers) tambin puede ser modificada(s) mediante opciones y subopciones de la instruccin graph. Los atributos susceptibles de modificacin son el color (lcolor), la anchura (lwidth) y la forma (lpattern). Todos ellos han de ser incluidos dentro de un parntesis precedido por la palabra clave lines(). Las opciones de color de las lneas son las mismas que la de los sectores, las barras o los puntos. Las opciones de ancho son none, thin, medthin, medium y thick. La especificacin thin puede estar precedida hasta por dos v para reducir su tamao y thick puede escribirse hasta con tres v minsculas por delante para aumentar el tamao del grosor de la lnea. Finalmente, las formas (lpattern) que puede adoptar una lnea se pueden indicar bien medienate una palabra clave como solid, dash, dot, dash_dot, shortdash, shortdash_dot, longdash, longdash_dot o blank, bien mediante una formula combinatoria entre comillas compuestas por lneas(l) guiones (_ y -) puntos(.) o espacios (#). Un ejemplo con estas tres opciones ayuda a conocer su disposicin en el conjunto de la instruccin:
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje) title(Recuerdo de voto en elecciones 2000) linetype(line) line(lcolor(red) lpattern(-##.##l) lwidth(vvthin))
52
Manual de Stata
Ilustracin 6.59
Recuerdo de voto en elecciones 2000
10
30
40
El uso de puntos y lneas es ms extendido en los grficos de dos dimensiones. Como se vio anteriormente, pueden aparecer en los grficos de lnea, rea, ajuste y rango. El modo de controlar su forma, tamao y color es similar al de los puntos. Mientras que en el caso de los marcadores se empleaban directamente las opciones msymbol, mcolor y msize enumerando los diferentes smbolos, colores o tamaos que se queran dar a las distintas series; cuando de lneas se trata, stas se modulan con las opciones clpattern(pauta), clcolor(color) y clwidth(anchura), escribiendo en el interior del parntesis la serie de distintos formatos deseados, uno por cada lnea representada en el grfico. El ejemplo ms cercano se encuentra en la Ilustracin 6.50Ilustracin 6.60. Como muestra de la manipulacin de las caractersticas de las lneas, se va a representar en el mismo grfico tres series que constituyen el porcentaje del PIB correspondiente a la agricultura, la industria y los servicios. Todas ellas estn representadas en el mismo grfico y eje. Cada una de ellas con un color y ancho distinto, especificados en las opciones, y con una pauta distinta de lnea, cambiada segn las opciones por omisin del programa.
graph twoway line pibag pibin pibse rnbppa, ytitle("%") sort clcolor(red green blue) clwidth(2 1 .1)
Ilustracin 6.60
80 0 0 20 % 40 60
10000 20000 Renta per cpita (poder de compra) PIB en agricultura PIB en serv icios PIB en industria
30000
53
Manual de Stata
En otros grficos bidimensionales, en general en aquellos en que las lneas son verticales o representan una superficie, tales como los grficos de rango, rea y clavos, hay que sustituir las opciones clwidth, clpattern y clcolor, por blwidth, blpattern y blcolor, respectivamente.
6.4.8 Cajas
Quedan por referirse las opciones tpicas de los elementos de los grficos de caja, que son las ms complicadas de todas por la propia naturaleza de este tipo de representaciones de variables. En estos grficos, se pueden distinguir cuatro subelementos. El ms obvio es la caja (box), que aglutina al 50% de casos centrales. Dentro de la caja hay que representar a la mediana medtype bien mediante una lnea (line o cline), bien mediante otro smbolo (marker). Como extensin de la caja se encuentran las lneas cwispers que se extienden vez y media el rango intercuartlico. Finalmente, forman tambin parte de este grfico los smbolos (markers) que representan los casos extremos de la distribucin. Las cajas son muy parecidas a las barras del correspondiente tipo de grfico. Por eso, su modo de cambiarlas es idntico. Lo nico que varan son dos cosas: en primer lugar, la opcin se denomina box, en lugar bar. Y, en segundo lugar, la distancia entre las cajas puede establecerse mediante la instruccin boxgap(#), en lugar de la que se empleaba para las barras (bargap()). Sin embargo, la opcin outergap(#), para determinar el espacio entre el lmite del grfico y las cajas extremas, funciona del mismo modo. Recurdese que la sintaxis de la primera opcin es como sigue: box(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea)) La lnea (o marca) de la mediana se puede determinar mediante la opcin medtype(tipo). Existen tres tipos: la lnea comn (line), una lnea especificada por el usuario (cline) o un smbolo(marker), cuyas caractersticas pueden tambin controlarse a travs de otra opcin medmarker(), que controla la apariencia del smbolo del mismo modo que se hace con los puntos, es decir, mediante las especificaciones msymbol, msize y mcolor. Las lneas que salen de las cajas (wiskers) poseen a su vez tres posiblidades de modificacin. Para que funcione cualquiera de ellas ha de explicitarse la opcin cwiskers adems de la correspondiente a lo que se desea cambiar. As, si se quiere cambiar la apariencia de la lnea ha de aadirse la opcin lines(lcolor(color) lwidth(anchura) lpattern(forma)). Si se quiere cambiar la anchura de la lnea que marca el tope, se ha de especificar la opcin alsize(#), fijada en 67 puntos por omisin. Y, por ltimo, si se desea poner unos topes a sta ltima ha de aadirse la opcin capsize(#), fijada en 0, si no se menciona explcitamente. Finalmente, la opcin marker funciona exactamente igual que la opcin del mismo nombre en los grficos de punto. Esto es, se le puede indicar bsicamente el color, la forma y el tamao a los smbolos que representan los casos desviados y extremos.
54
Manual de Stata
Y como ejemplo de todas estas instrucciones, se expone a continuacin una orden que cambia sustancialmente la forma de la Ilustracin 6.22.
graph box p4501-p4503, title(Posicin ideolgica atribuida a partidos polticos) cwhiskers lines(lcolor(red)) capsize(10) alsize(50) marker(1, mcolor(green) msymbol(O) msize(huge)) marker(2, mcolor(blue)) marker(3, mcolor(red) msize(small)) box(1, bcolor(green)) box(2, bcolor(blue)) box(3, bcolor(red)) medtype(cline) medline(lcolor(yellow))
iu psoe
pp
6.4.9 Leyendas
Se han definido las leyendas como un repertorio de smbolos acompaados por sus respectivos significados. En los grficos que hasta ahora se han explicado aparecen automticamente etiquetas en los sectores y, siempre y cuando haya ms de una variable en el eje Y, en los de barras, puntos y cajas. En el siguiente ejemplo compuesto, se muestra cmo en un grfico de caja aparece la leyenda si se representan ms de una variable, pero no si se representa una sola:
Ilustracin 6.62
10 10 0 2 2 4 4 6 iu 6 8 8
iu psoe 0
pp
55
Manual de Stata
Son mltiples los aspectos de la leyenda que pueden ser controlados mediante la opcin legend(). Para obtener una lista de todas, el usuario de Stata, puede solicitar la ayuda help legend_options. Aqu slo se presentarn las que a juicio de los autores se consideran ms relevantes para el uso cotidiano de los grficos. La subopcin title Texto pone un encabezamiento al conjunto. La especificacin de order(# Etiqueta) permite cambiar el orden y el texto de la presentacin de los smbolos de la leyenda. Las subopciones rows(#) y cols(#) controlan el nmero de filas o columnas que van a quedar representadas en el recuadro de la leyenda. Y, finalmente, la subopcin position(#), con un nmero del 1 al 12, ubica la leyenda en un determinado lugar del grfico. Un ejemplo aclarar la sintaxis y el resultado de cada una de estas especificaciones:
graph box p4501-p4503, legend(title(Partidos) order(2 PP 3 PSOE 1 IU) cols(3) position(12))