Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5 Graficos
5 Graficos
Manual de Stata
La versin 8 proporciona una sintaxis bastante diferente de las de versiones anteriores de Stata para
la ejecucin de grficos. Sin embargo, permite que los antiguos usuarios y los viejos programa puedan
ejecutarse. Para ello, ha de cambiarse la instruccin graph por graph7 o bien, en el interior de un
programa, advertir al comienzo que se est trabajando con una versin anterior a la 8, con la instruccin
version.
Manual de Stata
dotplot, que realiza histogramas basados en puntos, o stem, que realiza un grfico de
tallo y hoja.
c) Tambin Stata dispone de ciertos procedimientos de operaciones estadsticas que se
pueden complementar con algn tipo de grfico. De este modo, instrucciones grficas
como greigen, rvfplot o cluster dendrogram slo son posibles tras la realizacin de
previos anlisis estadsticos como factor, regress y cluster, respectivamente.
Manual de Stata
Hay que tener en cuenta que esta instruccin produce un grfico en el que cada
variable explicitada se representa en un sector cuya rea es proporcional a la suma de
los valores de todos los casos en la variable en cuestin.
Esto implica que, para obtener un grfico de sectores en el que un sector represente a
los hombres y el otro a las mujeres, los datos han de disponerse de dos posibles modos:
1) Si se dispone de un fichero con un solo caso y dos variables: Hombre y Mujer, con
valores que representen sus respectivas frecuencias, tal como el representado en la
Ilustracin 6.1,
Ilustracin 6.1
Hombre
Mujer
2) Sin embargo, lo ms comn es disponer los datos por individuo en una variable
categrica, como puede ser el sexo, con 5.000 sujetos y dos valores, hombre y mujer,
en cuya circunstancia habra que escribir la instruccin del siguiente modo:
graph pie, over(sexo)
Manual de Stata
hombre
mujer
PS OE
IU
Otros
Bl anc o
NC
hombre
mujer
Manual de Stata
De este modo, la instruccin del primer grfico realizado con la opcin pie, ahora
quedara del siguiente modo3:
graph bar Hombre Mujer, nolabel
20
40
60
Ilustracin 6.5
Hombre
Mujer
En esta instruccin se produce la paradoja de que para que aparezca en la leyenda los nombres de las
variables (Hombre y Mujer), se debe especificar la opcin nolabel. Si esta no aparece, las etiquetas que
apareceran seran las automticas del grafico, es decir, Mean of Hombre y Mean of Mujer
4
Si se quiere representar proporciones, en lugar de porcentajes, basta son sustituir el 100 por un 1.
Otro modo de hacerlo es convirtiendo la variable nominal en tantas dicotmicas como valores tenga,
mediante la opcin generate del comando tabulate, para a continuacin pedir el grfico de barras de las
nuevas variables dicotmicas. Sin embargo, en esta modalidad la nica forma de que aparezcan
adecuadamente las etiquetas de los valores de la variable es mediante la compleja opcin
legend(order() Vase ms abajo.
Manual de Stata
variable numrica (de intervalo o de razn) que de variable con atributos (nominal u
ordinal).
tabulate sexo
generate casos=100/r(N)
bar (count) casos, over(sexo)
5,000
count of casos
10,000
15,000
Ilustracin 6.6
hombre
mu jer
Tambin en estos grficos cabe la posibilidad de realizar un control por una segunda
variable para realizar un grfico bidimensional de barras, que es muy til para
representar grficamente tablas de contingencia (vase el captulo X). En la Ilustracin
6.7, por ejemplo, se utiliza el sexo como independiente y se emplea la intencin de voto
como variable dependiente, para ver su distribucin en hombres y mujeres:
200
count of casos
400
600
800
1,000
Ilustracin 6.7
PP PSOE IU OtrosBlanco NC
PP PSOE IU OtrosBlanco NC
hombre
mujer
Es obvio que las etiquetas del eje que el programa crea por omisin no es la deseable en el caso de
que se quiera publicar el grfico en castellano. Para arreglarla, es preciso leer el apartado de opciones lo
que all se especifica para el cambio de ejes.
Manual de Stata
mujer
PP
PSOE
IU
Otros Blanco NC
PP
PSOE
IU
Otros Blanco NC
Total
count of casos
hombre
PP
PSOE
IU
Otros Blanco NC
Graphs by pp42
Especialmente en este grfico se nota cmo hasta ahora lo que se representan son
frecuencias y no porcentajes. Para obtenerlos, o para representar proporciones7, en lugar
de frecuencias, hay que solicitar la estadstica (sum), en lugar de count, que apareca en
los anteriores grficos.
graph bar (sum) casos, over(Voto_2000)
Sacar porcentajes o frecuencias segn se haya construido la variable ficticia con la que se
construyen los grficos de barras (casos, en este ejemplo). Como ms arriba se construy dividiendo 100
por el tamao de la muestra (_N), entonces se obtienen porcentajes. Si se hubiera utilizado 1, en lugar de
100, se habran obtenido proporciones.
Manual de Stata
10
sum of casos
20
30
40
Ilustracin 6.9
PP
PSOE
IU
Otros
Blanco
NC
mujer
1,000
2,000
hombre
count of casos
3,000
Ilustracin 6.10
PP
IU
Blanco
PSOE
Otros
NC
Graphs by pp42
Como puede fcilmente apreciarse, por el hecho de acumular el nmero de casos, las
alturas no alcanzan el tope y la de las mujeres, ms numerosas en la muestra, es ms alta
que la de los hombres. Para igualar las bases de la comparacin, es preciso aadir la
opcin percent, en cuyo caso la escala que representan las frecuencias cambia hasta
tener el mximo de 100 y, en consecuencia todas las barras se igualan.
graph bar sum(casos), over(Voto_2000) asyvar by(pp42) stack percent
Manual de Stata
Ilustracin 6.11
mujer
60
0
20
40
percent
80
100
hombre
mean of Voto1
mean of Voto3
mean of Voto2
mean of Voto4
Graphs by pp42
Finalmente hay que sealar que todos los grficos de barra aqu expuestos pueden
dibujarse horizontalmente. Para ello, slo es preciso cambiar la segunda palabra de la
instruccin por hbar en lugar de bar.
Por ejemplo, si se desea, dibujar la intencin de voto en barras horizontales, se
debera escribir la siguiente lnea:
graph hbar (sum) casos, over(Voto-2000) asyvar
De este modo, se obtiene el siguiente grfico con barras de distinto color por haber
especificado la opcin asyvar:
Ilustracin 6.12
10
20
sum of casos
PP
IU
Blanco
30
40
PSOE
Otros
NC
10
Manual de Stata
graph dot (sum) casos, over(Voto_2000)
PP
PSOE
IU
Otros
Blanco
NC
10
20
sum of casos
30
40
10
20
sum of casos
PP
IU
Blanco
30
40
PSOE
Otros
NC
6.1.4 Histogramas
Los histogramas son grficos que se emplean para la representacin de variables
cuantitativas continuas. Consisten en dividir los valores en una serie de intervalos y
11
Manual de Stata
representar cada uno de stos con un rea proporcional a su tamao. Generalmente los
valores se expresan en el eje de abscisas de un grfico de coordenadas, mientras que, en
el caso de que todos los intervalos tengan amplitud constante, en las ordenadas se
expresan las frecuencias absolutas o relativas correspondientes a cada grupo de valores.
En Stata basta con dos palabras para generar un grfico de este tipo: el comando
histogram8 seguido del nombre de la variable que se quiere representar:
histogram pp43
Sin ninguna otra especificacin aadida, el histograma aparece del siguiente modo:
.005
Density
.01
.015
.02
.025
Ilustracin 6.15
20
40
60
Edad
80
100
ln( N )
k = min N ,10
ln(10)
Como quiera que est representando 24.000 casos y la raz de este nmero es 155.9,
mientras que diez veces el cociente de su logaritmo entre el de 10 da un resultado de 43,
stos son los intervalos que dibuja.
sta (histogram) es una de las instrucciones especficas (diferentes a graph) para realizar grficos.
Sin embargo, en este caso se puede obtener el mismo resultado con el siguiente bloque de rdenes: graph
twoway histogram, especialmente til cuando se quiere integrar los histogramas con otro tipo de
representacin bivariada. Por eso, en este contexto donde se estn viendo los grficos de una sola
variable, y por razones de brevedad slo se seala la primera forma de solicitarlos.
12
Manual de Stata
.005
Density
.01
.015
.02
Ilustracin 6.16
20
40
60
Edad
80
100
Pero tambin es posible especificar, en lugar del nmero de intervalos, el ancho que
se desea tengan las barras a travs de la opcin width(#) e incluso el punto de partida
con start(#). Y obvio es que ambas se pueden combinar para obtener un histograma a
gusto del usuario:
histogram pp43, start(15) width(10)
.005
Density
.01
.015
.02
Ilustracin 6.17
20
40
60
Edad
80
100
13
Manual de Stata
1000
Frequency
2000
3000
4000
5000
Ilustracin 6.18
20
40
60
Edad
80
100
El algoritmo utilizado por defecto es el de Epanechnikov, pero tambin emplea, siempre que se
especifique en las opciones los siguientes: biweight, cosine, gaussian, parzen, rectangular y triangular.
14
Manual de Stata
objeto de que se aprecie el papel suavizador que tiene la estimacin de las frecuencias
con el sistema proporcionado por el segundo.
graph twoway (histogram tmi) (kdensity tmi)
.005
Density/kdensity tmi
.01
.015
.02
.025
Ilustracin 6.19
50
100
150
Tasa de mortalidad infantil /1000 1998/x
Density
200
kdensity tmi
.005
kdensity tmi
.01
.015
.02
Ilustracin 6.20
50
Kdensity (5)
100
x
Kdensity
150
200
Kdensity (20)
15
Manual de Stata
As, para obtener la representacin de la variable edad, basta con escribir la siguiente
instruccin.
graph box edad
20
40
Edad
60
80
100
Ilustracin 6.21
El nmero solicitado de variables puede ser mayor que uno, en cuyo caso para cada
una de ellas se dibuja una caja paralela, a fin de que se puedan comparar las
distribuciones. Con las reservas propias del carcter ordinal de estas variables, se puede
poner como ejemplo comparativo la atribucin ideolgica que hacen los encuestados a
los partidos espaoles con representacin parlamentaria en el conjunto nacional:
graph box ideo01-ideo03
16
Manual de Stata
10
Ilustracin 6.22
iu
psoe
pp
17
Manual de Stata
pp
10
Ilustracin 6.23
PP
PSOE
IU
Otros
Blanco
NC
10
Ilustracin 6.24
PP PSOE IU OtrosBlanco NC
PP PSOE IU OtrosBlanco NC
hom bre
mujer
pp
psoe
En este caso, puede deducirse tambin que quienes votaron a IU ven al PSOE ms a
la derecha que el resto, y que entre hombres y mujeres hay escasas diferencias en la
percepcin ideolgica de los partidos polticos mayoritarios.
18
Manual de Stata
programa considera bidimensional todo aquel grfico en el que los dos ejes o escalas (la
X, o eje horizontal, y la Y, o eje vertical) son numricos. Segn esa definicin un
histograma siempre es considerado bidimensional10, del mismo modo que ciertos
grficos de barras y puntos, aunque propiamente sean unidimensionales, el programa los
puede tratar como bidimensionales, siempre y cuando estn representndose variables
cuantitativas (en un eje se representa el valor de sta variable y en el otro, segn sea el
caso, su frecuencia o el valor en otra variable). Una caracterstica esencial y verstil de
esta instruccin es la de poder combinar en el mismo grfico distintas representaciones,
sean de la misma o de diferente modalidad. Basta para ello separar las rdenes de los
distintos grficos por parntesis, como ya se hizo en la instruccin que gener la
Ilustracin 6.19.
En general, la instruccin para realizar grficos bidimensionales presenta la siguiente
sintaxis:
graph twoway modalidad [lista_de_variables] [weight=variable] [if exp] [in rango],
[opciones_comunes] [opciones especficas]
10
A pesar de eso, en este captulo la modalidad del histograma ha sido considerada entre los grficos
unidimensionales. La orden que se explic fue histogram. Pero de ahora en adelante, es conveniente saber
que sta es una abreviatura de graph twoway histogram. Esto es importante porque este tipo de grficos
puede mezclarse con otros de naturaleza propiamente bidimensional.
19
Manual de Stata
una nube de puntos que relaciona dos variables de naturaleza cuantitativa. As, con la
base de datos mundial, se puede representar la relacin existente entre el producto
nacional bruto y la esperanza de vida al nacer por pases. Basta con escribir estas tres
palabras:
scatter evn pnbppa
40
80
Ilustracin 6.25
10000
20000
30000
PNB por unidad de compra
40000
20
Manual de Stata
un considerable aumento de la esperanza de vida, mientras que, entre los pases de alto
nivel econmico, el enriquecimiento en similares cuantas conlleva muchos menores
progresos en el nmero de aos que la gente vive.
10000
20000
30000
PNB por unidad de compra
40000
50
100
150
Tasa de mortalidad infantil /1000 1998
200
E speranza de vida al nacer 1998 Tasa m edia de crecim ient o anual 1998-1999
40
50
60
70
80
-40
-20
0
20
Ilustracin 6.26
10000
20000
30000
PNB por unidad de compra
40000
10000
20000
30000
PNB por unidad de compra
40000
21
Manual de Stata
10
8
6
iu
4
2
0
iu
10
Ilustracin 6.27
1.2
1.4
1.6
1.8
1.2
sexo
1.4
1.6
1.8
sexo
11
Paradjicamente, aunque represente relaciones bivariadas entre variables, este grfico no es tratado
como bidimensional por Stata. La razn es sencilla, por su propia naturaleza de inclusin de mltiples
graficos bivariados no puede incrustarse con otros grficos sencillos. Operativamente, la instruccin
graph twoway slo es aplicable a grficos que puedan integrarse entre ellos. Sin embargo, este tipo de
grfico se incluye en este apartado por su alta similitud de contenido y uso con los grficos de dispersin.
22
Manual de Stata
Como puede apreciarse las diferencias entre ambas est en la presencia o ausencia de
puntos representado a los casos:
80
E s peranza de vida al nacer 1998
50
60
70
40
40
80
Ilustracin 6.29
50
100
150
Tas a de mortalidad infantil /1000 1998
200
50
100
150
Tas a de mortalidad infantil /1000 1998
200
23
Manual de Stata
eje horizontal. Son idneos cuando se quiere representar frecuencias o tambin cuando
se representan cantidades, puesto que proporcionan al lector una considerable sensacin
de volumen.
Adems de la opcin sort, siempre recomendable en este tipo de grficos, tiene otras
dos importantes: La primera es horizontal, que permite cambiar la orientacin del
grfico, poniendo en el eje vertical la segunda variable (la independiente) y en el eje
horizontal la primera (la dependiente). La segunda es base(#), que permite indicarle al
grfico el punto de arranque del rea.
Como ejemplo de uso, se utiliza los mismos datos de los grficos de lnea para que se
aprecien sus semejanzas.
graph twoway area evn tmi, sort
40
80
Ilustracin 6.30
50
10 0
1 50
T asa de mortalidad infantil /1000 1998
200
24
Manual de Stata
En lugar de dibujarse los puntos empricos, se traza la lnea que mejor ajusta la
distancia cuadrtica de stos a la recta. Es preciso notar que en el eje vertical aparecen
los valores ajustados de la esperanza de vida al nacer, en lugar de la variable
propiamente dicha.
30
40
Fitted values
60
50
70
80
Ilustracin 6.31
50
10 0
1 50
T asa de mortalidad infantil /1000 1998
200
Mucho ms til que dibujar slo la recta ajustada es representar junto con ella los
puntos que representan los valores medidos de ambas variables. Como se ha dicho al
inicio de los grfico bidimensionales, la instruccin graph twoway posee la facultad de
dibujar en los mismos ejes varios grficos al mismo tiempo con una gran facilidad;
basta con expresar los distintos grficos entre parntesis, o separarlos por dos lneas
verticales (||). Por ello, las dos siguientes instrucciones dan el mismo resultado:
graph twoway (lfit evn tmi) (scatter evn tmi)
graph twoway lfit evn tmi || scatter evn tmi
12
25
Manual de Stata
De esta forma, adems de los puntos que representan cada uno de los casos empricos
de los que se disponen datos, aparece la lnea recta que mejor ajusta los valores
empricos de la tasa de mortalidad infantil y la esperanza de vida al nacer:
Ilustracin 6.32
50
10 0
1 50
T asa de mortalidad infantil /1000 1998
Fitted values
200
Adems del ajuste lineal, la opcin grfica de Stata permite otros ajustes inmediatos.
El cuadrtico (qfit) y el polinmico (fpfit)13, por un lado, son ajustes en ltima instancia
lineales. El ajuste lowess es un suavizado basado en regresiones ponderadas localmente
de los valores yi. Los ajustes mband y mspline dividen la distribucin de la variable
independiente en distintos sectores (bandas) y, a travs de la mediana en cada una de
ellas construye un ajuste no suavizado, como en el primer caso; o suavizado, como en el
segundo.
Mediante las cuatro instrucciones siguientes posteriormente combinadas se obtienen
los cuatro grficos de la prxima figura, donde pueden comprobarse las diferentes
caractersticas de los ajustes expuestos en sus respectivos ttulos:
twoway (qfit evn pnbppa) (scatter evn pnbppa), title(Ajuste qfit)
twoway (fpfit evn pnbppa) (scatter evn pnbppa), title(Ajuste fpfit)
twoway (lowess evn pnbppa) (scatter evn pnbppa), title(Ajuste lowess)
twoway (mspline evn pnbppa) (scatter evn pnbppa), title(Ajuste mspline)
13
Este ajuste implica la realizacin de una regresin fraccional polinmica en la que el programa
busca las mejores potencias sobre la variable independientes para que ajuste los valores de la variable
dependiente. Vase para ms detalle la instruccin fracpoly en el manual de Stata (Vol. 1, p.399).
26
Manual de Stata
Ilustracin 6.33
Ajuste fpfit
Fitted values/EVN
40 50 60 70 80
predicted evn/EVN
40 50 60 70 80
Ajuste qfit
10000
20000
30000
PNB por unidad de compra
Fitted values
40000
EVN
Median spline/EVN
40 50 60 70 80
10000
20000
30000
PNB por unidad de compra
Median spline
10000
20000
30000
PNB por unidad de compra
predicted evn
Ajuste mspline
40000
EVN
40000
EVN
Ajuste lowess
10000
20000
30000
PNB por unidad de compra
lowess evn pnbppa
40000
EVN
14
En este caso x representa la variable que va a fluctuar un nmero determinado de veces (300 por
omisin) en un rango dado (entre 0 y 1, si nada se especifia)
27
Manual de Stata
2.1
2.2
2.3
2.4
2.5
Ilustracin 6.34
.2
.4
.6
.8
.1
z
.2
.3
.4
Ilustracin 6.35
-2
0
x
28
Manual de Stata
Las cuatro modalidades consideradas semejantes en este apartado son: barras (bar),
en el caso de que lo que una al punto sea una columna; lneas con o sin puntos (dropline
o spikes), cuando en lugar de una columna se une el punto representado con los ejes
mediante una lnea recta y puntos guiados, y puntos (dots), en el caso que se quiera que
quede como gua todo el eje vertical (incluido el espacio superior al punto). Un mismo
ejemplo al que se le aplican las cuatro modalidades muestra la similitud de todos estos
tipos de grficos.
Ilustracin 6.36
5,000,000 10,000,00015,000,00020,000,000
Superficie km2 1996
5,000,000 10,000,00015,000,00020,000,000
Superficie km2 1996
5,000,000 10,000,00015,000,00020,000,000
Superficie km2 1996
Grficos de puntos
Grfico de barras
5,000,000 10,000,00015,000,00020,000,000
Superficie km2 1996
29
Manual de Stata
Ilustracin 6.37
1.
2.
3.
4.
5.
6.
7.
16.
+-----------------------------------+
|
pais
pob
supkm2 |
|-----------------------------------|
|
Rusia
146.9
17075400 |
| Estados Unidos
273
9363123 |
|
China
1250
9326400 |
|
Canada
30.6
9221000 |
|
Brasil
168
8456500 |
|-----------------------------------|
|
Australia
18.8
7682300 |
|
India
998
3287590 |
|
Indonesia
207
1904569 |
+-----------------------------------+
2000000
Ilustracin 6.38
500
1000
Poblacion (millones) 1999
1500
Es interesante resaltar que la variable nombrada en segundo lugar (la extensin) pasa
al eje vertical, y consecuentemente la poblacin cambia al horizontal. Est opcin slo
produce un giro de 90 grados en la representacin, pero las rejillas siguen siendo
horizontales, guiando en este caso la variable extensin del pas. Si se quisiera levantar
los puntos desde la variable poblacin, bastara con ponerla en la instruccin en
segundo lugar, a continuacin de la primera variable, es decir, de supkm2, sin indicar la
opcin horizontal.
30
Manual de Stata
conectadas, pero paralelas entre s, insertando o no los puntos que representan los
diversos casos (rconnected y rline).
La sintaxis de este tipo de grficos comienza con la orden graph twoway, despus
contina con la modalidad de grfico deseada y seguidamente ha de ponerse en primer
lugar las dos variables representadas en el eje vertical y, a continuacin, la variable
independiente, es decir la del eje horizontal. El orden de las dos primeras es irrelevante
puesto que mediante la barra o el rea se representa la distancia absoluta entre los dos
valores.
A continuacin se presenta para mostrar las distintas modalidades de representacin
de los grficos de rango cuatro modelos distintos de ellos obtenidos con las siguientes
instrucciones:
graph
graph
graph
graph
lintfno/pcx1000
200 400 600 800
pcx1000/lintfno
200 400 600 800
10000
20000
pnbppa
30000
40000
10000
20000
pnbppa
30000
40000
pcx1000/lintfno
200 400 600 800
pcx1000/lintfno
200 400 600 800
10000
20000
pnbppa
30000
40000
10000
20000
pnbppa
30000
40000
Las variables que definen el rango son el nmero de lneas telefnicas (mximo) y el
nmero de ordenadores personales (mnimo) por mil habitantes. La variable
independiente es el producto nacional bruto per cpita. Los grficos muestran bajo
diversas formas cmo los dos indicadores de desarrollo tecnolgico crecen a medida
que lo hace el PNB per cpita y dejan entrever que donde ms divergencias se da entre
31
Manual de Stata
telfonos y ordenadores es en algunos pases con producto nacional bruto per cpita
medio.
Tambin podran clasificarse en esta categora aquellos grficos que ajustan datos y
dan un determinado rango de ocurrencia. Se corresponden con los grficos lfit, qfit y
fpfit, es decir, ajustes lineales, cuadrticos y polinmicos fraccionales; pero, en lugar de
aportar una sola curva, muestran dos correspondientes a la probabilidad sealada. En
estos casos, la modalidad del grfico se indica con las palabras claves lfitci, qfitci y
fpfitci. Adems, en este tipo de grfico son importantes las opciones level(#), donde se
indica el porcentaje de confianza deseado para la representacin y stdf, en el caso de que
se desee contar con el error tpico del pronstico, en lugar del de la prediccin15, o la
opcin stdr, si se desea utilizar para el clculo de los intervalos el error tpico de los
residuales.
Un par de ejemplos con las opciones por omisin muestran dos grficos con los
intervalos basados en el error tpico de la prediccin y un 95% de confianza, salvo en el
caso de que se modifique este parmetro con la instruccin set level.
graph twoway (qfitci evn pnbppa) (scatter evn pnbppa)
graph twoway (fpfitci evn pnbppa) (scatter evn pnbppa)
Ilustracin 6.40
15
32
Manual de Stata
toda una serie de posibilidades que tiene este programa con el objeto de tratar, guardar,
recuperar, imprimir y trasladar los grficos producidos.
En primer lugar, por su facilidad e inmediatez, hay que mencionar la posibilidad de
copiar el grfico a otra aplicacin lo ms comn es que se haga a un procesador de
textos. Esta tarea slo requiere colocar el cursor encima del grfico, pulsar el botn
derecho y a continuacin aparece un men textual en el que la primera opcin es Copy
Graph. Con ella el grfico se guarda en el portapapeles de Windows. Por ello, si se
cambia de programa, con slo darle la instruccin Pegar, se reproduce la ilustracin
acabada de copiar.
Otro modo de hacer lo mismo, con mayor estabilidad, pero menor rapidez, consiste
en grabar el grfico en un fichero. Para ello, bien se pulsa la opcin Save Graph que
aparece en el men textual del grfico, obtenido al pulsar el botn derecho sobre l, bien
se escribe justo despus de realizado un grfico la instruccin
graph export nombre_de _fichero.ext
que realiza la misma operacin, pero mediante una lnea de instruccin, en lugar de
con men16. Una vez grabado el grfico en un fichero, se puede recuperar desde
cualquier programa que permita la incorporacin de ficheros en los siguientes formatos
grficos: printer network graphic, post-script o windows metafile.
Sobre todo cuando se trabaja con ficheros de secuencias de instrucciones, pero
tambin en el resto de ocasiones, si se trabaja con distintos grficos, es conveniente
ponerles un nombre. Por omisin, todo grfico que se presenta en la correspondiente
pantalla propia, recibe el nombre de Graph. Si se realiza un segundo grfico, sin ponerle
nombre, tambin recibe el mismo nombre, ocupando la posicin de la memoria que
detentaba el anterior. Por ello, si se acta de esta forma, se pierde para siempre el primer
grfico, a menos que haya sido grabado en un fichero. Al darle un nombre distinto, el
anterior queda en memoria interna del ordenador y quedar ah hasta que se haga otro
grfico con el mismo nombre, o hasta que el usuario salga del programa.
Para poner un nombre distinto y as evitar que desaparezca de la memoria interna el
grfico anterior, hay que incluir en el grfico la opcin name(nombre). Y para saber en
un determinado momento los grficos que estn disponibles en la memoria interna ha de
escribirse la siguiente instruccin:
16
Poner extensin al nombre del fichero es el modo ms cmodo de indicarle el formato con el que se
desea grabar el grfico. En la versin de windows de Stata, los formatos posibles son postscript (.ps),
postscript encapsulado (.eps), metafile (.mf), metafile mejorado (.emf) y network portable (png). El autor
recomienda este ltimo formato pues con l se reproduce con mayor fidelidad el grfico, en el caso de
importarlo con cualquier otro programa.
33
Manual de Stata
graph dir
Esta instruccin tiene dos opciones: ,replace permite sobrescribir un fichero sin que
aparezca un mensaje de error y ,asis graba de tal forma el grfico que no puede alterarse
su presentacin posteriormente.
Una vez grabado un fichero puede volverse a usar por Stata utilizando la siguiente
instruccin:
graph use nombre_del_fichero
34
Manual de Stata
6.3.1 Esquemas
En el apartado 6.3 de este captulo se ha visto una gran cantidad de opciones que
pueden controlarse en los grficos. A pesar de haber visto un nmero elevado de ellas,
no se han contemplado todas, ya que la rutina grfica del Stata es de tal calibre que
permite cambiar el mnimo detalle de un grfico. Dada la complejidad de estas opciones
y subopciones, esta herramienta estadstica ha buscado simplificar al usuario la
produccin de grficos a travs de los esquemas.
Los esquemas son conjuntos de opciones con los que los grficos son representados
en la pantalla. Ejemplo de las especificaciones que puede contener un esquema son el
tipo y tamao de letra, los colores de fondo y de los cuadros, los sucesivos colores que
incorporan los elementos (sectores, barras, lneas, ) de los distintos tipos de grficos,
el grosor y la textura de las lneas, la presencia y en su caso la forma- o ausencia de
marcas, ejes rejillas, etc. Por omisin, Stata trabaja con uno de la docena de esquemas
que tiene disponibles17. Para saber los nombres disponibles y cul est activo en un
determinado momento se emplean respectivamente las siguientes dos instrucciones:
graph query, schemes
query graphics
17
El usuario pude importar nuevos esquemas por Internet y con un poco de destreza incluso puede
construir nuevos esquemas a partir de los existentes, que residen en los directorios de los ficheros .ado.
35
Manual de Stata
Ilustracin 6.41
Available schemes are
economist
see
s1color
see
s1manual
see
s1mono
see
s1rcolor
see
s2color
see
s2colorg
see
s2manual
see
s2mono
see
sj
see
Graphics settings
set graphics
set scheme
set printcolor
set copycolor
help
help
help
help
help
help
help
help
help
help
scheme_economist
scheme_s1color
scheme_s1manual
scheme_s1mono
scheme_s1rcolor
scheme_s2color
scheme_s2colorg
scheme_s2manual
scheme_s2mono
scheme_sj
on
sj
automatic
automatic
PSOE
IU
10
8
6
4
2
0
36
Manual de Stata
generar una nueva con el peso de cada caso, que es la que aparece en el eje de
frecuencias, mientras que la que genera los distintos valores de la variable aparece bajo
la opcin over.
Un ejemplo con un grfico de barras del sexo mostrado a travs de los diversos
mens ayudar a realizar la representacin de las variables cualitativas.
Para no complicar excesivamente el ejemplo, se recurre a la modalidad de grficos
simples (Graphics/Easy Graphs/Bar charts). Una vez que se han seleccionado desde el
men estas tres opciones, aparece un cuadro de dilogo con seis pestaas (main, para
exponer la variables del grfico y su tratamiento; over, para incluir las variables que
marcan los distintos segmentos del grfico; if/in, para seleccionar los casos que se
desean exponer en el grfico; titles, para poner ttulos, subtitulos, aclaraciones y notas
adicionales al grfico; yaxis, para manejar la apariencia de la escala vertical, y options
para propsitos diversos.
De ellas las dos primeras son las ms importantes para el grfico deseado y han de
ser dispuestas del modo siguiente:
Ilustracin 6.43
37
Manual de Stata
38
Manual de Stata
Ejes: Son escalas donde se ubican los valores o las frecuencias de las variables
representadas. En teora puede haber grficos sin ejes, como los de sectores, y los puede
haber hasta con nueve; pero lo ms frecuente es que un grfico slo tenga uno o dos. En
los mismos ejes se ubican las marcas y las cuadrculas. Las primeras son pequeos
signos, generalmente perpendiculares al eje, que especifican donde se encuentra un
determinado valor. Las cuadrculas, en cambio, son lneas que tienen su origen en un
determinado eje y llegan hasta el otro extremo del grfico con el fin de poder ubicar la
posicin de un determinado elemento dentro del conjunto.
Elementos: Son cada uno de los componentes esenciales de un grfico, que
representan sea un caso o un grupo de casos, sea un valor o conjunto de valores. Son
elementos, por ejemplo, los sectores de un grfico circular, los rectngulos que forman
un diagrama de barras, los puntos de una nube de puntos o las lneas que representan
una regresin. En general, aun teniendo en cuenta las excepciones de las distintas
variedades, los elementos pueden diferenciarse de cuatro maneras distintas. En primer
lugar, por la forma. De este modo, para distinguir distintos tipos de casos, puede
utilizarse un crculo, un cuadrado o cualquier otra forma similar, segn se quieran
expresar los de una clase u otra. En segundo lugar, por el tamao tambin se pueden
diferenciar unos elementos de otros, aunque en la mayor parte de los grficos el tamao
suele emplearse para distinguir la frecuencia de unos determinados casos o valores. En
tercer lugar, por la posicin, pues en muchas ocasiones un valor no est representado por
el tamao del elemento, sino por lo cercano o alejado que est del punto de origen de
una escala. En cuarto lugar, los grficos pueden utilizar el color para diferenciar los
elementos. As un valor puede quedar representado con un color y el resto de valores
con otros. Y finalmente, de modo alternativo o complementario al color, se pueden
utilizar distintas tramas al dibujar cualquier elemento, como por ejemplo lneas
continuas, discontinuas o punteadas, o barras con superficies lisas, rayadas o punteadas.
Leyendas: Son el repertorio de smbolos que se utilizan en un grfico, junto al
significado que stos poseen. Sirven para descifrar el significado de las formas, colores
o tramas que se emplean para la representacin de los datos y son voluntarias aunque
altamente recomendables.
6.4.1 Ttulos
Para ser entendido sin necesidad de aclaraciones adicionales todo grfico necesita
llevar un conjunto de textos que aclaren al lector qu es lo que est viendo. Entre stos,
destacan por ser del conjunto del grfico los ttulos, los subttulos (captions) y las notas.
En la instruccin graph de Stata se ponen los textos y, en consecuencia, los ttulos, a
travs de opciones. Las ms comunes y utilizadas son title, subtitle, caption y note. Un
ejemplo con todas, nos muestra donde se ubican por omisin cada una de ellas.
Tambin cabe destacar cmo un determinado ttulo puede tener varias lneas siempre y
cuando cada una de ellas aparezca encerrada entre comillas.
39
Manual de Stata
graph pie, over(pp42)
title(Grfico 1 Sexo)
subtitle(Encuesta 2000)
caption(Fuente CIS. 2000. Estudio 2384)
note(Elaboracin propia)
El grfico resultante de la instruccin anterior es el siguiente:
Ilustracin 6.45
Grfico 1
Sexo
Encuesta postel ectoral 2000
hombre
mujer
Elaboracin propia
40
Manual de Stata
Ilustracin 6.46
Grfico 1
Sexo
Encuesta postelectoral 2000
hombre
mujer
Elaboracin propia
Fuente CIS. 2000. Estudi o 2384
6.4.2 Ejes
Los ejes son escalas donde se ubican los valores o las frecuencias de las variables
representadas. No todos los grficos tienen el mismo nmero de ejes. As, un grfico de
sectores no los posee, pues las frecuencias quedan representadas proporcionalmente por
cada uno de los sectores del crculo. Una nube de puntos posee claramente dos ejes, uno
para cada variable. Paradjicamente, un histograma dispone de dos ejes: uno
correspondiente a los valores de la variable y otro a sus frecuencias absolutas o
relativas. Por su parte, el grfico de caja slo dispone de uno, donde se representan los
valores de la variable que se desea representar. Ha de quedar claro, pues, que adems
del nmero de ejes que pueda tener un grfico, en unos se representan valores, que a su
vez pueden ser cuantitativos o cualitativos, y en otros se representan frecuencias. Los
que se refieren a las frecuencias o a las variables dependientes son conocidos como eje
y, mientras que los que afectan a valores o a variables independientes son denominados
como eje x.
Dentro de los ejes pueden a su vez distinguirse otra serie de componentes. Entre
ellos, los ms importantes son el ttulo, la escala, las etiquetas, las marcas y las guas.
Empezando por el ttulo, ha de decirse que, aunque el ordenador titule por defecto los
ejes, se pueden cambiar o hacer que desaparezcan. Para ello, se emplea la opcin
y|xtitle. En el siguiente ejemplo, se utiliza sta slo en el eje x, pues al tratarse de un
grfico de barras slo cuenta con una dimensin. Sin embargo, aunque slo tenga una,
si se desea poner un ttulo al eje vertical, puede utilizarse la opcin b1title (o l1title si se
pide un grfico de barras horizontales18). De este modo, aadiendo dos opciones (ytitle
y l1title) al grfico de la Ilustracin 6.12, sus ejes quedan titulados.
graph hbar (sum) casos, over(Voto_2000) asyvar
title(Voto en ltimas elecciones (2000))
18
41
Manual de Stata
ytitle(Porcentaje)
l1title(Partido poltico)
Ilustracin 6.47
Partido poltico
10
20
Porcentaje
PP
IU
Blanco
30
40
PSOE
Otros
NC
Las opciones de escala pueden aplicarse a los ejes de frecuencias o a los de valores
cuantitativos. No son lgicamente vlidas ni en el grfico de sectores, ni en el eje X de
los grficos de barras, puntos o cajas. Estas opciones determinan si la escala que va a
dibujarse es normal, logartmica (no aplicable en el caso de frecuencias) o invertida, el
rango con el que se traza, la colocacin y la apariencia de la lnea que la representa. Las
posibilidades de escala han de especificarse dentro de la opcin yscale() o de la de
xscale(), segn se quiera cambiar una u otra. Las ms comunes son (log) para expresar
la escala en trminos logartmicos, (reverse) para invertir la escala, (alt) para colocarla
en el lado opuesto del grfico, (range(# #)) para dibujar un eje con rango mayor del que
poseen los datos19 y (off) si se desea hacer desaparecer el eje.
Un ejemplo de uso de la escala logartmica permite darse cuenta de que no cambian
los valores originales de la variable. Lo nico que vara es la disposicin de la escala.
En el ejemplo es de notar cmo la distancia entre los 20 y los 40 aos (la segunda edad
dobla la primera) es idntica a la que existe entre los 40 y los 80.
graph box edad1, title(Grfico de caja)
b1title(n=5.283)
yscale(log)
ytitle(Edad (Escala logartmica))
19
Esta opcin no puede acortar el rango de una variable. Slo sirve para extenederlo. Si se desea
acotar el rango de valores que se exponen en un grfico, ha de emplearse la especificacin if. De este
modo si se quisiera hacer un histograma con slo a los menores de 50 aos, habra que escribir la
siguiente instruccin: histogram edad1 if edad1<50
42
Manual de Stata
Ilustracin 6.48
20
80
100
Grfico de caja
n=5.283
Existen otros aspectos que pueden modificarse en los ejes. Los ms importantes de
ellos son las marcas, las guas y sus correspondientes etiquetas. Las primeras son signos
ubicados en el eje que indican dnde estn representados los valores o frecuencias de la
variable del grfico. Lo comn es que las marcas estn colocadas en intervalos regulares
del eje. No obstante, hay la posibilidad de distinguir dos tipos de marcas: las principales
y las secundarias.
Tanto las marcas como las etiquetas principales pueden ser controladas mediante la
opcin y|xlabel(lista) segn se quieran modificar las del eje y o las del x. El contenido
de la lista se ajusta a la sintaxis general del programa Stata. El formato ms til en este
contexto es el de min(intervalo)max, esto es, hay que poner el valor mnimo de la
escala, el mximo y entre ellos y entre parntesis cada cuantas unidades se desea que
aparezca un valor etiquetado. Pero tambin puede expresarse un solo nmero precedido
de #, en cuyo caso el programa pondr el nmero de etiquetas indicado en intervalos
regulares.
En este ejemplo de histograma se utilizan los dos sistemas: uno en el eje vertical de
frecuencias (porcentajes) y otro en el eje horizontal de los valores de la variable:
histogram edad1, percent title(Histograma de edades)
xtitle(Valores) ytitle(Porcentaje)
ylabel(0(.5)5)
xlabel(#8)
Ilustracin 6.49
.5
Porcentaje
1 1.5 2 2.5 3 3.5 4 4.5 5
Histograma de edades
20
30
40
50
60
Valores
70
80
90
43
Manual de Stata
Hay un tercer modo de referirse a las etiquetas, muy til, para cuando se quiere
expresar el valor literal de stas. Se trata de poner el valor numrico seguido del texto
que se desea sustituya a los dgitos. De este modo, en el caso de que se desee poner letra
a los siete das de la semana en el eje X, habra que escribir las siguiente opcin:
xlabel(1 L 2 M 3 X 4 J 5 V 6 S 7 D).
Tambin pueden controlarse las etiquetas de las marcas menores. En este caso, las
opciones que deben emplearse son y|xmlabel(lista). Adems en estas opciones puede
expresarse en lugar de las otras la expresin ##X, donde X significa el nmero de
divisiones que quieren realizarse entre dos marcas mayores. El mnimo nmero posible
es 2, en cuyo caso se pondr una marca menor entre dos mayores. ste y los nmeros 5
y 10, en cuyos casos se pondran cuatro y nueve marcas respectivamente entre cada dos
mayores, son los ms frecuentes de uso.
Tanto y|xlabel como y|xmlabel, pueden contener subopciones que afectan a la
suprensin (noticks) o apariencia (tlength(), tposition(), tlstyle(), tlwidth(), tlcolor() y
tlpattern()) de las marcas, o cambian el formato (format(%fmt), alternate, labgap(),
labstyle() labsize() y labcolor()) o ngulo (angle(#)) de las etiquetas.
Adems, con las opciones de las etiquetas tambin pueden manejarse las guas
internas del grfico (rejillas). Por defecto slo aparecen en las marcas (o etiquetas)
mayores del eje Y del grfico. Pero no slo se pueden omitir stas (nogrid), sino
tambin es posible incorporar las del eje X (grid). Adems, son alterables el color
(glcolor()), el ancho (glwidth()) y el estilo (glpattern()) de la lnea. Todo ello ha de
hacerse como una subopcin de y|xlabel o de y|xmlabel.
Algunas de las ltimas posibilidades sealadas se emplean en el siguiente ejemplo
grfico.
histogram edad1, ylabel(0(.01).03, angle(0))
ymlabel(##2, angle(0) grid glpattern(dash))
xlabel( 20(10)90)
xmlabel(##2) title(Histograma de edades)
xtitle(Valores) ytitle(Densidad)
Ilustracin 6.50
Histograma de edades
.03
.025
Densidad
.02
.015
.01
.005
0
20
25
30
35
40
45
55
50
60
Valores
65
70
75
80
85
90
44
Manual de Stata
Stata permite manejar las marcas de los ejes no slo a travs de la instruccin
y|xlabel, sino tambin de modo directo, a travs de y|xtick o y|xmtick, con lo que se
indica que se pongan marcas sin etiquetas en los ejes.
histogram edad1, ytick (0(.0025).03)
ymtick(##2, grid glpattern(dash))
xmtick(##10)
xlabel( 20(10)90) xmlabel(##2)
xtitle(Valores) ytitle(Densidad)
title(Histograma de edades)
El mismo grfico anterior con las opciones ymtick() y xmtick() aadidas da lugar a
este otro:
Ilustracin 6.51
.01
Densidad
.02
.03
Histograma de edades
20
25
30
35
40
45
50
55
60
Valores
65
70
75
80
85
90
Es preciso notar que, aun no habiendo puesto la opcin ylabel, el grfico muestra
etiquetas por omisin a las frecuencias relativas. Por ello, la funcin de ytick es la de
multiplicar las marcas mayores. Por otro lado, tambin es curioso apreciar cmo la
instruccin ymtick aade las marcas menores a la implcita ylabel, en lugar de hacerlo
con la explcita opcin ytick.
6.4.3 Elementos
Se han definido los elementos como cada uno de los componentes esenciales de un
grfico, que representan sea un caso o un grupo de casos, sea un valor o conjunto de
valores. Estos componentes grficos traducen las propiedades numricas o las
cualidades de las distribuciones que se desean representar con el tamao o la posicin,
la mayora de ocasiones, pero en otras ocasiones con el color, la forma o la trama, estos
elementos. Cada tipo de grfico suele utilizar un elemento peculiar para representar los
datos. De este modo, los sectores son los elementos de un grfico circular; los
rectngulos, los del diagrama de barras y los del histograma; los puntos, los del grfico
de puntos y los del diagrama de dispersin; las lneas, los de los grficos de densidad,
de funcin o de ajuste, y en el caso de los grficos de caja, los elementos son las cajas,
la lnea mediana, la lnea de extensin y los puntos que representan a los casos extremos
y desviados.
45
Manual de Stata
Por eso en este apartado, se presentar elemento por elemento para indicar cmo
pueden configurarse cada uno de ellos.
6.4.4 Sectores
En el grfico de sectores cada segmento circular representa cada uno de los valores
de una variable nominal y se dibuja con un rea proporcional a la frecuencia con la que
el valor en cuestin aparece en la distribucin. La opcin dentro de la instruccin graph
pie que controla estos elementos es pie(#, subopciones) y tiene como especificacin
entre parntesis el nmero del sector al que se quiere cambiar y un par de subopciones
posibles: el color (, color(value)) y la posicin respecto al centro (, explode). De este
modo, si se desea que el primer sector se seccione y se dibuje en azul, habr que escribir
la opcin pie con las siguientes subopciones.
graph pie, pie(1, color(blue) explode)
over(sexo1) title(Sexo del entrevistado)
Hombre
Mujer
Otras importantes caractersticas que puede incorporarse a los sectores son sus
respectivas etiquetas. Es mucho ms evidente que stas aparezcan dentro o cerca de los
sectores, que en un recuadro aparte como es la leyenda del grfico como aparece en la
base del grfico de la Figura anterior.
Para que el programa ponga etiquetas a los sectores habr que utilizar la siguiente
opcin:
, plabel({_all|#} {name|percent|sum|Texto}, subopciones)
Esta opcin contiene dos parmetros: en primer lugar, ha de especificarse si se quiere
dar una instruccin general para todos los sectores (_all) o slo para uno en particular
(#), representado por un nmero que empieza a contar por el sector que comienza a las
12 en una esfera de reloj. En segundo lugar, ha de expresarse una de tres palabras claves
(name, si se desea la etiqueta del valor representado por el sector; percent, si se quiere
que aparezca el porcentaje que representa el valor en el conjunto del crculo
46
Manual de Stata
52.32%
Mujer
Hombre
Hom bre
47.68%
Mujer
6.4.5 Barras
Los elementos del grfico de barras son las columnas y la apariencia de stas son
controlables a travs de cuatro opciones: bar, bargap, outergap y blabel.
La opcin bar, que permite manejar la apariencia particular de cada una de las barras,
tiene la siguiente sintaxis general:
bar(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea)
blpattern(pauta de la lnea))
Uno de los aspectos de las barras que puede ser modificado son las lneas exteriores
que las dibujan. stas adems de poder controlarse como subopciones de una
determinada barra, pueden modificarse directamente mediante las opciones
47
Manual de Stata
De este modo, se asignan distintos colores a las barras, abarcan todo el eje y se
superponen entre ellas en un 50% de su tamao:
Ilustracin 6.54
Voto en ltimas elecciones (2000)
Partido poltico
33.6
20.0
4.3
8.4
2.0
31.7
10
20
Porcentaje
PP
IU
Blanco
30
PSOE
Otros
NC
40
48
Manual de Stata
1500
5000000
10000000
Superf icie km2 1996
15000000
2000000
6.4.6 Puntos
Las principales caractersticas que pueden definirse de los puntos son la forma, el
tamao y el color. Aunque son claves en los grficos bidimensionales, tambin aparecen
entre los unidimensionales, en los llamados diagramas de puntos, que como ya se ha
sealado son equivalentes a los diagramas de barras, pero sustituidas stas por unas
marcas ubicadas en lneas. Segn el tipo de grfico donde estn presentes, el tratamiento
de los puntos es ligeramente distinto.
La sintaxis para determinar la apariencia de los marcadores en el grfico de puntos es
la siguiente:
marker(#, mcolor(color) msymbol(smbolo) msize(tamao))
Donde el color puede indicarse bien en ingls (red, green, blue, yellow, ...) o bien con
el formato RGB compuesto por tres nmeros que indican la cantidad de rojo, verde o
49
Manual de Stata
azul del color deseado; el smbolo puede ser un crculo (O), un diamante(D), un
tringulo(T), un cuadrado(S), un aspa(X), (todas estas opciones pueden expresarse
tambin en minscula para reducir su tamao o seguida de una h para que el smbolo
quede sin el interior relleno), una cruz(+),un punto(p) o un smbolo invisible(i), y el
tamao puede tener los siguientes valores: tiny, small, medsmall, medium large, huge
(adems, las dos primeras y las dos ltimas puede estar precedidas de una v (very) para
acentuar sus caractersticas).
De este modo, con la siguiente instruccin
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje)
marker(1, mcolor(blue) msymbol(Oh) msize(huge))
marker(2, mcolor(red) msize(medium) msymbol(S))
marker(3, mcolor(green) msize(small) msymbol(D))
marker(4, mcolor(maroon) msymbol(+))
marker(6, mcolor(black) msize(large) msymbol(T))
10
20
Porcentaje
PP
IU
Blanco
30
40
PSOE
Otros
NC
50
Manual de Stata
40
80
Ilustracin 6.57
10000
20000
30000
PNB por unidad de compra
40000
Adems, se pueden poner etiquetas a los puntos con la opcin mlabel(variable). sta
se puede complementar con las opciones mlabposition(#), mlabgap(#), mlabangle(#),
mlabsize(#) y mlabcolor(red|green|blue) para cambiar el aspectos de las etiquetas. Y,
de igual modo, pueden realizarse determinadas operaciones con la variable a fin de que
slo aparezcan las etiquetas con determinadas caractersticas como prueba el siguiente
ejemplo.
generate etipais=pais if pob>150
graph twoway scatter evn pnbppa [weight=pob], mcolor(green)
mlabel(etipais)
mlabposition(12)
20
Hay un medio indirecto para hacer que aparezcan tanto las ponderaciones como las etiquetas.
Consiste en pedir dos grficos y superponerlos. En este ejemplo la instruccin quedara como sigue:
graph twoway (scatter evn pnbppa [weight=pob], mcolor(green)) (scatter evn pnbppa, mlabel(etipais)
msymbol(i)), legend(off)
51
Manual de Stata
80
Ilustracin 6.58
Estados Unidos
China
Brasil
40
Indonesia
Ind a
i
10000
20 000
PNB por unidad de compra
3 0000
40000
6.4.7 Lneas
Las lneas pueden aparecer tanto en los grficos unidimensionales de puntos, como
en los bidimensionales. En los primeros, slo tienen un carcter instrumental, pues en
lugar de una serie de puntos, los marcadores pueden disponerse sobre una lnea, siempre
y cuando se especifique la opcin linetype(line). En este caso, la(s) lnea(s) por la(s) que
se extienden los puntos (markers) tambin puede ser modificada(s) mediante opciones y
subopciones de la instruccin graph. Los atributos susceptibles de modificacin son el
color (lcolor), la anchura (lwidth) y la forma (lpattern). Todos ellos han de ser incluidos
dentro de un parntesis precedido por la palabra clave lines().
Las opciones de color de las lneas son las mismas que la de los sectores, las barras o
los puntos. Las opciones de ancho son none, thin, medthin, medium y thick. La
especificacin thin puede estar precedida hasta por dos v para reducir su tamao y thick
puede escribirse hasta con tres v minsculas por delante para aumentar el tamao del
grosor de la lnea. Finalmente, las formas (lpattern) que puede adoptar una lnea se
pueden indicar bien medienate una palabra clave como solid, dash, dot, dash_dot,
shortdash, shortdash_dot, longdash, longdash_dot o blank, bien mediante una formula
combinatoria entre comillas compuestas por lneas(l) guiones (_ y -) puntos(.) o
espacios (#).
Un ejemplo con estas tres opciones ayuda a conocer su disposicin en el conjunto de
la instruccin:
graph dot (sum) casos, over(Voto_2000) asyvar ytitle(Porcentaje)
title(Recuerdo de voto en elecciones 2000)
linetype(line)
line(lcolor(red)
lpattern(-##.##l)
lwidth(vvthin))
52
Manual de Stata
Ilustracin 6.59
Recuerdo de voto en elecciones 2000
10
20
Porcentaje
PP
IU
Blanco
30
40
PSOE
Otros
NC
20
%
40
60
80
Ilustracin 6.60
10000
20000
Renta per cpita (poder de compra)
PIB en agricultura
PIB en serv icios
PIB en industria
30000
53
Manual de Stata
6.4.8 Cajas
Quedan por referirse las opciones tpicas de los elementos de los grficos de caja,
que son las ms complicadas de todas por la propia naturaleza de este tipo de
representaciones de variables.
En estos grficos, se pueden distinguir cuatro subelementos. El ms obvio es la caja
(box), que aglutina al 50% de casos centrales. Dentro de la caja hay que representar a la
mediana medtype bien mediante una lnea (line o cline), bien mediante otro smbolo
(marker). Como extensin de la caja se encuentran las lneas cwispers que se extienden
vez y media el rango intercuartlico. Finalmente, forman tambin parte de este grfico
los smbolos (markers) que representan los casos extremos de la distribucin.
Las cajas son muy parecidas a las barras del correspondiente tipo de grfico. Por eso,
su modo de cambiarlas es idntico. Lo nico que varan son dos cosas: en primer lugar,
la opcin se denomina box, en lugar bar. Y, en segundo lugar, la distancia entre las
cajas puede establecerse mediante la instruccin boxgap(#), en lugar de la que se
empleaba para las barras (bargap()). Sin embargo, la opcin outergap(#), para
determinar el espacio entre el lmite del grfico y las cajas extremas, funciona del
mismo modo. Recurdese que la sintaxis de la primera opcin es como sigue:
box(#, bcolor(color), blcolor(color de la lnea), blwidth(anchura de lnea))
La lnea (o marca) de la mediana se puede determinar mediante la opcin
medtype(tipo). Existen tres tipos: la lnea comn (line), una lnea especificada por el
usuario (cline) o un smbolo(marker), cuyas caractersticas pueden tambin controlarse
a travs de otra opcin medmarker(), que controla la apariencia del smbolo del mismo
modo que se hace con los puntos, es decir, mediante las especificaciones msymbol,
msize y mcolor.
Las lneas que salen de las cajas (wiskers) poseen a su vez tres posiblidades de
modificacin. Para que funcione cualquiera de ellas ha de explicitarse la opcin
cwiskers adems de la correspondiente a lo que se desea cambiar. As, si se quiere
cambiar la apariencia de la lnea ha de aadirse la opcin lines(lcolor(color)
lwidth(anchura) lpattern(forma)). Si se quiere cambiar la anchura de la lnea que marca
el tope, se ha de especificar la opcin alsize(#), fijada en 67 puntos por omisin. Y, por
ltimo, si se desea poner unos topes a sta ltima ha de aadirse la opcin capsize(#),
fijada en 0, si no se menciona explcitamente.
Finalmente, la opcin marker funciona exactamente igual que la opcin del mismo
nombre en los grficos de punto. Esto es, se le puede indicar bsicamente el color, la
forma y el tamao a los smbolos que representan los casos desviados y extremos.
54
Manual de Stata
10
iu
psoe
pp
6.4.9 Leyendas
Se han definido las leyendas como un repertorio de smbolos acompaados por sus
respectivos significados. En los grficos que hasta ahora se han explicado aparecen
automticamente etiquetas en los sectores y, siempre y cuando haya ms de una variable
en el eje Y, en los de barras, puntos y cajas. En el siguiente ejemplo compuesto, se
muestra cmo en un grfico de caja aparece la leyenda si se representan ms de una
variable, pero no si se representa una sola:
10
0
iu
10
Ilustracin 6.62
iu
psoe
pp
55
Manual de Stata
Son mltiples los aspectos de la leyenda que pueden ser controlados mediante la
opcin legend(). Para obtener una lista de todas, el usuario de Stata, puede solicitar la
ayuda help legend_options. Aqu slo se presentarn las que a juicio de los autores se
consideran ms relevantes para el uso cotidiano de los grficos.
La subopcin title Texto pone un encabezamiento al conjunto. La especificacin
de order(# Etiqueta) permite cambiar el orden y el texto de la presentacin de los
smbolos de la leyenda. Las subopciones rows(#) y cols(#) controlan el nmero de filas
o columnas que van a quedar representadas en el recuadro de la leyenda. Y, finalmente,
la subopcin position(#), con un nmero del 1 al 12, ubica la leyenda en un determinado
lugar del grfico.
Un ejemplo aclarar la sintaxis y el resultado de cada una de estas especificaciones:
graph box p4501-p4503, legend(title(Partidos) order(2 PP 3 PSOE 1 IU)
cols(3) position(12))
10
PP
PSOE
IU