Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MANUAL DE STATA
Curso: Econometra I
Profesor: Erix Aldo Ruiz Mondaca
Cap. 1
Introduccin
Icono
Signicado
Nos permite abrir una base de datos con extensin *.dta.
Nos permite guardar una base de datos que est siendo utilizada.
Nos permite imprimir el contenido registrado en la ventana del
Stata Result.
Nos permite iniciar, cerrar, suspender o resumir una bitacora (la
cual se guardan con extensin *.log o *.smcl). Es til para
guardar los resultados mostrados por el Stata Result.
Nos muestra la ventana del Stata Viewer oculta.
Nos indica la ventana del Stata Graphic.
Nos permite iniciar el uso del Stata Do-File.
Nos permite abrir la ventana del Stata Editor que esta oculta.
3
Nos permite abrir la ventana del Stata Browser que esta oculta.
Ordena al Stata continuar la ejecucin de un comando que fue
detenido.
Ordena al Stata detener la ejecucin de un comando.
2. Archivo *.do
3. Archivo *.log
4. Archivo *.gph
command
varlist
weight
if
exp
in
Cap.2
Gestin de Base de
Datos
2.1 El Do-File
STATA cuenta con una ventana que nos permite trabajar con una serie de
comandos y almacenarlas. Estos archivos son muy importantes por los siguientes
motivos:
Permite registrar una de serie de comando, la cual representa todo el
procedimiento de nuestro trabajo.
Permite ir corrigiendo posibles errores que se pueden generar en la elaboracin y ejecucin de nuestro trabajo.
Permite poder nuevamente replicarlo en sesiones posteriores sin necesidad
de crearlo nuevamente.
Adems, sirve como un mecanismo de seguridad que permite regresar a la
base de datos original despus de haberle hecho diversas transformaciones.
Para acceder al Do-le hacemos clic al cono correspondiente en la barra de
herramientas o simplemente presionamos la siguiente sucesin de teclas Ctrl+8.
Recuerde que el archivo Do-le se guarda con extensin *.do.
Con respecto a las formas de poder ejecutar los comandos, se puede hacer
(execute do) ubicado en la parte superior derecha de la
a travs del icono
barra de herramientas del archivo Do-le o presionando los teclados Ctrl+D
una vez que sombremos el comando queramos correr. Una vez realizada esta
accin, se reejar los resultados en la ventana Result View del STATA.
/*
este es
un comentario
con lneas mltiples
*/
sysuse ///
auto.dta
1 MATA es un lenguaje de programacin matricial que puede ser usado por quienes desean
calcular iteraciones en un entorno de matrices.
10
2 Para saber cules son las diversas opciones que presenta el STATA para trabajar con
diferentes tamaos de base de datos recurra al comando help set eligiendo la opcin memory
o simplemente escriba help memory.
11
Supongamos que en el disco "D:n" se crea una carpeta con el nombre "Econometra
I" la cual nos va a servir para guardar nuestros trabajos, entonces, el nuevo directorio se encontrara en la ruta : "D:nEconometria I ". Ahora utilizamos el
comando cd para cambiarnos al nuevo directorio indicando la nueva ruta entre
comillas de la siguiente manera:
Example :
cd "D:nEconometria I "
D:nEconometria I
STATA tambin cuenta con otros comandos para el manejo con directorios,
como son:
El comando mkdir nos permite crear una carpeta o directorio:
mkdir sesion_1
El comando dir nos permite observar el listado de todos los archivos que
se encuentran en nuestra carpeta de trabajo.
dir
al comando help log para ver todas las opciones que presenta.
12
13
Si deseamos llamar una base de datos a travs del Do-le, basta con guardar
dicha base en el directorio actual que se est trabajando y llamarlo usando el
comando use.
Example :
Supongamos que hemos guardado en la carpeta "Econometria I " la base de datos enaho01-2009-100.dta. Para poder invocarlo escribimos:
use enaho01-2009-100.dta
En la parte inferior izquierda del entorno del STATA se apreciar las variables que contiene la base de datos enaho01-2009-100.dta.
Adems, STATA cuenta con base de datos dentro de sus sistema como ejemplos aplicativos, para invocarlos se utiliza el comando sysuse.
Example :
sysuse auto.dta
15
16
Para acceder a este software basta con hacerle clic y posteriormente nos
saldr una ventana de dialogo solicitndonos la siguiente informacin:
Input F ile T ype : Indicamos el tipo de archivo en la cual se encuentra
nuestra base de datos original.
F ile Specif ication : Indicamos la ruta donde se encuentra nuestra base
de datos original haciendo uso del botn Browse.
Output F ile T ype : Indicamos el tipo de archivo al cual deseamos que la
base de datos se convierta.
F ile Specif ication : Indicamos la ruta donde queremos colocar la base
de datos convertida haciendo uso del botn Browse.
Example :
Para nuestro ilustrativo contamos con una base de datos de la Enaho en
formato de SPSS llamada "Enaho01A-2009-400.sav " que se encuentra en la
siguiente ruta "D:nDAVIDndatabase" y lo queremos convertir a un archivo de
base de datos del STATA con el mismo nombre en nuestra carpeta de trabajo
"D:nEconometria I ".
Para desarrollar esta aplicacin realizamos los siguientes pasos:
1. Abrimos la ventana de dialogo del STAT/TRANSFER.
2. En la seccin Input F ile T ype hacemos clic a la barra desplegable y
elegimos el formato SPSS Data File ya que se debe un archivo de base de
datos del SPSS 15.
18
19
20
sysuse auto.dta,clear
*Describimos la base auto.dta
describe
// para describir todas las variables
d price mpg rep78
// para describir las variables price, mpg, rep78
*Vemos la ventana de la base de datos
browse
// para observar todas las variables
br turn foreign length
// para observar las variables turn foreign length
*Inspeccionamos las variables
inspect
// para inspeccionar todas las variables
ins headroom trunk
// para inspeccionar las variables headroom trunk
*Creamos un diccionario de variables
codebook
// diccionario de todas las variables
codebook foreign gear_ratio // diccionario de variables foreign gear_ratio
*Realizamos una lista de valores de algunas variables
list make price mpg // listado de los valores de make price mpg weight
l make price mpg in 25/60 // listado de valores entre la observacin 25 y 60
*Realizamos un cuadro estadstico resumen de las variables
summarize price mpg weight // price mpg weight
sum length displacement foreign // resumen de length displacement foreign
*Realizamos un cuadro resumen detallado de algunas variables
sum price mpg weight,detail // resumen detallado de price mpg weight
21
El comando generate nos permite generar variables haciendo uso de expresiones matemticas, lgicas, numricas. Si bien es cierto que STATA
solamente reconoce los comandos con letras minsculas, tambin es importante decir que tambin hace una diferenciacin de los nombres de las
variables entre si son minsculas o maysculas. Por ejemplo, generar una
variable llamada EsTaDo es diferente a que si lo denominamos estado o
ESTADO.
El comando egen es una extensin del anterior, que permite utilizar expresiones que incluyan funciones ms complejas del STATA como es el caso
de medias, mximos, mnimos, desviacin estndar, promedios mviles,
variables estandarizadas, etc.
Example :
*Creacin de variables usando el comando "generate" con funciones:
generate id=_n //generamos una variable llamada id como
// identicador para cada observacin
generate T=_N //generamos una variable llamada T como
// identicador del total de observaciones
gen ln_mpg=ln(mpg) //generamos una variable llamada ln_mpg
// que es igual al logaritmo natural del mpg
gen exp_mpg=exp(mpg) //generamos una variable llamada
// exp_mpg igual al exponencial natural del mpg
gen sqrt_mpg=sqrt(mpg) //generamos una variable llamada
// sqrt_mpg igual a la raz cuadrada del mpg
gen sum_mpg=sum(mpg) //generamos una variable llamada
// sum_mpg igual a la suma acumulativa del mpg
*Creacin de variables usando el comando "egen" con funciones
egen mean_price=mean(price) //generamos una variable llamada
// mean_price igual a la media del precio
egen median_price=median(price) //generamos una variable llamada
// median_price igual a la mediana del precio
egen mode_price=mode(price) //generamos una variable llamada
// mode_price igual a la moda del precio
egen min_price=min(price) //generamos una variable llamada
// min_price igual al mnimo del precio
egen max_price=max(price) //generamos una variable llamada
// max_price igual al mximo del precio
egen sd_price=sd(price) //generamos una variable llamada
// sd_price igual a la desviacin estndar del precio
egen skew_price=skew(price) //generamos una variable llamada
22
ln_mpg= ln_mpg/100
exp_mpg=exp_mpg/100
sqrt_mpg=sqrt_mpg/100
sum_mpg=sum_mpg/100
mean_mpg=mean_mpg/100
median_mpg=median_mpg/100
mode_mpg=mode_mpg/100
min_mpg=min_mpg/100
max_mpg=max_mpg/100
skew_mpg=skew_mpg/100
kurt_mpg=kurt_mpg/100
24
Byte
1
2
4
4
8
Mnimo
-127
-32,767
-2,147,483,647
-1.70141173319*10^38
-8.9884656743*10^307
Mximo
100
32,740
2,147,483,620
1.70141173319*10^38
8.9884656743*10^307
25
Tipo
str1
str2
..
.
Byte
1
2
..
.
Descripcin
Hasta 1 carcter
Hasta 2 caracteres
..
.
str20
20
Hasta 20 caracteres
Smbolo
%
0
#
.
#
e
f
g
luego (opcional)
Descripcin
indica el comienzo del formato
si se quiere alinear el resultado a la izquierda
si se quiere conservar los ceros "principales"
cifra que indique el tamao del resultado
se coloca un punto
nmero de dgitos despus del punto decimal
para notacin cientca. ex: 10e+04
para formato jo. ex: 5000.0
para formato general (STATA muestra
acorde al nmero elegido)
para el formato de "coma"
(no se permite para notacin cientca)
Smbolo
%
t
d
w
m
q
h
y
Descripcin
indica el comienzo del formato
si se quiere alinear el resultado a la izquierda
se coloca t para indicar formato fecha
para das. ex: 05jul1972
para semanas. ex: 1972w27
para meses. ex: 1972m7
para trimestres. ex: 1972q3
para horas. ex: 1972h2
para aos. ex: 1972
Formato String:
26
Esquema
Primero
luego (opcional)
Smbolo
%
-
luego
luego
#
s
Descripcin
indica el comienzo del formato
si se quiere alinear el resultado a la izquierda
si se quiere alinear el resultado al centro
una cifra para el nmero de caracteres
se coloca s para indicar formato string
Example :
*Formatos Numricos
describe price
list price
format %9.1g price
//nueve dgitos y un decimal
describe price
list price
format %12.1g price
describe price
list price
format %-12.1g price
describe price
list price
//para ver que ha cambiado habra la ventana browse.
save auto_modicada.dta,replace
Example :
*Seleccin de variables y observaciones
*Antes guardamos la nueva base trabajada con el nombre
*auto_modicada.dta
save auto_modicada.dta
*Usando el comando "keep" para guardar algunas variables
//Imaginemos que queremos mantener las variables
// price mpg weight length turn displacement foreign
keep price mpg weight length turn displacement foreign
browse // observar la nueva base
*Usando el comando "keep" para seleccionar una muestra
//Imaginemos que seleccionamos una muestra la cual
// cumple con la condicin de que el precio ucte entre
// 3748 y 13466. Para esto utilizamos la condicional if
keep if price>=3748 & price<=13466
br // observar la nueva base
//Si de esta nueva muestra queremos seleccionar las
// primeras 50 observaciones
keep in 1/50
br // observar la nueva base
*Usando el comando "drop" para eliminar algunas variables
//Antes de continuar con el ejemplo invocamos a la base
// auto_modicada.dta que hemos guardado.
use auto_modicada.dta,clear
//Imaginemos que queremos eliminar las variables
// make headroom gear_ratio
drop make headroom gear_ratio
br // observar la nueva base
*Usando el comando "drop" para eliminar una muestra
30
31
32
33
Forma Long
Forma Wide
Example :
*Forma Colapsada
//De la base de datos "long_wide.dta",mostrado
//en forma long, colapsamos la base en base al
//promedio, desviacin estandar, maximo,minimo,
//suma total del salario "salary" por individo.
collapse (mean) meansal=salary (median) ///
mediansal=salary (sd) sdsal=salary (max) ///
maxsal=salary (min) minsal=salary (sum) ///
sumsal=salary, by(id)
br
35
Example :
*Fusionando bases con el comando "append"
//Para este ejemplo usaremos las bases de datos
// "database1.dta" y "database2.dta". Dado que
//tienen la misma cantidad de columnas pero se
//diferencian en nmeros de las sera conveniente
//juntarlos verticalmente
use database1.dta,clear
br
append using database2.dta
br
save database12.dta,replace
//hagamos lo mismo con la bases "database3.dta"
// y "database4.dta"
use database3.dta,clear
br
append using database4.dta
br
save database34.dta,replace
//En este ltimo caso vemos que existe un inconveniente
//con la variable relacionado al sexo del individuo, debido
//a que en ambas bases dicha variable no se ha escrito
//de la misma forma, es por ello de la importancia de escribir
//el nombre de las variables de manera idntica. Arreglamos
//este problema a continuacin:
use database3.dta,clear
br
rename Sexo sexo
br
save database03.dta,replace
use database03.dta,clear
br
append using database4.dta
br
save database034.dta,replace
*Fusionando bases con el comando "merge"
//Para este ejemplo usaremos las bases de datos
36
use databasemergeb.dta.dta,clear
joinby hogar using database5b.dta
br
save databasejoinby.dta,replace
2.14.1 Tabulate
El comando tabulate muestra una tabla la cual seala una lista de los distintos
valores que tiene una variable con su frecuencia absoluta, porcentual y acumulada. Es recomendable usar este comando para aquellas variables con pocos
valores diversos. Tambin es til para crear variables dummy con ayuda del
comando generate y adems tabular por tipo de individuo con el prejo by. El
comando tabulate puede mostrarnos tablas tanto de un solo sentido como de
doble sentido
2.14.2 Table
El comando table nos permite crear tablas de doble y triple sentido, mostrando
las frecuencias absolutas o porcentuales visto de forma horizontal o vertical.
2.14.3 Tabstat
El comando tabstat provee un resumen estadsticos que permite ms exibilidad que el summarize.
Example :
*Tabulaciones y Tablas
//usaremos loa base de datos "auto_modicada.dta"
//para ilustrar estos comandos
use auto_modicada.dta,clear
*Comando tabulate
//Realicemos una tabla de un solo sentido para la
//variable foreign para aquellos autos que cuestan
//menos de 14000 libras.
38
39
Cap.3
Grcos en STATA
histogram
graph twoway
Histogramas
Scatterplot, lneas, y otros entre dos variables.
graph matrix
Matrices de Scatterplots.
graph box
graph bar
Grcas de barras
graph dot
Grcas de puntos.
graph pie
3.2.1 Histograma
La funcin de densidad de una variable puede ser estimada usando un histograma a travs del comando histogram. Para ilustrar la funcin de este
comando, utilizaremos la base states.dta, la cual contiene informacin sobre los
ambientes seleccionados y la educacin para 50 estados de USA ms el distrito
de Columbia (datos que provienen de League of Conservation Voters 1991, 1993;
World Resources Institute 1993).
La gura 3.1 muestra un histograma simple de college, la cantidad de estados
que se distribuyen dentro de un rango de porcentajes de la poblacin adulta que
cuenta con un grado superior. Esto se produce de la siguiente forma:
5 Para observa otras tipos de grcos y comandos relacionados a estos, se recomienda tipear
en la venta de comandos help graph_other.
40
Example :
*Histograma
use states.dta,clear
describe
*Realizamos el histograma para la variable college
histogram college, frequency title("Figura 3.1")
Frequency
10
15
20
Figura 3.1
10
15
20
25
% over 25 w/bachelor's degree +
30
Figura 3.1
La gura 3.1 presenta dos opciones: frequency (en vez de la densidad
que aparece por defecto) que se muestra en el eje vertical; y el title("Figura
3.1") que aparece sobre el grco. Este gura revela la simetra positiva de la
distribucin de college, con una moda por encima de 15 y un outlier alrededor
de los 35.
La gura 3.2 contiene una versin con mayores mejoras (basado en algunos
experimentos para encontrar los valores correctos):
1. El eje x est etiqueta desde 12 hasta 34, con incrementos de 2 unidades.
2. El eje y est etiqueta desde 0 hasta 12, con incrementos de 2 unidades.
3. Los marcadores sobre el eje y desde 0 hasta 13, con incrementos de 2
unidades.
4. La primera barra del histograma comienza en 12.
5. El ancho de cada barra (o bin) es 2.
41
Example :
histogram college, frequency title("Figura 3.2") ///
xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2)
Frequency
6
8
10
12
Figura 3.2
12
14
16
18
20
22
24
26
28
% over 25 w/bachelor's degree +
30
32
34
Figura 3.2
La gura 3.2 nos ayuda a describir la distribucin con mayor detalle. Por
ejemplo, podemos ver que en 13 estados los porcentajes de colegas con grado
superior se encuentran entre los valores de 16 y 18.
Otras tiles opciones son los siguientes:
bin
:
Muestra un histograma con # de bins (o barras). Podemos
especicar bin(#), como en la Figura 3.2 o start(#) con width(#),
pero no ambos.
percent
:
Muestra los porcentajes en el eje vertical. Otra posibilidades son las opciones fraction que muestra la fraccin de la data y
frequency especicado en la Figura 3.1, el histograma por default muestra la densidad (density) lo que quiere decir que las barras estn escaladas
de tal forma que el rea bajo la grca sume la unidad.
gap(#)
:
Indica el espacio entre las barras, el nmero "#" se especica entre 0<#<100.
addlabel
:
Etiqueta la parte superior de las barras del histograma
con la frecuencia de datos.
discrete
:
Especica que la data es discreta, requiriendo una barra
para cada valor de la variable.
42
norm
:
Sobrepone una curva normal sobre el histograma, basado
sobre la media muestral y desviacin estndar.
kdensity
:
histograma6 .
p
El nmero de intervalos por default es min( N ; 10 ln N= ln 10). Con los
histogramas tambin podemos especicar nuestro propios ttulos en el eje de las
abscisas con xtitle() y en el eje de la ordenada con ytitle().
En la gura 3.3 ilustra un ejemplo con algunos otras opciones de comando
del histograma. Note el cambio de construccin de grcos desde la gura 3.1
hasta ms elaborada gura 3.3. Este es un patrn normal para la construccin
de grcos en STATA: iniciamos por lo ms simple, entonces experimentamos
la suma de opciones para obtener una gura que se muestre claramente.
Example :
histogram college, frequency title("Figura 3.3") ///
xlabel(12(2)34) ylabel(0(2)12) ytick(1(2)13) start(12) width(2) ///
addlabel norm gap(15)
Figura 3.3
10
12
13
Frequency
6
8
7
6
12
14
16
18
20
22
24
26
28
% over 25 w/bachelor's degree +
30
32
34
Figura 3.3
Supongamos que queremos saber como se distribuye college por region. La
opcin by() nos da un histograma de college para cada regin. La gura 3.4
muestra un ejemplo en la cual expresamos en porcentajes sobre el eje de la
ordenada y los datos agrupados en 8 bins.
6 Ver
43
Example :
histogram college, by(region) percent bin(8) title("Figura 3.4")
Figura 3.4
West
N. East
Figura 3.4
Figura 3.4
South
Midwest
0
0
10 20 30 40
Percent
10 20 30 40
Figura 3.4
10
15
20
25
30
10
15
20
25
30
Figura 3.4
La siguiente gura 3.5 contiene un grco similar con las 4 regiones, pero
esta vez incluye un quinto elemento que seala la distribucin para todas las
regiones combinadas.
Example :
histogram college,percent bin(8) title("Figura 3.5") by(region,total)
Figura 3.4
Figura 3.4
West
N. East
South
Figura 3.4
Figura 3.4
Midwest
Total
0
10 20 30 40
10
Percent
10 20 30 40
Figura 3.4
10
15
20
25
30
10
15
20
25
30
Figura 3.5
44
15
20
25
30
0.50
1.50
20.0
40.0
60.0
80.0
Metropolitan area population, %
100.0
Figura 3.6
De la misma forma que en el histograma, podemos usar xlabel(), xtick(),
xtitle() para controlar las etiquetas de los ejes, los marcadores de los ejes, o
ttulos. El scatterplot tambin permite controlar las formas, colores, tamaos y
otros atributos. La gura 3.6 emplea marcadores por defecto, la cual son crculos slidos. El mismo efecto podramos obtener si incluimos la opcin msymbol(circle) o escribimos esta opcin de manera abreviada como msymbol(O) .
La siguiente tabla muestra las diversas formas de marcadores para la dispersin
de puntos.
45
msymbol()
circle
diamond
triangle
square
plus
x
smcircle
smdiamond
smsquare
smtriangle
smplus
smx
circle_hollow
diamond
triangle_hollow
square_hollow
smcircle_hollow
smdiamond_hollow
smsquare_hollow
smtriangle_hollow
point
none
Abreviacin
O
D
T
S
+
X
o
d
s
t
smplus
x
Oh
Dh
Th
Sh
oh
dh
sh
th
p
i
Descripcin
circulo slido
diamante slido
triangulo slido
cuadrado slido
signo "+"
letra "x"
pequeo crculo slido
pequeo diamante slido
pequeo cuadrado slido
pequeo diamante slido
pequeo signo "+"
pequea pequeo
circulo con vacio
diamante con vacio
triangulo con vacio
cuadrado con vacio
pequeo crculo con vacio
pequeo diamante con vacio
pequeo cuadrado con vacio
pequeo diamante con vacio
punto pequeo
invisible
La opcin mcolor() controla los colores de los marcadores7 . Por ejemplo podramos producir un scatterplot con grandes cuadrados morados: graph twoway
scatter waste metro, msymbol(S) mcolor(purple)
Una uso interesante de este tipo de grco es hacer que el tamao de los
simbolos sean proporcionales a una tercera variable. De este modo, los ploteos
se diferenciarn visualmente por medio de un ponderador "weight". Si modicamos el scatterplot entre la variable waste y metro, haciendo que el tamao de
los smbolos se pondere por la densidad poblacional de cada estado (pop), obtendremos la gura 3.7. Para esto usaremos el ponderador de frecuencia fweight[
] y la opcin de crculos vacios, msymbol(Oh)8 .
Example :
graph twoway scatter waste metro [weight=pop], msymbol(Oh)
7 Para
46
1.50
Per capita solid waste, tons
1.00
0.50
20.0
40.0
60.0
80.0
Metropolitan area population, %
100.0
Figura 3.7
El ejemplo de la gura 3.8 incluye una regresin lineal simple derivado del comando twoway lt que ha sido aadido al graco 3.6 especicando el siguiente
smbolo ( jj ) .
Example :
0.50
1.00
1.50
20.0
40.0
60.0
80.0
Metropolitan area population, %
Figura 3.8
47
Fitted values
100.0
1.60
1.20
1.40
California
Oregon Hawaii
1.00
Washington
New Mexico
Nevada
Arizona
Montana
Wyoming
Utah
Colorado
0.60
0.80
Alaska
Idaho
20.0
40.0
60.0
80.0
Metropolitan area population, %
100.0
Fitted values
Figura 3.9
La gura 3.10 muestra un scatterplot entre waste y metro para cada regin
de manera separada. La relacin entre estas dos variables aparecen pendientes
notables en la regin South y Midwest. La opcin xlabel() e ylabel() en este
ejemplo da las etiquetas para los ejes x e y de tres dgitos como mximo sin
decimales, hacindo fcil de leer para pequeos sub-ploteos.
Example :
graph twoway scatter waste metro, by(region) mlabel(state)///
xlabel(,format(%3.0f)) ylabel(,format(%3.0f))
48
West
N. East
New
York
Rhode
Island
Massachusetts
Hawaii
Oregon
Washington
Nevada
Arizona
Colorado
Utah
New Hampshire
Maine
Vermont
New Jersey
Connecticut
Pennsylvania
New Mexico
Alaska
Idaho
Montana
Wyoming
South
Midwest
Virginia
Missouri Ohio
Florida
Illinois
Michigan
South
Carolina
Delaware
Alabama
Texas Maryland
Tennessee
West Virginia
KentuckyOklahoma
North Carolina
Arkansas
Louisiana
California
Georgia
South Dakota
Kansas
Indiana
Minnesota
Iowa
Nebraska
North Dakota
Wisconsin
Mississippi
20
40
60
80
100 20
40
60
80
100
Figura 3.10
3.2.2.2 Multiples Scatterplots
El comando graph matrix nos muestra un til anlisis multivariado. Este
comando otorga una grca compacta de la relacin entre un nmero de variables por pareja, permitindole al analista observar los signos de no linealidad,
outliers o cluester que puedan afectar al modelamiento estadstico. Este tipo
de grco es til si se quiere observar la inuencia de una lista de variables
explicativas a una variable dependiente. La gura 3.11 muestra una matriz de
scatterplot que implica la relacin entre cuatro variables de la data states.dta.
Example :
*Multiples Scatterplots
graph matrix miles metro income waste , half msymbol(Oh)
49
Per
capita
miles
driven/year
100.0
50.0
Metropolitan
area
population,
%
0.0
50000
Median
household
income
40000
30000
20000
1.50
Per
capita
solid
waste,
tons
1.00
0.50
6000 8000 10000 120000.0
50.0
100.0
20000 30000 40000 50000
Figura 3.11
La opcin half especicado en la gura 3.11 hace que se muestre solo la
parte triangular inferior de la matriz ya que la parte superior es simtrica y
redundante.
50
800
600
400
200
0
1960
1970
1980
Year
1990
2000
Figura 3.12
En la gura 3.12, STATA automticamente elige una lnea slida azul para la
primera variable, code, y una lnea slida roja para la segunda variable, canada.
Adems de una legenda en la parte inferior que muestra el signicado de las
variables. Podemos mejorar este grco a travs de un arreglo en la legenda y
suprimiendo el ttulo redundante en el eje x, como se ilustra en la gura 3.13.
Example :
800
twoway line cod canada year, legend(label(1 "Todas las Naciones") ///
label (2 "Canada") position(2) ring(0) rows(2)) xtitle("")
200
400
600
1960
1970
1980
Year
Figura 3.13
51
1990
2000
Example :
800
1960
1970
1980
Year
1990
2000
Figura 3.14
9 Puede acceder a la ayuda del STATA a travs de help legend_option para ver una lista
de sub-opciones disponibles.
52
Abreviacin
i
l (letra ele)
L
J
Descripcin
no conecta puntos
conecta con lneas rectas
es similar a direct solo si x(i + 1) > x(i)
recta constante, luego vertical
vertical, luego se mantiene constante
La gura 3.15 repite este ploteo escalonado de TAC, pero con algunas modicaciones de las etiquetas de los ejes y ttulos. La opcin xtitle("") no presenta
ningn ttulo en el eje x. Aadimos marcadores en un intervalo de cada dos
aos en el eje x, etiquetamos el rango de valores en el eje y con intervalos de
100 unidades, adems incluimos lneas verticales de fondo en intervalos de 100
unidades.
Example :
graph twoway line TAC year, connect(stairstep) xtitle("") ///
xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///
ylabel(0 (100) 800, angle(horizontal)) clpattern(dash)
800
700
Miles de Toneladas
600
500
400
300
200
100
0
1960
1970
1980
1990
2000
Figura 3.15
Otro modo de especicar el tipo de lnea que se desea usar es a travs de la
opcin clpattern(), que nos permite elegir un patrn de lnea y se muestra en
la siguiente relacin:
1 0 Para
53
clpattern()
solid
dash
dot
dot_dash
shortdash_dot
longdash
longdash_dot
blank
formula
Descripcin
lnea slida
guiones
puntos
puntos y guiones
guiones pequeos con puntos
guiones grandes
guiones grandes con puntos
linea invisible
por ejemplo: clpattern(-.); clpattern(-..)
Para la siguiente gura 3.16 usamos tres variables discutidos en esta seccin
para crear una grca singular que muestre la tragedia del Northern Cod. Note
que las opciones connect(), clpattern() y legend() son utilizados en este ejemplo.
Example :
graph twoway line cod canada TAC year, ///
connect(line line stairstep) clpattern(solid longdash dash) ///
xtitle("") xtick(1960 (2) 2000) ytitle("Miles de Toneladas") ///
ylabel(0 (100) 800, angle(horizontal)) ///
legend( label (1 "Todas las Naciones") label (2 "Canada") ///
label(3 "TAC") position(2) ring(0) rows(3))
800
700
Miles de Toneladas
600
500
400
300
200
100
0
1960
1970
1980
1990
2000
Figura 3.16
3.2.2.4 Ploteo de Lneas Conectadas (Connected-Line)
En el ploteo de lneas de la subseccin anterior, los puntos de los datos son
invisibles y vemos solo la conexin de las lneas. El comando graph twoway
54
connected crea ploteo una conexin de puntos en la cual los datos son marcados
por smbolos del scatterplot. Las opciones de los smbolos de marcadores son
los mismos para scatterplot y ploteo con lneas. La gura 3.17 nos muestra un
ejemplo de un ploteo de lneas conectadas a travs del tiempo de la variable de
la biomasa de bacalao (bio) de la data cod.dta.
Example :
*Grco de Lneas Conectadas
.
use cod.dta
500
2500
1960
1970
1980
Year
1990
2000
Figura 3.17
La base de datos solamente contiene valores desde 1978 hasta 1997, generando
muchos espacios vacios en la gura 3.17. La condicional if nos permite restringir
el rango de los aos. La gura 3.18 realiza esta operacin, adems de acomodar
la imagen mostrando un control de los marcadores de smbolos, patrn de lneas,
ejes y legenda. Vemos que las biomasas comienzan su gran cada a nes de los
1980, aos anteriores las crisis eran reconocidos.
Example :
graph twoway connected bio cod year if year >1977 & year<1999, ///
msymbol(T oh) clpattern(dash solid) xlabel(1978(2)1996) ///
xtick(1979(2)1997) ytitle("Miles de Tonelada") xtitle("") ///
55
Biomasas Estimadas
Total de Desembarco
2500
Miles de Tonelada
2000
1500
1000
500
0
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
Figura 3.18
3.2.2.5 Otros Tipos de Scatter Plot
Adems de los ploteos con lneas y scatterplot, el comando graph twoway presenta una amplia variedad de otros tipos11 . Una observacin que se puede hacer
es que existen comandos como graph twoway bar y graph twoway dot que
son muy distintos a los tipos de grcos de barras (bar) y puntos (dot) respectivamente. Las versiones del twoway provee varios mtodos para plotear
una variables y contra otra variable x; adems tienen la ventaja de sobreponer
otros grcos del twoway para formar grcos ms complejos. Por otro lado, las
versiones que no son del twoway proveen modos de ploteos usando resumenes
estadsticos (tal como media o mediana) de las variables y contra las categoras
de otras variables x.
Mucho de estos tipos de ploteos son tiles en la composicin del grco
nal, que se construye por sobreposicin de dos o ms ploteos simples. En el
grco 3.19 muestra un ploteo de reas de la desembarcacin de bacalao del
Newfoundland.
Example :
graph twoway area cod canada year, ytitle("")
1 1 Para ver toda la lista de posibles tipos de grcos con el comando graph twoway tipear
help twoway.
56
800
600
400
200
0
1960
1970
1980
Year
1990
2000
Figura 3.19
El color de las reas pueden ser controlados por la opcin bcolor12 . Por
ejemplo, el gris oscuro (gs0) es actualmente el color negro. Por ejemplo, la
escala en grises se encuentra entre el valor 0 y 16.El color gris ms ligero (gs16)
es blanco. En la gura 3.20 muestra un ligero gris para este grco.
Example :
200
400
600
800
1960
1970
1980
Year
1990
Canadian landings, 1000t
Figura 3.20
1 2 Tipear
57
2000
220
200
180
160
140
120
100
80
60
40
1965
1970
1975
1980
1985
Winter
1990
1995
2000
Figura 3.21
El formato base() de la gura 3.21 enfatiza la sucesin de inviernos inesperados (valores que sobrepasan el promedio) durante los aos de 1980 hasta 1990,
donde ocurre la crisis pesquera en Newfoundland.
Una diferente vista de la misma data se muestra en la gura 3.22, donde se
emplea la regresin mnima para suavizar la serie de tiempo con graph twoway
58
180
160
140
120
100
80
60
40
1965
1970
1975
1980
1985
Winter
1990
1995
2000
Figura 3.22
El ploteo de rangos conecta valores altos y bajos de y para cada valor de
x, usando barras, pas, o reas sombreadas. Los precios de mercados diarios
de los stocks son gracados de esta manera. La gura 3.23 muestra un ploteo
de rango con pas usando la cubertura de hielo mximo y mnimo de la data
grulf.dta.
Example :
graph twoway rcap minarea maxarea winter if winter>1963, ///
ylabel(40(20)220, angle(horizontal)) ytitle("Area con Hielo,1000km^2") ///
xlabel(1965(5)2000)
59
220
200
180
160
140
120
100
80
60
40
1965
1970
1975
1980
1985
Winter
1990
1995
2000
Figura 3.23
60
30
% over 25 w/bachelor's degree +
15
20
25
10
West
N. East
South
Midwest
Figura 3.24
La mediana de la proporcin de adultos con grado superior tiende a ser
mayor en Northeast, y menor en South. Por otro lado los estados del sur presentan mayor variabilidad. La mediana por regiones (la lnea entre las cajas) en
la gura 3.24. puede ser comparado con la mediana considerando todos los estados indicado por la opcin yline(19.1). Esta mediana se obtiene escribiendo:
summarize colle if region<. ,detail.
Las cajas en estos grcos se extienden desde el primer hasta el tercer cuartil, una distancia denominada rango intercuartil (IQR). Esta adems contiene
aproximadamente la mitad, el 50 %, de la data. Los outliers, denidos como
observaciones mayores a 1.5 IQR del primer o tercer cuartil, la cual se plotean
separadamente de la caja. La caja y bogote en STATA dene los cuartiles de la
misma manera que el comando summarize, detail.
Numerosas opciones controlan la apariencia, forma y detalles de las cajas en
este diagrama13 . La gura 3.25 demuestra alguna de estas opciones, adems del
arreglo horizontal de graph_box, usando la energa per cpita mostrado en la
base states.dta. La opcin over(region,sort(1)) hacen que las cajas se ordenan
de forma ascendente acorde a la primera variable (en este caso ordena segn sus
medianas y la nica variable que existe). La opcin intensity(30) controla la
intensidad de la sombra de las cajas, establecindole algo menos oscuro que el
default (ver gura 3.24.). La lnea vertical marca la mediana total (320), la cual
se crea con la opcin yline(), en vez de xline.
1 3 Ver
help graph_box.
61
Example :
graph hbox energy, over(region,sort(1)) yline(320) intensity(30)
N. East
Midwest
West
South
200
400
600
800
Per capita energy consumed, Btu
1,000
Figura 3.25
La grca de caja y bigote para la energa en la gura 3.25 aclara no solo
la diferencia entre las medianas, sino tambin la presencia de outliers, principalmente son cuatro altos consumos de energa entre los estados de West y
South.
Aleuts
Indians
Eskimos
Non-Natives
8.072%
Figura 3.26
Los no nativos son el grupo dominante en la gura 3.26, pero si mostramos el
pastel separado por cada tipo de comunidad aadindole un by(comtype) como
1 4 Tipear
63
villages
towns
8.141%
34.67%
cities
2.332%
Aleuts
Indians
Eskimos
Non-Natives
Figura 3.27
64
sd
Desviacin estndar.
sum
Suma.
rawsum
opcin.
count
:
los missing values.
max
Mximo
min
Mnimo
median
Mediana
p1
Primer cuartil
p2
iqr
Rangos intercuartiles.
40
use statehealth.dta,clear
graph bar (median) inactive, over(region) blabel(bar) ///
bar(1,bcolor(gs10))
29.1
28.3
20.9
10
p 50 of inactive
20
30
36.05
West
N. East
South
Midwest
Figura 3.28
La gura 3.29 elabora la anterior idea aadiendo otra variable, overweight, y
se colorea su barra de gris oscuro. La etiqueta de la barra son size(medium),
hacindoles ms grande que el tamao por default (size(small)). Otras posibilidades para size() son las subopciones tiny, medsmall, medlarge o large 15 .
La gura 3.29 muestra las diferencias regionales con respecto al sobrepeso son
menos pronunciados que la inactividad, adems las medianas de ambas variables
son mayores en el South y Midwest.
Example :
graph bar (median) inactive overweight, over(region) ///
blabel(bar, size(medium)) bar(1,bcolor(gs10)) bar(2,bcolor(gs7))
1 5 Puedes
66
40
36.05
30
31.3
27.6
28.3
31.2
29.1
27.1
10
20
20.9
West
N. East
South
p 50 of inactive
Midwest
p 50 of overweight
Figura 3.29
Los indicadores de riesgo en statehealth.dta incluye fatalidades por vehculos
a motor por 100 000 habitantes (motor ). La gura 3.30 muestra subgrupos
de estados con bajos y altos ingresos (estados que tienen ingresos menores y
mayores a la media de los ingresos del hogar), revelando una impresionante
correlacin con la riqueza. Entre cada uno de las regiones, la tasa de fatalidad
son ms altos en el South y menores en el Northeast. El orden de las dos
opciones over() controlan el orden en la organizacin del grco. Para este
ejemplo utilizamos las barras horizontales (hbar), donde las opciones ytitle() y
yline() se reeren al eje horizontal. En este caso, colocamos una lnea horizontal
que indica el valor de la mediana total de 17.2, yline(17.2), y ser mostrado
de forma vertical.
Example :
graph hbar (mean) motor, over(income2) over(region) yline(17.2) ///
ytitle("Promedio de vehculos a motor relacionado a Fatalidades/100000")
67
Low income
West
High income
Low income
N. East
High income
Low income
South
High income
Low income
Midwest
High income
0
5
10
15
20
25
Promedio de vehculos a motor relacionado a Fatalidades/100000
Figura 3.30
Las barras tambin pueden estar montadas entre s, como se muestra en la
gura 3.31. Este ploteo, basado sobre la data de etnicidad en Alaska, emplea
todas las opciones por default para gracar la composicin tnica por tipo de
comunidad (village, town o city).
Example :
use akethnic.dta,clear
100000
200000
300000
400000
villages
towns
sum of nonnativ
sum of indian
Figura 3.31
68
cities
sum of aleut
sum of eskimo
La gura 3.32 regraca este ltimo ploteo con una mejor leyenda y etiqueta
los ejes. La opcin over() ahora incluye subopciones que reetiquetan los tipos
de comunidad en el eje de la abscisa para dar mayor informacin. La opcin
legenda especica cuatro las en el mismo orden vertical que se muestra en las
barras. Tambin se mejora la etiqueta de las legendas con ytitle y ylabel como
opciones del formato del eje vertical.
Example :
Eskimo
Indian
Aleut
Nonnative
100000
Population
200000
300000
Village <1000
Towns 1000-10000
Cities >10000
Figura 3.32
Mientras el pie de la gura 3.31 muestra el tamao relativo (porcentajes)
de los grupos tnicos por cada tipo de comunidad, esta ltima barra muestra
sus tamaos absolutos. Consecuentemente, esta gura te dice algo ms que el
anterior: la mayora de la poblacin de Eskimos en Alaska viven en villas.
69
West
N. East
South
Midwest
10
20
mean of smokeM
Figura 3.33
70
mean of smokeF
30
Adems, la gura 3.33 calcula solo 8 promedios, esto hace que sea fcil las
comparaciones. Vemos que las tasas de fumar son ms altas en las mujeres, y
con respecto a ambos sexos la tasa ms alta se encuentra en South y Midwest,
y esas variaciones son sustancialmente muy altos en el caso de las mujeres.
La grca en barras podra darnos la misma informacin, pero una ventaja
de estos grcos es la formar de compactar los datos. Los ploteos de puntos
(particularmente cuando se quiere ordenar por estadsticos de inters) es fcil
de entender incluso con varias las.
71
Es es un Ttulo
Este es el Eje X 2
20
25
15
30
35
10
15
20
25
30
Porcentaje de adultos con Grado Superior
35
20
25
30
Este es el Eje Y 2
35
10
15
Este es un Subttulo
Este es un caption
Figura 3.34
El ttulo aade el texto fuera del espacio de ploteo. Tambin podemos aadir
cajas de texto en coordinadas especcas en el espacio de ploteo. Diversos outliers se observan en este ploteo, la cual bajo inspeccin estos outliers resultan
ser Washington DC (el valor ms alto de college), Utah (valor ms pequeo de
smokeT ) y Nevada (el valor ms alto de smokeT en la parte superior izquierda).
Los cuadros de texto son de instrumentos para identicar dichas observaciones
en nuestro grco, como se seala en la gura 3.43. La opcin text(15.5 22.5
"Utah") establece la palabra Utah en la posicin x=15.5 e y=22.5 del scatterplot, directamente por encima del punto que indica el estado de Utah. De
una forma similar podemos establecer la palabra "Nevada"en x=33.5 e y=15 y
ubicarlo en un cuadro pequeo (con pequeos mrgenes17 ) alrededor del nombre
del estado. Las tres lneas de textos justicados hacia la izquierda son colocados al lado de Washignton DC (cada lnea se especica separadamente entre
comillas). Algunos cuadros de texto o ttulos pueden tener mltiples lneas,
as que podemos escribir una parte del ttulo en lneas diferentes escribindolo
entre comillas diferentes, para luego denir el tipo de justicacin. El cuadro
"nevada" utiliza un formato de fondo por default, mientras que el cuadro de
"Washigton DC" elegimos un color de fondo blanco18 .
Example :
graph twoway scatter smokeT college, yaxis(1 2) xaxis(1 2) ///
1 7 Ver
1 8 Ver
help marginstyle.
help textbox_option y help colorstyle.
72
Es es un Ttulo
15
Este es el Eje X 2
20
25
30
35
35
10
Washington DC
no es actualmente
un estado
Utah
10
15
20
25
30
Porcentaje de adultos con Grado Superior
20
25
30
Este es el Eje Y 2
Nevada
15
Este es un Subttulo
35
Este es un caption
Figura 3.35
73
use statehealth.dta,clear
15
20
25
30
10
15
20
25
% adults college degree, 1990
95% CI
30
35
Fitted values
Figura 3.36
Un grco con mayor informacin cuando sobreponemos un scatterplot sobre
la recta de regresin lineal, se puede ver en la gura 3.45. Para hacer esto, damos
dos distintas indicaciones de comandos de grcos, separado por el "jj" como se
mencion anteriormente.
Example :
15
20
25
30
35
10
15
20
25
% adults college degree, 1990
95% CI
% adults smoking
Fitted values
Figura 3.37
74
30
35
32
Regresin Lineal
95% c.i
29
26
23
20
17
14
12
14
16
18
20
22
24
26
28
30
Porcentajes de Adultos con Grados Superior
Figura 3.38
75
32
34
Ambos scatterplot (ltci y scatter ) en la gura 3.46 presentan la misma escala de los ejes x e y, pero cuando ambas variables de inters tienen distintas
escalas, nosotros necesitaramos escalas independientes. La gura 3.47 ilustra
este caso juntando dos ploteos con lneas basado sobre la data del Gulf of St.
Lawrence, gulf.dta. Estas guras combinan series de tiempo de los promedios
mnimos de temperatura para el agua en Gulf (cil ), en grados celsius, y la mxima rea cubierta de hielo (maxarea), en miles de kilmetros cuadrados. El
ploteo de line hace uso de la opcin yaxis(1), lo cual por defecto es el lado
izquierdo. El ploteo de la mxima rea usa el yaxis(2), la cual por defecto
es el lado derecho. Los diversos opciones de ylabel, ytitle, yline e yscale
se incluyen con la subopcin axis(1) o axis(2), declarando cual de los ejes
y se reeren. Espacios extras entre las comillas para ytitle provee una rpida forma de colocar las palabras de esos ttulos donde nosotros deseamos. El
cuadro de texto contiene ""Decada y Colapso de los pescadores de Northern
Gulf" especicando un margen de tamao medio alrededor del texto. La opcin
yscale(range()) da a ambos ejes un rango ancho para los datos, los valores especicados se eligieron despus de experimentar y encontrar la mejor separacin
vertical entre ambas series.
Example :
use gulf.dta, clear
graph twoway line cil winter, ///
yaxis(1) yscale(range(-1,3) axis(1)) ///
ytitle("Grados Celsius ",axis(1)) yline(0) ///
ylabel(-1(0.5)1.5, axis(1) angle(horizontal) nogrid) ///
text(1 1992 "Decaida y Colapso" "de los pescadores" "de Northern Gulf",
///
box margin(medium)) ///
jj line maxarea winter, ///
yaxis(2) ylabel(50(50)200, axis(2) angle(horizontal)) ///
yscale(range(-100,221) axis(2)) ///
ytitle(" 1000s de km^2",axis(2)) ///
yline(173.6, axis(2) lpattern(dot)) ///
jj if winter>1949, ///
xtitle("") xlabel(1950(10)2000) xtick(1950(2)2002) ///
legend(position(11) ring(0) rows(2) order(2 1) ///
label(1 "Mxima rea de hielo") label(2 "Mnima temperatura")) ///
note("Fuente: Hamilton, Haedrich and Duncan (2003); dtata de DFO (2003)")
76
Mnima temperatura
Mxima rea de hielo
150
Grados Celsius
1.5
100
Decaida y Colapso
de los pescadores
de Northern Gulf
50
1000s de km^2
200
.5
0
-.5
-1
1950
1960
1970
1980
1990
2000
Figura 3.39
Para localizar la pesca de bacalao en la misma grca con la temperatura
y el rea de hielo, necesitamos tres escalas verticales independientes. La gura
3.48 envuelve tres ploteos superpuestas, la cual todos estn en el lado izquierdo
del eje y por defecto. La forma bsica de estos tres ploteos es como sigue:
connected maxarea winter; un ploteo de lneas conectadas entre la variable maxarea y winter, usando yaxis(3) la cual debera estar ubicado en la parte
ms izquierda del eje y. Los rangos de escala en el eje y va desde -300 a 200,
sin lneas horizontales como malla. Su titulo es "rea de Hielo, 1000 km^2" .
Este ttulo es localizado en la posicin noroeste, placement(nw).
line cil winter; plotea una lnea entre la variable cil y winter, usando
yaxis(2) y rangos de escala entre -4 hasta 3, con las etiquetas por defecto.
connected maxarea winter; un ploteo entre cod y winter, usando yaxis(1).
El titulo se localiza en la parte suroeste.
Brindando estos tres componentes del ploteo de forma conjunta, el comando
para elaborar la gura 3.48 aparece a continuacin.
Example :
graph twoway connected maxarea winter, ///
77
1960
1965
1970
1975
1980
1985
1990
1995
2000
Figura 3.40
78
en la misma lnea de comando del grco o a travs del comando graph save
despus que el grco haya sido creado. Cuando guardamos en esta ltima
manera, se puede volver a acceder a los grcos para ser manipulados a gusto
personal a travs del Editor de Grcos.
Example :
*Guardando un Grco en STATA
*I Forma
graph twoway scatter mpg weight,saving(g1)
*II Forma
tw(sc mpg weight, msize(small)) (lt mpg weight, lwidth(medthick)), ///
title("Dispersin de Puntos y Lnea OLS Ajustada")
graph save g2.gph,replace
Dos o ms grcos pueden combinarse en uno solo utilizando el comando
graph combine.
Example :
*Combinemos el graco g1.gph y g2.gph
graph combine g1.gph g2.gph
10
20
20
Mileage (mpg)
30
30
40
40
10
2,000
2,000
3,000
4,000
Weight (lbs.)
5,000
3,000
4,000
Weight (lbs.)
Mileage (mpg)
5,000
Fitted values
Dado que la extensin del graco por default del STATA es *.gph, no es
reconocido por otros programas, tal como procesadores de texto. Para guardar
un grco en otro formato, se debera usar el comando graph export. Varios formatos estn disponibles, incluyendo PostScript (.ps), Encapsulated PostScript (.eps), Window Metale (.wmf), PDF (.pdf) y Postable Network Graphics (.png). La mejor seleccin del formato depende en parte de cual procesador
de texto se usa, por eso es necesario una prueba de ensayo y error.
Example :
*Exportar Grcos
*Guardamos el grco combinado como:
graph
graph
graph
graph
graph
export
export
export
export
export
g12.wmf
g12.ps
g12.eps
g12.pdf
g12.png
//Window meta-le
//PostScript
//Encapsulated PostScript
//PDF
//Portable Network Graphics
80
1 x1
2 x2
+ :::: +
k xk
; i = 1; ::::; N
La notacin matricial otorga una forma compacta de representar los estimadores y la varianza. Denimos el vector columna v de N x1 para tener la ith
observacin de yi , y denamos la matriz de regresores X de N xk que tiene la ith
la x0i . Entonces los estimadores OLS pueden ser escritos de diferentes formas:
b
=
=
(X0 X)
N
P
i=1
xi x0i
81
X0 y
1 N
P
i=1
xi yi
N
P
x21i
B i=1
BN
BP
B x2i x1i
b=B
Bi=1
B
..
B
.
B
@P
N
xki x1i
N
P
1
10 N
P
x1i xki C B x1i yi C
i=1
C
C Bi=1
N
C
CBP
C B x2i yi C
C
CB
C
C Bi=1
C
B
C
..
..
C
B
C
.
.
C
CB
A
@
A
N
N
P
P 2
xki yi
xki
N
P
x1i x2i
i=1
N
P
i=1
x22i
..
.
..
i=1
i=1
i=1
(condicin de homocedasticidad).
3. E (ui uj jxi ) = 0; i 6= j
(condicin de no correlacin).
b = s2 (X0 X)
s2 = (N
k)
N
P
i=1
x0i b .
u
b2i
yu
bi = yi
Bajo los supuestos 1,2 y 3, los estimadores son completamente ecientes, es decir, tienen varianza mnima. Si adicionalmente, ui est
distribuido normalmente, entonces los t estad{sticos presentan una distribucin de t student. Cuando los supuestos 2 y 3 no se cumplen, entonces los
estimadores OLS no son ecientes.
82
M atriz de Correlacion
83
Re gresion OLS
Los regresores son conjuntamente signicativos, porque el estadstico F es
de 124.98 y tiene una probabilidad de 0.000. Al mismo tiempo, muchas de
las variaciones es inexplicado con un R2 =0.2289. La raz de Error Cuadrtico
Medio (Root MSE) reporta el error estndar de la regresin. Usando el test
de las dos colas a un nivel de 5%, todos los regresores son individualmente
signicativos estadsticamente porque p <0.05, a excepcin de age y female.
Lo ms importante es la signicancia estadstica de los coecientes, que signican la medida del impacto de los regresores sobre el gasto medico. Esta
interpretacin es sencilla cuando las variables estn medidas en niveles, pero en
este caso se encuentra en logaritmos, as que los estimadores necesitan ser interpretados como semi-elasticidades. Por ejemplo, para el coeciente de suppins
es 0.256. Esto quiere decir que el seguro suplementario privado est asociado
con un 0.256 aumento proporcional, o 25.6% incremento en los gastos mdicos.
Similarmente, grandes efectos se obtienen para la media del estatus de salud,
84
donde el gasto de salud para las mujeres son 8.4% menor que el de los hombre
manteniendo constante los dems factores. El coeciente de income de 0.0025
sugiere un efecto muy pequeo, pero esto es engaoso ya que esta expresado
en miles. La desviacin estndar del ingreso es 0.001, tal que una desviacin
del ingreso conduce a un aumento proporcional de 0.001, o 0.1%, en los gastos
mdicos.
85
Example :
*Test de Hiptesis Conjunta
test phylim actlim totchr
Example :
*Prediccin del Modelo
86
quietly reg ltotexp suppins phylim actlim totchr age female income
predict ltotexp_est
predict residuos, residual
predict residuos_est, rstandard
predict ltotexp_stdp , stdp
predict ltotexp_stdf , stdf
summ ltotexp ltotexp_est
estimates store modelo_original
La opcin stdp provee los errores estndar de la prediccin, y la opcin stdf
provee los errores estndar de la prediccin para cada una de las observaciones
de la muestra.
El cuadro estadsticos resumido nos muestra que el promedio del valor predicho ltotexp_est es igual a la variable dependiente ltotexp.
quietly reg ltotexp suppins phylim actlim totchr age female income
-6
-4
Residuals
-2
0
rvfplot
9
Fitted values
10
11
.1
Density
.2
.3
.4
-6
-4
-2
Residuals
S2
(K 3)2
+
6
24
90
91
AIC
ln(AIC)
SIC
ln(SIC)
u
bi
SCR
= nk=n
n
n
SCR
k
ln(n) + ln(
)
n
n
= nk=n
=
u
bi
SCR
= e2k=n
n
n
2k
SCR
+ ln(
)
n
n
= e2k=n
92
Como vemos el primer modelo tiene un menor valor de los criterios de informacin (AIC y BIC), as que el modelo que mejor se preere es incluyendo a la
variable female como un factor inuyente en los gastos mdicos.
4.6.2.2 Test del Modelo de Box-Cox
Un enfoque comn sobre el test de especicacin es ja un modelo atractivo
que pruebe un modelo sencillo o corriente como un caso especial y desarrolla un
Test de Wald para los parmetros restringidos que condice al modelo sencillo.
Aqu nosotros consideramos un test que especica el modelo corriente. Deseamos decidir si un modelo de regresin para los gastos mdicos es mejor en
logaritmos o en niveles. No hay una manera obvia para comparar los dos modelos porque tienen diferentes variables dependientes. Sin embargo, la transformacin de Box-Cox conduce al mejor modelo donde incluye el modelo lineal o
en logaritmos como un caso especial. Especcamente, jamos el modelo con la
variable dependiente transformada.
g (yi ; ) =
yi
= x0i + ui
1 s
2. g (yi ; ) = ln y s
= 1:
= 0:
93
N 0;
: Esto nos
3. g (yi ; ) = 1
1
yy
1:
La transformacin de Box-Cox introduce un parmetro no lineal en el modelo. STATA provee el comando boxcox para jar el modelo.
Example :
boxcox totexp suppins phylim actlim totchr age female income ///
if totexp>0
Cox
94
4.6.3 Multicolinealidad
Entre las variables explicativas suele suceder grados de colinealidad, si en caso
una de estas variables es perfectamente colineal con otra variable entonces la
matriz X0X ser singular y no se podr estimar los parmetros. STATA puede
reconocer la colinealidad perfecta pero es muy difcil en el caso de la colinealidad
cercana.
En el primer punto, STATA elimina las variables hasta que la matriz X0X
sea invertible. En el segundo caso, se da cuando existe correlacin parcial alta
entre las variables o existe dependencia lineal cercana en la matriz de variables explicativas, lo cual provoca que el ajuste del modelo sea bueno pero los
parmetros estimados tengan errores estndar muy altos o con signos incorrectos.
95
1
1 Rk2
V IF
Dado que el F IV para cada uno de los regresores est alrededor de la unidad,
no hay incidencia de algn problema de multicolinealidad.
96
=
=
0
u
=
=
XX0
XX0
+ XX
Xy
X (X + u)
1
Xu
E b =
La matriz
XX0
XX0
= E
Xuu0 X0 (X0 X)
uX
(X0 X)
Heteroscedasticidad
Autocorrelacin
2
1
B0
B
=B .
@ ..
0
B 1
B
=B .
@ ..
n 1
0
2
2
..
.
0
..
2
n
1
..
.
n 2
97
0
0
..
.
C
C
C
A
nxn
n 1
..
C
.. C
. A
1
nxn
n 2C
98
sc res2 ltotexp_est
b). Prueba de Park
De aqu en adelante se presentarn mtodos formales de identicar la heteroscedasticidad. Esta prueba nos sugiere que la varianza heteroscedastica 2i
es una funcin de las variables explicativas Xi . La forma funcional que sugiere
es:
99
ln ubi 2 =
+ ln Zi + vi
donde u
b2 ser una aproximacin de 2i y Zi sera algunas o todas las variables explicativas sealadas en la regresin original: Si el estimador resulta
signicativo, entonces existe presencia de heteroscedasticidad en los datos.
Supongamos que estamos presintiendo un problema de hetroscedasticidad
causada por la variable de ingresos (income). As que procedemos de la siguiente
forma para realizar este test.
Example :
*Prueba de Park
quietly reg ltotexp suppins phylim actlim totchr age female income
gen ln_res=ln(res2)
reg ln_res income
Pr ueba de P ark
Como se puede observar el estimador que acompaa a la variable income es
signicativo a un nivel de signicancia del 5%, as que podemos estar pensando
la existencia de heteroscedasticidad en los trminos de error causado por los
ingresos.
c). Prueba de Glejser
Es similar a la prueba de Park, la cual sugiere hacer una regresinn auxiliar
sobre los valores absolutos de u
b sobre las variables explicativas Xi 20 .
2 0 Glejser
100
jubi j =
+ ln Zi + vi
Pr ueba de Glejser
El parmetro asociado a income no es signicativo al nivel de 5%., peri si
sera al 10%. As que necesario realizar ms pruebas.
d). Prueba de Breusch-Pagan-Godfrey
Esta prueba supone la siguiente regresin auxiliar:
uei 2 =
1 Z1i
jb
uj
jb
uj
jb
uj
2 Z2i :::
p
Xi + vi
1
+ vi
+
Xi
1
+ p
+ vi
Xi
+
101
p Zpi
+ vi
donde:
2
uei =
u2i =
n
X
i=1
u
b2i =n
2
p
Una vez que se encuentra el estadstico de prueba se compara con el estadstico chi-cuadrado crtico con p grados de libertad, tal que s nR2 = calculado >
critico ; la conclusin es que hay heteroscedasticidad.
La Prueba de Breusch-Pagan-Godfrey ha sido implementada en el STATA,
cuyo comando es estat hettest o simplemente hettest despus de realizar la
regresin principal.
Example :
*Prueba de Breusch-Pagan-Godfrey
quietly reg ltotexp suppins phylim actlim totchr age female income
estat hettest
hettest
El acercamiento consiste en probar la presencia de heteroscedasticidad mediante una prueba de igualdad de varianzas de los residuales mediante el estadstico F . El procedimiento para realizar esta prueba es el siguiente:
1. Identicar una variable con que la varianza de los errores est correlacionada. En nuestro caso ilustrativo esta variable es income.
2. Ordenar en forma ascendente a las observaciones segn la variable explicativa elegida.
3. Omitir c observaciones centrales, donde c es especicada a priori, dividiendo a la muestra restante n c observaciones en dos grupos cada uno con
un total de (n c)=2 observaciones. La determinacin de c es arbitraria,
sin embargo, suele considerar criterios de omitir entre un 20 y un 25% de
la muestra.
4. Estimar dos regresiones separadas correspondientes a los dos grupos. De
estas se obtienen la suma de cuadrados residuales SCR1 y SCR2 respectivamente.
5. Se calcula el estadstico F :
Fcalculado =
con gl1 = gl2 =
(n c)
2
SCR2 =gl2
SCR1 =gl1
k grados de libertad.
c)
2
;
k;
(n
c)
2
Example :
*Prueba de Goldfeld-Quandt
*Paso 1. Ordenar los valores de la variable explicativa
*que inuira en la heteroscedasticidad
sort income
drop if ltotexp==.
// Se eliminaron solo 103 observaciones,ahora tenemos
//2873 observaciones disponibles.
//generamos un identicador para la variable income ordenada
gen id=[_n]
*Paso 2. Omitir "c" observaciones centrales y dividiendo
*la muestra en (n-c)/2 observaciones
//para este caso omitiremos el 25% de las observaciones
//centrales, es decir, 25%(2873)=718.25, redondeando 718
//observaciones eliminadas, entonces el primer grupo sera
//hasta n-c/2=(2873-718)/2=1077.5, sea 1078obs. y el segundo
//grupo sera a partir de n-(n-c/2)=n+c/2=2873-1077.5=1795.5,
// la observacin 1796 hasta el ltimo.
gen m=.
replace m=1 if
replace m=2 if
id<=1078
id>=1796
**Grupos 2
104
reg ltotexp suppins phylim actlim totchr age female income ///
if m==2
//SCR2= 1406.72964
//gl2=1070
*Paso 4. Hallamos el F-calculado
display "F-calculado="
display ( 1406.72964/1070)/(1657.62507/1070)
//F-calculado=.84864163
//F-critico con 744 gl en el numerador y denominador es cercano a 1
*Paso 5. Conclusin
//Dado que: F-calculado<F-critico, se acepta la hiptesis nula,
//es decir, existe homocedasticidad en los datos.
f ) Prueba de White
Esta prueba estima una regresin auxiliar entre los residuales al cuadrado
sobre sus regresos originales, el cuadrado de los regresos y el producto cruzado
de estos. La prueba no requiere un conocimiento de la fuente de la heteroscedasticidad y no depende del supuesto de normalidad de los regresos. Adems la
hiptesis nula se basa en la homocedasticidad de los residuos.
El procedimiento se especica a continuacin:
1. Estimar el modelo de regresin lineal y obtener los residuos.
2. Estimar la regresin auxiliar siguiente y obtener el R2 :
ubi 2 =
1 Z1i
2 Z2i :::
p Zpi
+ vi
105
106
describe
*Seteamos la base como Serie de Tiempo
tsset time
graph matrix c i l h a
50
100
150
1000
1500
2000
2500
100
50
150
100
50
1000
500
2500
2000
H
1500
1000
80
60
A
40
20
0
50
100
500
1000
20
40
60
80
*Mtodo Grafcio
reg c i l h a
predict residuo, resid
predict residuo_est, rstandard
graph twoway (line residuo tiempo) ///
(line residuo_est tiempo),yline(0)
gen residuo_1=L.resid
-10
-5
10
1950
1960
1970
1980
tiempo
Residuals
Standardized residuals
109
-10
-5
Residuals
0
10
-10
-5
0
residuo_1
P loteo entre u
bt y u
bt
10
1 ;por
:
:
:
:
N umero
N umero
N umero
N umero
total de observaciones = N1 + N2
de s{mbolos + (residuos positivos)
de s{mbolos
(residuos negativos)
de Rachas
Bajo la hiptesis nula de que los resultados sucesivos de los residuos son independientes, el nmero de rachas est asintticamente distribuido normalmente
con:
M edia :
V arianza :
2N1 N2
+1
N
2N1 N2 (2N1 N2 N )
=
N 2 (N 1)
E(R) =
2
R
110
1:96
E(R) + 1:96
R]
= 0:95
*Paso 3.
111
*Paso 5
//Conclusin: El intervalo no contiene el Nmero de
//Rachas calculada, as que se rechaza la hiptesis
//Nula de que los residuos en la regresin son aleatorios
//al 95% de nivel de conanza. Es decir, los residuos
//muestran correlacin.
c) Prueba de Durbin Watson
El estadstico de Durbin y Watson se dene como:
Pt=n
(b
ut
u
bt 1 )2
d = t=2Pt=n 2
bt
t=1 u
iguales.
113
Decisin
rechazar
sn decisin
rechazar
sn decisin
no rechazar
P
u
b2t y
u
b2t
S cumple
0 < d < dL
dL < d < d U
4 dU < d < d L
4 dU < d < 4 dL
dU < d < 4 dU
son aproximadamente
STATA cuanta con el comando estat dwatson para realizar esta prueba
la cual nos muestra el valor del estadstico de Durbin Watson.
Example :
*Prueba de Durbin Watson
quietly reg c i l h a
estat dwatson
//Es estadstico d= 1.074914 y
//el valor crtico para n=30 y k=5 sera
//dL=1.071 y dU=1.0833. Por lo tanto,
//existe presencia de autocorrelacin
//positiva.
1 X1
+ ::: +
k Xk +ut
1 ut 1
+ ::: +
p ut p
+v
H0 :
= ::: =
=0
p)R2
2
p
115
Las macros globales son usadas cuando se jan diferentes regresiones con las
mismas listas de regresores porque ellos aseguran que la lista de regresores son
las mismas en todo instante y hacen que sea fcil cambiar la lista de regresor.
Un cambio sencillo a la macro global hace que cambie los regresores en todo
instante.
116
Tambin podemos usar una macro para denir la variable dependiente. Por
ejemplo:
Example 2 :
local y mpg
regress y xlist
Note que y no es una variable que tiene N observaciones, sino que es un
string que reemplaza a mpg.
En general, las macros locales son especialmente usadas para programacin
en STATA. Entonces, por ejemplo podemos usar y y x como una notacin
genrica para la variable dependiente y las variables explicativas, haciendo los
cdigos fcil de leer. En cambio, una macro global es usada para programas
corrientes.
gen
gen
gen
gen
x1var=runiform()
x2var=runiform()
x3var=runiform()
x4var=runiform()
118
replace sum=0
foreach var of varlist x1var-x4var {
replace sum=sum + var
}
El resultado es el mismo obtenido manualmente. La codicacin en este bucle es un ejemplo de una programacin, donde se coloca un corchete de apertura
"{" al nal de la primera lnea de comando y un corchete de cierre "}" al nal
del programa. En este bucle, nos referimos a cada variable en la lista de variable
llamada varlist a travs de la macro local llamada var, as que es necesario el
uso de las comillas especiales para invocar a esta macro local. El nombre de
la macro es opcional, pero la palabra varlist si es necesaria para indicarle al
STATA que est trabajando con una lista de variable. Otros posibles listas que
se podran usar es numlist, newlist, global o local22 .
2 2 Para
119
replace sum=0
local i 1
while i<=4 {
replace sum= sum + xivar
local i= i+ 1
}
summ sum
Los escalares pueden almacenar nmeros o string, y las matrices pueden almacenar diferentes nmeros o string como un vector.
1.1
5.3.1 Escalar
Los comandos que nos permite analizar variable (describe, summarize, etc) dan
resultados como escalares numricos. Podemos ver los contenido de un escalar
usando el comando display, tambin podemos ver la lista de todos los escalares
creados a travs del comando scalar list. Por ejemplo, almacenamos el producto
de 3x2 como un escalar llamado a y luego mostramos su valor.
Example :
scalar a = 2*3
scalar b = "2 veces 3= "
display b a
scalar list
Otros de los usos que se le dan a los escalares se muestra en la seccin
posterior.
5.3.2 Matrices
STATA provee dos formas distintas para usar matrices, ambas almacenan tanto
nmeros o string en vectores. Una manera es a travs de los comandos de STATA
que tiene el prejo matrix. El otro modo es usando el lenguaje de programacin
que incluye el STATA en esta versin llamada MATA. El siguiente cdigo ilustra
la denicin de una matriz de tamao 2x3 n (con el comando matriz dene), la
lista de la matriz (matfrix list) y la extraccin como un escalar de un elemento
especco del elemento de una matriz.
120
Example :
summ mpg
return list
Hay ocho resultados almacenados separadamente escalares en el STATA
con los nombres r(n), r(sum_w), ..., r(sum). Otros resultados adicionales se
mostrarn si usamos la opcin detail.
El siguiente cdigo calcula y muestra el rango de la data.
Example :
summ mpg
121
123
Cap 6. Bibliografa
[1]. Cameron A. & Trivedi P, (2009). "Microeconometrics using STATA"
[2]. Csar Alonso Borrego y Roco Snchez Mangas. "STATA Guia de utilizacin".
[3]. Curso de INFOPUC (2009)."STATA 10 para Economistas"
[4]. Curso de INFOPUC (2008)."STATA 8 para Economistas"
[5]. Grupo Iddea (2009). "Stata Basico-Intermedio"
[6]. Hamilton, L., (2006). "Statistics With STATA"
[7]. Mitchell M., (2004), A Visual Guide to Stata Graphics.
[8]. Sergi Jimnez-Martn, (2001) "BREVE CURSO DE INTRODUCCIN A
LA PROGRAMACIN EN STATA (6.0)"
[9]. Sophia Rabe-Hesketh & Brian Everitt, (2004). "A Handbook of Statistical
Analyses using Stata"
124