Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Stata v.11
Manual de Stata v.11
En esta oportunidad usted se integra a nuestra familia del InfoPUC por medio del
Curso de Extensin Stata 11 para Economistas. Durante su permanencia en el
InfoPUC le pedimos el mayor compromiso para este curso de extensin, el cual ha
sido diseado con un enfoque eminentemente prctico, con casos reales que
complementan el aprendizaje de las herramientas de computacin y enfocados al
quehacer del profesional que las empresas requieren.
Atentamente,
INDICE
b. Manejo de directorios................................................................................ 24
f. Ejemplo: .................................................................................................... 27
6 Instituto de Informtica
STATA 11 para economistas
1. Introduccin al STATA
8 Instituto de Informtica
STATA 11 para economistas
Nueva interfaz
o Manejador de variables
o Vista activa de los datos
o Filtros de datos y de variables
o Sintaxis coloreada
o Plegado de cdigo
o Marcadores
Variables factoriales
o Interacciones
o Trminos polinomiales
o Creacin automtica de indicadores
Estadsticas exactas
o Regresin logstica para variable dependiente binaria
o Regresin de Poisson para datos de conteo
o Pruebas exactas y pruebas conjuntas
10 Instituto de Informtica
STATA 11 para economistas
12 Instituto de Informtica
STATA 11 para economistas
Review Comandos
Variables Resultados
14 Instituto de Informtica
STATA 11 para economistas
El tamao y posicin de las ventanas puede ser configurado segn las preferencias del
usuario y las cuales se pueden realizar siguiendo los siguientes pasos:
1. Se selecciona el Men Edit, en la opcin Preferences, se elige General
Preferences
2. En la pestaa Windowing se configura e ingresa los valores que se desea.
Tambin podemos modificar el color de fondo o las fuentes de la ventana Stata Results
siguiendo los siguientes pasos:
1. En el Men Edit se selecciona la opcin Preferences
2. Se elige la opcin de General Preferences
Stata Editor permite navegar y modificar los datos como si fuese una hoja de
Excel.
Stata Viewer permite acceder a informacin en lnea y tambin a la ayuda del
programa.
Stata Graphs presenta el ltimo grfico realizado.
Stata Do-file Editor es una ventana separada en Windows y funciona como un
editor de textos que permite ejecutar una lista de comandos.
Stata Browser permite visualizar los datos, mas no modificarlo Men de
Comandos Desde la versin 8 del Stata, todos los comandos (excepto los de
programacin) han sido implementados con cuadros de dilogo y se pueden
acceder a ellos desde el men principal, el cual est organizado por tpicos:
16 Instituto de Informtica
STATA 11 para economistas
Seleccionamos una opcin desde los mens Data, Graphics o Statistics y llenamos la
caja o cuadro de dilogo correspondiente:
Por ejemplo, para acceder al cuadro de dilogo siguiente, utilizamos la ruta que
presentamos a continuacin, la cual se encuentra en los mens desplegables:
PASOS
1. Seleccionar el men Statistics y elegir la opcin Linear models and related
2. Seleccionar la opcin de Linear regression
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI
(Graphic User Interface), lo cual es una mejora con respecto de las versiones anteriores.
Pontificia Universidad Catlica del Per 17
Introduccin al STATA
Stata permite trabajar de manera interactiva y por medio de comandos (al igual que
RATS 6), debido a que cada ventana se encuentra asociada a un comando.
La barra de Herramientas
Adems, Stata presenta una barra de herramientas que permite realizar operaciones
usuales como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular..
18 Instituto de Informtica
STATA 11 para economistas
Comando help
Este es uno de los comandos ms importantes de Stata, pues presenta la sintaxis de los
comandos as como ejemplos de cmo se usan. Para pedirle ayuda a Stata sobre un
comando se escribe en la ventana de comandos help seguido del nombre del comando
que queramos conocer. A continuacin se muestran los siguientes ejemplos:
help if
help summarize
help regression
help tabulate
Se observa que las dos primeras letras del nombre del comando estn subrayadas, esto
indica que en lugar de escribir el comando como summarize se puede escribir su (o
cualquier forma intermedia).
20 Instituto de Informtica
STATA 11 para economistas
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los
comandos primero se ponen las variables, luego el peso, los condicionales (if) preceden
a los rangos (in) y les siguen las opciones despus de un coma:
[varlist] es la lista de variables.
[if] Debe estar seguida de una expresin lgica para que los datos que slo
cumplan con la condicin puedan ser incluidos en dicho anlisis.
[in] permite se indica el rango de los datos que se desea analizar.
[weight] son los pesos o ponderaciones.
[options] Son las opciones de cada comando que se est utilizando
22 Instituto de Informtica
STATA 11 para economistas
2. Manejo de datos
a. Administracin de la memoria
Las bases de datos pueden variar de tamao. Por defecto Stata nicamente lee
archivos hasta de 10mb (mximo espacio de los datos) de hasta 5000 variables.
Si se intenta leer un archivo ms grande sale el siguiente mensaje de error.
no room to add more observations r(901);
1
El comando set memory slo se puede utilizar en las versiones estndar (Stata/IC), estndar + base de datos
extensas (Stata/SE) y en la versin Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versin
para estudiantes de pregrado (Small Stata). En la versin Stata/SE el lmite de variables independientes es
11,000 (matsize) mientras que el lmite de la memoria es igual al del sistema operativo
b. Manejo de directorios
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en
C:\DATA\ salvo que dicha configuracin de archivos haya sido cambiada. Para conocer
con que directorio est trabajando Stata se utiliza el comando pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para
guardar el programa y la informacin. Con el comando cd podemos cambiar de
directorio donde se guardan los datos, aunque estos cambios solo sern validos por la
sesin en uso.
Para crear un nuevo directorio se emplea el comando mkdir:
mkdir sesion21012006
24 Instituto de Informtica
STATA 11 para economistas
STATA permite guardar un registro de los comandos y los resultados. Para crear un
archivo de bitcora se usa el comando log using:
Si lo nico que se desea es guardar los comandos debe emplearse cmdlog. Esta
opcin es especialmente til cuando lo que se busca es crear un archivo do.
cmdlog using C:\infopuc\cursos\stata\sesion02\comusados
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador.
Para guardar los datos se debe emplear el comando save. Es recomendable no
sobrescribir los datos y trabajar en un directorio diferente del donde se encuentran los
datos originales. Los datos pueden ser cargados al programa utilizando el comando use
seguido por la ruta en donde se encuentra la base de datos.
use C:\infopuc\cursos\stata\sesion02
use "C:\infopuc\cursos\stata\sesion02\auto.dta"
save "C:\infopuc\cursos\stata\sesion02\sesion07022005\auto_r.dta
e. Principales comandos:
COMANDO DESCRIPCIN
help Ayuda de programa stata, para
comandos.
log Uso de archivos de bitcora
use Abrir una base de datos en stata
(extensin .dta)
edit Ingreso de datos por medio de
ventana de Stata Editor
codebook Muestra variables con estadsticos
descriptivos
describe Describe contenido de datos en
memoria o sobre el disco
26 Instituto de Informtica
STATA 11 para economistas
f. Ejemplo:
El ejercicio consiste en abrir una base de datos de nombre sumaria_2008, la cual se
encuentra grabada en el siguiente directorio:
C:\sesion1
1. En primer lugar se indica la ruta del directorio de trabajo a travs del comando cd:
cd c:\Clase 2010
use sumaria_2008.dta
Al abrir la base de datos se cargar la ventana de variables. Para pedir ayuda sobre el
comando se deber invocar la ayuda del Stata:
help use
28 Instituto de Informtica
STATA 11 para economistas
De la misma manera, es posible aplicar filtros que indiquen que parte de la base de
datos ser utilizada. En la base sumaria_2008, la variable mieperho representa el total
de miembros del hogar. Por lo que s est interesado en conocer solo las caractersticas
de los hogares con ms de 8 miembros, se aplicar el siguiente filtro:
use sumaria_2008 if mieperho>8
En muchas ocasiones, slo sern de nuestro inters alguno de las variables contenidas
en la base de datos. Para ello se emplear la siguiente sintaxis:
Donde los comandos empleados son use y using, mientras que las variables de inters
son conglomerado, vivienda y hogar. Como en los casos anteriores, la base de datos se
denomina sumaria_2008. Cabe mencionar que no ha sido necesario incorporar el
nombre del directorio, debido a que eso fue establecido lneas arriba a travs del
comando cd.
g. Estructura de comandos
30 Instituto de Informtica
STATA 11 para economistas
summarize gashog2d,detail
Conectores relacionales
< menor que
<= menor o igual que
== igual a
> mayor que
>= mayor o igual que
!= diferente a , tambin puede usarse ~=
() parntesis para indicar el orden de evaluacin
Conectores lgicos
&y
| o
Operadores aritmticos
+ Suma
- Resta
* Multiplicacin
/ Divisin
^ Potencia
+ Concatenacin de cadenas alfanumricas
Ejemplos
sysuse auto, clear
32 Instituto de Informtica
STATA 11 para economistas
Nota: Podemos usar el trmino abreviado gen en lugar de generate Podemos hacer el
mismo proceso pero ahora con la siguiente ruta en la barra de men
34 Instituto de Informtica
STATA 11 para economistas
tt= ((educ+100)\ln(feduc-4))
Nota : Observemos que por defecto las nuevas variables que hemos creado tienen
formato float.
En el cuadro de dilogo expression builder podemos insertar las variables a
transformar hacindoles click en la ventana de variables.
El comando egen
Es una extensin del comando generate. Este comando me va a permitir calcular
expresiones ms complejas, tales como: medias, desviaciones estndar, promedios
mviles, variables estandarizadas, etc.
Ejemplo
Generemos una serie que sea igual al valor mximo de la variable educ
egen max_X =max(educ)
36 Instituto de Informtica
STATA 11 para economistas
Pasos
1. En el men Data, se selecciona la opcin de Create or change data
2. Se elige la opcin Create new variable (extended)
Ahora para esta nueva serie repetimos el proceso anterior pero ahora elegimos la
opcin Median.
Generemos una serie de precios que sea estandarizada, de media cero y varianza 1
38 Instituto de Informtica
STATA 11 para economistas
El comando replace
Nos da la posibilidad de modificar alguna de las variables disponibles
replace tt= tt\100
Existen varios mtodos para convertir variables string a variables numricas. Uno
de ellos es utilizando el comando destring
Por ejemplo:
La primera lnea abre el dataset con extensin dta que para este caso es auto.
En la segunda lnea codifica la variable string make a variable numrica llamada
num
40 Instituto de Informtica
STATA 11 para economistas
Por ejemplo
gen n2 = real (str2)
Si tenemos una variable Xstr su conversin a variable numrica Xnum puede ser
obtenida de la siguiente forma:
Por ejemplo:
tostring num , generate(a2)
Otro mtodo para codificar una variable numrica a string se utiliza el comando
decode , el cual se basa en los principios de encode
Podemos generar una nueva variable que contenga algn subconjunto de los
nombres de las caractersticas generadas por alguna variable anterior.
Por ejemplo se desea generar una variable string de nombre a2 que contiene
como caractersticas los caracteres 2 a 4 de la variable make
42 Instituto de Informtica
STATA 11 para economistas
sysuse auto,clear
generate jose = 0
generate precio2 = price2
list precio2 price
Dicotmica que identifique a los carros que cuestan ms de 6000
g dico=1 if price>6000
replace dico=0 if price<=6000
Una manera rpida de crear una dicotmica:
g dico2=price>6000
sum price if forei==0
sum price if forei==1 by foreign: sum Price
use sumaria_2008
log using jose,text replace
des gashog2d /*abreviatura de describe*/
sum gashog2d
log close
44 Instituto de Informtica
STATA 11 para economistas
3. Elaboracin de Grficos
A continuacin veremos cmo introducir algunos comandos bsicos en Stata 11,
incluyendo histogramas, grficos de caja, ploteos y matrices de ploteos. El propsito de
esta seccin es entender los fundamentos de los grficos y dar los elementos para
generar y modificar estos. Usaremos el mdulo de empleo e ingresos de la 2Nacional de
Hogares del ao 2007 (mdulo 500).
2
Para mayor informacin de la base de datos, revisar la pgina web del Instituto Nacional de Estadstica e
Informtica - INEI: www.inei.gob.pe
c. Se selecciona las variables las cuales se desea graficar y el tipo de grfico que
se requiere
46 Instituto de Informtica
STATA 11 para economistas
Es posible cambiar la apariencia de los grficos a travs del men del Stata Graph
realizando los siguientes pasos:
1. En el Menu Edit seleccionar la opcin Apply new scheme tal como lo indica la
figura
Una vez dentro del sistema, pulsar la opcin Encuesta: Condiciones de Vida y
Pobreza ENAHO, en la casilla ao sealar el 2007, y en el periodo indicar el
periodo anual (enero diciembre), se desplegar un conjunto de bases de datos
tal como se detalla a continuacin.
48 Instituto de Informtica
STATA 11 para economistas
En primer lugar se definen aspectos del entorno de trabajo. A travs del comando
Clear, se borrar de la memoria las bases de datos que estuvieran abiertas.
Clear
Asimismo, se procede a especificar el tamao de la memoria virtual de la PC que
se dispondr para el trabajo. Debido a que la base de datos contiene ms de 65
mil variables. Como regla, se le asignar un tamao de memoria similar al
tamao del archivo expresado en megabytes.
set mem 100m
A travs del comando use se abrir la base de datos, ntese que la inclusin de
comentarios en el do file se realiza incluyendo el smbolo (*) al inicio de la lnea.
use "enaho01a_2007_500.dta"
Dentro de las opciones para realizar grficos es posible indicar los estilos de
presentacin de los grficos predeterminados por el Programa.
A travs del comando 'Scheme' nos permite cambiar el formato del grfico. Para
ver todas las posibilidades que tiene Stata incorporados digitar en la ventana de
comandos:
help schemes
A continuacin se realizar el grafico del Ingreso Laboral segn sexo para ello se
emplear un grafico de dispersiones tipo scatter. Se ensayarn los diversos
esquemas de presentacin activando la casilla correspondiente. Las variables de
trabajo son las siguientes: i524a1 p208a p207, las cuales tendrn una inspeccin
a travs del comando codebook:
codebook i524a1 p208a p207
50 Instituto de Informtica
STATA 11 para economistas
Los filtros sobre las variables de anlisis se realizaran a travs de las siguientes
sintaxis:
Una vez realizados el scatter del ingreso laboral segn edad y sexo se proceder
a emplear el comando twoway para realizar el grfico del ingreso laboral para
ambos sexos:
52 Instituto de Informtica
STATA 11 para economistas
a. Histogramas hist -
Los Histogramas consisten en una herramienta grfica que permite ilustrar las
discontinuidades de la informacin que se solucionan agrupando los datos. Lo
anterior pasa por decidir cuantas barras o _CLASES_ emplear, o lo que es lo
mismo decidir cunto es el ancho de banda. Como regla prctica el nmero de
CLASES se aproxima por la raz cuadrada del nmero de datos empleados, en
nuestro caso es aprox. igual a 256:
display sqrt(65549)
Histograma
El nmero de CLASES puede modificarse con la opcin bin del comando -hist-
. Otra opcin interesante es acompaar el grfico con la curva normal que se
ajusta a los datos.
54 Instituto de Informtica
STATA 11 para economistas
b. Kernel kdensity
Clear
set mem 100m
use "enaho01a_2007_500"
56 Instituto de Informtica
STATA 11 para economistas
*6 etapa:
kdensity p208a, name(jose1,replace) title(Epanechnikov)
kdensity p208a, name(jose2,replace) kernel(gauss) title(Gausiano)
kdensity p208a, name(jose3,replace) kernel(cosine) title(Coseno)
*7 etapa:
Junto con el histograma o los kernels, los diagramas de cajas son probablemente
las herramientas grficas ms importantes para realizar un anlisis univariado
58 Instituto de Informtica
STATA 11 para economistas
*3 Etapa:
graph hbox i524a1, scheme(s1color) over(p207)
graph drop _all
Comando Graph
60 Instituto de Informtica
STATA 11 para economistas
marker_options
marker_placement_option
marker_label_options
connect_options
axis_selection_options
composite_style_option twoway_options ]
Opcin Combine
En la misma rea de grficos, combina 2 o ms grficos (pueden ser de diferentes
tipos.
Opciones de marcador
Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario.
marker label option
Grficos de pie
Grficos de barras
Se pueden realizar grficos con barras verticales y horizontales.
62 Instituto de Informtica
STATA 11 para economistas
Grfico de puntos
Para mayores detalles, revisar el libro: Mitchel, M. (2004); A visual guide to Stata
graphics, University of California, Los Angeles. A Stata Press Publication Disponible en
el siguiente vnculo:
http://www.stata-press.com/books/vgsg.html
Ejemplos:
64 Instituto de Informtica
STATA 11 para economistas
vguse spjanfeb2001.dta
twoway dropline close tradeday
vguse sp2001ts.dta
twoway tsrline high low, sort
vguse spjanfeb2001.dta
twoway bar close tradeday
66 Instituto de Informtica
STATA 11 para economistas
vguse allstates.dta
graph matrix propval100 rent700 popden
vguse allstatesdc.dta
twoway (lfitci ownhome pcturban80, stdf) (scatter ownhome pcturban80)
68 Instituto de Informtica
STATA 11 para economistas
4. Modelos lineales
regress
Otra vez recurrimos a la ENAHO 2008 para presentar una regresin lineal simple con
r6 como variable dependiente:
reg r6 edad r11h
70 Instituto de Informtica
STATA 11 para economistas
Trminos de interaccin:
xi: reg r6 i.dominio*i.sexo
72 Instituto de Informtica
STATA 11 para economistas
Tarea 2: Cree las dicotmicas que sean necesario, compruebe e interprete todos
los resultados anteriores.
predict
Debe tener en cuenta que cuando existe un missing en una de las variables que
intervienen en la regresin, todo ese registro se pierde al realizar la estimacin as
existan observaciones en el resto de variables. Si por alguna razn el objetivo es
quedarse con el conjunto de variables en los cules no exista ningn missing en el
conjunto de datos se puede ejecutar lo siguiente:
regress postestimation
reg r6 edad r11h estat ovtest /*Test RESET de Ramsey (variables omitidas)*/
estat ic /*Criterios de informacin*/
estat vif /*Factor de inflacin de varianza*/
Almacenamiento de informacin
Luego de estimar una regresin el software almacena las estimaciones en objetos que
luego pueden ser fcilmente empleados.
. ereturn list
scalars:
e(N) = 45232
e(df_m) = 2
e(df_r) = 45229
e(F) = 1265.502981280802
e(r2) = .0529942555816602
e(rmse) = 370.1935843435196
e(mss) = 346857383.838377
e(rss) = 6198330958.394218
e(r2_a) = .0529523795399869
e(ll) = -331683.1548708656
e(ll_0) = -332914.5987825873
e(rank) = 3
macros:
e(cmdline) : "regress r6 edad r11h"
e(title) : "Linear regression"
e(marginsok) : "XB default"
e(vce) : "ols"
e(depvar) : "r6"
e(cmd) : "regress"
e(properties) : "b V"
e(predict) : "regres_p"
e(model) : "ols"
e(estat_cmd) : "regress_estat"
matrices:
e(b) : 1 x 3
e(V) : 3 x 3
functions:
e(sample)
74 Instituto de Informtica
STATA 11 para economistas
Tambin pueden invocarse los parmetros estimados de otra manera: Por ejemplo, en
promedio el ingreso mensual para una persona que tiene 30 aos y trabaja 48 horas a la
semana, asumiendo que existe causalidad en el modelo y este se encuentra
correctamente especificado es:
Correlacin Serial
Slo aplica cuando la fuente de datos es temporal, si ese es el caso STATA exige que
los datos sean declarados como temporales con el comando -tsset-.
- Durbin-Watson. Test de autocorrelacin de primer orden
. tsset qtrs
. regress Y X1 X2 X3
. estat dwatson
. estat
dwatson
- Correccin de Autocorrelacin
MCP Usando el mtodo de Cochrane
Heterocedasticidad
Test de White
. regress Y X1 X2 X3
. estat imtest, preserve white
76 Instituto de Informtica
STATA 11 para economistas
Una vez que se ha establecido que existe una relacin lineal entre dos
variables Y y X, todava queda la tarea de determinar cul es la mejor recta
que refleja esta relacin? O lo que es lo mismo Cul es la ecuacin que
describe estos datos? Ya que se observa y se asume una relacin lineal los
datos deben seguir una ecuacin de la forma: Y = mX +b
3
Se debe notar que a no ser que su sea una relacin lineal exacta entre X e Y, entonces ms de una
lnea podra describir estos datos.
sysuse auto
twoway (lfit mpg weight) (scatter mpg weight)
El problema que presenta este mtodo es que las observaciones que se encuentren
ms alejadas de la recta de ajuste reciben una mayor ponderacin. Si se decide
excluirlas, van a afectar fuertemente a los estimadores. Existen por lo menos dos formas
de estimar una lnea que no est altamente influenciada por valores atpicos, estas
metodologas descansan en lo que literatura se conoce como regresiones robustas.
78 Instituto de Informtica
STATA 11 para economistas
qreg
80 Instituto de Informtica
STATA 11 para economistas
Donde:
ei = yi - XiB; ui = ei/s;
s = M/0.6745;
M = mediana (|ei mediana(ei)|);
ch y cb son constantes predeterminadas
82 Instituto de Informtica
STATA 11 para economistas
84 Instituto de Informtica
STATA 11 para economistas
Nota Tcnica
Stata interpreta el valor 0 como resultado negativo (falla), y trata todos los
otros valores (excepto missing) como resultados positivos (xito). Entonces,
si su variable dependiente toma el valor de 0 y 1, 0 es interpretado como falla
y 1 como xito. Si su variable dependiente toma el valor de 0,1 y 2; 0 es
interpretado an como falla, pero 1 y 2 son tratados como xitos.
Ejemplo
. describe
86 Instituto de Informtica
STATA 11 para economistas
. sum
88 Instituto de Informtica
STATA 11 para economistas
matrix coeficientes=e(b)
matrix list coeficientes
predict probprobit, p
Graficando la probabilidad predicha contra gpa (la nota global del alumno)
90 Instituto de Informtica
STATA 11 para economistas
Para tratar las variables discretas del mismo modo que las continuas se
emplea la opcin classic.
92 Instituto de Informtica
STATA 11 para economistas
Comando mfx
. mfx compute
. mfx compute,eyex
Elasticities after dprobit
Calculando semielasticidades:
. mfx compute,dyex
Elasticities after dprobit
. mfx compute,eydx
Elasticities after dprobit
94 Instituto de Informtica
STATA 11 para economistas
Para contrastar la bondad de ajuste es preciso tabular que tan bien predice el
modelo.
Si se grafica (por ejemplo para cien puntos) el efecto de psi sobre la probabilidad
de aumentar la nota, se puede graficar el efecto puro de psi sobre las medias
(trazo continuo) mientras que los puntos son el efecto de psi para cada individuo
en particular.
Por el contrario este grfico permite comparar el efecto predictivo del modelo
para la variable psi.
96 Instituto de Informtica
STATA 11 para economistas
98 Instituto de Informtica
STATA 11 para economistas
Ejemplo
Se tienen datos acerca del tipo de seguro de salud disponible para 616
personas que sufren de depresin en Estados Unidos. El seguro es
categorizado en dos planes: plan de indemnizacin y de prepago.
use http://www.stata-press.com/data/r8/sysdsn3
describe
Logit ordenado
6. Datos de panel
ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-
ssc install xttest2
ssc install xttest3
use http://www.stata-press.com/data/r10/nlswork.dta
des
sum
generate age2 = age*age generate black = (race==2)
Efectos aleatorios
Donde i + ui
Es decir, en vez de considerar a como fija, suponemos que es una
variable aleatoria con un valor medio y una desviacin aleatoria de
este valor medio. Sustituyendo en i + ui (2) obtenemos:
4
Recuerde que referencialmente una Hiptesis nula se rechaza si el p-value es pequeo, menor a 0.10, por
ejemplo.
El p-value nos indica que podemos rechazar la Ho; por lo tanto, los
efectos aleatorios i u son relevantes y es preferible usar la estimacin
de efectos aleatorios en vez de la agrupada.
- Efectos fijos
5
Como repasamos en clase, utilizar variables dicotmicas conduce al mismo resultado que si
restamos a cada observacin la media de cada estado (demeaning the data).
. hausman fijos .
- Efectos Temporales
6
Para hacer la distincin algunos autores suelen hablar de efectos idiosincrticos y efectos covariados.
Al igual que con los efectos individuales, podemos realizar una prueba F
para conocer la significancia conjunta de las variables dicotmicas
temporales en nuestro modelo. La hiptesis nula es que
1 = 2 = t = 0. . En nuestro ejemplo, luego de estimar un modelo
con efectos fijos individuales y temporales, indicamos en la ventana de
comando:
(11) _Iyear_83 = 0
114 Instituto de Informtica
STATA 11 para economistas
(12) _Iyear_85 = 0
(13) _Iyear_87 = 0
(14) _Iyear_88 = 0
- Autocorrelacin
7
Muchas de las pruebas que se utilizan para diagnosticar problemas de correlacin serial en series de tiempo
han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del
modulo PANELAUTO y PANTEST2 tecleando en la lnea de comando:
ssc install panelauto y ssc install pantest2.
8
El mtodo de Wooldridge utiliza los residuales de una regresin de primeras diferencias, observando que si
uit no est serialmente correlacionado, entonces la correlacin entre los errores uit diferenciados para el
periodo t y t-1 es igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una
discusin ms amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section
and Panel Data. Cambridge, MA: MIT Press.
donde
- Heterocedasticidad
9
Si deseramos estimar un modelo de efectos aleatorios, en vez de fe indicamos re.
10
Para una discusin sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River,
NJ: Prentice Hall, p. 598.
- Correlacin contempornea
2
Si el p-value del estadstico indica que podemos rechazar la Ho;
entonces tambin es necesario corregir el problema de correlacin
contempornea.
11
Tcnicamente, el comando xttest2 prueba la hiptesis de que la matriz de correlacin de los residuales,
obtenida sobre las observaciones comunes a todas las unidades transversales, es una matriz de identidad de
orden N, donde N es el nmero de unidades transversales. Para una discusin de esta prueba, consulta Greene,
W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.
section data, 1995) demostraron que los errores estndar de PCSE son
ms precisos que los de FGLS. Desde entonces, muchos trabajos en la
disciplina han utilizado PCSE en sus estimaciones para panel 13
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las
opciones que ofrecen estos comandos dependen de los problemas
detectados en las pruebas que hemos revisado. La tabla mostrada a
continuacin presenta los comandos ante problemas de correlacin
contempornea, heteroscedasticidad y autocorrelacin, y sus
combinaciones.
12
Para una introduccin tcnica pero fcil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel
Beck, Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?, Annual Review of
Political Science, 4: 271-93 (2001).
13
Hasta la fecha, el debate entre FGLS y PCSE contina, y ya se han desarrollado algunos mtodos alternativos.
Como los clculos son hechos por la computadora, y en la mayora de casos no es costoso computacionalmente
vale la pena estimar ambos mtodos y comparar resultados.
el comando:
122
STATA 11 para economistas
[ (w, )] = 0
Con el comando set matsize es posible fijar hasta en 800 por 800 dicha
matriz.
Finalmente tenemos:
Las variables endgenas se tratan del mismo modo que las variables
dependientes rezagadas (siendo los rezagos de orden p o mayores
instrumentos vlidos, mientras que para las predeterminadas los rezagos
p-1 o mayores son instrumentos vlidos.
La matriz de covarianzas de
Ejemplo:
. ds
c1 emp indoutpt k yearm1 nL2 kL2 yr1976 yr1979 yr1982
ind wage n ys id wL1 ysL1 yr1977 yr1980 yr1983 year
cap w rec nL1 kL1 ysL2 yr1978 yr1981 yr1984
. xtabond n w L.w
7. Introduccin a la programacin
Ejemplo
global paises PER ARG PAR MEX
di "$paises"
Las macros global son utilizadas frecuentemente para guardar los tems
paramtricos de un programa, como puede ser un carcter string que
contenga el nombre del directorio defult en donde las bases de datos o
los do-files sern accesados.
Ejemplo
cd ""
use auto
local x1: type labor
Ejemplo:
forvalues i=1(1)5 {
display i
}
Ejemplo:
forvalues i=1/5 {
display `i'
}
Ejemplo:
local n 5
forvalues i=1/`n' {
display i
}
forvalues i=1/4 {
generate double lnx i =log(x i)
summarize lnx i
}
Ejemplo:
foreach z in PER ARG PAR MEX {
generate double lnx`z'=log(x`z')
summarize lnx`z'
}
foreach z of varlist x* {
summarize ln`z'
}
7.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener
valores string (hasta 244 caracteres) o un nico valor numrico. Los
comandos de anlisis (describe, sum, entre otros) de STATA dan los
resultados como escalares numricos (ver return). Adicionalmente, los
escalares pueden ser utilizados para guardar resultados numricos.
Ejemplo:
scalar root2=sqrt(2)
7.4. Matrices
Las matrices en STATA son tiles para guardar los resultados. Tambin son una
forma de presentar la informacin de manera organizada. Muchas operaciones
no pueden ser realizadas con los comandos matrix tradicionales. Por ejemplo si
Pontificia Universidad Catlica del Per 141
Introduccin a la programacin
bien el comando matrix mkmat permite crear una matriz a partir de una lista de
variables, el nmero de observaciones de la matriz es limitado.
Por otro lado, los comandos clsicos y los del lenguaje MATA y en general
cualquier lenguaje matricial tiene limitaciones a la hora de trabajar con
expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si se
consideran la memoria disponible en la PC. En estos casos es preferible trabajar
con enlaces que permitan simplificar el clculo matricial.
Por ejemplo en vez de realizar el clculo matricial para estimar un SUR se puede
generar un loop en donde se realice regresiones de distintas ecuaciones, los dos
procedimientos dan el mismo resultado pero el ltimo no requiere de tantos
recursos informticos.
Para cerrar la sesin MATA y volver al formato convencional del STATA se tiene
que ejecutar la orden -end-. A modo de ilustracin las siguientes lneas permiten
cargar los datos a un formato matricial y estimar las pendientes bajo MCO de la
siguiente especificacin: price=f(mpg, weight).
1 sysuse auto
2 mata X=st_data(.,("mpg","weight","foreign"))
4 Y=st_data(.,("price"))
5 X=J(rows(X),1,1),X 6 invsym(X'X)*X'Y
142 Instituto de Informtica
STATA 11 para economistas
sysuse auto
mkmat price mpg,matrix(y)
mata: y2=st_matrix("y")
mata: mean(y2)
mata: rows(y2)
mata: cols(y2)
Ejemplos:
cd "..."
use auto
des
return list
sum mpg
return list
di "La media estandariza es `r(mean)'/`r(sd)'"
Los principales elementos que se deben tener en cuenta en el trabajo con datos
de encuestas por muestreo son:
. svydes
Pearson:
Uncorrected chi2(8) = 624.9913
Design-based F(6.75,6288.86) = 45.3989 P = 0.0000
. svy: tab,se ci deff
. svyreg, deft
NOTAS