Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Stata para Economistas
Manual de Stata para Economistas
INDICE
1. Introduccin al STATA ............................................................................................. 7
1.1. Qu puedo hacer con STATA 11.0? ............................................................... 7
1.2. Presentaciones de STATA ............................................................................. 13
1.3. Entorno de trabajo .......................................................................................... 13
1.4. Recursos del STATA ...................................................................................... 19
1.5. Ayuda en STATA: Comandos Help, Search y Findit ....................................... 20
2. Manejo de datos .................................................................................................... 23
2.1. Creando una nueva base de datos ................................................................. 23
a. Administracin de la memoria ................................................................... 23
b. Manejo de directorios................................................................................ 24
c. Iniciar una sesin de STATA ..................................................................... 25
d. Abrir y guardar una base de datos ............................................................ 26
e. Principales comandos: .............................................................................. 26
f. Ejemplo: .................................................................................................... 27
g. Estructura de comandos ........................................................................... 30
2.2. Subconjuntos de datos: comandos if y in ................................................... 31
2.3. Generando y reemplazando variables ............................................................ 33
2.4. Uso de funciones ............................................................................................ 36
2.5. De numrico a String y viceversa ................................................................... 39
2.6. Ejercicio: Mi primer Do File ............................................................................. 43
2.7. Ejercicio: Mi primer Log File ........................................................................... 43
3. Elaboracin de Grficos .......................................................................................... 45
3.1. Caractersticas de la base de datos: ............................................................... 48
3.2. Ejercicios mediantes do files .......................................................................... 49
3.3. Histogramas y Kernels ................................................................................... 53
3.4. Do File para la elaboracin de Histogramas y Kernels ................................... 56
3.5. Box plots ........................................................................................................ 58
3.6. Comando Graph: Scatter - Twoway ................................................................ 60
4. Modelos lineales ..................................................................................................... 69
4.1. Mnimos cuadrados ordinarios ........................................................................ 69
4.2. Regresiones robustas..................................................................................... 77
4.2.1.
INDICE
4.2.2.
Regresin robusta............................................................................ 80
5.2.2.
Instituto de Informtica
1. Introduccin al STATA
1.1.
Introduccin al STATA
Instituto de Informtica
Nueva interfaz
o Manejador de variables
o Vista activa de los datos
o Filtros de datos y de variables
o Sintaxis coloreada
o Plegado de cdigo
o Marcadores
Introduccin al STATA
Variables factoriales
o Interacciones
o Trminos polinomiales
o Creacin automtica de indicadores
Estadsticas exactas
o Regresin logstica para variable dependiente binaria
o Regresin de Poisson para datos de conteo
o Pruebas exactas y pruebas conjuntas
10
Instituto de Informtica
11
Introduccin al STATA
12
Instituto de Informtica
1.2.
Presentaciones de STATA
1.3.
Entorno de trabajo
13
Introduccin al STATA
Command
Variables
Results
Review
Variables
14
Comandos
Resultados
Instituto de Informtica
El tamao y posicin de las ventanas puede ser configurado segn las preferencias del
usuario y las cuales se pueden realizar siguiendo los siguientes pasos:
1. Se selecciona el Men Edit, en la opcin Preferences, se elige General
Preferences
2. En la pestaa Windowing se configura e ingresa los valores que se desea.
Tambin podemos modificar el color de fondo o las fuentes de la ventana Stata Results
siguiendo los siguientes pasos:
1. En el Men Edit se selecciona la opcin Preferences
2. Se elige la opcin de General Preferences
15
Introduccin al STATA
16
Instituto de Informtica
Seleccionamos una opcin desde los mens Data, Graphics o Statistics y llenamos la
caja o cuadro de dilogo correspondiente:
Por ejemplo, para acceder al cuadro de dilogo siguiente, utilizamos la ruta que
presentamos a continuacin, la cual se encuentra en los mens desplegables:
PASOS
1.
2.
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI
(Graphic User Interface), lo cual es una mejora con respecto de las versiones anteriores.
Pontificia Universidad Catlica del Per
17
Introduccin al STATA
Stata permite trabajar de manera interactiva y por medio de comandos (al igual que
RATS 6), debido a que cada ventana se encuentra asociada a un comando.
La barra de Herramientas
Adems, Stata presenta una barra de herramientas que permite realizar operaciones
usuales como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular..
18
Instituto de Informtica
1.4.
19
Introduccin al STATA
1.5.
Comando help
Este es uno de los comandos ms importantes de Stata, pues presenta la sintaxis de los
comandos as como ejemplos de cmo se usan. Para pedirle ayuda a Stata sobre un
comando se escribe en la ventana de comandos help seguido del nombre del comando
que queramos conocer. A continuacin se muestran los siguientes ejemplos:
help if
help summarize
help regression
help tabulate
Se observa que las dos primeras letras del nombre del comando estn subrayadas, esto
indica que en lugar de escribir el comando como summarize se puede escribir su (o
cualquier forma intermedia).
20
Instituto de Informtica
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los
comandos primero se ponen las variables, luego el peso, los condicionales (if) preceden
a los rangos (in) y les siguen las opciones despus de un coma:
[varlist] es la lista de variables.
[if] Debe estar seguida de una expresin lgica para que los datos que slo
cumplan con la condicin puedan ser incluidos en dicho anlisis.
[in] permite se indica el rango de los datos que se desea analizar.
[weight] son los pesos o ponderaciones.
[options] Son las opciones de cada comando que se est utilizando
21
Introduccin al STATA
22
Instituto de Informtica
2. Manejo de datos
2.1.
a. Administracin de la memoria
Las bases de datos pueden variar de tamao. Por defecto Stata nicamente lee
archivos hasta de 10mb (mximo espacio de los datos) de hasta 5000 variables.
Si se intenta leer un archivo ms grande sale el siguiente mensaje de error.
no room to add more observations r(901);
Se puede utilizar el comando memory1 para asignar suficiente memoria para el
archivo. Por ejemplo si tenemos un archivo de 18 mb por lo menos debemos de
asignar 20 mb (debemos de tomar en cuenta la creacin de nuevas variables).
set memory 20m (20480k)
El comando set memory slo se puede utilizar en las versiones estndar (Stata/IC), estndar + base de datos
extensas (Stata/SE) y en la versin Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versin
para estudiantes de pregrado (Small Stata). En la versin Stata/SE el lmite de variables independientes es
11,000 (matsize) mientras que el lmite de la memoria es igual al del sistema operativo
Pontificia Universidad Catlica del Per
23
Manejo de Datos
b. Manejo de directorios
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en
C:\DATA\ salvo que dicha configuracin de archivos haya sido cambiada. Para conocer
con que directorio est trabajando Stata se utiliza el comando pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para
guardar el programa y la informacin. Con el comando cd podemos cambiar de
directorio donde se guardan los datos, aunque estos cambios solo sern validos por la
sesin en uso.
Para crear un nuevo directorio se emplea el comando mkdir:
mkdir sesion21012006
24
Instituto de Informtica
Si lo nico que se desea es guardar los comandos debe emplearse cmdlog. Esta
opcin es especialmente til cuando lo que se busca es crear un archivo do.
cmdlog using C:\infopuc\cursos\stata\sesion02\comusados
25
Manejo de Datos
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador.
Para guardar los datos se debe emplear el comando save. Es recomendable no
sobrescribir los datos y trabajar en un directorio diferente del donde se encuentran los
datos originales. Los datos pueden ser cargados al programa utilizando el comando use
seguido por la ruta en donde se encuentra la base de datos.
use C:\infopuc\cursos\stata\sesion02
use "C:\infopuc\cursos\stata\sesion02\auto.dta"
save "C:\infopuc\cursos\stata\sesion02\sesion07022005\auto_r.dta
e. Principales comandos:
COMANDO
DESCRIPCIN
help
log
use
edit
codebook
describe
26
Instituto de Informtica
save
List
... if ...
drop
keep
label variable
label define
label values
f. Ejemplo:
El ejercicio consiste en abrir una base de datos de nombre sumaria_2008, la cual se
encuentra grabada en el siguiente directorio:
C:\sesion1
1. En primer lugar se indica la ruta del directorio de trabajo a travs del comando cd:
cd c:\Clase 2010
27
Manejo de Datos
use sumaria_2008.dta
Al abrir la base de datos se cargar la ventana de variables. Para pedir ayuda sobre el
comando se deber invocar la ayuda del Stata:
help use
28
Instituto de Informtica
De la misma manera, es posible aplicar filtros que indiquen que parte de la base de
datos ser utilizada. En la base sumaria_2008, la variable mieperho representa el total
de miembros del hogar. Por lo que s est interesado en conocer solo las caractersticas
de los hogares con ms de 8 miembros, se aplicar el siguiente filtro:
use sumaria_2008 if mieperho>8
29
Manejo de Datos
En muchas ocasiones, slo sern de nuestro inters alguno de las variables contenidas
en la base de datos. Para ello se emplear la siguiente sintaxis:
Donde los comandos empleados son use y using, mientras que las variables de inters
son conglomerado, vivienda y hogar. Como en los casos anteriores, la base de datos se
denomina sumaria_2008. Cabe mencionar que no ha sido necesario incorporar el
nombre del directorio, debido a que eso fue establecido lneas arriba a travs del
comando cd.
g. Estructura de comandos
En funcin al anlisis de datos que se desee realizar, la estructura de la sintaxis
cambiar con la finalidad de elaborar reportes segn las necesidades del investigador.
30
Instituto de Informtica
summarize gashog2d,detail
2.2.
Stata posee los siguientes conectores lgicos y relacionales, as como los operadores
aritmticos:
Conectores relacionales
<
menor que
31
Manejo de Datos
Conectores lgicos
&y
| o
Operadores aritmticos
+ Suma
- Resta
* Multiplicacin
/ Divisin
^ Potencia
+ Concatenacin de cadenas alfanumricas
Ejemplos
sysuse auto, clear
Instituto de Informtica
2.3.
A travs del comando generate se crean nuevas variable definida en base a una
expresin numrica la cual puede contener otras variables. Por su flexibilidad, este es
uno de los comandos ms importantes de Stata, ya que se pueden utilizar un gran
nmero de operaciones lgicas, aritmticas y matemticas.
Nota: Podemos usar el trmino abreviado gen en lugar de generate Podemos hacer el
mismo proceso pero ahora con la siguiente ruta en la barra de men
33
Manejo de Datos
34
Instituto de Informtica
tt= ((educ+100)\ln(feduc-4))
Nota : Observemos que por defecto las nuevas variables que hemos creado tienen
formato float.
En el cuadro de dilogo expression builder podemos insertar las variables a
transformar hacindoles click en la ventana de variables.
35
Manejo de Datos
2.4.
Uso de funciones
El comando egen
Es una extensin del comando generate. Este comando me va a permitir calcular
expresiones ms complejas, tales como: medias, desviaciones estndar, promedios
mviles, variables estandarizadas, etc.
Ejemplo
Generemos una serie que sea igual al valor mximo de la variable educ
egen max_X =max(educ)
36
Instituto de Informtica
Pasos
1.
2.
37
Manejo de Datos
Ahora para esta nueva serie repetimos el proceso anterior pero ahora elegimos la
opcin Median.
Generemos una serie de precios que sea estandarizada, de media cero y varianza 1
egen std_X =std(educ),mean(0) std(1)
38
Instituto de Informtica
El comando replace
Nos da la posibilidad de modificar alguna de las variables disponibles
replace tt= tt\100
2.5.
39
Manejo de Datos
La primera lnea abre el dataset con extensin dta que para este caso es auto.
En la segunda lnea codifica la variable string make a variable numrica llamada
num
40
Instituto de Informtica
Por ejemplo
gen n2 = real (str2)
Si tenemos una variable Xstr su conversin a variable numrica Xnum puede ser
obtenida de la siguiente forma:
Por ejemplo:
tostring num , generate(a2)
41
Manejo de Datos
Otro mtodo para codificar una variable numrica a string se utiliza el comando
decode , el cual se basa en los principios de encode
Podemos generar una nueva variable que contenga algn subconjunto de los
nombres de las caractersticas generadas por alguna variable anterior.
Por ejemplo se desea generar una variable string de nombre a2 que contiene
como caractersticas los caracteres 2 a 4 de la variable make
42
Instituto de Informtica
2.6.
sysuse auto,clear
generate jose = 0
generate precio2 = price2
list precio2 price
Dicotmica que identifique a los carros que cuestan ms de 6000
g dico=1 if price>6000
replace dico=0 if price<=6000
Una manera rpida de crear una dicotmica:
g dico2=price>6000
sum price if forei==0
sum price if forei==1 by foreign: sum Price
2.7.
43
Manejo de Datos
use sumaria_2008
log using jose,text replace
des gashog2d /*abreviatura de describe*/
sum gashog2d
log close
44
Instituto de Informtica
3. Elaboracin de Grficos
A continuacin veremos cmo introducir algunos comandos bsicos en Stata 11,
incluyendo histogramas, grficos de caja, ploteos y matrices de ploteos. El propsito de
esta seccin es entender los fundamentos de los grficos y dar los elementos para
generar y modificar estos. Usaremos el mdulo de empleo e ingresos de la 2Nacional de
Hogares del ao 2007 (mdulo 500).
a.
b.
Para mayor informacin de la base de datos, revisar la pgina web del Instituto Nacional de Estadstica e
Informtica - INEI: www.inei.gob.pe
45
Elaboracin de Grficos
c. Se selecciona las variables las cuales se desea graficar y el tipo de grfico que
se requiere
46
Instituto de Informtica
Es posible cambiar la apariencia de los grficos a travs del men del Stata Graph
realizando los siguientes pasos:
1. En el Menu Edit seleccionar la opcin Apply new scheme tal como lo indica la
figura
47
Elaboracin de Grficos
3.1.
Una vez dentro del sistema, pulsar la opcin Encuesta: Condiciones de Vida y
Pobreza ENAHO, en la casilla ao sealar el 2007, y en
el periodo indicar el
Instituto de Informtica
3.2.
En primer lugar se definen aspectos del entorno de trabajo. A travs del comando
Clear, se borrar de la memoria las bases de datos que estuvieran abiertas.
Clear
Asimismo, se procede a especificar el tamao de la memoria virtual de la PC que
se dispondr para el trabajo. Debido a que la base de datos contiene ms de 65
mil variables. Como regla, se le asignar un tamao de memoria similar al
tamao del archivo expresado en megabytes.
set mem 100m
49
Elaboracin de Grficos
A travs del comando use se abrir la base de datos, ntese que la inclusin de
comentarios en el do file se realiza incluyendo el smbolo (*) al inicio de la lnea.
use "enaho01a_2007_500.dta"
Dentro de las opciones para realizar grficos es posible indicar los estilos de
presentacin de los grficos predeterminados por el Programa.
A travs del comando 'Scheme' nos permite cambiar el formato del grfico. Para
ver todas las posibilidades que tiene Stata incorporados digitar en la ventana de
comandos:
help schemes
A continuacin se realizar el grafico del Ingreso Laboral segn sexo para ello se
emplear un grafico de dispersiones tipo scatter. Se ensayarn los diversos
esquemas de presentacin activando la casilla correspondiente. Las variables de
trabajo son las siguientes: i524a1 p208a p207, las cuales tendrn una inspeccin
a travs del comando codebook:
codebook i524a1 p208a p207
50
Instituto de Informtica
51
Elaboracin de Grficos
Los filtros sobre las variables de anlisis se realizaran a travs de las siguientes
sintaxis:
Una vez realizados el scatter del ingreso laboral segn edad y sexo se proceder
a emplear el comando twoway para realizar el grfico del ingreso laboral para
ambos sexos:
///
///
///
///
///
ytitle("Ingreso")
///
52
Instituto de Informtica
3.3.
Histogramas y Kernels
a. Histogramas hist Los Histogramas consisten en una herramienta grfica que permite ilustrar las
discontinuidades de la informacin que se solucionan agrupando los datos. Lo
anterior pasa por decidir cuantas barras o _CLASES_ emplear, o lo que es lo
mismo decidir cunto es el ancho de banda. Como regla prctica el nmero de
CLASES se aproxima por la raz cuadrada del nmero de datos empleados, en
nuestro caso es aprox. igual a 256:
display sqrt(65549)
53
Elaboracin de Grficos
Histograma
El nmero de CLASES puede modificarse con la opcin bin del comando -hist. Otra opcin interesante es acompaar el grfico con la curva normal que se
ajusta a los datos.
54
Instituto de Informtica
b. Kernel kdensity
En trminos sencillos los kernels permiten suavizar nuestros histogramas
tratando de conservar la forma de la distribucin de nuestros datos. Esto se
consigue fijando ventanas alrededor de un punto y al interior ponderando los
casos tal que el peso sea menor cuanto ms alejado se encuentre del punto
central de la ventana, el efecto del suavizamiento se consigue al desplazar la
ventana.
55
Elaboracin de Grficos
3.4.
Clear
set mem 100m
use "enaho01a_2007_500"
Instituto de Informtica
*6 etapa:
kdensity p208a, name(jose1,replace) title(Epanechnikov)
kdensity p208a, name(jose2,replace) kernel(gauss) title(Gausiano)
kdensity p208a, name(jose3,replace) kernel(cosine) title(Coseno)
graph combine jose1 jose2 jose3,rows(1)
graph drop _all
*7 etapa:
Pontificia Universidad Catlica del Per
57
Elaboracin de Grficos
3.5.
Box plots
Junto con el histograma o los kernels, los diagramas de cajas son probablemente
las herramientas grficas ms importantes para realizar un anlisis univariado
58
Instituto de Informtica
59
Elaboracin de Grficos
*3 Etapa:
graph hbox i524a1, scheme(s1color) over(p207)
graph drop _all
3.6.
Comando Graph
60
Instituto de Informtica
61
Elaboracin de Grficos
62
Instituto de Informtica
Grfico de puntos
graph dot yvars [weight] [if exp] [in range] [, options ]
Grfico Twoway HIstogram
twoway histogram varname [weight] [if exp] [in range]
[, [discrete_options|continuous_options] common_options ]
Grfico Twoway Kdensity
twoway kdensity varname [if exp] [in range] [, kdensity_options line_options]
Para mayores detalles, revisar el libro: Mitchel, M. (2004); A visual guide to Stata
graphics, University of California, Los Angeles. A Stata Press Publication Disponible en
el siguiente vnculo:
http://www.stata-press.com/books/vgsg.html
Ejemplos:
clear net from http://www.stata-press.com/data/vgsg
net install vgsg
help vguse
set scheme vg_s2c
vguse allstates.dta
twoway (scatter propval100 popden) (lfit propval100 popden)
63
Elaboracin de Grficos
64
Instituto de Informtica
vguse spjanfeb2001.dta
twoway dropline close tradeday
65
Elaboracin de Grficos
vguse sp2001ts.dta
twoway tsrline high low, sort
vguse spjanfeb2001.dta
twoway bar close tradeday
66
Instituto de Informtica
vguse allstates.dta
graph matrix propval100 rent700 popden
67
Elaboracin de Grficos
vguse allstatesdc.dta
twoway (lfitci ownhome pcturban80, stdf) (scatter ownhome pcturban80)
68
Instituto de Informtica
4. Modelos lineales
Probablemente en econometra el uso de modelos de regresin lineal y sus extensiones
sea la metodologa ms empleada en la investigacin emprica. El conocimiento de
estos y su estimacin es el objetivo de esta seccin.
4.1.
regress
Otra vez recurrimos a la ENAHO 2008 para presentar una regresin lineal simple con
r6 como variable dependiente:
reg r6 edad r11h
69
Modelos Lineales
70
Instituto de Informtica
71
Modelos Lineales
Trminos de interaccin:
xi: reg r6 i.dominio*i.sexo
72
Instituto de Informtica
Tarea 2: Cree las dicotmicas que sean necesario, compruebe e interprete todos
los resultados anteriores.
predict
Debe tener en cuenta que cuando existe un missing en una de las variables que
intervienen en la regresin, todo ese registro se pierde al realizar la estimacin as
existan observaciones en el resto de variables. Si por alguna razn el objetivo es
quedarse con el conjunto de variables en los cules no exista ningn missing en el
conjunto de datos se puede ejecutar lo siguiente:
reg r6 edad r11h
keep if e(sample)
regress postestimation
reg r6 edad r11h estat ovtest /*Test RESET de Ramsey (variables omitidas)*/
estat ic /*Criterios de informacin*/
estat vif /*Factor de inflacin de varianza*/
Almacenamiento de informacin
Luego de estimar una regresin el software almacena las estimaciones en objetos que
luego pueden ser fcilmente empleados.
. ereturn list
scalars:
Pontificia Universidad Catlica del Per
73
Modelos Lineales
e(N) = 45232
e(df_m) = 2
e(df_r) = 45229
e(F) = 1265.502981280802
e(r2) = .0529942555816602
e(rmse) = 370.1935843435196
e(mss) = 346857383.838377
e(rss) = 6198330958.394218
e(r2_a) = .0529523795399869
e(ll) = -331683.1548708656
e(ll_0) = -332914.5987825873
e(rank) = 3
macros:
e(cmdline) : "regress r6 edad r11h"
e(title) : "Linear regression"
e(marginsok) : "XB default"
e(vce) : "ols"
e(depvar) : "r6"
e(cmd) : "regress"
e(properties) : "b V"
e(predict) : "regres_p"
e(model) : "ols"
e(estat_cmd) : "regress_estat"
matrices:
e(b) : 1 x 3
e(V) : 3 x 3
functions:
e(sample)
74
Instituto de Informtica
Tambin pueden invocarse los parmetros estimados de otra manera: Por ejemplo, en
promedio el ingreso mensual para una persona que tiene 30 aos y trabaja 48 horas a la
semana, asumiendo que existe causalidad en el modelo y este se encuentra
correctamente especificado es:
Correlacin Serial
Slo aplica cuando la fuente de datos es temporal, si ese es el caso STATA exige que
los datos sean declarados como temporales con el comando -tsset-.
- Durbin-Watson. Test de autocorrelacin de primer orden
. tsset qtrs
. regress Y X1 X2 X3
. estat dwatson
. estat
dwatson
75
Modelos Lineales
- Correccin de Autocorrelacin
MCP Usando el mtodo de Cochrane
. prais Y X1 X2 X3, corc
76
Instituto de Informtica
4.2.
Regresiones robustas
Una vez que se ha establecido que existe una relacin lineal entre dos
variables Y y X, todava queda la tarea de determinar cul es la mejor recta
que refleja esta relacin? O lo que es lo mismo Cul es la ecuacin que
describe estos datos? Ya que se observa y se asume una relacin lineal los
datos deben seguir una ecuacin de la forma: Y = mX +b
Se debe notar que a no ser que su sea una relacin lineal exacta entre X e Y, entonces ms de una
lnea podra describir estos datos.
Pontificia Universidad Catlica del Per
77
Modelos Lineales
sysuse auto
twoway (lfit mpg weight) (scatter mpg weight)
El problema que presenta este mtodo es que las observaciones que se encuentren
ms alejadas de la recta de ajuste reciben una mayor ponderacin.
Si se decide
excluirlas, van a afectar fuertemente a los estimadores. Existen por lo menos dos formas
de estimar una lnea que no est altamente influenciada por valores atpicos, estas
metodologas descansan en lo que literatura se conoce como regresiones robustas.
78
Instituto de Informtica
79
Modelos Lineales
4.2.2.
Regresin robusta
La idea bsica de este tipo de estimacin es calcular los estimadores que
minimicen la siguiente funcin:
w(e)e2
Donde w(.) es una funcin de ponderacin que se introduce para reducir
(e incluso eliminar) el efecto de residuos elevados. Por tanto se definen los
pesos w(.) de tal forma que tomen valores pequeos para residuos
grandes. El proceso de estimacin es iterativo comenzando por una
regresin simple de la cual se derivan los primeros errores y tambin los
primeros ponderadores que son reestimados las veces que sean
necesarios para que la mxima diferencia entre el ltimo y el penltimo
ponderador sea mnima.
80
Instituto de Informtica
Donde:
ei = yi - XiB; ui = ei/s;
s = M/0.6745;
M = mediana (|ei mediana(ei)|);
ch y cb son constantes predeterminadas
81
Modelos Lineales
82
Instituto de Informtica
83
Modelos Lineales
84
Instituto de Informtica
5.
Dependiente binaria
Cuando la variable dependiente toma dos valores, tpicamente 1 y 0. La
estimacin de un modelo con esta caracterstica empleando la metodologa
MCO convencional se conoce como el modelo de probabilidad lineal, sin
embargo su estimacin presenta los siguientes problemas:
Predicciones fuera de muestra (nada garantiza que las predicciones del
modelo se encuentren en el intervalo de 0 a 1)
La perturbacin aleatoria no sigue una distribucin normal
Presencia de problema de heterocedasticidad
85
Nota Tcnica
Stata interpreta el valor 0 como resultado negativo (falla), y trata todos los
otros valores (excepto missing) como resultados positivos (xito). Entonces,
si su variable dependiente toma el valor de 0 y 1, 0 es interpretado como falla
y 1 como xito. Si su variable dependiente toma el valor de 0,1 y 2; 0 es
interpretado an como falla, pero 1 y 2 son tratados como xitos.
Ejemplo
. describe
86
Instituto de Informtica
. sum
87
88
Instituto de Informtica
matrix coeficientes=e(b)
matrix list coeficientes
predict probprobit, p
89
Graficando la probabilidad predicha contra gpa (la nota global del alumno)
90
Instituto de Informtica
Para tratar las variables discretas del mismo modo que las continuas se
emplea la opcin classic.
91
92
Instituto de Informtica
Comando mfx
. mfx compute
93
. mfx compute,eyex
Elasticities after dprobit
Calculando semielasticidades:
. mfx compute,dyex
Elasticities after dprobit
. mfx compute,eydx
Elasticities after dprobit
94
Instituto de Informtica
Para contrastar la bondad de ajuste es preciso tabular que tan bien predice el
modelo.
Si se grafica (por ejemplo para cien puntos) el efecto de psi sobre la probabilidad
de aumentar la nota, se puede graficar el efecto puro de psi sobre las medias
(trazo continuo) mientras que los puntos son el efecto de psi para cada individuo
en particular.
95
Por el contrario este grfico permite comparar el efecto predictivo del modelo
para la variable psi.
96
Instituto de Informtica
97
5.2.
5.2.1.
Logit multinomial
Una variable es nominal es aquella donde sus categoras no se pueden
ordenar. Ejemplos, de lo anterior son estado civil y condicin de actividad
laboral. En el modelo logit multinomial, nosotros
de coeficientes
(1),
(2) y
estimamos el conjunto
resultado.
(1),
(2) y
probabilidades para y=1, y=2 y y=3. Para identificar el modelo, uno de los
(1),
fija
(2) y
(2) y
Si en lugar de fijar
(1) y
(1)=0, fijamos
98
Instituto de Informtica
Dado
),
Ejemplo
Se tienen datos acerca del tipo de seguro de salud disponible para 616
personas que sufren de depresin en Estados Unidos. El seguro es
categorizado en dos planes: plan de indemnizacin y de prepago.
99
use http://www.stata-press.com/data/r8/sysdsn3
100
Instituto de Informtica
101
102
Number of obs =
616
LR chi2(2) =
9.62
0.0081
Instituto de Informtica
5.2.2.
describe
103
Logit ordenado
104
Instituto de Informtica
105
106
Instituto de Informtica
6.
Datos de panel
En esta seccin se emplear la base nlswork.dta la misma que contiene una
muestra de 4711 mujeres con trabajo remunerado de 14 a 26 aos cumplidos al
ao 1968 y que fueron encuestadas a lo largo de 21 aos (1968-1988) excepto
los aos 1974, 1976, 1979, 1981, 1984, y 1986. La variable dependiente en todas
las estimaciones es el logaritmo del ingreso. Se recurrirn a algunos comandos
que no estn cargados en Stata. Es importante entonces que antes de iniciar
escribas en la lnea de comando (mientras ests conectado a Internet) las
siguientes indicaciones:
use http://www.stata-press.com/data/r10/nlswork.dta
des
sum
generate age2 = age*age generate black = (race==2)
6.1.
107
Datos de Panel
Donde
+ ui
+ ui (2) obtenemos:
108
Instituto de Informtica
2
u
Si
Recuerde que referencialmente una Hiptesis nula se rechaza si el p-value es pequeo, menor a 0.10, por
ejemplo.
Pontificia Universidad Catlica del Per
109
Datos de Panel
El p-value nos indica que podemos rechazar la Ho; por lo tanto, los
efectos aleatorios i u son relevantes y es preferible usar la estimacin
de efectos aleatorios en vez de la agrupada.
- Efectos fijos
Otra manera de modelar el carcter individual de cada estado es a
travs del modelo de efectos fijos. Este modelo no supone que las
diferencias entre personas sean aleatorias, sino constantes o fijasy
por ello debemos estimar cada intercepto ui . Cmo podemos permitir
que el intercepto vare con respecto a cada estado? Una manera es la
tcnica de las variables dicotmicas de interseccin diferencial, que
se expresa de la siguiente manera5
Como repasamos en clase, utilizar variables dicotmicas conduce al mismo resultado que si
restamos a cada observacin la media de cada estado (demeaning the data).
110
Instituto de Informtica
111
Datos de Panel
ef
ea
112
Instituto de Informtica
. hausman fijos .
- Efectos Temporales
Para hacer la distincin algunos autores suelen hablar de efectos idiosincrticos y efectos covariados.
113
Datos de Panel
Donde
Al igual que con los efectos individuales, podemos realizar una prueba F
para conocer la significancia conjunta de las variables dicotmicas
temporales en nuestro modelo. La hiptesis nula es que
1
= 0.
(11) _Iyear_83 = 0
114
Instituto de Informtica
(12) _Iyear_85 = 0
(13) _Iyear_87 = 0
(14) _Iyear_88 = 0
afirmar
que
las
variables
dicotmicas
temporales
son
- Autocorrelacin
Es
importante
sealar
que
an
cuando
hemos
modelado
la
eit
Desafortunadamente, con
115
Datos de Panel
Muchas de las pruebas que se utilizan para diagnosticar problemas de correlacin serial en series de tiempo
han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del
modulo PANELAUTO y PANTEST2 tecleando en la lnea de comando:
ssc install panelauto y ssc install pantest2.
8
El mtodo de Wooldridge utiliza los residuales de una regresin de primeras diferencias, observando que si
uit no est serialmente correlacionado, entonces la correlacin entre los errores uit diferenciados para el
periodo t y t-1 es igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una
discusin ms amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section
and Panel Data. Cambridge, MA: MIT Press.
116
Instituto de Informtica
donde
10
Para una discusin sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River,
NJ: Prentice Hall, p. 598.
Pontificia Universidad Catlica del Per
117
Datos de Panel
- Correlacin contempornea
si
las
observaciones
de
ciertas
unidades
estn
118
Instituto de Informtica
Tcnicamente, el comando xttest2 prueba la hiptesis de que la matriz de correlacin de los residuales,
obtenida sobre las observaciones comunes a todas las unidades transversales, es una matriz de identidad de
orden N, donde N es el nmero de unidades transversales. Para una discusin de esta prueba, consulta Greene,
W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.
Pontificia Universidad Catlica del Per
119
Datos de Panel
- Solucin
los
problemas
de
heterogeneidad,
correlacin
que
hemos
examinado
pueden
solucionarse
12
section data, 1995) demostraron que los errores estndar de PCSE son
ms precisos que los de FGLS. Desde entonces, muchos trabajos en la
disciplina han utilizado PCSE en sus estimaciones para panel 13
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las
opciones que ofrecen estos comandos dependen de los problemas
detectados en las pruebas que hemos revisado. La tabla mostrada a
continuacin presenta los comandos ante problemas de correlacin
contempornea,
heteroscedasticidad
autocorrelacin,
sus
combinaciones.
12
Para una introduccin tcnica pero fcil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel
Beck, Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?, Annual Review of
Political Science, 4: 271-93 (2001).
13
Hasta la fecha, el debate entre FGLS y PCSE contina, y ya se han desarrollado algunos mtodos alternativos.
Como los clculos son hechos por la computadora, y en la mayora de casos no es costoso computacionalmente
vale la pena estimar ambos mtodos y comparar resultados.
120
Instituto de Informtica
heteroscedasticidad,
correlacin
contempornea
autocorrelacin.
el comando:
121
Datos de Panel
122
6.2.
Panel Dinmico
El modelo bsico de datos de panel dinmico es:
123
Datos de Panel
ecuacin,
estas
se
clasificaran
en
endgenas,
exgenas
predeterminadas.
124
Instituto de Informtica
(w, )] = 0
125
Datos de Panel
Con el comando set matsize es posible fijar hasta en 800 por 800 dicha
matriz.
126
Instituto de Informtica
Como las
xit
xit
it
no estn
127
Datos de Panel
Finalmente tenemos:
Las variables endgenas se tratan del mismo modo que las variables
dependientes rezagadas (siendo los rezagos de orden p o mayores
instrumentos vlidos, mientras que para las predeterminadas los rezagos
p-1 o mayores son instrumentos vlidos.
La matriz de covarianzas de
128
Instituto de Informtica
Ejemplo:
. ds
c1
emp indoutpt k
yearm1 nL2
kL2
ind
wage n
ys id
wL1
cap w
rec nL1
kL1
i-
. xtabond n w L.w
129
Datos de Panel
sean
inconsistentes.
Por
ello
buscaremos
otras
especificaciones
130
Instituto de Informtica
131
Datos de Panel
132
of
obs
611
Instituto de Informtica
133
Datos de Panel
134
Instituto de Informtica
135
Datos de Panel
136
Instituto de Informtica
7.
Introduccin a la programacin
7.1.
Ejemplo
global paises PER ARG PAR MEX
di "$paises"
137
Introduccin a la programacin
Las macros global son utilizadas frecuentemente para guardar los tems
paramtricos de un programa, como puede ser un carcter string que
contenga el nombre del directorio defult en donde las bases de datos o
los do-files sern accesados.
Ejemplo
cd ""
use auto
local x1: type labor
7.2.
138
Instituto de Informtica
Ejemplo:
forvalues i=1(1)5 {
display i
}
Ejemplo:
forvalues i=1/5 {
display `i'
}
Ejemplo:
local n 5
forvalues i=1/`n' {
display i
}
forvalues i=1/4 {
generate double lnx i =log(x i)
summarize lnx i
}
139
Introduccin a la programacin
Ejemplo:
foreach z in PER ARG PAR MEX {
generate double lnx`z'=log(x`z')
summarize lnx`z'
}
foreach z of varlist x* {
summarize ln`z'
}
7.3.
Escalares y matrices
7.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener
valores string (hasta 244 caracteres) o un nico valor numrico. Los
comandos de anlisis (describe, sum, entre otros) de STATA dan los
resultados como escalares numricos (ver return). Adicionalmente, los
escalares pueden ser utilizados para guardar resultados numricos.
140
Instituto de Informtica
Ejemplo:
scalar root2=sqrt(2)
7.4.
Matrices
Las matrices en STATA son tiles para guardar los resultados. Tambin son una
forma de presentar la informacin de manera organizada. Muchas operaciones
no pueden ser realizadas con los comandos matrix tradicionales. Por ejemplo si
Pontificia Universidad Catlica del Per
141
Introduccin a la programacin
bien el comando matrix mkmat permite crear una matriz a partir de una lista de
variables, el nmero de observaciones de la matriz es limitado.
Por otro lado, los comandos clsicos y los del lenguaje MATA y en general
cualquier lenguaje matricial tiene limitaciones a la hora de trabajar con
expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si se
consideran la memoria disponible en la PC. En estos casos es preferible trabajar
con enlaces que permitan simplificar el clculo matricial.
Por ejemplo en vez de realizar el clculo matricial para estimar un SUR se puede
generar un loop en donde se realice regresiones de distintas ecuaciones, los dos
procedimientos dan el mismo resultado pero el ltimo no requiere de tantos
recursos informticos.
7.5.
Modulo MATA
Para cerrar la sesin MATA y volver al formato convencional del STATA se tiene
que ejecutar la orden -end-. A modo de ilustracin las siguientes lneas permiten
cargar los datos a un formato matricial y estimar las pendientes bajo MCO de la
siguiente especificacin: price=f(mpg, weight).
1 sysuse auto
2 mata X=st_data(.,("mpg","weight","foreign"))
4 Y=st_data(.,("price"))
5 X=J(rows(X),1,1),X 6 invsym(X'X)*X'Y
142
Instituto de Informtica
7.6.
Ejemplos:
cd "..."
use auto
des
return list
143
Introduccin a la programacin
sum mpg
return list
di "La media estandariza es `r(mean)'/`r(sd)'"
144
Instituto de Informtica
8.
Los principales elementos que se deben tener en cuenta en el trabajo con datos
de encuestas por muestreo son:
Ponderacin: En las encuestas por muestreo, las observaciones son
seleccionadas mediante un proceso aleatorio, donde cada observacin
puede tener una probabilidad de seleccin diferente. La ponderacin (o
peso) de una observacin (hogar, por ejemplo) es igual a la inversa de la
probabilidad de pertenecer a la muestra. Es usual que luego del trabajo de
campo se realicen ajustes sobre esta ponderacin, debido, por ejemplo, al
efecto de la No-Respuesta. Un peso wj de una observacin j significa
que la observacin,
145
8.1.
146
Instituto de Informtica
. svydes
147
148
Instituto de Informtica
149
Pearson:
Uncorrected chi2(8) = 624.9913
Design-based F(6.75,6288.86) = 45.3989
P = 0.0000
150
Instituto de Informtica
151
152
Instituto de Informtica
153
. svyreg, deft
154
Instituto de Informtica
NOTAS
155
NOTAS
156
Instituto de Informtica
157
NOTAS
158
Instituto de Informtica