Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion Al Analisis y Modelacion de Datos Con Stata 12 PDF
Introduccion Al Analisis y Modelacion de Datos Con Stata 12 PDF
R
El Distribuidor de Software Cientfico Lder en Latinoamrica
SOFTWARE shop
3020 Issaquah Pine Lake Rd
Sammamish WA, 98075 USA
________________________________________________________________________________
Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de
recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico,
magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del autor.
DARWIN MARCELO
Darwin Marcelo tiene nueve aos de experiencia en investigacin aplicada en economa a travs
de distintos pases de Amrica Latina. El principal rea de enfoque de su trabajo ha sido el
desarrollo sostenible, con nfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza.
BRAYAN ROJAS
Economista de la Universidad Nacional de Colombia, con especializacin en Gestin de Riesgo y
Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en
estadstica en la Universidad Nacional de Colombia.
1. INTRODUCCIN ........................................................................................................................... 1
1.1 Descripcin del libro ...............................................................................................................................1
2. MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3
2.1 Conociendo el entorno de Stata .............................................................................................................3
2.2 Barras .....................................................................................................................................................5
2.3 El men de ayuda ...................................................................................................................................5
2.3.1 Actualizaciones en Stata:............................................................................................. 8
2.4 Tipos de archivo .....................................................................................................................................8
2.5 Estructura de comandos .........................................................................................................................9
2.6 Ventana de comandos ..........................................................................................................................10
2.7 Configuracin de la memoria de Stata ..................................................................................................11
2.8 Cambiar el directorio de trabajo de Stata .............................................................................................11
2.9 Bases de datos de ejemplo ..................................................................................................................11
2.10 Tipos de variables.................................................................................................................................12
2.10.1 Formato de las variables: .......................................................................................... 13
3. MANEJO DE BASE DE DATOS ..................................................................................................... 15
3.1 Fundamentos de bases de datos..........................................................................................................15
3.1.1 Creacin de un archivo log ........................................................................................ 15
3.1.2 Abrir una base de datos ............................................................................................ 16
3.1.3 Importar una base de datos .CSV o TXT .................................................................... 16
3.1.4 Importar una base de datos .XLS o .XLSX .................................................................. 17
3.1.5 Importar otros tipos de archivo ................................................................................ 20
3.2 Salvando una base de datos ................................................................................................................20
3.3 Descripcin de la base de datos ...........................................................................................................20
Cargar una base de datos del programa ........................................................................... 21
Observar los datos............................................................................................................. 21
Describir los datos ............................................................................................................. 21
3.4 Creacin de Variables ..........................................................................................................................22
3.4.1 Extensiones en la creacin de variables .................................................................... 26
3.5 Ordenar variables y bases de datos .....................................................................................................26
3.6 Clculos por grupos ..............................................................................................................................27
3.7 Codebook e Inspect ..............................................................................................................................28
3.8 Conservar y recargar bases de datos ...................................................................................................29
3.9 Filtros de la base de datos ....................................................................................................................29
3.10 Administrador de variables ...................................................................................................................30
3.10.1 Rename ..................................................................................................................... 32
3.10.2 Label Variable ............................................................................................................ 32
3.10.3 Notes ......................................................................................................................... 32
3.11 Creacin de categoras .........................................................................................................................32
3.12 Modificacin y transformacin de variables ..........................................................................................34
3.12.1 Recode ....................................................................................................................... 34
3.12.2 Divisin de Variables de texto ................................................................................... 36
3.13 Combinacin de bases de datos...........................................................................................................36
3.13.1 Combinacin Vertical Append ................................................................................ 36
3.13.2 Combinacin Horizontal Merge ............................................................................. 37
3.14 Cambio en la organizacin de los datos ...............................................................................................39
3.14.1 Collapse ..................................................................................................................... 39
3.14.2 Reshape ..................................................................................................................... 40
3.14.3 Xpose ......................................................................................................................... 43
3.14.4 Stack .......................................................................................................................... 44
3.15 Problemas en el manejo de bases de datos .........................................................................................45
3.15.1 Replicar informacin ................................................................................................ 45
3.15.2 Verificacin de datos ................................................................................................. 46
3.15.3 Contador y reporte de datos repetidos..................................................................... 47
3.16 Anlisis de duplicados ..........................................................................................................................47
3.17 Creacin de programas editor de texto ..............................................................................................50
3.18 Ejemplo aplicado ..................................................................................................................................51
3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical y viceversa 53
3.18.2 Ejercicio ..................................................................................................................... 53
3.19 Comandos usados ................................................................................................................................54
3.19.1 Otros comandos recomendados ............................................................................... 55
capture ...................................................................................................................................... 55
4. ANLISIS ESTADSTICOS CON STATA ......................................................................................... 56
4.1 Estadstica descriptiva ..........................................................................................................................57
4.2 Ponderadores -weight- ........................................................................................................................58
4.3 Calculo de medias ................................................................................................................................58
4.4 Intervalos de confianza .........................................................................................................................59
4.5 Pruebas de hiptesis ............................................................................................................................60
4.5.1 Media ........................................................................................................................ 60
4.5.2 Varianza ..................................................................................................................... 61
4.5.3 Proporciones ............................................................................................................. 61
4.6 Manejo de tablas de datos ....................................................................................................................61
4.6.1 Tabstat ....................................................................................................................... 62
4.6.2 Tabulate (tab) ............................................................................................................ 63
4.6.3 Table .......................................................................................................................... 64
4.7 Pruebas no paramtricas ......................................................................................................................66
4.8 Ejemplo aplicado ..................................................................................................................................68
4.8.1 Comandos Bsicos ..................................................................................................... 68
4.8.2 Ayuda visual table y tabstat ..................................................................................... 69
4.8.3 Tablas de contingencia .............................................................................................. 71
4.8.4 Tablas de frecuencia.................................................................................................. 72
4.8.5 Correlaciones............................................................................................................. 73
4.8.6 Prueba para la media ................................................................................................ 74
4.8.7 Prueba para detectar normalidad ............................................................................. 75
4.8.8 Pruebas para la media: dos muestras independientes ............................................. 75
4.8.9 Comparacin de k medias independientes ............................................................... 76
4.8.10 Exportar tablas .......................................................................................................... 79
4.8.11 Ejercicio ..................................................................................................................... 80
4.9 Comandos usados ................................................................................................................................80
4.9.1 Otros comandos recomendados ............................................................................... 81
5. GRAFICAS CON STATA ............................................................................................................... 82
5.1 Histograma ...........................................................................................................................................84
5.2 Grfico de tortas ...................................................................................................................................85
5.3 Graficas twoway ...................................................................................................................................87
5.4 Editor de grficos de Stata ...................................................................................................................90
5.4.1 Haciendo doble clic sobre el rea de la grafica ......................................................... 91
5.5 Grfico de series de tiempo ..................................................................................................................92
5.6 Grfico de dispersin ............................................................................................................................93
5.7 Grfico de puntos .................................................................................................................................95
5.8 Grfico de barras ..................................................................................................................................96
5.9 Generando Funciones ..........................................................................................................................98
5.10 Combinando grficas ............................................................................................................................98
5.11 Ejemplo aplicado ..................................................................................................................................99
5.11.1 Transformaciones Tukey ........................................................................................... 99
5.11.2 Grficos de matriz ................................................................................................... 100
5.11.3 Grficos de lneas .................................................................................................... 101
5.11.4 Edicin de grficos .................................................................................................. 101
5.11.5 Grfica de histogramas............................................................................................ 102
5.11.6 Diagramas de dispersin ......................................................................................... 103
5.11.7 Exportar grficos ..................................................................................................... 105
5.12 Comandos usados ..............................................................................................................................107
6. REGRESIN LINEAL EN STATA ................................................................................................. 108
6.1 Ejercicio ..............................................................................................................................................108
6.2 Descripcin estadstica de la informacin ...........................................................................................109
6.3 Relacin lineal entre las variables dependientes e independientes ....................................................109
6.4 Representacin grfica de las relaciones entre variables ...................................................................110
6.5 Estimacin del modelo lineal de regresin .........................................................................................112
6.5.1 Pruebas de hiptesis lineales .................................................................................. 114
6.5.2 Ejercicio ................................................................................................................... 114
6.6 Comprobacin del cumplimiento de los supuestos de M.C.O. ...........................................................115
6.6.1 Multicolinealidad (Asociacin lineal entre variables) ............................................. 115
6.6.2 Homocedasticidad ................................................................................................... 115
6.6.3 Normalidad de los residuos..................................................................................... 117
6.6.4 Exogeneidad de las variables independientes ........................................................ 119
6.6.5 Ejercicio ................................................................................................................... 120
6.7 Pronstico ...........................................................................................................................................120
6.7.1 Representacin grfica del pronstico de la variable dependiente y su relacin con
los regresores .......................................................................................................................... 120
6.7.2 Ejercicio ................................................................................................................... 121
6.8 Exportar tabla de contenido ................................................................................................................121
6.9 Ejemplo aplicado ................................................................................................................................122
6.9.1 Prueba de hiptesis ................................................................................................. 123
6.9.2 Supuestos para mnimos cuadrados ordinarios ...................................................... 123
6.10 Comandos usados ..............................................................................................................................127
7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128
7.1 Representacin de las relaciones entre variables ..............................................................................129
7.1.1 Participacin y Gnero ............................................................................................ 129
7.1.2 Participacin y Nivel Educativo ............................................................................... 130
7.1.3 Participacin y Edad ................................................................................................ 131
7.2 El modelo tipo Logit encuesta Casen 2006. .......................................................................................131
7.2.1 Interpretacin de resultados................................................................................... 132
7.2.2 Odds - Ratio (p/q) .................................................................................................... 133
7.2.3 Post estimacin .................................................................................................... 133
7.3 Modelo Lineal de probabilidad y modelo tipo Probit ...........................................................................135
7.3.1 Modelo Lineal .......................................................................................................... 135
7.3.2 Modelo tipo Probit .................................................................................................. 136
7.3.3 Comprobacin de supuestos ................................................................................... 139
7.3.4 Pronstico ............................................................................................................... 143
7.3.5 Ejercicio ................................................................................................................... 143
7.4 Ejemplo aplicado ................................................................................................................................144
7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144
7.5 Comandos usados ..............................................................................................................................148
8. MODELOS DE SERIES DE TIEMPO ............................................................................................ 149
8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma) .......................................149
8.1.1 Generacin de variables con formato de fecha ...................................................... 149
8.1.2 Designando la variable que representa al tiempo .................................................. 150
8.1.3 Variables con rezago ............................................................................................... 151
8.2 Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de un modelo arma para
pronstico de la inflacin. ................................................................................................................................152
8.2.1 Fase de identificacin .............................................................................................. 152
8.2.2 Fase de estimacin .................................................................................................. 154
8.2.3 Fase de verificacin y diagnostico ........................................................................... 155
8.2.4 Pronsticos .............................................................................................................. 156
8.2.5 Ejercicio ................................................................................................................... 157
8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158
8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado con heterocedasticidad
171
8.3.1 Antecedentes .......................................................................................................... 171
8.3.2 El modelo GARCH(1,0) ............................................................................................. 172
8.3.3 Metodologa ARCH EN STATA ................................................................................. 173
8.3.4 Ejemplo aplicado ..................................................................................................... 173
8.4 Comandos usados ..............................................................................................................................179
9. MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 179
9.1 Anlisis de datos panel .......................................................................................................................180
9.1.1 Estructura de bases de datos panel ........................................................................ 181
9.2 Ejemplo Prctico El caso de la CASEN ...........................................................................................182
9.2.1 Grficos de evolucin .............................................................................................. 184
9.2.2 Modelos economtricos para datos de panel......................................................... 187
9.2.3 Comparacin de modelos ....................................................................................... 192
9.2.4 Interpretacin de los parmetros de efectos fijos. ................................................. 193
9.3 Comandos usados ..............................................................................................................................193
10. INTRODUCCIN A LA PROGRAMACIN .............................................................................. 195
10.1 Local macros ......................................................................................................................................195
10.2 Creando ciclos ....................................................................................................................................195
10.2.1 Comando IF ............................................................................................................. 195
10.2.2 Comando For ........................................................................................................... 196
10.2.3 Comando Forvalues ................................................................................................. 196
10.2.4 Comando While: ...................................................................................................... 196
10.3 ESCALARES Y MATRICES ...............................................................................................................196
10.3.1 Ejercicio ................................................................................................................... 199
11. TRUCOS CON STATA ............................................................................................................ 200
11.1 Algunos consejos con Stata ...............................................................................................................200
11.2 Ejecutando comandos en Stata sin resultados (quietly) .....................................................................203
11.3 Herramienta de calificacin de Stata 12 .............................................................................................205
11.4 Archivos en PDF de logs y grficas con Stata 12 ...............................................................................207
11.5 Material de apoyo ...............................................................................................................................209
12. BIBLIOGRAFIA ...................................................................................................................... 210
1. INTRODUCCIN
Las ciencias econmicas, sociales y aplicadas se han vinculado desde hace varias
dcadas a las ciencias puras para poder por medio de los mtodos cuantitativos verificar
los hechos sociales, el uso de la estadstica, la matemtica y la fsica cada da van en
incremento; pero de igual forma stos mtodos han necesitado de diferentes recursos
para su aplicacin, es en busca de suplir estas necesidades que Stata Corp se ha
comprometido da a da en apoyar al desarrollo de la teora con la prctica haciendo uso
del total de recursos disponibles.
Este material es dirigido a todo tipo de usuario, para el estudiante que se est
involucrando al mundo de la estadstica y econometra, el docente que utiliza la
herramienta para impartir sus clases usando para ello un software de alto nivel como es
Stata y para profesionales e investigadores que da a da requieren una herramienta que
les sirva para apoyar sus labores y sus investigaciones.
Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.
1
El manual contiene 216 pginas, las cuales describe los principales usos para un usuario
de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el
siguiente cuadro:
Descripcin Caractersticas
Rutas de acceso por medio de los mens Se describe el nombre del Men seguido por el
smbolo
2
2. MANEJO FUNDAMENTAL DE STATA 12
Nota: Adems del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para los
sistemas operativos en Mac y Unix, con sus respectivos manuales de introduccin.
Una vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los
siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para
llevar a cabo un anlisis de datos, teniendo una interface bastante amigable.
1
Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando
help limits.
3
VENTANA DE
VARIABLES
VENTANA DE
REVISIN
VENTANA DE RESULTADOS
VENTANA DE
PROPIEDADES DE
VARIABLES
VENTANA DE COMANDOS
Ventana de Revisin: Bitcora que permite llevar un completo registro de todos los
procedimientos ejecutados durante una sesin de Stata ya
sea que se ejecutaron por el ambiente GUI, por la ventana
de comandos o por un editor .do. Una de las propiedades de
la ventana Review es que si se desea repetir un comando
simplemente debe hacer doble clic sobre el comando
deseado y Stata lo ejecutar de nuevo.
4
Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo
de variable, formato, las notas de la base de datos (puede
usar el comando notes para verlas en la ventana de
resultados), entre otras caractersticas.
2.2 Barras
Barra de Nombre
Barra de
Mens
Barra de
Herramientas
Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation
5
Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el
sitio desde donde es posible descargar la macro para alimentar el programa.
Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del
boletn tcnico Stata Technical Bulletin.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms
rpidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al
sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del
comando del cual desea informacin.
6
La ayuda de Stata ofrece informacin sobre:
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn
procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica
por medio del comando search. A travs de este comando Stata realiza una bsqueda en
lnea en:
Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentracin gini
(procedimiento muy conocido en economa y estadstica), pero no se sabe si Stata realiza
este clculo y, adems, si es posible hacerlo, no se conoce el comando para ejecutarlo.
En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el
cuadro de comandos
. search gini
7
Figura 4. Comando search
. update all
. adoupdate, update
Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a
travs de diferentes tipos de archivos.
8
Tipo de Archivo Extensin
La creacin de las variables se realiza por medio del comando generate, los comandos en
Stata no son necesarios escribirlos en su totalidad. La mayora de los comandos pueden
ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre
del comando y en la ayuda, aparecer subrayado el nombre hasta cierto carcter
indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g
es igual a generate
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
Por ejemplo:
Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos
los comandos del programa se deben escribir en letras minsculas. De lo contrario el
programa no lo reconoce. Los parntesis cuadrados indican que no es un carcter
obligatorio dependiendo el comando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando
regress que permite realizar el procedimiento de regresin se puede ejecutar digitando
solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma funcin que
al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque
informacin as: help syntax
9
2.6 Ventana de comandos
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que
permite realizar la instruccin que se le ordenar al programa para que realice, por
ejemplo, al seguir la ruta
Comando
Limpiar la
Ejecutar No Ejecutar Ejecutar y
ventana
mantener
la ventana
Figura 5. Caractersticas de una ventana activa
10
2.7 Configuracin de la memoria de Stata
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la
cantidad de memoria RAM que necesita de lo contrario emerger el siguiente error:
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de
acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los
resultados. Una forma prctica de abreviar la sintaxis en ambos casos consiste en
indicarle a Stata, antes de comenzar la sesin de trabajo, el lugar en el disco duro de
donde se desean tomar los datos y donde se quieren almacenar los resultados. Este
procedimiento se lleva a cabo a travs del comando cd as:
. cd "C:\...."
La otra opcin es por medio del Men File Change Working Directory
Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las
bases de datos que sern empleadas en la sesin de trabajo de Stata.
11
dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software,
para acceder a ellas siga la ruta File Example Datasets Example datasets installed
with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual
datasets pero debe tener acceso a internet.
VARIABLE
CUANTITATIVA CUALITATIVA
Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales
se diferencian por el rango de los datos o por el tamao en el nmero de caracteres
disponibles a continuacin se presenta una tabla que describa los tipos de datos.
12
RANGO
TIPO DE VARIABLE FORMATO
MNIMO MXIMO
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o
ancho que soporta el formato y el nmero a la derecha ndica el nmero de decimales,
posteriormente se encuentra una letra. Donde [f] es aproximacin al entero ms cercano,
[e] indica notacin cientfica y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables
alfanumricas, estas variables en las que se encuentran principalmente las variables
cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str#
es la visualizacin de este formato, en el cual el carcter # indica el largo de la cadena.
Variables de cadena
% 20 s Variable String
Variable numrica
13
Formato general g, Notacin cientfica e,
formato fijo f
. sysuse auto
. describe Price
. recast float price
14
3. MANEJO DE BASE DE DATOS
Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin,
entre ellas los pasos fundamentales, como son, importar una base de datos, eliminacin,
transformacin de bases de datos, entre otros.
Un archivo tipo texto con extensin .log o .smcl4, permite guardar todo lo que usted
digite y ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de
resultados realizadas durante la sesin activa de Stata.
Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y
colores de su ventana de resultados y adems podr configurarlo para imprimir.
4
Iniciales de Stata Markup and Control Language.
15
Figura 7. Creacin de un archivo Log
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene
un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado
CTRL+ O y seleccionar el archivo o por el cono abrir de la barra de herramientas, por
medio de comandos podr usar la instruccin use
Recuerde la seccin 2.8 en donde se indica como activar un directorio de trabajo para no
tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un
directorio activo la instruccin es:
Dado que la instruccin solo importa bases de datos de formato Stata no se requiere
ingresar la extensin .dta.
Finalmente con el comando use podr seleccionar solamente las variables que desea
usando la opcin using importar por ejemplo
16
En este caso el comando insheet tiene la siguiente estructura
Por ejemplo:
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata
trabaja los separadores decimales con el punto y no con la coma como se usa en la configuracin
de los computadores con idioma espaol. Para ello se recomienda al usuario cambiar el formato de
separador decimal y de miles en su hoja de clculo o directamente desde la configuracin regional
17
de su equipo. De igual forma usar la tcnica de buscar y reemplazar le permite obtener un buen
resultado.
Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la
ventana Data Editor, presionando CTRL+8, o haciendo clic en
Variable Properties
Filter Observations
Snapshots
Edit Mode Variables Manager
Browse Mode
18
Busque el
archivo de
Excel
Seleccione
la hoja a Active la casilla si en
Seleccione el
importar su hoja la primera fila
rango de los
contiene los nombres
datos
de las variables
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el
asistente no realizar la importacin.
19
3.1.5 Importar otros tipos de archivo
Hay otro tipo de archivos que Stata le permite importar automticamente como archivo
para ello se recomienda tener en cuenta las siguientes recomendaciones:
Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base
de datos original de tres formas
La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de
trabajo activo y con el mismo nombre.
Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que
estos ocupan utilizando el comando compress este comando comprime la base de datos.
Es muy til cuando se trabaja con bases de datos grandes.
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener
informacin de ella, para ellos Stata le permite al usuario por medio de diferentes
procedimientos entender cada variable y su contenido.
20
Lo primero que debe realizar el usuario una vez importa o abre una base de datos es
observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre
ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de
clculo, la otra opcin es por medio del comando list que permite visualizar la o las
variables en la ventana de resultados, se recomienda usar los comandos edit, browse y
list con las opciones if in (ver ms informacin en la seccin 3.4).
Adicional a esto el usuario puede recibir informacin especfica de cada variable por
medio de las opciones del men Data Describe Data. En ste men las opciones de
describe data in memory, describe data contents e inspect variables, le da la posibilidad al
usuario de obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato
de la variable, notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras.
A continuacin se presenta un ejemplo del uso de estos comandos
21
storage display value
variable name type format label variable label
Cuando se desea aplicar un comando para todas las variables de la base de datos podr
hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la
instruccin para toda la base de datos, otra alternativa es escribir _all posterior al
comando por ejemplo:
. sysuse auto
. describe _all
Por medio del men Data se puede encontrar opciones como crear nuevas variables
22
Figura 12. Comando generate
23
Tabla 9. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los
caracteres _n y _N o denominadas variables del sistema, _n es un contador del nmero
de observaciones, y _N indica el total de observaciones de la base de datos.
. gen tendencia = _n
. gen totales = _N
. gen dummy = 1 if TV >5 *crea una variable con valores = 1 si TV > 5, perdido en otro caso.
. list price in 10/20 * crea una lista para las observaciones entre la 10 y 20
. list price in -10/l * crea una lista con las ltimas 10 observaciones
24
f/# Condicin desde la primera observacin (f) hasta una observacin
-#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima
con l, *L minscula*
Ejemplo:
. gen lny=ln(i_laboral)
. gen lnm=ln(htm)
. gen exp2=exp^2
. gen horas=int(htm)
. gen uniforme=uniform()
25
*Horas de trabajo al mes expresadas en nmeros enteros (redondeado)
. gen horasr=round(htm)
Para recodificar variables (cambiar los valores de una variable) se pueden utilizar los
comandos recode (ver ms informacin en la seccin 3.12.1) o replace. Por ejemplo, si se
quiere reemplazar en la variable men25 los valores perdidos . por 0 una opcin es
emplear el comando replace as:
Ejemplo:
26
Figura 14. Ordenar datos
Existe otro caso y es en el caso que se dese ordenar las variables, es decir cambiar el
orden en la base de datos, por medio del comando order es posible realizar esto, de igual
forma es posible utilizar aorder para que las variables queden ordenadas en forma
alfabtica. Finalmente el comando move permite modificar la ubicacin de las variables,
pero a partir de la versin 11, este comando es reemplazado por order.
Ejemplo:
27
El comando by permite generar variables por diversas categoras, adems, permite
ordenar de acuerdo a alguna variable. En el ltimo ejemplo hace una regresin por cada
categora entre el gnero y la edad.
. codebook foreign
foreign
. codebook price
price
28
. inspect rep78
1 5 74
(5 unique values)
Es importante cuidar la base de datos que se est trabajando, por eso se recomienda
salvar la base de datos, pero adems, Stata ofrece opciones que le permitirn al usuario
guardar la base de datos de forma virtual, por medio de los comandos preserve y
snapshot y para recuperar la base con el comando restore
. preserve
. restore
. snapshot save, label("nombre del elemento guardado")
. snapshot restore 1
Snapshot
Remover Snapshot
Cambiar el nombre
Agregar
Restaurar
Snapshot
La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una
vez la base de datos, mientras el snapshot varias veces.
Uso del in
29
. browse pop in 1/10
. browse pop in f/10 f = FIRST, l = LAST
. browse pop in 10/l hasta el ltimo
Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep,
drop y list.
drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list
presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar
los datos en una hoja de datos y podr editar y modificar los datos, browse realiza las
mismas opciones de edit pero no se puede modificar la informacin.
keep/drop variables
keep/drop if expression
keep/drop in rango
Ejemplo:
. sysuse census
. drop death divorce * Elimina las variables death y divorce
. keep state pop medage marriage * Conserva las variables indicadas
. drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30
. sort popurban
. keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban
. varmanage
30
Figura 16. Administrador de variables.
En la versin 12, Stata ha incluido una nueva ventana que es la ventana de propiedades
en la cual se pueden modificar la informacin de cada variable:
31
3.10.1 Rename
Este comando permite cambiar el nombre de una variable. Por ejemplo:
3.10.3 Notes
Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a
continuacin un ejemplo para cada caso:
. notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce
32
Figura 19. Administrador de Value Labels
Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podr agregar,
eliminar y editar las categoras con su correspondiente descripcin.
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan,
para ello en el administrador de variable a la izquierda de Manage seleccione el nombre
de la etiqueta.
33
Figura 21. Asignacin de etiquetas
. label values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas
3.12.1 Recode
Este comando permite recodificar algn valor de una variable
34
Figura 22. Recode
Suponga que se quiere generar una variable que segmente a la poblacin en grupos de
edad (menores de 18 aos, entre 18 y 25 aos, entre 26 y 40 aos, entre 41 y 60 aos,
mayores de 60 aos), con un numero distintivo para cada categora. Una opcin es
emplear el comando recode y generate (desde el do-file editor ) as:
o en forma alternativa
recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 aos") (26/40=3 "Entre 26 y 40 aos")
(41/60=4 "Entre 41 y 60 aos") (61/max=5 "Mayores de 60 aos"), gen(gedad)
La variable gedad es una recodificacin de e02 (edad). Note que se han aplicado
etiquetas a cada una de las categoras entre comillas.
. codebook gedad
35
Tabla 15. Comando codebook
HOMBRES.dta
Adicin de variables:
Adicin casos: merge
append Es necesaria variable llave. EDUCACION.dta
No es necesaria Las bases de datos deben
variable llave estar ordenadas.
Revisar la variable _merge
MUJERES.dta
36
. use hombres, clear
. append using MUJERES
Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:
1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se har la
unin de las bases, es decir de acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.
37
3. Usar el comando merge
4. Guardar la base de datos (save)
Para verificar que usted tenga un identificador nico se recomienda que lo verifique por
medio del comando isid.
. isid id num
. use EDUCACION
. sort numero e01
.d
. save EDUCACION, replace
. use PERSONAS
. sort numero e01
.d
38
. save PERSONAS, replace
3. Se aplica el comando merge para pegar horizontalmente las dos bases as:
Cuando una base de datos tiene ms de una observacin por unidad de estudio
(individuo, pas, empresa, etc.) nos puede interesar slo trabajar con una observacin por
unidad (collapse) o mantener las observaciones distintas para cada individuo pero que se
creen como variables o columnas distintas (reshape)
3.14.1 Collapse
Si se tiene una base de datos de hogares, cada observacin es un miembro del hogar. Si
cada hogar dispone de un identificador nico, entonces se puede formar una base de
datos alternativa que contenga una sola observacin por hogar (en lugar de una
observacin por individuo) para cada una de las variables deseadas. Esta observacin
puede contener la media, desviacin estndar, suma u otro estadstico. Ejemplo:
Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y
educacin.
En Stata es posible colapsar bases de datos a travs del comando collapse. Debe
tenerse en cuenta:
39
2. El(Los) criterio(s) de agregacin: Es la(s) operacin(es) matemtica(s) que ser(n)
aplicados a la base de datos original para obtener las nuevas unidades de
observacin colapsadas: suma, media, mediana, cuenta, percentil, etc.
Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datos
agregada por localidad y sexo as:
La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los
jefes de hogar, en ambos casos, por localidad y sexo.
3.14.2 Reshape
En algunas ocasiones dependiendo del estudio muestral y de la construccin de la base
de datos, usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el
formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un nmero j de
variables, donde j es generalmente una variable con informacin para diferentes perodos
de tiempo.
. list
40
state pop1970 pop1980 pop1990 pop2000 area
>
Number of obs. 6 -> 24
Number of variables 6 -> 4
j variable (4 values) -> ao
xij variables:
pop1970 pop1980 ... pop2000 -> pop
. list
41
state ao pop area
Si se encuentra usted con una base de datos similar a la generada con el comando
reshape, podr pasarla a formato wide, en nuestro caso se usar la siguiente sintaxis
42
Tabla 21. Comando list despus de Reshape wide
3.14.3 Xpose
Usted podr modificar la orientacin de una forma completa en su base de datos, es decir,
pasar de filas a columnas (similar a realizar un transponer en Excel), debe tener cuidado
dado que no podr retornar a la posicin inicial.
43
. sysuse auto , replace
. snapshot save, label(base original)
. keep mpg foreign
. xpose , clear varname
3.14.4 Stack
El comando stack le permitir a usted fusionar variables por ejemplo tiene los meses de
cada ao ordenados en columnas y quiero formar una sola variable con todos los meses
para todos los aos.
44
Figura 27. Base de datos despus del comando stack
45
make price
. expand 3
De acuerdo al comando usado, los datos se encontrarn 3 veces en la base de datos, tal
y como se presenta a continuacin.
make price
46
. assert edad < 0 | edad > 100
El comando isid nos permite asegurar que una variable es una codificacin nica dentro
de una base de datos, este comando se usa generalmente para chequear que no existan
observaciones duplicadas dentro de una base de datos. Si la variable tiene exactamente
valores nicos entonces no emerge ningn mensaje, de lo contrario aparece lo siguiente:
. isid foreign
Otro comando que permite verificar si una variable no tiene valores duplicados es
duplicates report, que entrega informacin respecto a la cantidad de veces que se replica
la informacin, el comando duplicates se analiza en la siguiente seccin.
Uno de los problemas comunes en el manejo de una base de datos es analizar si hay
presencia de observaciones duplicadas
47
Figura 28. Administracin de Duplicados
3 15 10
El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso o
duplicadas, indica adicionalmente que para cada observacin hay 3 copias.
48
Duplicates in terms of make
1 1 Cad. Eldorado
1 6 Cad. Eldorado
1 7 Cad. Eldorado
2 2 Cad. Seville
2 8 Cad. Seville
2 9 Cad. Seville
3 3 Linc. Mark V
3 10 Linc. Mark V
3 11 Linc. Mark V
4 4 Linc. Versailles
4 12 Linc. Versailles
4 13 Linc. Versailles
5 5 Peugeot 604
5 14 Peugeot 604
5 15 Peugeot 604
Como se puede observar para cada marcar de automvil hay dos valores adicionales, lo
que ya nos haba indicado la opcin report informando que haban tres observaciones
para cada categora.
La siguiente opcin Tags duplicates permite crear una variable que indica el nmero de
valores adicionales en este caso ser 2, si se utiliza el tag y se realiza una lista se
apreciar el resultado.
make duplic~o
1. Cad. Eldorado 2
2. Cad. Eldorado 2
3. Cad. Eldorado 2
4. Cad. Seville 2
5. Cad. Seville 2
6. Cad. Seville 2
7. Linc. Mark V 2
8. Linc. Mark V 2
9. Linc. Mark V 2
10. Linc. Versailles 2
49
Uno de los objetivos es eliminar los valores duplicados
make
1. Cad. Eldorado
2. Cad. Seville
3. Linc. Mark V
4. Linc. Versailles
5. Peugeot 604
50
*.do y *.ado. Los archivos *.do son conjuntos de comandos y macros que nicamente se
pueden ejecutar cuando el archivo est activo. En contraste, los archivos *.ado son rutinas
que se incorporan a STATA permanentemente y pueden ser ejecutadas desde la el
cuadro de comandos o incluso desde otros archivos *.do y *.ado. Se accede a este editor
como se muestra en la siguiente ilustracin, presionando CTRL+9 o haciendo clic en el
submen Do-file Editor en el men Window en la barra de herramientas5.
En ocasiones las bases de datos no se encuentran completas, por un lado por datos
faltantes en columnas o en filas, por lo tanto en esta seccin se explica cmo aadir
nuevas observaciones de bases de datos externas utilizando comandos como merge y
append.
. cd "C:\Users\SOFWARESHOPFILES"
. use "POBLACION19572004"
. sort country year
. browse
. save "POBLACION19572004.dta", replace
. use "REGION19572004"
. sort country year
. merge 1:1 country year using "POBLACION19572004"
. br
.codebook _merge
.drop _merge
5
Es posible usar el comando doeditor para abrir el editor de programacin.
51
Tabla 29. Merge 1:1
Por ejemplo, se desea que se mantenga en memoria los pases de Brazil y Chile para los
aos 2000 y 2004.
Por ejemplo, se desea mantener en memoria aquellas variables que cumplan con alguna
condicin en este caso para aquella poblacin que sea mayor a 30.000.000.
. keep if pop>=30000
Por ejemplo, se desea que se eliminen las dos primeros aos para cada pas.
52
3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical
y viceversa
3.18.2 Ejercicio
1. Utilizar las bases de datos de calidad de vida para el pas Colombia ao 2010:
Dbfp_encv_547_1, Dbfp_encv_547_4, Dbfp_encv_547_5.
2. Se debe aplicar el comando merge 1:1 para consolidar las tres bases de datos,
siendo la base de datos Dbfp_encv_547_1 master.
3. Recomendaciones: elegir la llave correcta, eliminar los datos que se desean
excluir de la muestra (e.g. Nro_encuesta, nro_encuesta) drop, organizar de forma
ascendente la llave sort, guardar la bases de datos con nombre alternos (e.g.
20101, 20102, 20103) save, aplicar el comando merge.
53
3.19 Comandos usados
append invnormal()
browse keep
by label
bysort list
cd log
clear merge
codebook mvdecode
compress mvencode
db open
decode order
describe outfile
destring prefix
drawnorm recode
drop rename
duplicates replace
edit reshape
encode save
egen snapshot
exit sort
format sysuse
generate use
gsort uniform()
infile varmanage
insheet xpose
54
3.19.1 Otros comandos recomendados
capture mat
cf more
count notes
cross sample
datasignature seed
expand separate
filin split
format stack
infile svy
inspect tostring
joinby translate
label language version
language operators
55
4. ANLISIS ESTADSTICOS CON STATA
Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posible
encontrar varios comandos en diferentes mens. Por ejemplo para poder obtener las
estadsticas descriptivas de una variable es posible usando inicialmente los comandos o
por medio de ventanas de ejecucin.
Clear--more
Break
Pero es posible desactivar la opcin para que aparezca todo el resultado inmediatamente
por medio de set more off.
Para el anlisis estadstico el men Statistics permite obtener gran cantidad de opciones
para poder desarrollar los temas del manual. Por ejemplo en Statistics Summary,
tables, and test Summary and descriptive statistics:
56
Finalmente en Statistics Summarize, tables and test, se pueden realizar varias
operaciones como son clculo del intervalo de confianza, test para medias, varianzas, dos
muestras, etc., pruebas parmetricas y no parmetrica
Lo que se genera:
fweight: frequency weights, indica el nmero de casos que representa realmente cada
observacin muestral. La variable debe contener enteros positivos.
Esta opcin permite calcular la media: aritmtica, geomtrica o armnica. Para una
variable en especfico o para toda la base de datos en caso de dejar el espacio variables
en vacio. Los comandos que se pueden utilizar para realizar el clculo son: ameans,
gmeans o hmeans
58
Figura 34. Media para las variables
59
Figura 35. Intervalos de confianza para las variables
. ci price
4.5.1 Media
Con Stata se pueden realizar test de hiptesis sobre la media
. ttest horas = 15
60
4.5.2 Varianza
Este comando realiza una prueba en la igualdad de varianzas (desviaciones estndar).
Este prueba tiene tres formas para ser evaluada, en la primer forma se demuestra que la
desviacin estndar es igual a un nmero, en la segunda se demuestra si una variable1 y
otra vairable2 tienen la misma desviacin estndar y la ltima forma se realiza la misma
prueba pero utilizando una variable grupo. Esta prueba utiliza la tradicional prueba F para
la homogeneidad entre varianzas entre muestras con n-1 grados de libertad, donde la
hiptesis nula describe la igualdad entre varianzas y una hiptesis alternativa
describiendo la diferencia que existe en la varianza de las muestras
. sdtest variable1=1
. sdtest variable1=variable2
. sdtest variable1, by(variablegrupal)
4.5.3 Proporciones
Este comando realiza pruebas en la igualdad de proporciones utilizando grandes
muestras estadsticas. Y posee las mismas caractersticas y formas de emplear que el
comando de la seccin 4.5.2.
. prtest variable1=variable2
Los comandos tabulate y table ofrecen a los usuarios de Stata una amplia gama de
posibilidades de descripcin y anlisis de datos a travs de diferentes tipos de
estadsticos y cruces de variables en cuadros de frecuencias y tablas de resumen.
61
Figura 36. Tablas
Gran variedad de opciones para analizar encuestas como tablas de doble y mltiple
entrada, de igual forma permite ver la tabla de frecuencias y de contingencia
4.6.1 Tabstat
Para la generacin de tablas descriptivas, Stata ofrece diferentes opciones, la opcin
tabstat puede calcular la media, desviacin estndar, varianza, el nmero de
observaciones, entre otras.
62
Figura 38. Opciones Tabstat
. tabulate rep78
Repair
Record 1978 Freq. Percent Cum.
1 2 2.90 2.90
2 8 11.59 14.49
3 30 43.48 57.97
4 18 26.09 84.06
5 11 15.94 100.00
Total 69 100.00
Combinado con la opcin plot, el comando tabulate genera un histograma horizontal que
describe grficamente la frecuencia de cada una de las categoras.
63
Se puede tabular de forma separada ms de una variable con el comando tab1. Para
visualizar las frecuencias de cada una de las variables creadas con el procedimiento
anterior se podr usar la siguiente sintaxis:
. tab1 ed1 ed2 ed3 ed4 ed5 ed6
4.6.3 Table
De otro lado, el comando table permite crear tablas de contingencia doble o mltiple y a
su vez definir el tipo de contenido estadstico para los campos de una tabla. La forma ms
simple de una tabla de contingencia es un cuadro de frecuencias absolutas. La sintaxis
para generar tablas de contingencia es:
Genera una tabla de frecuencia simple con el sub-total de personas que alcanzaron cada
nivel educativo. La tabla resultante tan slo tiene en cuenta las unidades sin expansin
disponibles en la muestra. Sin embargo, las opciones del comando table, permiten
obtener reportes mucho ms elaborados como se muestra a continuacin:
1. Con la opcin [weight=] es posible expandir la informacin de la muestra para que
se ajuste a la poblacin (universo) total proyectado. Esto se logra a travs de
64
ponderadores de frecuencia, de muestra, ponderadores analticos y de importancia.
Siguiendo con el ejemplo:
La primera variable edu004 define las categoras de cada una de las filas de la tabla
de contingencia y la segunda variable e03 las categoras de cada columna.
3. Los totales por columna y por fila para una o ms variables se obtienen con las
opciones col y row respectivamente as:
4. La opcin format permite dar formato a los contenidos de la tabla para facilitar la
lectura de los resultados. Por ejemplo, para desplegar la informacin con separadores
de miles y cero decimales la sintaxis es:
5. Adems de las frecuencias absolutas, el usuario puede definir otro tipo de contenido
c() estadstico para los campos de la tabla. Por ejemplo, se pueden obtener en una
tabla de contingencia la edad promedio de hombres y mujeres por nivel educativo as:
65
Tabla 40. Comando table con estadstica descriptiva
Finalmente puede crear una variable dummy para cada categora, simplemente, se
agrega la opcin generate.
66
Figura 39. Prueba de Sperman
Con el anterior test se comprueba que el precio y las millas por hora de un vehculo tienen
una relacin dependiente negativa.
67
Tabla 42. Prueba Kolmogorov-Smirnov
A travs de esta prueba se puede inferir que la distribucin del precio de los vehculos es
igual para el grupo de vehculos que provienen del extranjero y los nacionales. Por lo
tanto se acepta la hiptesis nula de que la muestra proviene de una distribucin normal.
68
4.8.2 Ayuda visual table y tabstat
Por ejemplo, se quiere saber los aspectos generales de la muestra, alguna variable en
especfico o algn momento estadstico de una variable.
. sum
. sum c101_edad_anio, d
69
Tabla 44. Estadstica descriptiva para la variable aos
. tabstat c101_edad_anio c104 c107, stat (count mean sd p50 min max skew kurt n) by ( c101_sexo)
70
Nota: Puede notar que el valor mximo para talla en centmetros es igual 999.9. Para codificar esta
variable se digita el siguiente comando recode c107 (999.9=.). (Ver ms informacin en la seccin
3.12.1)
Se requiere una tabla que contenga el peso promedio neto y el nmero de individuos por
edad y sexo, teniendo en cuenta la ocupacin profesional del individuo.
71
Tabla 48. Tabla de contingencia por ocupacin profesional.
Se requiere una tabla de frecuencia que tenga en cuenta la poblacin entre los 16 y 18
aos y que muestre el porcentaje del total en forma de fila y una siguiente en forma de
porcentaje por filas y columnas.
72
Tabla 50. Tabla de frecuencia para individuos Tabla 49. Tabla de frecuencia por fila de
menores de 18 aos individuos entre 16 y 18 aos
4.8.5 Correlaciones
Se requiere medir el grado de asociacin entre las variables de edad y peso neto, con
dos medidas de correlacin. Una de manera paramtrica y la otra de manera no
paramtrica.
73
. pwcorr c101_edad_anio c104, sig *Lineal
. spearman c101_edad_anio c104 *No lineal
Para los dos tipos de prueba existe evidencia que el peso est altamente correlacionado
con la edad del individuo, con una correlacin positiva..
. sum c101_edad_anio
. ttest c101_edad_anio=29.78994
74
Tabla 55. Prueba de medias
Mediante las dos pruebas que se realizaron para detectar la presencia de normalidad en
la variable de aos del individuo se llega a la conclusin que esta variable no sigue una
distribucin normal.
75
. tabstat c101_edad_anio, by( c101_sexo)
En caso de que las varianzas de las dos muestras sean diferentes, se utiliza unequal o el
test de Welch w.
76
4.8.9.1 ANOVA de una Va
. tabstat c104, by ( c101_sexo)
Primero se crea una variable con los residuales para comprobar su normalidad.
. pnorm residuales
. qnorm residuales
. swilk residuals
.sktest residuals
100
1.00
0.75
50
Normal F[(residuales-m)/s]
residuales
0.50
0
0.25
-50
-100
0.00
Figura 44. Distribucin normal estandarizada Figura 43. Cuantiles de los residuales vs
cuantiles de la distribucin normal
77
Tabla 62. Prueba de normalidad de los errores
Cuarto, se lleva a cabo el ANOVA, y se coloca como opcin elaborar una tabla descriptiva
t y algunas opciones tiles para hacer comparaciones b anova, sc anova, si anova, para
hacer comparaciones Bonferroni, Scheffe y Sidak, respectivamente.
78
4.8.10 Exportar tablas
Existen algunas aplicaciones dentro de STATA 12, para exportar tablas las cuales son
tabout y outreg2, outreg2 solo ser til despus de una estimacin economtrica. Pero
antes de ser utilizadas deben ser instaladas y mirar su aplicabilidad dentro del software.
Despus de instalar las aplicaciones y la posterior apertura al software Stata 12, se digita
el comando adoupdate, update, para mostrar si existe alguna nueva actualizacin de la
aplicacin.
. help tabout
79
Tabla 67. Archivo de texto
. help outreg2
4.8.11 Ejercicio
1. Utilizar la base de datos que se consolido en la seccin manejo de base de
datos.
ameans keep
anova ksmirnov
by, sort level
ci mean
collapse misstable
contract normprob
correlate oneway
display oneway
egen outreg2
estat pnorm
gen pwcorr
gmeans pwcorr
help tabout qnorm
hmeans quietly
80
recode tab1
replace tab2
robvar table
scalar table
sdtest tabstat
sktes tabstat
sktest tabulate
sktest tabulate
spearman test
ssc describe ttest
ssc install ttest
summarize use
swilk xi
compare
ereturn
ktau
ladder
outreg
outreg2
Return
set level 90
Signtest
spearman
stem
tabi
weight
81
5. GRAFICAS CON STATA
Stata cuenta con una poderosa herramienta grfica, permitiendo obtener grficas de
excelente calidad y con varias opciones de edicin de las mismas, es posible realizar
grficas como histogramas, barras, de torta, series de tiempo, Box plot, dispersin, para
datos panel y para otros tipos de anlisis como son de supervivencia, multivariado, control
de calidad, etc.
Stata tiene dos formas de generar mltiples grficos, a travs de la ventana de comandos
con el comando graph o utilizando la barra de herramientas en Graphics. El comando
graph se utiliza con el tipo de grfico a realizar. A continuacin se presenta la lista de
posibles grficos
Plottype Description
scatter Scatterplot
line line plot
connected connected-line plot
scatteri scatter with immediate arguments
area line plot with shading
bar bar plot
spike spike plot
dropline dropline plot
dot dot plot
rarea range plot with area shading
rbar range plot with bars
rspike range plot with spikes
rcap range plot with capped spikes
rcapsym range plot with spikes capped with symbols
rscatter range plot with markers
rline range plot with lines
rconnected range plot with lines and markers
pcspike paired-coordinate plot with spikes
82
mband median-band line plot
mspline spline line plot
lowess Lowess line plot
lfit linear prediction plot
qfit quadratic prediction plot
fpfit fractional polynomial plot
lfitci linear prediction plot with CIs
qfitci quadratic prediction plot with CIs
fpfitci fractional polynomial plot with CIs
function line plot of function
histogram histogram plot
kdensity kernel density plot
lpoly local polynomial smooth plot
lpolyci local polynomial smooth plot with CIs
Tabla 68. Grficos twoway
Plottype Description
graph matrix Matrices de grficos
Ejemplo:
Para grabar un grfico, se usa el comando graph save graph.gph y el nombre del archivo,
recuerde que la extensin de los grficos de Stata es .gph. Si se quiere traer de nuevo se
usar graph use graph.gph
Es posible combinar grficos por medio del comando combine graph1 graph2..
83
5.1 Histograma
Histograma: GraphicsHistogram
84
3.0e-04
2.0e-04
Density
1.0e-04
. graph pie, over(foreign) title(Grfico de tortas) legend(on rows(2)) pie(2, explode) plabel(1 percent, gap(30))
plabel(2 percent) legend(position(9))
85
Figura 49. Grfico de tortas porcentajes como etiqueta
. graph pie, over(foreign) title(Grfico de tortas) plabel(_all name, gap(-5)) plabel(_all percent, gap(5))
legend(off)
86
5.3 Graficas twoway
Todos los comandos para graficas empiezan por graph, pero esto es opcional
dependiendo el tipo de grfico solo se pone la opcin TWOWAY
87
40
30
Mileage (mpg)
20
10
Usando los comandos para hacer esta grfica solo es necesario escribir
Domestic Foreign
40
30
Mileage (mpg)
20
10
88
Figura 55. Ayuda visual para crear grficos por grupo
Es posible crear varios tipos de grficas en un solo grfico, algo muy usual es el uso de la
grfica scatter con una recta de regresin ajustada.
. twoway scatter mpg weight || lfit mpg weight *Con una notacin diferente de separacin
. twoway (scatter mpg weight) (lfit mpg weight)
89
40
30
20
10
90
Figura 59. Opciones en la edicin de grficos
91
5.5 Grfico de series de tiempo
Figura 61. Grfico del precio de la accin de Coca Cola a travs del tiempo
Otra manera de graficar series de tiempo, primero se debe crear una variable de tiempo
con el comando tsset y utilizar el comando tsline con la variables que se desean grficar.
. tsset date, m
. tsline Coke
92
Figura 62. Grficos con series de tiempo
93
Figura 63. Grficos de dispersin.
. graph matrix pop medage death marriage, maxes(ylab(none) xlab(none)) by( region)
94
Figura 65. Grfico de dispersin por regin
95
5.8 Grfico de barras
. db graph bar
96
8
6
4
2
0
La opcin de STACK produce una grfica donde cada barra sera de dos o ms barras
apiladas, por lo que la divisin muestra la relacin de las variables con respecto a total de
la suma de las variables.
97
5.9 Generando Funciones
0 5 10 15 20
x
98
5.11 Ejemplo aplicado
. use"C:\Users\SOFWARESHOPFILES\CALIDADDEVIDA2011COLOMBIA.dta", clear
. gen w=exp(Ln_w)
. gladder w, title(Transformacion Tukey) ylabel(none) xlabel(none)
99
Figura 74. Escalera de Potencias de Tukey
100
5.11.3 Grficos de lneas
Existen dos comandos que permiten aplicar este tipo de grficos. El primero connect
dibuja los puntos y los conecta. El segundo line hace la conexin de los puntos pero los
deja invisible. Se recomienda utilizar la opcin sort, que ordena los casos en funcin de
las variables independientes para que la conexin se produzca entre casos continuos y no
se produzca crucen entre lneas dibujadas.
101
Para editar colores y tamaos en los ejes ser necesario dar un doble clic sobre el rea a
editar.
102
Figura 79. Histograma de la Edad
103
Figura 81. Diagrama de dispersin
Algunas opciones como ylabel y xlabel, permite editar los ejes de las ordenadas y
abscisas dentro de un rango y un intervalo, lfit, permite hacer una grfico bidimensional
trazando una lnea que mejor se ajuste a las variables de la muestra.
. scatter w edu, mlabel(nivele) || Lfit w edu ,ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) ///
name(Scatter4,replace) title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin
promedio) by(p6020)
104
Figura 82. Dispersin Ingresos vs Educacin Figura 83. Dispersin Ingresos vs Educacin por gnero.
105
Con el objeto de utilizar los grficos al momento que se necesitan y no se tenga a
disposicin el software Stata 12, exportar grficos es la mejor solucin, existen tres
maneras de exportar grficos.
106
3. La opcin de exportar en formato ps|eps|wmf|emf|png|tif|pict|pdf, con el siguiente
comando:
bar pie
box qnorm
cchart quantile
combine rchart
dot rvpplot
graph scatter
histogram title
kdensity tslinetwoway
matrix xchart
pchart
107
6. REGRESIN LINEAL EN STATA
Una de las principales fortalezas de Stata tiene que ver con la gran versatilidad,
flexibilidad y facilidad que ofrece para estimar modelos de regresin. Uno de los
principales objetivos de los modelos de regresin es explicar el comportamiento de uno o
ms fenmenos (variables dependientes) a partir de un conjunto de regresores (o
variables independientes) que, en la mayora de los casos, han sido identificados por la
teora como los factores que explican el fenmeno que se est estudiando. Sin duda, por
la facilidad de su interpretacin, los modelos de regresin lineal son los ms populares y
los ms empleados por los investigadores de diferentes disciplinas.
A continuacin se presentan los pasos para estimar un modelo lineal a travs de mnimos
cuadrados ordinarios (MCO) a partir de la informacin de la base de datos ECUACION
INGRESO.dta. El ejercicio propuesto busca establecer la relacin existente entre los
ingresos laborales mensuales (expresada en logaritmos) y un conjunto de variables de
contexto de los individuos (horas de trabajo al mes, aos de educacin aprobados, aos
de experiencia laboral, sexo, etc.). La teora econmica establece que la relacin entre los
ingresos laborales y el conjunto de variables de contexto individual se puede representar
(en su forma ms simple) a travs de la ecuacin
= + + 007 + + + 03 + (1)
6.1 Ejercicio
108
6.2 Descripcin estadstica de la informacin
Por ejemplo:
Se puede obtener ms detalles estadsticos de cada una de las variables con la opcin
detail as:
Con el fin de analizar la relacin lineal entre las variables independientes del modelo se
calcula la matriz de correlaciones. A travs de la instruccin pwcorr se obtiene la matriz de
correlacin de las variables que van a ser incluidas en el modelo de regresin as:
109
lny lnm edu007 exp exp2
lny 1.0000
El comando pwcorr estima los coeficientes de correlacin del conjunto de variables del
modelo. En la matriz de correlaciones aparece el coeficiente de correlacin que es un
valor nmero que va desde 0 a 1 e indica el grado de asociacin lineal entre las variables,
este coeficiente viene acompaado del nivel de significancia (con la adicin de la opcin
sig), que permite decidir sobre la hiptesis nula de que el coeficiente de correlacin vale
cero. En nuestro ejemplo, el coeficiente de correlacin entre aos de educacin (edu007)
e ingreso salarial en logaritmos (lny) es de 0,4 y tiene una significancia de 0, lo cual indica
que existe una relacin significativa entre estas dos variables.
110
9 0 20000 17500
10 0 15000 17500
Tabla 73. Ejemplo de una base de datos
1. Se genera la variable lny_ed que ser promedio del logaritmo natural de los ingresos
por ao de educacin aprobado. Esta operacin, se realiza a travs del comando egen
y la opcin by as:
Ahora se tiene una idea bastante clara de la relacin promedio observada entre el
logaritmo de los ingresos laborales y los aos de educacin y de qu tan realista es la
aproximacin lineal en este caso. El grfico parece indicar que sera conveniente estimar
la relacin entre estas dos variables a travs de una transformacin de tipo spline.
111
De otro lado, la relacin entre los ingresos laborales promedio y los aos de experiencia
es de tipo cuadrtico.
Para estimar la ecuacin (1) a travs de MCO se utiliza el comando regress (en forma
abreviada reg) as:
El comando regress genera una amplia gama de estadsticas adems de los coeficiente
de regresin.
6
Help regress
Findit aboutreg
112
La tabla source tambin, conocida como tabla de anlisis de varianza ANOVA,
presenta la informacin relacionada con la suma de cuadrados SS, los grados de
libertad df y los cuadrados promedio MS del modelo y de los residuos. El
clculo del R2 se puede obtener manualmente dividiendo la suma de cuadrados
del modelo entre la suma de cuadrados totales.
: = = = = 0
Interpretacin de los betas estimados de acuerdo a la forma como estn expresadas las
variables del modelo
. estat sum
. test lnm=1
En el primer caso se prob que si el coeficiente estimado asociado a las horas de trabajo
al mes es igual a 1. La probabilidad de que el coeficiente sea 1 es cero, por los tanto no
se acepta la hiptesis. En trminos econmicos se podra afirmar que no hay elasticidad
unitaria entre horas de trabajo al mes y el ingreso laboral.
6.5.2 Ejercicio
2. Pruebe la hiptesis de que todos los coeficientes del modelo exceptuando el
intercepto son estadsticamente iguales a cero. Compare con la prueba F
generada por Stata en la regresin lineal antes estimada.
. test lnm=edu007=exp=exp2=0
. vif
Los VIF de cada uno de los estimadores cuyo valor sea superior a 10 (algunos menos
conservadores consideran 30) indican que la variable a la que acompaan puede
considerarse como una combinacin lineal de otras variables independientes.
Alternativamente suele observarse el ndice de Tolerancia (1/VIF). Un ndice de tolerancia
igual a 0.1 es equivalente a un VIF de 10. Valores de tolerancia inferiores a 0.1 (0.333
para los menos conservadores) indican presencia moderada o severa de
multicolinealidad.
6.6.1.1 Ejercicio
4. Calcule cada uno de los VIF de la regresin anterior.
6.6.2 Homocedasticidad
Es uno de los principales supuestos de MCO. En trminos generales, en presencia de
heroscedasticidad la varianza de los estimadores est sesgada (sobrestimada o
subestimada). En estos casos no se puede confiar en las pruebas t y F. Visto de otro
modo, si el modelo est bien especificado no debera existir un patrn definido entre los
residuales del modelo y la variable dependiente pronosticada. Cuando la varianza de los
residuales no es constante se dice que la varianza de los residuales es heteroscedstica.
Existen mtodos grficos y mtodos formales para detectar heterocedasticidad.
115
Mtodo Grfico: A travs de un grfico que relacione los residuales del modelo
contra los valores estimados de la variable dependiente se puede hacer una
primera comprobacin visual de posibles patrones de interrelacin entre estas dos
variables. Siguiendo con nuestro ejemplo, en Stata se puede obtener este grfico
a travs del comando rvfplot as:
. rvfplot, yline(0)
. imtest, white
7
WHITE H. 1980. A Heteroscedasticity Consistent Covariance Matriz Estimator and Direct Test of
Heteroscedasticity. Econometrica, vol 48.
117
Figura 90. Prueba kdensity para detectar normalidad en los errores.
La opcin normal permite comparar la funcin de densidad de los residuales con una
funcin de densidad normal. Se puede observar apuntalamiento y asimetra en los
residuales. Otra comprobacin grfica de normalidad muy conocida es aquella que
contrasta cuantiles de una variable contra cuantiles de una distribucin normal. Cuanto
ms cerca estn los cuantiles de la variable a los cuantiles de la distribucin normal (lnea
diagonal continua) ms cerca est la variable de ser normal. Stata la representa a travs
del comando qnorm as:
. qnorm residual
Mtodo formal: Claramente hay problemas en los residuales que nos hacen
pensar en que no se cumple el supuesto de normalidad. Sin embargo, para estos
casos en los que la variable tiene muchas observaciones, Stata ofrece una prueba
formal de normalidad a travs del comando sktest as:
. sktest residual
118
Tabla 81. Prueba sktest para detectar normalidad en los errores.
A continuacin, se estima otro modelo (el cual tiene en cuenta la variable que deseamos
comprobar si es exgena) que se supone consistente y eficiente. En tercer lugar, se
emplea el estadstico de HAUSMAN el cual compara los coeficientes comunes en ambos
modelos y sus respectivas matrices de varianzas y covarianzas. Si no hay diferencias
sistemticas en los coeficientes la nueva variable se puede considerar exgena. Los
pasos y los comandos necesarios para realizar esta comprobacin en Stata son:
1. Estimar el modelo consistente pero ineficiente (no tiene en cuenta la variable lnm)
8
HAUSMAN J,. Specification Test in Econometrics, Economtrica Vol. 46. No. 6. 1978.
119
Tabla 82. Prueba de Hausman para detectar endogeneidad.
6.6.5 Ejercicio
5. Pruebe la hiptesis de exogeneidad de cada una de las variables del modelo.
6.7 Pronstico
Grfico que representa los ingresos estimados y observados por ao de educacin y los
aos de educacin
120
Figura 92. Grafica de los datos observados vs pronstico.
Ahora se tiene una idea bastante clara de la aproximacin lineal que se ha llevado a cabo
entre los ingresos promedio y los aos de educacin a travs de MCO.
6.7.2 Ejercicio
6. Grafique la relacin promedio entre las variables dependiente y dependiente
pronosticada contra cada uno de los regresores del modelo.
7. Estime una ecuacin que adems tenga en cuenta el sexo como variable
explicativa
9. Cmo decidir cul de los dos modelos estimados (sin sexo y con sexo) es el
mejor y como lo hara en Stata?
Para exportar los resultados de la tabla de regresin, existe un comando llamado outreg2
que permite hacer esta labor. Se utilizar despus de evaluar el modelo de regresin. En
caso de que Stata 12 no tenga el comando en necesario instalarlo mediante el comando
ssc install outreg2.
1. Por ejemplo, se desea exportar una tabla a Excel que contenga una regresin
diferenciada por gnero, con las mismas variables independientes vistas en la
seccin de la funcin de ingresos.
121
Tabla 83. Hoja de clculo con la exportacin de parmetros
_ = + _ + + + + +
Donde,
El comando general para evaluar un modelo de regresin lineal se llama regress o reg.
122
Tabla 84. Ecuacin Minceriana.
Figura 93. Prueba de hiptesis conjunta Figura 94. Prueba de hiptesis individual
123
Tabla 85. Correlaciones entre variables independientes
3. Utilizar el comando vif, el cual se utiliza para crear el estimador que mide el factor
inflador de varianza, la regla de decisin consiste en que si el VIF es mayor o igual
a 10, existe multicolinealidad. La variable exp demuestra que existe
multicolinealidad, ser necesario excluirla pero por propsitos acadmicos existe
evidencia emprica de que la experiencia afecta de manera positiva el ingreso del
individuo.
6.9.2.2 Heterocedasticidad
Existen dos mtodos para detectar la presencia de heterocedasticidad dentro del modelo
por un lado se encuentra el anlisis grfico y otro que hace parte del anlisis formal como
son las pruebas de Park, Glejser, White y Breush-Pagan.
124
Figura 95. Residuos en funcin de la prediccin de Ln_w
Prueba White
Con esta prueba se concluye que hay presencia de heterocedasticidad, una de las
maneras que existen para corregir este problema es a travs de la opcin robust en la
estimacin por M.C.O as:
Figura 97. Mtodo grfico qnorm Figura 98. Mtodo grfico Kdensity
126
Tabla 89. Prueba para detectar endogeneidad.
Se concluye que el modelo que describe una funcin de salario con variables observables
omite algunas variables que afectan el salario del individuo.
by outreg2
e(sample predict
egen pwcorr
est store qnorm
estat regress
estat ovtest res
hausman rvfplot
imtest sktest
kdensity sort
lincom summ
line test
mean vif
normal xb
127
7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT
Algunas de las opciones que se pueden utilizar para analizar la variable de participacin
son:
2,000,000
1,000,000
Hombre Mujer
9
La funcin logstica es () = y la funcin probabilstica es () = (z), donde z es una combinacin
lineal de las variables independientes y es la funcin cumulativa de la distribucin normal.
129
Participa en el Mercado
Laboral
Sexo No Si Total
Hombre 1,622,038 4,303,680 5,925,718
Mujer 3,666,137 2,794,002 6,460,139
Total 5,288,175 7,097,682 12,385,857
Tabla 92. Participacin laboral por gnero.
Hombre Mujer
1
.8
.6
.4
.2
0
BASICA INC
BASICA INC
BASICA COMP
BASICA COMP
SIN EDUC.
M.HUM. COMPL
M.HUM. INCOM
M.HUM. INCOM
SIN EDUC.
Graphs by Sexo
130
7.1.3 Participacin y Edad
Hombre Mujer
1
.8
.6
TGP
.4
.2
0
25 30 35 40 45 50 25 30 35 40 45 50
Edad
Graphs by Sexo
El comando logit (probit) nos permite obtener los resultados de la estimacin logstica
(probabilstica). La estimacin se hace a travs de la metodologa de mxima verosimilitud
por lo que en el proceso de estimacin, Stata primero muestra las iteraciones necesarias
para alcanzar la convergencia.
xi: logit PARTI EDAD ESC NUMPER YTOTHAJ i.PCO1 i.ECIVIL [w=EXPR], or
En este caso las variables de parentesco con el jefe de hogar (PCO1) y de estado civil
(ECIVIL) son codificadas por Stata y la codificacin responde al orden en que las
variables categricas adoptan valores. Por ejemplo PCO1, ordinalmente la primera
etiqueta es Jefe de Hogar y Stata crea una dummy _IPCO1_1 para nombrarla. En la
siguiente tabla se ha cambiado los nombres por los valores de las categoras.
131
Figura 103. Modelo Logit.
Tambin se puede observar que del total de observaciones iniciales con descripcin de
participacin (12,385,857) hemos perdido algunas observaciones por los missing values
en las variables que se utilizaron para analizar el modelo.
La prueba de hiptesis de significancia conjunta del modelo est establecida por la razn
de verosimilitud que se distribuye como una Chi-cuadrado con k+1 g.l.. Stata presenta el
estadstico (LR chi2 (25)) y su p value. La interpretacin es que nuestro modelo
representa mejor a los datos que un modelo sin variables.
132
consideradas. La significancia de las variables est testeada individualmente en el
resultado de la estimacin y la interpretacin es igual al caso de regresin lineal clsica.
chi2( 7) =60644.47
Para obtener las probabilidades estimadas, que es lo que finalmente se desea saber,
Stata 11 creo el comando margins. El siguiente comando va a modelar todas las
10
Para una prueba formal ver Applied Logistic Regression p.50.
133
probabilidades para cada valor de SEXO, empezando por el 0 hasta 1 con un ancho de
intervalo de 1.
Predictive Number of
margins obs = 12350554
Model VCE :
OIM
Expression :
predict()
Pr(PARTI),
(lista de
1._at :
medias
SEXO= 0
(lista de
medias
(lista de
2._at :
medias)
SEXO= 1
(lista de
medias)
[95% Interval
Margin Std. Err. z P>z
Conf. ]
_at
1 0.7362227 0.0002468 2982.78 0.000 0.7357389 0.736706
2 0.4423416 0.0002768 1598.17 0.000 0.4417992 0.442884
La probabilidad de que una persona trabaje siendo hombre (1. at SEXO = 0) es el 73.6%,
mientras que la probabilidad de que una persona trabaje siendo mujer es de 44.2%,
manteniendo todas las dems variables en su media.
134
7.3 Modelo Lineal de probabilidad y modelo tipo Probit
135
fcil concluir que el procedimiento de MCO no genera un modelo capaz de explicar el
comportamiento de los datos.
La alternativa es utilizar un modelo de regresin con una funcin no lineal que genere una
estimacin en el rango comprendido entre 0 y 1. Las funciones de densidad acumulada
normal y logstica cumplen con esta propiedad y dan origen a los modelos probit y logit
respectivamente.
Para llevar a cabo las estimaciones de este modelo primero se debe generar la variable
edad al cuadrado:
En STATA se utiliza el comando probit para estimar modelos con variable discreta a partir
del mtodo de mxima verosimilitud. Para analizar los resultados del comando, se
comienza con estimar un modelo vaco:
. probit pea, r
136
Tabla 94. Probit con restricciones
Adems de los coeficientes de regresin, el comando probit genera una amplia gama de
estadsticas:
LR 2 ( Loglikelih ood F
Loglikelih ood 0
)
137
necesario calcular el efecto marginal en varios valores de las variables. El clculo que se
( X i )
tendra que hacer es , donde corresponde a la funcin de densidad estndar.
La funcin podra ser evaluada en el valor medio de la variable Xi. Por lo tanto, el primer
paso consiste en calcular el valor medio de las variables que se incluyeron en el modelo
probit a travs del comando estat sum, que reporta las principales estadsticas de los
datos utilizados en el modelo de regresin:
. estat sum
7.3.2.1 Ejercicio
1. Calcule los efectos marginales de las dems variables incluidas en el modelo
probit.
138
Tabla 97. Efectos marginales del modelo.
Las columnas que le siguen a los coeficientes nos ayudan a realizar la inferencia de cada
uno de ellos. La columna Robust Std. Err. muestra el error estndar de cada coeficiente
a partir de una matriz de varianzas y covarianzas robusta, y la columna z muestra el
estadstico de una normal estndar que resulta de dividir el coeficiente de cada variable
sobre su propio error estndar. La columna P>|z| muestra la informacin
correspondiente a la probabilidad acumulada que le pertenece a cada estadstico z y la
columna [95% Conf. Interval] nos informan sobre los lmites superior e inferior en los que
podran variar los parmetros estimados con un 95% de confianza.
. estat gof
139
Los resultados sealan que la hiptesis nula es rechazada y por lo tanto, el modelo no
presenta un buen nivel de ajuste a los valores actuales. La principal consecuencia de este
resultado, es que no se puede utilizar el modelo para hacer inferencias acerca de la
relacin entre las variables explicativas y la probabilidad de participar en el mercado de
trabajo. Sin embargo, el modelo an posee algn valor predictivo y puede utilizarse para
pronosticar casos.
Bajo la hiptesis nula de que el modelo presenta un buen nivel de ajuste, el estadstico de
H-L sigue una distribucin chi2 con G-2 grados de libertad. Al comparar las frecuencias
observadas y estimadas a travs del estadstico de H-L y analizar el p-valor asociado a la
prueba, se rechaza la hiptesis nula. Una vez ms, el modelo de participacin laboral fall
una prueba de bondad de ajuste.
. estat class
140
Tabla 100. Estadstica de clasificacin
El resultado general de esta prueba es que el 66% de los valores originales estn
clasificados correctamente. De la tabla de clasificacin tambin se puede analizar la
siguiente informacin:
El primer cuadro de la tabla realiza una comparacin entre los valores observados
y los pronosticados por el modelo. Las filas corresponden a los valores 1(+) y
0(-) clasificados por el modelo, y las columnas corresponden a los valores
observados (D=1 y ~D=0).
La sensibilidad mide el porcentaje de los valores 1 que fueron clasificados
correctamente. En nuestro ejemplo el 89.11% de la poblacin que hace parte de
la Poblacin Econmicamente Activa (PEA) fue clasificada correctamente por el
modelo.
La especificidad corresponde al porcentaje de 0 que fueron pronosticados
correctamente por el modelo. En el ejemplo, el 24.9% de los 0 observados la
poblacin que no hace parte de la PEA, fueron clasificados correctamente por el
modelo.
La prediccin de los valores positivos o negativos mide el porcentaje de valores
pronosticados que acertaron correctamente en la clasificacin de 1 o 0. En el
caso de los 1 (+), el 67.9% de los datos pronosticados corresponden a los
verdaderos valores de 1, en otras palabras, del total de personas que fueron
catalogadas como PEA por el modelo, el 67,9% de los casos realmente haca
parte de la PEA. En caso contrario, el 56.2% de los valores 0 pronosticados
equivalen a los valores originales de los 0.
Los errores de clasificacin miden el porcentaje de valores observados que fueron
incorrectamente clasificados. Por ejemplo, el 75% de los valores 0 observados
fueron clasificados incorrectamente por el modelo, es decir, del total de personas
141
que no hacen parte de la fuerza de trabajo, en el 75% de los casos el modelo las
clasifico incorrectamente como poblacin PEA.
Una interpretacin similar se realiza para el caso de los unos. El 10.8% de los
valores 1 de la poblacin que en la muestra hace parte de la PEA, fueron
clasificados como 0 por la prediccin del modelo.
La tasa de falsos unos (ceros) corresponde al porcentaje de valores 1 (0)
pronosticados que en realidad son valores 0. En el ejemplo, el 32.1% de las
personas que fueron clasificadas en la PEA por el modelo, no hacen parte de este
grupo. De manera anloga, el 43.7% de los valores 0 pronosticados, son valores
1
De manera anloga, el 43.7% de las personas que el modelo clasific como 0 o
que no hacan parte de la PEA, corresponden a valores 1 que debieron
pronosticarse como parte de la PEA.
. lroc
En nuestro ejemplo, el rea bajo la cuerva ROC (0.68) estara indicando que el modelo
tiene alguna capacidad predictiva.
A travs del comando lsens, es posible identificar el punto ptimo de corte que resulta de
la interseccin de las curvas de sensibilidad y especificidad:
. lsens
7.3.4 Pronstico
El pronstico de la probabilidad de un estado u ocurrencia de un evento se realiza
empleando el comando predict y adicionando la opcin pr as:
. predict prob if e(sample), pr
7.3.5 Ejercicio
2. Calcule el valor de la variable latente o la funcin ndice. (Utilice el comando
invnormal).
3. Replique todo nuevamente teniendo en cuenta la variable tenencia de vivienda
propia
4. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al
mercado de trabajo para los jefes de hogar
5. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al
mercado de trabajo para las mujeres
6. Calcule las estadsticas de clasificacin
7. Qu criterio empleara para escoger entre modelos?
143
7.4 Ejemplo aplicado
Para este ejemplo aplicado se utiliza la base de datos de calidad de vida para el pas de
Colombia en el ao 2010. Primero se evala un modelo lineal de probabilidad, despus un
modelo tipo Logit y finalmente un modelo tipo Probit, todo esto con el fin de obtener
caractersticas de cada modelo.
Donde,
Edad: edad del individuo i, Edad2: edad al cuadrado del individuo i, pri, sec, uni, post:
variable binaria que toman el valor de uno cuando el individuo i ha alcanzado el nivel
educativo respectivo, spouse: variable binaria que toma el valor de uno si el individuo i
est casado y cero en cualquier otro caso y h_head: variable binaria que toma el valor de
uno si el individuo i es jefe de hogar y cero en cualquier otro caso.
Con un simple ejemplo se puede probar porque se deben utilizar otros instrumentos de
estimacin diferentes a M.C.O cuando la variables dependiente es binaria es decir toma el
valor de 1 en un caso afirmativo y cero en caso contrario.
Para el valor de las predicciones por M.C.O existe un rango que toma valores negativos,
por lo tanto no se puede evaluar la probabilidad de participar en el mercado laboral para el
ao 2011, las probabilidades predichas de cualquier medida deben estar entre 0 y 1.
144
Tabla 102. Modelo Logit sin restricciones
145
Tabla 104. Resultados modelo Probit
1. Prueba de Pearson
. estat gof
146
Tabla 106. Prueba Pearson
3. Estadstica de clasificacin
. estat class
4. Curvas Roc
147
. lroc
atmeans lsens
display margins
dprobit mfx
estat class normalden
estat gof predict
estat gof, group(10) probit
estat sum recode
gen regress
invnormal tab
keep test
label define tw
label values w
label variable xi: logi
lroc
t
148
8. MODELOS DE SERIES DE TIEMPO
Los modelos autorregresivos (AR), de media mvil (MA) y autorregresivos de media mvil
(ARMA) se caracterizan por incorporar en la explicacin futura de la variable dependiente
su propio comportamiento pasado. Esta forma de modelar la conducta de una serie de
datos temporales hace posible, en su forma ms simple en modelos univariados, la
generacin de pronsticos sin emplear informacin adicional proveniente de otros
regresores. En las secciones siguientes se sigue la metodologa de BOX y JENKINS
(1976)11 para estimar y pronosticar modelos univariados de serie de tiempo a travs de
Stata. En particular se har uso de la informacin mensual de inflacin contenida en la
base de datos INFLACION.dta.
. use INFLACION.dta
Es posible generar variables con formato de fecha a partir del comando generate. Por
ejemplo, para crear una variable con formato mensual se emplea la siguiente sintaxis:
11
BOX G. & JENKINS G. Time Series Analiysis, Forecasting and Control. Holden Day, San Francisco. 1976
149
Como la base de datos es relativamente pequea se puede listar la informacin en la
base de datos por medio del comando list as:
. list
Nota: Para hacer pronsticos varios perodos hacia delante es necesario que la variable
que representa el tiempo se extienda tantos perodos hacia delante como perodos de la
variable dependiente se quieran pronosticar. En nuestro ejemplo, 7 perodos hasta
diciembre de 2006. Se dispone de informacin de inflacin hasta mayo de 2006.
. g rezago = inflacion[_n-1]
Al listar las variables fecha, inflacion y rezago se puede visualizar la nueva variable
rezago correspondiente a la inflacin rezagada un perodo.
151
Tabla 111. Comando list despus de generar rezago.
BOX JENKINS difundieron una metodologa en tres fases para identificar, estimar y
validar modelos de serie de tiempo univariada y generar pronsticos. A continuacin se
seguirn estos pasos para obtener un modelo de pronstico tipo ARMA para la inflacin
mensual.
. tsline inflacion
152
Figura 109. Grafico en series de tiempo
Nota: Previamente se comprob que no eran significativos los rezagos 7,,12 (se probaron 12
rezagos porque la serie es mensual). Para tener en cuenta la tendencia en la prueba se emplea la
opcin trend. La opcin regress se puede omitir si tan slo se desea el valor del estadstico DF.
Para omitir la constante se emplea la opcin noconstant.
12
DICKEY D. & FULLER W. 1991. Distribution of the Estimates for Autoregressive Time Series With a Unit
Root. Journal of the American Statistical Association 74.
153
Al 1% de significancia se rechaza la hiptesis de existencia de raz unitaria, en otras
palabras, se puede pensar que la variable inflacin ha sido generada por un proceso
estacionario.
El paso a seguir consiste en identificar la naturaleza del proceso generador de datos (en
nuestro ejemplo, la inflacin). Para llevar a cabo esta tarea se suele recurrir a las
funciones de autocorrelacin (para identificar el componente de media mvil MA del
modelo) y autocorrelacin parcial (para identificar el orden la parte autorregresiva AR del
modelo). En Stata ambas funciones se pueden graficar con los comandos ac y pac
respectivamente as:
. ac inflacin
. pac inflacion
154
Tabla 113. Modelo ARIMA
Nota: El orden de integracin en este caso es 0. Sin embargo a travs del prefijo D1., D2.,
D3.,,etc., antecediendo la variable dependiente (por ejemplo, D1.inflacion, D2.inflacion,
D3.inflacion,) se pueden lograr diferenciaciones de orden superior. La opcin robust genera una
matriz de varianzas y covarianzas consistente con posibles problemas de heteroscedasticidad.
A travs del comando estat ic se puede obtener el criterio de informacin de Akaike (AIC)
y el criterio bayesiano de Schwartz (BIC) los cuales son las dos medidas ms comunes de
bondad de ajuste. Cuanto ms pequeo es el valor de los estadsticos (AIC) y (BIC) mejor
ajuste tiene el modelo. Estos criterios se pueden emplear para seleccionar el modelo ms
apropiado de un conjunto de posibles modelos.
. estat ic
Figura 112. Autocorrelacin de los residuales Figura 113. Autocorrelacin parcial de los residuales
En una prueba ms general, se puede constatar si los residuales son ruido blanco, en
otras palabras, tienen media cero, varianza constante y no estn serialmente
correlacionados. A travs del comando wntestq realizar esta prueba as:
. wntestq residual
8.2.4 Pronsticos
Finalmente, se puede emplear el modelo para hacer pronsticos. El pronstico se puede
hacer tantos periodos hacia delante como horizonte temporal tenga la variable de tiempo
fecha la cual est definida entre el mes 1 de 2001 y el mes 12 de 2006, mientras que se
tiene dato mensual de inflacin hasta el mes 5 de 2006. A travs del comando predict
seguido de la opcin xb, se podr pronosticar la inflacin para los siguientes 7 meses as:
predict inf_p, xb
El pronstico de inflacin para el mes 6 de 2006 (segn este proceso ARMA) es del
0.366%. Se elabora una lista de las variables fecha, inflacin e inf_p a travs del
comando list as:
156
. list fecha inflacion inf_p
Finalmente, a travs del comando tsline es posible visualizar los valores observados y
pronosticados de la inflacin hasta diciembre de 2006.
8.2.5 Ejercicio
1. Replique las fases 7.4.1, 7.4.2 y 7.4.3 de la metodologa de BJ para generar un
proceso ARMA para la inflacin.
2. Compar entre varios modelos posibles la bondad de ajuste de los mismos para
seleccionar el mejor modelo.
3. Pronostique la inflacin para los prximos 6 meses y grafique los resultados frente
a los valores observados.
157
8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA.
En esta seccin de utilizar la base de datos del ndice de precio del consumidor de orden
mensual para el pas de Mxico para una serie temporal de 1995 a 2013.
2. Por lo tanto se debe en primera instancia dividir la variable Fecha en dos partes la
primera que contenga los meses en letras y la segunda la fecha, el comando que
se utilizar es Split, despus se debe renombrar las variable, respectivamente
rename, segundo generar una variable de tiempo que contenga valores numricos
ordenados a partir de la variable aos bysort year: gen, tercero generar la
variables de tiempo con el formato ao mes, ym, cuarto definir el formato de la
variable de tiempo format, y por ltimo se designa la variable que representa al
tiempo con el comando tsset.
158
Tabla 118. Generar fechas en Stata.
El comando a utilizar es tsfilter hp, donde trend crea una nueva variable denominada
tendencia atenuada y smooth representa la constate de suavizamiento que para datos
mensuales es igual a 14400, en caso de trimestres es igual a 1600 y en caso de aos
corresponder a 1000.
. gen LnIPC=ln(IPC)
. tsfilter hp IPC_hp=LnIPC, trend(tendenciaLnIPC) smooth(14400)
. tsline LnIPC tendenciaLnIPC
. tsline IPC_hp
159
Figura 116. Serie observada VS tendencia Figura 117. Filtro H-P
. tsline IPC
. tsappend, add(2)
. range tendencia 1 220 220
. boxcox IPC tendencia, model(theta) lrtest
160
Tabla 119. Regresin BOX-COX
Segn la prueba ninguna funcin se ajusta a la tendencia del IPC, por lo tanto el
pronstico no se puede llevar a cabo mediante esta metodologa. En caso contrario se
evala una regresin del IPC en funcin de la tendencia teniendo en cuenta la hiptesis
nula del anterior test de prueba. Por ejemplo, si theta=lambda=1 entonces, regress IPC
tendencia, para luego pronosticar la variable IPC con el comando, predict IPCF, xb
Para lo cual se sugieren modelos tales como promedio mvil, promedio mvil doble,
atenuacin simple, atenuacin doble. En caso de que el modelo tenga tendencia se puede
pronosticar mediante Holt-Winters no estacional, Holt-Winters estacional multiplicativo o
Holt-Winters estacional aditivo.
161
Tabla 120. IPC Dickey-Fuller test
162
Figura 119. IPC VS Pronstico
. ac IPC
. corrgram IPC
. dfuller IPC, drift lags(12) regress
. dfuller IPC, trend lags(12) regress
163
Figura 120. Grafica de autocorrelacin del IPC
164
Tabla 124. Prueba Dickey Fuller con tendencia
165
. gen LnIPC=ln(IPC)
. gen dLnIPC=D.LnIPC
. tsline dLnIPC
. ac dLnIPC
. corrgram dLnIPC
. dfuller dLnIPC, drift lags(12) regress
Figura 121. Variacin porcentual mensual IPC Figura 122. Autocorrelacin de la serie diferenciada
166
Tabla 127. Prueba Dickey- Fuller de la serie diferenciada
. gen dlnipc12=DS12.LnIPC
. tsline dlnipc12
. ac dlnipc12
. corrgram dlnipc12
. dfuller dlnipc12,lags(1) regress noconstant
167
Figura 123. Autocorrelacin de la serie estacionalizada.
168
Tabla 129. Prueba Dickey- Fuller series desestacionalizada.
8.2.6.3.2 Estimacin
Ahora para modelar la variable de debe escoger el orden ARIMA y SARIMA con el
correlograma de la diferencia logartmica desestacionalizada.
8.2.6.3.3 Verificacin
Antes de ir a la parte de pronstico de la serie de tiempo se deben validar algunos
parmetros como por ejemplo los estimadores sean estadsticamente significativos lo cual
pasan la prueba al 1% de nivel de significancia, segundo se realiza una prueba de ruido
blanco para los errores.
. predict residuales, r
169
. wntestq residuales
Bajo esta prueba se confirma que los residuales del modelo son ruido blanco.
8.2.6.3.4 Pronstico
Ahora se prosigue al pronstico de la serie para lo cual se agregan n observaciones para
el pronstico, se predicen los valores de la variables IPC y luego se halla el antilogaritmo
de la diferencia logartmica con el fin de obtener el IPC en niveles.
. tsappend, add(10)
. predict forescastlnipc, y dymamic(tm(2013m3))
. gen IPCF=exp(forescastlnipc)
Despus de este procedimiento se hace una evaluacin de la calidad del pronstico con
la serie observada, primero un anlisis grfico, segundo observar si el dato pronosticado
est por encima o por debajo del valor real mediante el comando rmse y tercero observar
si la prediccin est bien ajustada con el comando inequal7
170
Figura 124. Grfica IPC VS Pronstico Tabla 133. Prueba RMSE e INEQUAL7
Por lo tanto, al valor pronosticado de 108.573 para el mes de abril de 2013 se le debe
restar 0.245356 para que la proyeccin se aproxime mejor a la observacin de ese
periodo, es decir un IPC de 108.327. Tambin se puede observar si el pronstico est
bien ajustado de acuerdo con el Theil index de 0.028 que se aproxima a cero.
8.3.1 Antecedentes
En el estudio de Engle (1982), se pretende analizar la volatilidad de la tasa de inflacin y
su respectivo pronstico para el Reino Unido con un modelo tipo ARCH, con lo cual se
trataba de una crtica a los modelos bsicos por M.C.O, en donde se coloca de relieve el
concepto de una varianza constante en el periodo de pronstico. Para lo cual Engle
introduce un mtodo economtrico basado en que la varianza no condicional es constante
en el tiempo, mientras que la varianza condicional es variable en el tiempo. Para tales
procesos, el pasado reciente da informacin acerca de la varianza del pronstico de un
periodo. La eficiencia del modelo ARCH se calcula y puede ser infinita. Para comprobar si
los choques siguen un proceso ARCH, el procedimiento que se emplea son los
multiplicadores de Lagrange. La prueba se basa simplemente en la autocorrelacin de los
residuos al cuadrado. Por lo tanto el modelo realizado por Engle se utiliz para estimar las
medias y las varianzas de la inflacin en el Reino Unido. Este estudio obtuvo un gran xito
para estimar la volatilidad de la serie por lo cual desde ese entonces se empez a utilizar
esto procesos para pronosticar variables que tienen periodos con bastante volatilidad.
Engle concluye que el efecto ARCH es significativo y que las varianzas estimadas
aumentan sustancialmente durante los aos 70s (los aos setenta fueron caticos con un
sistema de precios voltiles).
171
Despus de 5 aos de permanecer el modelo ARCH aparece en 1987 Bollerslev, con un
mtodo innovador donde se introduce al modelo bsico un trmino no observable aditivo
de error en la ecuacin de la varianza condicional. En donde la evidencia emprica de
estos modelos se comprueba para una conjunto de datos de tipos de cambio e ndices de
precios de acciones. La principal conclusin del modelo radica en el hecho de que los
precios burstiles y las tasas de retornos no tienen autocorrelacin a travs del tiempo
pero se caracterizan por una alta volatilidad y tiempos apacibles en el rango de la serie de
tiempo, la misma conclusin de las revisiones de la literatura en hallazgos previos. El
autor coloca en relieve la utilizacin se un modelo simple GARCH (1,1), el cual se ajusta a
la serie de datos y a su descripcin. Y coloca una nueva pregunta de investigacin para
posteriores investigaciones y es lo concerniente a si existen otras distribuciones
condicional de los errores, proporciona una mejor estimacin y an ms la utilizacin de
otro orden es la especificacin GARCH, para modelar otras series de tiempo financieras.
= + +
Donde
= ; ( ) = 0 ; Var( ) =
< 1: ; .
= + + +
=
1
GARCH (1,1)
172
= + + +
8.3.2.2 VARIANZAS
1
() =
1 1
AR(1) ARCH(1)
8.3.3 Metodologa ARCH EN STATA
Para determinar si una serie de tiempo tiene efecto ARCH, se debe primero
estacionarizar la serie, por lo general en series financieras una manera de resolver
este problema es utilizar la frmula de rendimientos continuos % = ( ).
Segundo evaluar un modelo de regresin en donde incluya la metodologa
previamente vista Box Jenkins (BJ) y utilizar los comandos estat archlm y estat
bgodfrey, donde la hiptesis nula describe que no existe la existencia de un efecto
ARCH y una hiptesis alternativa que describe la presencia de un efecto ARCH.
Tercero, el orden del Arch (autocorrelacin) y del Garch (autocorrelacin parcial)
sern determinados a partir de los residuos al cuadrado del modelo, para este
caso se debe utilizar el comando armadiag, arch, el cual no viene preinstalado en
Stata 12 por lo tanto se debe instalar con el comando ssc install armadiag para
ms ayuda sobre productores de programacin utilizar el comando findit armadiag.
Cuarto, despus de evaluar el modelo correspondiente se debe hacer diagnstico
de los residuos para detectar ruido blanco en los errores y un diagnstico a los
residuos al cuadrado si sigue la persistencia en la varianza condicional. Los
comandos a utilizar son armadiag y armadiag, arch, respectivamente.
Por ltimo se hace un anlisis de pronstico graficando la serie original y la serie
pronosticada con el comando tsline.
. gen tiempo=_n
. tsset tiempo
. gen Lncoke=ln(Coke)
. gen rendimientos= D.Lncoke
. regress D.Lncoke
. estat archlm, lags(1)
. estat bgodfrey, lags(1)
173
Tabla 134. Regresin para detectar presencia de varianza condicional
. ac rendimientos
. pac rendimientos
174
Figura 125. Autocorrelacin de los rendimientos Figura 126. Autocorrelacin parcial de los rendimientos
175
Tabla 138. Correlograma de los residuos al cuadrado
176
8.3.4.1 Ejercicio
1. Evaluar el modelo incluyendo los parmetros ar(2) ma(2) GARCH (2,2) y verificar
individualmente la significancia de los coeficientes al 5% como nivel de
significancia.
. armadiag
. armadiag, arch
177
Figura 128. Diagnstico de los residuos al cuadrado.
8.3.4.3 Pronstico
Por ltimo se realiza el pronstico para los siguientes 7 das hbiles en el mercado
accionario, con el fin de predecir hasta el fin del mes. Adems de predecir el precio se
utiliza la opcin variance con el fin de pronosticar la varianza sujeta a nuestro modelo
economtrico.
. tsappend, add(7)
. predict pronosticolncoke, y dynamic(1565)
. predict cond_var, variance
. gen pronosticocoke=exp(pronosticolncoke)
. tsline Coke pronosticocoke in 1400/1571
178
8.4 Comandos usados
%td list
_n-1 lrtest
ac ma
add model(theta)
ar noconstant
arch pac
arima predict
arima range
armadiag regress
boxcox rename
bysort res
corrgram rmse
D. robust
date sarima
destring smooth(14400)
dfuller split
drift ssc install
drop tin
DS12 trend
dymamic tsappend
estat archlm, lags(1) tsfilter hp
estat bgodfrey, lags(1) tsline
estat ic tsset
forecast tssmooth dexponential
format use
g weight
garch wntestq
inequal7 wntestq
lags(7) xb
list ym
Un conjunto de datos panel (o longitudinales) consta de una serie temporal para cada
miembro del corte transversal en el conjunto de datos. Como ejemplo, suponga que se
tienen las variables de salario, educacin y experiencia de un grupo de individuos a los
que se les hace seguimiento por 5 aos. De igual forma es posible recopilar informacin
en unidades geogrficas. Por ejemplos, datos de municipios de un pas sobre impuestos,
salarios, gastos estatales, niveles de educacin, entre otros.
La caracterstica principal de los datos panel, que los distinguen de las combinaciones de
cortes transversales, es el hecho de que se da seguimiento a las mismas unidades
transversales ya sean individuos, pases, regiones, entre otros, durante cierto perodo de
tiempo.
179
Como los datos de panel exigen la repeticin de las mismas unidades con el tiempo, los
conjuntos de estos datos, en particular de los individuos, hogares y empresas, son ms
difciles de conseguir que en las combinaciones de cortes transversales. La ventaja es
que al tener las mismas unidades es posible controlar ciertas caractersticas inobservadas
de individuos, empresas, etc.
Es decir es posible capturar inferencias causales que no es posible capturar con los
cortes transversales. La segunda ventaja de los datos panel es que permite estudiar la
importancia de los rezagos en el comportamiento o el resultado de tomar una decisin.
Esta informacin puede ser significativa, puesto que es de esperar que muchas polticas
econmicas tengan efecto slo al paso del tiempo.
La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que
influye en el salario de un individuo en 1990 tambin influir en el mismo individuo en
1991, ese factor inobservable puede ser la capacidad o habilidades.
En lo que se refiere a los efectos individuales especficos, se dice que estos son aquellos
que afectan de manera desigual a cada uno de los agentes de estudio contenidos en la
muestra (individuos, empresas, bancos) los cuales son invariables en el tiempo y que
afectan de manera directa las decisiones que tomen dichas unidades. Usualmente se
identifica este tipo de efectos con cuestiones de capacidad empresarial, eficiencia
operativa, capitalizacin de la experiencia, acceso a la tecnologa, etc.
Los efectos temporales seran aquellos que afectan por igual a todas las unidades
individuales del estudio pero que no varan en el tiempo. Este tipo de efectos pueden
asociarse, por ejemplo, a los choques macroeconmicos que pueden afectar por igual a
todas las empresas o unidades de estudio.
180
Identificador de bases de datos de Stata
. xtset id t
. xtdescribe
. xttab south
Reshape
WIDE
En la base de datos en forma horizontal (wide form), existe una sola observacin por id,
pero ms de una variable por ingreso.
LONG
i j x_ij
id year sex inc
-----------------------
1 80 0 5000
181
1 81 0 5500
1 82 0 6000
2 80 1 2000
2 81 1 2200
2 82 1 3300
3 80 0 3000
3 81 0 2000
3 82 0 1000
En la base de datos de forma vertical (long form) se puede observar que existe una
variable que es constante al interior de un grupo, en este caso el id y una variable que
vara en el interior del grupo que es el ao.
De Long a Wide
De Wide a Long
182
En primera instancia se delimita que se va a trabajar con una base de datos de orden
panel con el comando xtset(i,j), donde i denota la variable que determina el corte
transversal y j determina el periodo con que se denomina la base de datos. Es pertinente
que la variable de serie de tiempo debe ir organizada en fila y no en columnas, el
comando que se utiliza es reshape.
Al igual que series de tiempo con el comando ts, datos de panel trabaja con un comando
especial xt, por ejemplo si se desea describir las variables de la base de datos de xtdes,
para hacer algn tipo de estadstica descriptiva xtsum, para realizar tablas de frecuencias
xttab y para calcular matrices de transicin se utilizar el comando xttrans.
Tener en cuenta que overrall hace referencia a todos los individuos de la muestra en todo
los n periodos, between es una muestra entre individuos y within es una variacin entre la
variable de tiempo, manteniendo a los mismos individuos.
Para entender un poco mejor el anterior anlisis, preste atencin a la columna overall freq,
quiere decir que sobre todas las observaciones se encontraron 3640 ocasiones donde el
individuo est casado, 456 ocasiones donde los individuos se encontraron solteros. Ahora
observe la columna between freq. Por ejemplo el nmero 406, indica que 406 individuos
estuvieron solteros alguna vez. Ahora observe la columna within percent, indica que del
total de la muestra el 89.68% de las personas estaban alguna en otro estado conyugal
diferente al casado.
183
Tabla 141. Matriz de transicin para el estado conyugal
184
Figura 130. Grfico de evolucin entre el salario y las horas de trabajo
Ahora para la realizar grficos de dispersin scatter con ajustes paramtricos qfit y no
paramtricos lowess se utilizar el comando graph twoway. Por ejemplo se quiere el
grfico del comportamiento del salario con respecto a los aos de experiencia de los
individuos de la muestra, con un ajuste cuadrtico para observar si existe un efecto lineal
y un ajuste no paramtrico para observar que tanto se desva del ajuste paramtrico.
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grfico)
185
Figura 131. Ajustes de la grfica de dispersin entre el salario y la experiencia
Por otro lado tambin se pueden realizar grficos en donde solo se incluya el efecto within
y between de la muestra que se elige. Por ejemplo si se quisiera realizar el anterior grafico
pero solo entre el cambio de cada individuo a travs del tiempo se utilizar el comando
xtdata, fe, mientras que para realizar anlisis entre individuos between se utilizar xtdata,
be.
*variacion within*
*variacion between*
186
Figura 132. Anlisis comparativo between y within
= + +
Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puede
ser
187
( , ) = 0.
Exogeneidad ( , ) = 0.
El modelo resultante es el modelo de efectos aleatorios.
. gen sexo=genero==1
. global xvarlist exp exp2 horas esc sexo
= + +
( ) = ( ) + ( )
= +
Con este mtodo no se pueden estimar los coeficientes de aquellas variables que no
varan en el tiempo. El comando que se utiliza es xtreg, fe. Para detectar
heterocedasticidad se utiliza el comando xttest3, para corregir el efecto de
heterocedasticidad se utiliza el comando vce(cluster idpersona). Para detectar
autocorrelacin en los residuos se utiliza el comando xtserial, para corregir este problema
se utiliza el comando xtregar.
189
Por medio de las anteriores pruebas se demuestra que por medio de la regresin por
efectos fijos existe presencia de heterocedasticidad y la no presencia de autocorrelacin
seria.l
Tabla 146. Regresin datos de panel por efectos fijos y correccin de heterocedasticidad.
Se puede observar que Stata 12 omite la variable que no cambia a travs del tiempo
entre los individuos, que es el gnero. A diferencia del modelo por mnimos cuadrados
ordinarios las variables de aos de escolaridad y de experiencia al cuadrado no son
significativas al 5%.
190
Tabla 147. Regresin datos de panel por efectos aleatorios y correccin de heterocedasticidad.
Con la anterior prueba que demuestra que al evaluar el modelo por efectos aleatorios
existe presencia de heterocedasticidad y autocorrelacin, para corregir estos dos
problemas se utiliza la opcin vce(cluster idpersona) y el comando xtregar.
191
9.2.3 Comparacin de modelos
En esta parte se utilizaran los comando quietly para realizar la estimacin sin que muestre
los resultados en la pantalla, est store para que guarde en memoria los resultados de la
estimacin y est table para mostrar los resultados en una tabla con las opciones que se
quieran mostrar, por ejemplo b, se, r2, para los coeficientes, la desviacin estndar y el r
cuadrado, respectivamente.
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman.
192
Tabla 149. Prueba Hausman
$ reshape long
by reshape wide
clean resid
est store sigmamore
gen use
global vce(cluster
graph combine xtdata, be.
hausman xtdata, fe
list xtdescribe
predict xtgls
quietly xtline
reshape xtpcse
193
xtregar xttab
xtse xttest0
xtserial xttest1
xtset xttest3
xtsum xttrans
194
10. INTRODUCCIN A LA PROGRAMACIN
Las macros locales de Stata le van a permitir trabajar ms fcilmente con Stata, estas
macros le permitirn alojar objetos como nmeros, variables o varios conjuntos de
objetos. Estos objetos pueden contener caracteres alfanumricos y hasta 8000
caracteres. El comando para definir una macro es con local seguido por el nombre del
objeto y sus caractersticas.
Ejemplos:
local country US UK DE FR
local ctycode 111 112 136 134
display `country
US UK DE FR
Por ejemplo
Luego para hacer referencia al grupo de variable utilizando algn comando, se debe
anteponer el smbolo $ al nombre del grupo
Por ejemplo
keep $grupo1
10.2.1 Comando IF
If expression {
Comandos Stata
}
else if expression {
comandos stata
}
else {
comandos stata
195
10.2.2 Comando For
set obs 100
For new u1-u10: gen x=uniform()
For any . : replace z=. If y= X
For new x2-x5 \ num 2/5: gen X =variable^Y
local i = 1
while `i' <= 10 {
display `i'
local i = `i' + 1
}
Los estadsticos, pruebas y resultados que genera Stata es posible visualizarlos por
medio del comando return y ereturn. Por ejemplo
196
. sum price, detail
Price
Percentiles Smallest
1% 3291 3291
5% 3748 3299
10% 3895 3667 Obs 74
25% 4195 3748 Sum of Wgt. 74
. return list
scalars:
r(N) = 74
r(sum_w) = 74
r(mean) = 6165.256756756757
r(Var) = 8699525.97426879
r(sd) = 2949.49588476892
r(skewness) = 1.653433511704859
r(kurtosis) = 4.819187528464004
r(sum) = 456229
r(min) = 3291
r(max) = 15906
r(p1) = 3291
r(p5) = 3748
r(p10) = 3895
r(p25) = 4195
r(p50) = 5006.5
r(p75) = 6342
r(p90) = 11385
r(p95) = 13466
r(p99) = 15906
Vea en este caso, que al hacer un comando de sum e indicando la opcin de detail, Stata
se muestran los resultados generales ms otras medidas de percentiles, la curtosis y la
simetra. Ahora suponiendo que se quiere armar una tabla que muestre para la base de
nlsw88.dta, por raza, el promedio del salario, la mediana, la varianza y el nmero de
observaciones. Para ello se usar la construccin de una matriz.
BLACK WHITE
Promedio
Varianza
Mediana
No. Observaciones
Tabla 152. Tabla de ejemplo
. sysuse nlsw88.dta
hourly wage
Percentiles Smallest
1% 2.090301 1.004952
5% 2.875546 1.032247
10% 3.344482 1.392914 Obs 1637
25% 4.516906 1.501798 Sum of Wgt. 1637
. matrix list A
A[4,2]
c1 c2
r1 8.0829994 6.8445578
r2 6.5458913 5.434783
r3 35.462848 25.767671
r4 1637 583
. matrix list A
A[4,2]
Blanco Negro
Promedio 8.0829994 6.8445578
Media 6.5458913 5.434783
Varianza 35.462848 25.767671
Observacio~s 1637 583
. svmat A
10.3.1 Ejercicio
1. Ahora haga una prueba de igualdad de medias de los salarios, por la raza
2. Cree una tabla de resultados tal como se presenta a continuacin
BLANCO NEGRO ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error T-test
std
La primera fila no es posible crearla en Stata, entonces solamente ingrese como nombres
la segunda fila.
Ahora utilizando loops realice la siguiente tabla por las variables tenure, hours, wage
grade
. local i = 0
Utilizando el comando foreach me dice que para cada variable en el grupo que acabo de
formar realice los comandos dentro del loop.
199
matrix C[`i',4]=r(N_2)
matrix C[`i',5]=r(mu_1) - r(mu_2)
matrix C[`i',6]=r(se)
matrix C[`i',7]=r(t)
restore
}
matrix rown C = tenure hours wage grade
matrix coln C = Prom1 Obs1 Prom2 Obs2 Dif ErrSt T-test
matrix list C
1. Si quiere redondear los nmeros en su base de datos podr usar los comandos
floor(), round() y ceil().
Ejemplo:
. sysuse auto
. gen g_ratio = floor(gear_ratio)
. gen g_ratio = ceil(gear_ratio)
Ejemplo:
. sysuse bplong
. assert sex == 0 | sex ==1
. replace sex = 3 in 1
. assert sex == 0 | sex == 1
3. Para ingresar caracteres de texto en grficas, crear variables, tablas, puede utilizar
el comando char() , en su interior debe ingresar el cdigo ASCII
Ejemplo:
13
Retomado del libro Seventy-six of Stata tips.
200
. scatter price mpg, xtitle(MPG) ytitle(Precio $copyr)
display `c(alpha)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(ALPHA)
ABCDEFGHIJKLMNOPQRSTUVWXYZ
di `c(Mons)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(current_date)
di `c(current_time)
di `c(sysdir_stata)
di `c(N)
di `c(k)
di `c(memory)
di `c(more)
di `c(virtual)
di `c(pi) - Genera el nmero Pi
5. Fillin
. clear
. set obs 3
. gen y = _n
. gen x = y
. fillin y x
Ejemplo:
. global F4 = char(96)
201
. global F4 = char(180)
. global F4 = list;
. net cd stb
. net cd stb42
. net install sbe16_1
202
Figura 135. Pestaa Internet
. help update
. help ssc
. help net
. help sj
El comando quietly de Stata permite ejecutar otros comandos de Stata sin presentar los
resultados o salidas en la ventana de resultados, la instruccin se ubica como prefijo al
comando principal. Esta es una herramienta clave si se requiere retornar algunos
resultados por ejemplo: media, varianza, coeficientes, etc., (ver listado de la opcin r() por
medio de help return list) sin necesidad de ver la salida completa.
Ejemplo 1:
203
. sysuse auto, clear
. quietly summarize mpg, detail
Ejemplo 2:
Ejemplo 3:
Ejemplo 4:
204
Figura 136. Comando nosily
. help quietly
La versin de Stata 12 liberada el mes de agosto de 2012, incluy una nueva herramienta
denominada Installation Qualification Tool (IQT) la cual verifica que el software y todas
sus actualizaciones estn instaladas correctamente, en ste momento se cuenta con IQT
para Windows y Mac y tambin para las versiones 11 y 12.
205
Figura 137. Stata directory
Una vez ejecutado la IQT deber instalar un recurso de evaluacin, para ello haga clic en
Browse de la opcin de Qualification source, seleccione una ubicacin, puede ser la
carpeta de Stata 12, e instale el complemento.
206
Figura 140. Exportar reporte
En Stata 12 los archivos log (archivos de registro) se siguen generando como SMCL o
texto. Pero en esta ltima versin estos archivos pueden ser convertidos a formato PDF.
Esto se puede hacer fcilmente con el comando translate, por ejemplo:
207
Figura 141. Comando translate
Adems, en Stata 12 se puede producir un PDF de un grfico desde Stata. Por ejemplo:
208
Para ayuda sobre un comando especfico digite:
. help
. help translate
. help graph export
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
209
12. BIBLIOGRAFIA
[1] Adkins, L. & Hill, R. (2008). Using Stata for Principles of Econometrics. Wiley, Third
Edition.
[3] Baum, Christopher. (2009). An Introduction to Stata Programming.. Stata Press, First
Edition.
[4] Cameron, A. & Trivedi, P. (2009). Microeconometrics Using Stata. Stata Press, Second
Edition.
[5] Cox, N. & Newton, H. (2009) Seventy-six Stata Tips. Stata Press, Second Edition.
[6] Freese, J. & Long. S. (2006). Regression Models for Categorial Dependent Variables
Using Stata. Stata Press, Second Edition.
[7] Mitchell, Michael. (2008). A Visual Guide to Stata Graphics. Stata Press, Second
Edition.
[8] Mitchell, Michael. (2010). Data Management Using Stata, A Practical Handbook. Stata
Press, Second Edition.
[9] Rabe, S & Everitt, B. (2004). A Handbook of Statistics Analyses using Stata. Chapman
& Hall/CRC, Third Edition.
210
Introduccin al Anlisis y Modelacin
de Datos con Stata 12
STATA es un programa estadstico desarrollado para el manejo y anlisis de datos. En la
actualidad, es ampliamente usado por investigadores de diferentes disciplinas,
incluyendo desde bioestadsticos hasta investigadores sociales. Los diferentes tipos de
anlisis integrados a STATA estn documentados y respaldados por numerosos libros,
publicaciones y revistas.