Está en la página 1de 220

R

El Distribuidor de Software Cientfico Lder en Latinoamrica


Brayan Rojas
Darwin Marcelo Gordillo














SOFTWARE shop
3020 Issaquah Pine Lake Rd
Sammamish WA, 98075 USA
________________________________________________________________________________

Copyright 2013 por SOFWARE Shop
Todos los derechos Reservados






Ni la totalidad ni parte de esta publicacin pueden reproducirse, registrarse o transmitirse, por un sistema de
recuperacin de informacin, en ninguna forma ni por ningn medio, sea electrnico, mecnico, fotoqumico,
magntico o electroptico, por fotocopia, grabacin o cualquier otro, sin permiso previo por escrito del autor.




DARWIN MARCELO
Darwin Marcelo tiene nueve aos de experiencia en investigacin aplicada en economa a travs
de distintos pases de Amrica Latina. El principal rea de enfoque de su trabajo ha sido el
desarrollo sostenible, con nfasis en infraestructura, desarrollo rural, violencia, empleo y pobreza.
Posee fuertes conocimientos en anlisis y habilidades en econometra aplicada, mtodos de
evaluacin de impacto, modelos estadsticos y manejo de software como Stata, Eviews, Systat,
Rats, GIS, Axum y MI Win.
Cuenta con cuatro aos de experiencia en el departamento de economa, desarrollo sostenible
para Amrica Latina y el Caribe del Banco Mundial y 5 aos de experiencia como economista en el
Departamento Nacional de Planeacin de Colombia.
As mismo, ha trabajado como consultor externo en el Instituto de Polticas de Desarrollo de
Colombia (IPD), el Programa Nacional de Desarrollo Humano (PNDH), el Departamento Nacional
de Estadstica (DANE), la Presidencia de la Republica de Colombia, y se ha desempeado como
profesor en la facultad de economa de la Universidad Central y de la Universidad Javeriana.

BRAYAN ROJAS
Economista de la Universidad Nacional de Colombia, con especializacin en Gestin de Riesgo y
Control de Instituciones Financieras de la Universidad de los Andes, realizando posgrado en
estadstica en la Universidad Nacional de Colombia.
Profesor de la Universidad del Rosario y de la Universidad Piloto, trabaj en el rea de
Investigaciones del Banco de la Repblica de Colombia. Posee fuertes conocimientos en anlisis y
habilidades en econometra aplicada, modelos estadsticos y manejo de software como Stata,
Eviews, Risk Simualtor, Crystal Ball, @Risk, Rats, entre otros.
Ha impartido varias capacitaciones en temas de estadstica y riesgos financieros a importantes
entidades como bancos centrales, ministerios, bancos y empresas reguladoras en el sector
financiero, universidades a nivel Latinoamrica.



CONTENIDO

1. INTRODUCCIN ........................................................................................................................... 1
1.1 Descripcin del libro ...............................................................................................................................1
2. MANEJO FUNDAMENTAL DE STATA 12 ....................................................................................... 3
2.1 Conociendo el entorno de Stata .............................................................................................................3
2.2 Barras .....................................................................................................................................................5
2.3 El men de ayuda ...................................................................................................................................5
2.3.1 Actualizaciones en Stata:............................................................................................. 8
2.4 Tipos de archivo .....................................................................................................................................8
2.5 Estructura de comandos .........................................................................................................................9
2.6 Ventana de comandos .......................................................................................................................... 10
2.7 Configuracin de la memoria de Stata .................................................................................................. 11
2.8 Cambiar el directorio de trabajo de Stata ............................................................................................. 11
2.9 Bases de datos de ejemplo .................................................................................................................. 11
2.10 Tipos de variables ................................................................................................................................. 12
2.10.1 Formato de las variables: .......................................................................................... 13
3. MANEJO DE BASE DE DATOS ..................................................................................................... 15
3.1 Fundamentos de bases de datos .......................................................................................................... 15
3.1.1 Creacin de un archivo log ........................................................................................ 15
3.1.2 Abrir una base de datos ............................................................................................ 16
3.1.3 Importar una base de datos .CSV o TXT .................................................................... 16
3.1.4 Importar una base de datos .XLS o .XLSX .................................................................. 17
3.1.5 Importar otros tipos de archivo ................................................................................ 20
3.2 Salvando una base de datos ................................................................................................................ 20
3.3 Descripcin de la base de datos ........................................................................................................... 20
- Cargar una base de datos del programa ........................................................................... 21
- Observar los datos ............................................................................................................. 21
- Describir los datos ............................................................................................................. 21
3.4 Creacin de Variables .......................................................................................................................... 22
3.4.1 Extensiones en la creacin de variables .................................................................... 26
3.5 Ordenar variables y bases de datos ..................................................................................................... 26
3.6 Clculos por grupos .............................................................................................................................. 27
3.7 Codebook e Inspect .............................................................................................................................. 28
3.8 Conservar y recargar bases de datos ................................................................................................... 29
3.9 Filtros de la base de datos .................................................................................................................... 29
3.10 Administrador de variables ................................................................................................................... 30
3.10.1 Rename ..................................................................................................................... 32
3.10.2 Label Variable ............................................................................................................ 32
3.10.3 Notes ......................................................................................................................... 32


3.11 Creacin de categoras ......................................................................................................................... 32
3.12 Modificacin y transformacin de variables .......................................................................................... 34
3.12.1 Recode ....................................................................................................................... 34
3.12.2 Divisin de Variables de texto ................................................................................... 36
3.13 Combinacin de bases de datos ........................................................................................................... 36
3.13.1 Combinacin Vertical Append ................................................................................ 36
3.13.2 Combinacin Horizontal Merge ............................................................................. 37
3.14 Cambio en la organizacin de los datos ............................................................................................... 39
3.14.1 Collapse ..................................................................................................................... 39
3.14.2 Reshape ..................................................................................................................... 40
3.14.3 Xpose ......................................................................................................................... 43
3.14.4 Stack .......................................................................................................................... 44
3.15 Problemas en el manejo de bases de datos ......................................................................................... 45
3.15.1 Replicar informacin ................................................................................................ 45
3.15.2 Verificacin de datos ................................................................................................. 46
3.15.3 Contador y reporte de datos repetidos..................................................................... 47
3.16 Anlisis de duplicados .......................................................................................................................... 47
3.17 Creacin de programas editor de texto .............................................................................................. 50
3.18 Ejemplo aplicado .................................................................................................................................. 51
3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical y viceversa 53
3.18.2 Ejercicio ..................................................................................................................... 53
3.19 Comandos usados ................................................................................................................................ 54
3.19.1 Otros comandos recomendados ............................................................................... 55
capture ...................................................................................................................................... 55
4. ANLISIS ESTADSTICOS CON STATA ......................................................................................... 56
4.1 Estadstica descriptiva .......................................................................................................................... 57
4.2 Ponderadores -weight- ........................................................................................................................ 58
4.3 Calculo de medias ................................................................................................................................ 58
4.4 Intervalos de confianza ......................................................................................................................... 59
4.5 Pruebas de hiptesis ............................................................................................................................ 60
4.5.1 Media ........................................................................................................................ 60
4.5.2 Varianza ..................................................................................................................... 61
4.5.3 Proporciones ............................................................................................................. 61
4.6 Manejo de tablas de datos .................................................................................................................... 61
4.6.1 Tabstat ....................................................................................................................... 62
4.6.2 Tabulate (tab) ............................................................................................................ 63
4.6.3 Table .......................................................................................................................... 64
4.7 Pruebas no paramtricas ...................................................................................................................... 66
4.8 Ejemplo aplicado .................................................................................................................................. 68


4.8.1 Comandos Bsicos ..................................................................................................... 68
4.8.2 Ayuda visual table y tabstat ..................................................................................... 69
4.8.3 Tablas de contingencia .............................................................................................. 71
4.8.4 Tablas de frecuencia .................................................................................................. 72
4.8.5 Correlaciones ............................................................................................................. 73
4.8.6 Prueba para la media ................................................................................................ 74
4.8.7 Prueba para detectar normalidad ............................................................................. 75
4.8.8 Pruebas para la media: dos muestras independientes ............................................. 75
4.8.9 Comparacin de k medias independientes ............................................................... 76
4.8.10 Exportar tablas .......................................................................................................... 79
4.8.11 Ejercicio ..................................................................................................................... 80
4.9 Comandos usados ................................................................................................................................ 80
4.9.1 Otros comandos recomendados ............................................................................... 81
5. GRAFICAS CON STATA ............................................................................................................... 82
5.1 Histograma ........................................................................................................................................... 84
5.2 Grfico de tortas ................................................................................................................................... 85
5.3 Graficas twoway ................................................................................................................................... 87
5.4 Editor de grficos de Stata ................................................................................................................... 90
5.4.1 Haciendo doble clic sobre el rea de la grafica ......................................................... 91
5.5 Grfico de series de tiempo .................................................................................................................. 92
5.6 Grfico de dispersin ............................................................................................................................ 93
5.7 Grfico de puntos ................................................................................................................................. 95
5.8 Grfico de barras .................................................................................................................................. 96
5.9 Generando Funciones .......................................................................................................................... 98
5.10 Combinando grficas ............................................................................................................................ 98
5.11 Ejemplo aplicado .................................................................................................................................. 99
5.11.1 Transformaciones Tukey ........................................................................................... 99
5.11.2 Grficos de matriz ................................................................................................... 100
5.11.3 Grficos de lneas .................................................................................................... 101
5.11.4 Edicin de grficos .................................................................................................. 101
5.11.5 Grfica de histogramas............................................................................................ 102
5.11.6 Diagramas de dispersin ......................................................................................... 103
5.11.7 Exportar grficos ..................................................................................................... 105
5.12 Comandos usados .............................................................................................................................. 107
6. REGRESIN LINEAL EN STATA ................................................................................................. 108
6.1 Ejercicio .............................................................................................................................................. 108
6.2 Descripcin estadstica de la informacin ........................................................................................... 109
6.3 Relacin lineal entre las variables dependientes e independientes .................................................... 109
6.4 Representacin grfica de las relaciones entre variables ................................................................... 110
6.5 Estimacin del modelo lineal de regresin ......................................................................................... 112


6.5.1 Pruebas de hiptesis lineales .................................................................................. 114
6.5.2 Ejercicio ................................................................................................................... 114
6.6 Comprobacin del cumplimiento de los supuestos de M.C.O. ........................................................... 115
6.6.1 Multicolinealidad (Asociacin lineal entre variables) ............................................. 115
6.6.2 Homocedasticidad ................................................................................................... 115
6.6.3 Normalidad de los residuos ..................................................................................... 117
6.6.4 Exogeneidad de las variables independientes ........................................................ 119
6.6.5 Ejercicio ................................................................................................................... 120
6.7 Pronstico ........................................................................................................................................... 120
6.7.1 Representacin grfica del pronstico de la variable dependiente y su relacin con
los regresores .......................................................................................................................... 120
6.7.2 Ejercicio ................................................................................................................... 121
6.8 Exportar tabla de contenido ................................................................................................................ 121
6.9 Ejemplo aplicado ................................................................................................................................ 122
6.9.1 Prueba de hiptesis ................................................................................................. 123
6.9.2 Supuestos para mnimos cuadrados ordinarios ...................................................... 123
6.10 Comandos usados .............................................................................................................................. 127
7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT ....................... 128
7.1 Representacin de las relaciones entre variables .............................................................................. 129
7.1.1 Participacin y Gnero ............................................................................................ 129
7.1.2 Participacin y Nivel Educativo ............................................................................... 130
7.1.3 Participacin y Edad ................................................................................................ 131
7.2 El modelo tipo Logit encuesta Casen 2006. ....................................................................................... 131
7.2.1 Interpretacin de resultados ................................................................................... 132
7.2.2 Odds - Ratio (p/q) .................................................................................................... 133
7.2.3 Post estimacin .................................................................................................... 133
7.3 Modelo Lineal de probabilidad y modelo tipo Probit ........................................................................... 135
7.3.1 Modelo Lineal .......................................................................................................... 135
7.3.2 Modelo tipo Probit .................................................................................................. 136
7.3.3 Comprobacin de supuestos ................................................................................... 139
7.3.4 Pronstico ............................................................................................................... 143
7.3.5 Ejercicio ................................................................................................................... 143
7.4 Ejemplo aplicado ................................................................................................................................ 144
7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit ............................ 144
7.5 Comandos usados .............................................................................................................................. 148
8. MODELOS DE SERIES DE TIEMPO ............................................................................................ 149


8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma) ....................................... 149
8.1.1 Generacin de variables con formato de fecha ...................................................... 149
8.1.2 Designando la variable que representa al tiempo .................................................. 150
8.1.3 Variables con rezago ............................................................................................... 151
8.2 Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de un modelo arma para
pronstico de la inflacin. ................................................................................................................................ 152
8.2.1 Fase de identificacin .............................................................................................. 152
8.2.2 Fase de estimacin .................................................................................................. 154
8.2.3 Fase de verificacin y diagnostico ........................................................................... 155
8.2.4 Pronsticos .............................................................................................................. 156
8.2.5 Ejercicio ................................................................................................................... 157
8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA. ......................................................... 158
8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado con heterocedasticidad
171
8.3.1 Antecedentes .......................................................................................................... 171
8.3.2 El modelo GARCH(1,0) ............................................................................................. 172
8.3.3 Metodologa ARCH EN STATA ................................................................................. 173
8.3.4 Ejemplo aplicado ..................................................................................................... 173
8.4 Comandos usados .............................................................................................................................. 179
9. MODELOS DE DATOS PANEL O LONGITUDINALES .................................................................. 179
9.1 Anlisis de datos panel ....................................................................................................................... 180
9.1.1 Estructura de bases de datos panel ........................................................................ 181
9.2 Ejemplo Prctico El caso de la CASEN ........................................................................................... 182
9.2.1 Grficos de evolucin .............................................................................................. 184
9.2.2 Modelos economtricos para datos de panel ......................................................... 187
9.2.3 Comparacin de modelos ....................................................................................... 192
9.2.4 Interpretacin de los parmetros de efectos fijos. ................................................. 193
9.3 Comandos usados .............................................................................................................................. 193
10. INTRODUCCIN A LA PROGRAMACIN .............................................................................. 195
10.1 Local macros ...................................................................................................................................... 195
10.2 Creando ciclos .................................................................................................................................... 195
10.2.1 Comando IF ............................................................................................................. 195
10.2.2 Comando For ........................................................................................................... 196
10.2.3 Comando Forvalues ................................................................................................. 196
10.2.4 Comando While: ...................................................................................................... 196
10.3 ESCALARES Y MATRICES ............................................................................................................... 196
10.3.1 Ejercicio ................................................................................................................... 199


11. TRUCOS CON STATA ............................................................................................................ 200
11.1 Algunos consejos con Stata ............................................................................................................... 200
11.2 Ejecutando comandos en Stata sin resultados (quietly) ..................................................................... 203
11.3 Herramienta de calificacin de Stata 12 ............................................................................................. 205
11.4 Archivos en PDF de logs y grficas con Stata 12 ............................................................................... 207
11.5 Material de apoyo ............................................................................................................................... 209
12. BIBLIOGRAFIA ...................................................................................................................... 210






1

1. INTRODUCCIN

Hoy en da es comn encontrar diferentes aplicaciones computacionales capaces de
realizar sin fin de procedimientos en milsimas de segundo, desde hace varios aos el
computador ha sido una herramienta muy til para las diferentes reas del conocimiento y
las ciencias econmicas no han sido la excepcin, los grandes avances tericos han
llevado a necesitar cada vez ms de las aplicaciones computacionales para poder pasar
de la teora a la prctica.
Las ciencias econmicas, sociales y aplicadas se han vinculado desde hace varias
dcadas a las ciencias puras para poder por medio de los mtodos cuantitativos verificar
los hechos sociales, el uso de la estadstica, la matemtica y la fsica cada da van en
incremento; pero de igual forma stos mtodos han necesitado de diferentes recursos
para su aplicacin, es en busca de suplir estas necesidades que Stata Corp se ha
comprometido da a da en apoyar al desarrollo de la teora con la prctica haciendo uso
del total de recursos disponibles.
Se aclara que Stata no es un software libre ni gratuito, para poder acceder a l es
necesario adquirir un plan de licenciamiento, para mayor informacin ingresar a
www.stata.com. Una de las ventajas del software es la posibilidad de trabajo por ambiente
GUI (interactivo) y/o por ambiente de comandos con una programacin bastante potente,
incluyendo un lenguaje de programacin para matrices conocido como MATA.
Este material es dirigido a todo tipo de usuario, para el estudiante que se est
involucrando al mundo de la estadstica y econometra, el docente que utiliza la
herramienta para impartir sus clases usando para ello un software de alto nivel como es
Stata y para profesionales e investigadores que da a da requieren una herramienta que
les sirva para apoyar sus labores y sus investigaciones.
El documento se ha dividido en 11 captulos, el primero comprende esta introduccin, los
cuatro siguientes se podr encontrar informacin sobre la capacidad de manejo de Stata
12, manejo en la bases de datos y manipulacin de datos, estadstica descriptiva, as
como la presentacin de resultados por medio de grficas y tablas; en el captulo 6
encontrar el tema de regresin, captulo 7 modelos de regresin con variable discreta,
captulo 8 modelos de series de tiempo para tratar los temas de filtros, ARIMA y ARCH,
captulo 9 modelos de datos de panel y los ltimos dos captulos es introduccin a la
programacin y algunos trucos y recomendaciones.
1.1 Descripcin del libro
Este manual es de carcter acadmico y representa una gua para los usuarios de Stata.
2

El manual contiene 216 pginas, las cuales describe los principales usos para un usuario
de diferente nivel y estudios. Para el mejor entendimiento del manual se describe el
siguiente cuadro:
Descripcin Caractersticas
Comando Tipo de Letra cursiva, fuente Arial, tamao de
letra 11.
Ejemplo del comando Tipo de Letra cursiva, fuente Arial, tamao de
letra 9, antecedido de un .
Notas o recomendaciones Resaltado en un cuadro de texto
Rutas de acceso por medio de los mens Se describe el nombre del Men seguido por el
smbolo
Mensajes de Error Color de Fuente Rojo
Tabla 1. Descripcin y caractersticas del manual














3

2. MANEJO FUNDAMENTAL DE STATA 12

Stata es un programa estadstico para investigadores de diferentes disciplinas, como
bioestadsticos investigadores sociales y econmicos. Los diferentes tipos de anlisis
integrados a Stata estn documentados y soportados tericamente por numerosos
documentos, publicaciones y revistas. Los manuales de Stata renen en 21 volmenes
con ejemplos estadsticos, explicaciones tericas, mtodos, frmulas y documentos de
referencia (ver www.stata.com/manuals/). Al tratarse de un programa en ambiente
Windows, su interface es similar a la de todos los programas bajo este ambiente.
Nota: Adems del sistema operativo Windows, Stata Corp ha desarrollado la plataforma para los
sistemas operativos en Mac y Unix, con sus respectivos manuales de introduccin.
Stata est disponible en 4 tipos de versin.
Small Stata Versin estudiantil de Stata
Intercooled Stata Versin estndar de Stata
Stata/SE Versin especial de Stata para manejo de
bases de datos grandes.
Stata/MP Versin especial de Stata diseada para
trabajar en equipos con ms de un
procesador o ncleo (2 a 32 procesadores)
Tabla 2. Tipos de versin Stata
A continuacin se presentan las principales diferencias entre las versiones Intercooled y
SE de Stata
1
:
Small Stata/IC Stata/MP and Stata/SE
Nmero de observaciones 1,200 2,147,483,647 2,147,483,647
Nmero de Variables 99 2,047 32,767
Tabla 3. Caractersticas de versin la Stata
2.1 Conociendo el entorno de Stata
Una vez que se hace clic en el icono de Stata en el men de inicio, se despliegan los
siguientes cuadros de trabajo. Estas ventanas constituyen el cuerpo bsico Stata para
llevar a cabo un anlisis de datos, teniendo una interface bastante amigable.

1
Para conocer todas las diferencias entre las versiones de Stata, dirigirse a la ayuda por medio del comando
help limits.
4


Figura 1. Ventana de Stata
Ventana de Variables: Muestra el listado de variables de la base de datos activa.
Ventana de Comandos: En este cuadro se escriben y almacenan las lneas de
comandos, si se desea recuperar un comando previo puede
utilizar las teclas RePg o AvPg y podr autocompletar el
nombre de la variable utilizando la tecla TAB.
Ventana de Resultados: Permite visualizar la sintaxis, y los resultados de los
procedimientos ejecutados por el usuario. Aqu encontrar el
logo de Stata, indicando la versin y el tipo de licencia y el
nmero mximo de variables a importar. Una de las
caractersticas de sta ventana es que por medio de colores
el programa informa si un comando ha sido correctamente
ejecutado, si aparece en color negro no hubo problema en la
realizacin, rojo indicar error y el azul es un hipervnculo al
men de ayuda.
Ventana de Revisin: Bitcora que permite llevar un completo registro de todos los
procedimientos ejecutados durante una sesin de Stata ya
sea que se ejecutaron por el ambiente GUI, por la ventana
de comandos o por un editor .do. Una de las propiedades de
la ventana Review es que si se desea repetir un comando
simplemente debe hacer doble clic sobre el comando
deseado y Stata lo ejecutar de nuevo.
VENTANA DE RESULTADOS
VENTANA DE COMANDOS
V
E
N
T
A
N
A

D
E

R
E
V
I
S
I

N

VENTANA DE
VARIABLES
VENTANA DE
PROPIEDADES DE
VARIABLES
5

Ventana de Propiedades: Presenta la informacin de cada variable, como nombre, tipo
de variable, formato, las notas de la base de datos (puede
usar el comando notes para verlas en la ventana de
resultados), entre otras caractersticas.
2.2 Barras



Figura 2. Men de Stata

Barra de Nombre: Indica la versin de Stata disponible, el nombre y la ruta de
la base de datos activa.
Barra de Mens: Es el conjunto de las diferentes herramientas que tiene Stata
las cuales le permiten al usuario cargar, transformar,
modificar, analizar, graficar y solicitar informacin y ayuda del
programa.
Barra de Herramientas: Es el conjunto de conos de acceso rpido a herramientas
fundamentales como son abrir, salvar, creacin de un archivo
Log, un archivo .do, abrir el editor, el visor y el administrador
de variables.
2.3 El men de ayuda
Stata ha incorporado a partir de la versin 11 un conjunto de nuevas opciones en el men
de ayuda para facilitarle al usuario la mejor forma de entender cmo funciona el
programa. Una de las novedades principales es que se ha agregado la opcin de tener
disponibles los manuales de Stata en formato PDF.
Para acceder a los manuales de ayuda debe seguir la ruta Help PDF Documentation
El men de ayuda de Stata le permite:
- Ver el ndice de contenidos del programa
Barra de Nombre
Barra de
Mens
Barra de
Herramientas
6

- Buscar informacin sobre algn tema, la rutina que permite ejecutarla en Stata, o el
sitio desde donde es posible descargar la macro para alimentar el programa.
- Obtener ayuda sobre algn comando de Stata
- Listar y descargar las ltimas actualizaciones del programa.
- Instalar programas de Stata escritas por otros usuarios, desde el Stata Journal o del
boletn tcnico Stata Technical Bulletin.
- Acceder a lugares de inters en el sitio Web de Stata.
El sistema de ayuda para los comandos de Stata es una de las herramientas que ms
rpidamente puede familiarizar al usuario con el manejo de Stata. Alternativamente al
sistema de ventanas, el usuario puede digitar en el cuadro de comandos help seguido del
comando del cual desea informacin.
Por ejemplo al digitar en el cuadro de comandos: help describe emerge la siguiente
ventana

Figura 3. Ayuda de Stata
7

La ayuda de Stata ofrece informacin sobre:
- La sintaxis completa y abreviada de letra(s) subrayadas) de cada comando,
- Descripcin del comando,
- Opciones adicionales para ejecutar el comando,
- Ejemplos sobre cmo usar el comando,
- Hipervnculos a otros comandos relacionados y/o similares y,
- El manual impreso de Stata en el que puede consultar los detalles sobre el
comando.
Con frecuencia, el usuario desconoce el nombre del comando especfico que realiza algn
procedimiento en Stata. En estos casos es conveniente realizar una bsqueda temtica
por medio del comando search. A travs de este comando Stata realiza una bsqueda en
lnea en:
- Los ejemplos oficiales de Stata disponibles en su sitio web,
- El sitio de preguntas frecuentes Frequently Asked Questions de Stata,
- Ejemplos en lnea compilados por la universidad de UCLA,
- Las referencias bibliogrficas en Stata Journal y Stata Technical Bulletin.
Por ejemplo, suponga que se quiere calcular en Stata el coeficiente de concentracin gini
(procedimiento muy conocido en economa y estadstica), pero no se sabe si Stata realiza
este clculo y, adems, si es posible hacerlo, no se conoce el comando para ejecutarlo.
En estos casos el comando search resulta de gran ayuda. Por ejemplo al escribir en el
cuadro de comandos

. search gini

Se despliega el siguiente cuadro de ayuda:

8


Figura 4. Comando search
En el cuadro de ayuda aparecen en azul hipervnculos a sitios oficiales (Stata Journal
SJ, o Stata Technical Bulletin STB) desde donde se pueden descargar macros
relacionadas con el procedimiento que calcula el coeficiente de concentracin gini.
2.3.1 Actualizaciones en Stata:
Automticamente Stata hace actualizaciones peridicas del programa. Sin embargo el
usuario puede pedir manualmente al programa que se actualice a travs del comando
update as:
. update all
. adoupdate, update
2.4 Tipos de archivo
Antes de iniciar una sesin de trabajo es importante tener en cuenta que Stata opera a
travs de diferentes tipos de archivos.


9

Tipo de Archivo Extensin
Archivos de datos *.dta
Archivos grficos *.gph
Bitcoras de salida *.smcl
Archivos de comandos *.do
Archivos de programacin *.ado
Tabla 4. Tipos de archivos
2.5 Estructura de comandos
La creacin de las variables se realiza por medio del comando generate, los comandos en
Stata no son necesarios escribirlos en su totalidad. La mayora de los comandos pueden
ser reducidos en un prefijo, para conocer el prefijo de cada comando escriba help nombre
del comando y en la ayuda, aparecer subrayado el nombre hasta cierto carcter
indicando que puede usar solamente ese texto para ejecutar el comando, por ejemplo g
es igual a generate
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
Por ejemplo:


Se debe tener en cuenta que Stata distingue entre letras maysculas y minsculas. Todos
los comandos del programa se deben escribir en letras minsculas. De lo contrario el
programa no lo reconoce. Los parntesis cuadrados indican que no es un carcter
obligatorio dependiendo el comando especfico.
Es posible usar con Stata prefijos para algunos comandos, por ejemplo, el comando
regress que permite realizar el procedimiento de regresin se puede ejecutar digitando
solamente los tres primeros caracteres, es decir al tener reg ejecuta la misma funcin que
al escribir regress.
Para conocer mayor informacin sobre la estructura de los comandos de Stata, busque
informacin as: help syntax
10

2.6 Ventana de comandos
Es comn encontrar en las ventanas emergentes de Stata el nombre del comando que
permite realizar la instruccin que se le ordenar al programa para que realice, por
ejemplo, al seguir la ruta
File Import Text Data created by a spreadsheet
En este caso es el comando insheet. A continuacin se explican algunas caractersticas
generales de las ventanas emergentes de Stata para la realizacin de procedimientos,
este manual no presentar las ventanas en las cuales se ejecutan las instrucciones sino
los comandos y las opciones correspondientes.

Como se menciono anteriormente en la parte superior de cada ventana aparece el
nombre del comando correspondiente, si el usuario desea llamar una ventana puede
hacerlo desde la ventana de comandos por medio de db nombre_comando.
Comando
Descripcin del comando
Copiar como
comando
Ejecutar No Ejecutar
Ayuda de la
instruccin
Ejecutar y
mantener
la ventana
activa
Limpiar la
ventana
Figura 5. Caractersticas de una ventana
11

2.7 Configuracin de la memoria de Stata
Stata funciona exclusivamente desde la memoria RAM. El programa nicamente
interacta con el disco duro del computador cuando se hacen salvados de bases de
datos, grficos, archivos log, o archivos de comandos. En la versin 12, Stata configura
automticamente el tamao de la memoria para poder trabajar con bases de datos muy
grandes.
Para versiones inferiores a la 12 las versiones SE y MP del programa trabajan con 10
megas de memoria RAM. Sin embargo, cuando se trabaja con bases de datos muy
grandes, es posible configurar la cantidad de memoria RAM disponible para una sesin de
trabajo a travs del comando set memory.
2
Por ejemplo, para trabajar con 100 megas de
memoria RAM la sintaxis es
3
:
set mem 100m
Es muy importante que antes de empezar una sesin de trabajo el usuario configure la
cantidad de memoria RAM que necesita de lo contrario emerger el siguiente error:
no room to add more observations
r (901);
2.8 Cambiar el directorio de trabajo de Stata
La sintaxis para cargar y salvar datos puede ser muy extensa dependiendo de la ruta de
acceso a las bases de datos o el lugar en el disco duro donde se quieran almacenar los
resultados. Una forma prctica de abreviar la sintaxis en ambos casos consiste en
indicarle a Stata, antes de comenzar la sesin de trabajo, el lugar en el disco duro de
donde se desean tomar los datos y donde se quieren almacenar los resultados. Este
procedimiento se lleva a cabo a travs del comando cd as:

. cd "C:\...."

La otra opcin es por medio del Men File Change Working Directory

Entre comillas se debe encontrar la direccin o ruta de la carpeta donde se encuentran las
bases de datos que sern empleadas en la sesin de trabajo de Stata.
2.9 Bases de datos de ejemplo
En el momento en que Stata se instala en su equipo se incluyen bases de datos de
ejemplo las cuales le permitirn trabajar con el software, tenga en cuenta estos archivos

2
Si desea conocer qu versin tiene de Stata y la configuracin de la memoria y la licencia del programa
escriba el comando about o creturn list.
3
Se recomienda revisar la ayuda sobre el comando set y el comando memory
12

Continua Ordinal Nominal
dado que la ayuda en muchas ocasiones se referencia a las bases de datos del software,
para acceder a ellas siga la ruta File Example Datasets Example datasets installed
with Stata o para acceder a todas las bases de datos seleccione Stata 12 manual
datasets pero debe tener acceso a internet.
El comando asociado es:
. sysuse dir * para ver el directorio de bases de ejemplo en su equipo
. sysuse auto.dta * cargar la base auto.dta que es una base de ejemplo de Stata
2.10 Tipos de variables
Una de las preguntas comunes en el manejo de un software estadstico es cmo el
programa clasifica o categoriza las variables, es decir que formato es posible asignarle a
una variable, para ello es necesario primero que el usuario tenga claro el tipo de variable.
Las variables se pueden dividir de acuerdo al siguiente esquema:








F
Stata es case sensitive, es decir, distingue entre maysculas y minsculas, de forma
que las variables var1 es diferente a Var1.
Para Stata se manejan los datos cuantitativos por diferentes tipos de variables los cuales
se diferencian por el rango de los datos o por el tamao en el nmero de caracteres
disponibles a continuacin se presenta una tabla que describa los tipos de datos.


VARIABLE
CUANTITATIVA CUALITATIVA
Discreta
Figura 6. Tipo de variables

13

TIPO DE VARIABLE
RANGO
FORMATO
MNIMO MXIMO
Byte -127 100 %8.0g
Int -32,767 32,740 %8.0g
Long -2,147,483,647 2,147,483,620 %12.0g
Float -1.70141E+38 1.70141173319*10^38 %9.0g
Double -8.9885E+307 8.9884656743*10^307 %10.0g
Precisin para FLOAT 3.795x10^-8.
Precisin para DOBLE 1.414x10^-16.
Tabla 5. Tipos de Variable
El nmero que aparece despus del smbolo % es el nmero mximo de dgitos enteros o
ancho que soporta el formato y el nmero a la derecha ndica el nmero de decimales,
posteriormente se encuentra una letra. Donde [f] es aproximacin al entero ms cercano,
[e] indica notacin cientfica y [g] indica decimales.
Stata por defecto selecciona el formato FLOAT, el otro tipo de variables son las variables
alfanumricas, estas variables en las que se encuentran principalmente las variables
cualitativas, Stata define un formato especial para ellas, y es el formato STRING, %str#
es la visualizacin de este formato, en el cual el carcter # indica el largo de la cadena.
2.10.1 Formato de las variables:
El formato de las variables hace referencias a la forma como son almacenadas y
desplegadas las variables en STATA. Para cambiar el formato de una de una variable a
travs del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable
siempre antecedido por el smbolo %.
Variables de cadena


Variable numrica
% 20 s Variable String

Inicio de un formato nmero de caracteres
14



Si desea cambiar el formato de una variable utilice el comando recast.
. sysuse auto
. describe Price
. recast float price

Para mayor informacin: help data_types y help recast
















Formato general g, Notacin cientfica e,
formato fijo f


% 10. 0 g c opcional, separados de
miles por comas
Inicio de un formato
Dgitos antes del punto decimal
Dgitos despus del punto decimal

15

3. MANEJO DE BASE DE DATOS

Antes de realizar un anlisis de la informacin ya sea de tipo descriptivo o inferencial, se
debe contar con toda la informacin que sea pertinente para el anlisis respectivo y las
condiciones que deben tener cada una de las variables para poder establecer un entorno
eficiente en Stata 12, para ello en esta seccin podr ver como se manipulan las bases
de datos en Stata 12, por ejemplo series financieras (precio de activos) y econmicas
(inflacin, desempleo, crecimiento econmico, entre otras).
Una de las ventajas de Stata es su fortaleza en el manejo de bases de datos,
principalmente porque permite al usuario administrar gran cantidad de variables y de
observaciones, adems, es posible realizar manipulacin y transformaciones como son
crear, eliminar, modificar, concatenar y tambin permite agregar variables y observaciones
a una base de datos con otras bases, entre muchas ms.
Entre opciones avanzadas se encuentran la proteccin de bases de datos, la creacin de
firmas y restricciones a usuarios. Stata permite a los usuarios manejar bases de datos de
formatos como son MS Excel, texto, SQL, SAS, entre otros, de igual forma permite
exportar archivos a dichos formatos.
3.1 Fundamentos de bases de datos
Hay ciertas caractersticas que usted podr aprender para el manejo de la informacin,
entre ellas los pasos fundamentales, como son, importar una base de datos, eliminacin,
transformacin de bases de datos, entre otros.
3.1.1 Creacin de un archivo log
Un archivo tipo texto con extensin .log o .smcl
4
, permite guardar todo lo que usted
digite y ejecute en la lnea de comandos as como las salidas obtenidas en la ventana de
resultados realizadas durante la sesin activa de Stata.
Se recomienda que la extensin sea SMCL, dado que le permite conservar las fuentes y
colores de su ventana de resultados y adems podr configurarlo para imprimir.


4
Iniciales de Stata Markup and Control Language.

16


Figura 7. Creacin de un archivo Log
Para la creacin de un archivo log por medio de comandos debe usar
. log using tables.log, replace
3.1.2 Abrir una base de datos
El primer paso es cargar una base de datos, para ello depende el formato de la base de
datos. Es comn que los usuarios contengan su informacin en archivos tipo Excel, para
ello es necesario tener claro que Stata requiere que el separador decimal debe ser el
punto (.), para ello se recomienda utilizar la herramienta de buscar-reemplazar de Excel o
hacer cambio de la configuracin de Excel o de la configuracin regional de su equipo.
Recuerde que las bases de datos de Stata finalizan con la extensin .dta, cuando se tiene
un base tipo Stata para abrirla puede utilizar la ruta File Open o mediante el teclado
CTRL+ O y seleccionar el archivo o por el cono abrir de la barra de herramientas, por
medio de comandos podr usar la instruccin use
. use "C:\Users\Brayan\Desktop\ipc_raw.dta", clear
Recuerde la seccin 2.8 en donde se indica como activar un directorio de trabajo para no
tener que referenciar la ruta o path en donde se encuentra el archivo; si ya tiene un
directorio activo la instruccin es:
. use ipc_raw, clear
Dado que la instruccin solo importa bases de datos de formato Stata no se requiere
ingresar la extensin .dta.
Finalmente con el comando use podr seleccionar solamente las variables que desea
usando la opcin using importar por ejemplo
. use fecha ipc inflacin using ipc_ra, clear
3.1.3 Importar una base de datos .CSV o TXT
Uno de los formatos ms comunes en el manejo de informacin estadstica es el formato
Separado por Comas (CSV), para importar una base de dato se sigue la ruta:
File Import Text Data created by a spreadsheet
17

En este caso el comando insheet tiene la siguiente estructura
insheet [variables] using ruta, opciones
Por ejemplo:
. insheet using "C:\Users\USER\Documents\Software Shop\Stata\Taller docentes\Docentes_01.csv", delimiter
(":") clear
En el caso que el usuario no requiera importar la totalidad de la base de datos debe
especificar despus del comando insheet el nombre de las variables; entre las opciones
se encuentran, los tipos de formato que separa los datos, como son tabulaciones (tab),
comas (comma) o especificado por el usuario (delimiter(x)).
La funcin anterior es similar para archivos con extensin .TXT.
3.1.4 Importar una base de datos .XLS o .XLSX
3.1.4.1 Editor de datos en Stata
Es comn que las bases de datos y los archivos que se usan a diario por las empresas y
sus trabajadores sean de hojas de clculo, para facilitar el trabajo de uso de Stata cuando
las bases son de una hoja de clculo se puede sin mayor problema copiar los datos de la
hoja correspondiente y posteriormente en la ventana edit dar clic derecho y seleccionar
pegar o la secuencia CTRL+V, de sta forma Stata reconoce los datos correspondientes.
El software abrir una ventana en donde se pregunta si los datos que se encuentran en la
primera fila son las etiquetas de los datos o si no lo son, dependiendo de la fuente de los
datos se toma la decisin.

Figura 8. Pegar datos desde Excel
Nota: El usuario debe tener sumo cuidado con el formato de la base original dado que Stata
trabaja los separadores decimales con el punto y no con la coma como se usa en la configuracin
de los computadores con idioma espaol. Para ello se recomienda al usuario cambiar el formato de
separador decimal y de miles en su hoja de clculo o directamente desde la configuracin regional
18

de su equipo. De igual forma usar la tcnica de buscar y reemplazar le permite obtener un buen
resultado.
Se recomienda ver informacin adicional con help input, infix e infile.
Los datos pueden ser visualizados o introducidos en Stata haciendo clic en el cono de la
ventana Data Editor, presionando CTRL+8, o haciendo clic en
Data Data Editor Editor.


Figura 9. Editor de datos.
- Snapshots: Permite preservar y restaurar la base de datos a un punto
predeterminado por el usuario.
- Filter Observations: Mientras est abierto el editor de datos, a travs de esta
opcin es posible mantener un filtro sobre la base la base de datos.
- Variable Properties: Esta opcin permite renombrar variables, asignar etiquetas a
variables y valores de variables categricas, y ajustar los tipos de variables y los
formatos de las variables.
- Variable Manager: Similar a la opcin anterior, adems permite visualizar
simultneamente varias variables y adicionar notas a estas.

3.1.4.2 Asistente de Importacin de Excel files
La versin 12 de Stata ha incorporado una nueva herramienta para importar bases de
datos tipo .xls o .xlsx, para acceder al asistente siga la ruta File Import Excel
spreadsheet (*.xls, *.xlsx) emerger la siguiente ventana:
Edit Mode
Browse Mode
Filter Observations
Variables Manager
Snapshots
Variable Properties
19


Figura 10. Asistente Importacin Archivos de Excel
Nota: Para poder importar la base de datos debe tener cerrada la base de datos de lo contrario el
asistente no realizar la importacin.
La estructura del comando es:
import excel [using] filename [, import_excel_options]
En las opciones podr seleccionar:
- sheet("sheetname") Nombre de la hoja a importar
- cellrange([start][:end]) Rango de celdas a cargar
- firstrow Tomar la primera fila como los nombres de las variables
- allstring Importar todas las variables como texto
- clear Reemplazar los datos en la memoria

Para el ejemplo la instruccin es:
. import excel "C:\Users\Brayan\Desktop\base1.xlsx", sheet("base 1") firstrow
Busque el
archivo de
Excel
Seleccione
la hoja a
importar
Active la casilla si en
su hoja la primera fila
contiene los nombres
de las variables
Seleccione el
rango de los
datos
20

3.1.5 Importar otros tipos de archivo
Hay otro tipo de archivos que Stata le permite importar automticamente como archivo
para ello se recomienda tener en cuenta las siguientes recomendaciones:
TIPO DE BASE COMANDO
ODBC Odbc
Archivo de Texto sin diccionario
(.raw)
Infile
Archivo de Texto con ancho fijo
(.raw)
Infix
Archivo de Texto con diccionario ( infile2
Formatos SAS XPORT o .xpf import sasxport
Formato tipo haver Haver
XML files Xmlsave
Tabla 6. Otros comandos para importar archivos
Finalmente si tiene otro tipo de archivos se recomienda que adquiera el software
Stat/Transfer, para mayor informacin ingrese a www.stata.com/products/stat-transfer/,
este programa permite importar archivos tipo SPSS, SAS, R, RATS, Statistics, MATLAB,
GAUSS, entre otros
3.2 Salvando una base de datos
Como los datos han sido cargados en la memoria RAM, slo puede modificarse la base
de datos original de tres formas
- Haciendo clic en el icono de salvado en la barra de herramientas
- Haciendo clic en CTRL+S
- A travs del cuadro de comandos empleando el comando save, por ejemplo:
. save base1.dta, replace
La opcin replace le permite sobre escribir un archivo que tenga en el mismo directorio de
trabajo activo y con el mismo nombre.
Una vez que los datos han sido guardados o abiertos es posible optimizar el espacio que
estos ocupan utilizando el comando compress este comando comprime la base de datos.
Es muy til cuando se trabaja con bases de datos grandes.
3.3 Descripcin de la base de datos
Una vez se tenga una base de datos cargada, es necesario empezar a revisarla y obtener
informacin de ella, para ellos Stata le permite al usuario por medio de diferentes
procedimientos entender cada variable y su contenido.
21

Lo primero que debe realizar el usuario una vez importa o abre una base de datos es
observar la base, para ello se encuentran diferentes formas de visualizar los datos, entre
ellas las opciones de edit y de browse, las cuales abren una ventana con forma de hoja de
clculo, la otra opcin es por medio del comando list que permite visualizar la o las
variables en la ventana de resultados, se recomienda usar los comandos edit, browse y
list con las opciones if in (ver ms informacin en la seccin 3.4).
Adicional a esto el usuario puede recibir informacin especfica de cada variable por
medio de las opciones del men Data Describe Data. En ste men las opciones de
describe data in memory, describe data contents e inspect variables, le da la posibilidad al
usuario de obtener informacin correspondiente al nombre, la etiqueta, el tipo y formato
de la variable, notas, etiquetas sobre valores, el nmero de valores perdidos, entre otras.
A continuacin se presenta un ejemplo del uso de estos comandos
- Cargar una base de datos del programa
. sysuse auto
- Observar los datos
. browse

Figura 11. Comando browse
- Describir los datos
. describe make rice mpg
22


Tabla 7. Comando describe para algunas variables
Cuando se desea aplicar un comando para todas las variables de la base de datos podr
hacerlo ingresando el comando sin incluir ninguna variable de esta forma Stata tomar la
instruccin para toda la base de datos, otra alternativa es escribir _all posterior al
comando por ejemplo:
. sysuse auto
. describe _all

Tabla 8. Describe de todas las variables en la base de datos
3.4 Creacin de Variables
Por medio del men Data se puede encontrar opciones como crear nuevas variables
Data Create or Change Data Create New Variable:
.
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model

variable name type format label variable label
storage display value
foreign byte %8.0g origin Car type
gear_ratio float %6.2f Gear Ratio
displacement int %8.0g Displacement (cu. in.)
turn int %8.0g Turn Circle (ft.)
length int %8.0g Length (in.)
weight int %8.0gc Weight (lbs.)
trunk int %8.0g Trunk space (cu. ft.)
headroom float %6.1f Headroom (in.)
rep78 int %8.0g Repair Record 1978
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model

variable name type format label variable label
storage display value
23


Figura 12. Comando generate

Figura 13. Prefijo de un comando
Algunos ejemplos de creacin de variables:
. generate suma = var1 + var2
. gen resta = var1 var2
. g multiplicacin = var1 * var2

Para la creacin de las variables se recomienda usar el siguiente cuadro
24


Tabla 9. Operadores
En algunas ocasiones se requieren algunos caracteres especiales, uno de ellos son los
caracteres _n y _N o denominadas variables del sistema, _n es un contador del nmero
de observaciones, y _N indica el total de observaciones de la base de datos.
. gen tendencia = _n
. gen totales = _N

Para la creacin de variables con condiciones puede utilizar la opcin de la estructura de
comandos [if] [in], estas opciones le permitirn poner restricciones no solo para la
creacin de variables si no para la gran mayora de comandos que contiene Stata, debe
tener en cuenta que solo debe escribir una vez el carcter if o in, a continuacin algunos
ejemplos en el uso de estos caracteres especiales:
. gen dummy = 1 if TV >5 *crea una variable con valores = 1 si TV > 5, perdido en otro caso.
. list make mpg if mpg>25
. list price in 10/20 * crea una lista para las observaciones entre la 10 y 20
. list price in -10/l * crea una lista con las ltimas 10 observaciones
Para la opcin in se puede utilizar las siguientes estructuras:
# Condicin sobre una nica observacin
#/# Condicin sobre un rango de observaciones
#/l Condicin sobre una observacin hasta la ltima (l)
25

f/# Condicin desde la primera observacin (f) hasta una observacin
-#/# Condicin desde las ltimas # observaciones hasta # que puede ser la ltima
con l, *L minscula*
A continuacin se listan algunas funciones matemticas, estadsticas y de fecha
importantes en la creacin de variables
Funcin Ejemplo Descripcin
ln() g lpib = ln(pib) Logaritmo natural
exp() g epib = exp(pib) Exponencial
sqrt() g y = sqrt(epib) Raz cuadrada
abs() g x = abs(y) Valor absoluto
cos() g coseno = cos() Coseno
logit() g logit = logit(x) Retorna el logaritmo de los odds ratio de x
runiform() g uniforme = runiform() Genera nmeros aleatorios de una distribucin
uniforme [0,1)
rnormal() g normal = rnormal() Genera nmeros aleatorios de una distribucin
normal estndar (0,1)
rnormal(m,s) g normal = rnormal(10,2) Genera nmeros aleatorios de una distribucin
normal con media m y desviacin estndar s
int() g enteros = int(pib) Convierte una variable o dato en entero
invnormal(p) g inversa = invnormal(prob) Genera una variable como la inversa de la
probabilidad de una distribucin normal
length(s) g largo = length(nombre) Presenta el nmero de caracteres de una
variable string
Tabla 10. Ejemplos Funciones generate
Ejemplo:
. use personas, clear
*Logaritmo natural de los ingresos laborales
. gen lny=ln(i_laboral)
*Logaritmo natural de las horas de trabajo al mes
. gen lnm=ln(htm)
*Aos de experiencia laboral al cuadrado
. gen exp2=exp^2
*Horas de trabajo al mes expresadas en nmeros enteros
. gen horas=int(htm)
*Generacin de una variable aleatoria uniforme (0,1)
. gen uniforme=uniform()
26


*Horas de trabajo al mes expresadas en nmeros enteros (redondeado)
. gen horasr=round(htm)
* Si cumple la condicin (ser menor de 25 aos) marcar con el nmero 1
. gen men25=1 if e02<25
Para recodificar variables (cambiar los valores de una variable) se pueden utilizar los
comandos recode (ver ms informacin en la seccin 3.12.1) o replace. Por ejemplo, si se
quiere reemplazar en la variable men25 los valores perdidos . por 0 una opcin es
emplear el comando replace as:
. replace men25=0 if men25==.
(24841 real changes made)
3.4.1 Extensiones en la creacin de variables
Podemos utilizar algunos comandos adicionales para la creacin de variables con algunas
condiciones, tales como el comando egen y la funcin cond()
Ejemplo:
. gen dummy = cond(TV>5,1,0)
. gen dummy = (TV>5)
. egen concatenar = concat(variable1 variable2)

FUNCIN EJEMPLO DESCRIPCIN
max() egen maximo = max(ingresos) Presenta el mximo de una variable
min() egen minimo = min(ingresos) Presenta el mnimo de una variable
mean() egen promedio = mean(ingresos) Presenta el promedio de una variable
kurt() egen curtosis = kurt(ingresos) Presenta la curtosis de una variable
sd() egen desviacin = sd(ingresos) Presenta la desviacin estndar de una
variable
Tabla 11. Funciones generate y egen.
3.5 Ordenar variables y bases de datos
Ordenar datos Data Sort Ascending Sort:
27


Figura 14. Ordenar datos
Para ordenar en forma descendente se recomienda usar el comando gsort de la siguiente
forma:
. gsort var1 var2 +var3
El comando anterior produce un ordenamiento descendente primero por la variables
VAR1, seguido por la variable VAR2 y de forma ascendente por la variable VAR3,
indicando que se debe ubicar un signo (-) para establecer descendente y un signo (+)
para orden ascendente, aunque este ltimo no es necesario en el comando.
Existe otro caso y es en el caso que se dese ordenar las variables, es decir cambiar el
orden en la base de datos, por medio del comando order es posible realizar esto, de igual
forma es posible utilizar aorder para que las variables queden ordenadas en forma
alfabtica. Finalmente el comando move permite modificar la ubicacin de las variables,
pero a partir de la versin 11, este comando es reemplazado por order.
3.6 Clculos por grupos
En algunas ocasiones el usuario requiere de verificar la informacin por una caracterstica
particular, grupales, entre otras, para ellos Stata cuenta con el prefijo by el cual se ubica
previo al comando estadstico, grfico o de modelo.
Ejemplo:
. use http://www.Stata-press.com/data/imeus/census2d, clear
. gsort region -pop
. by region: generate totpop = sum(pop)
. by region: list region totpop if _n = = _N
. by region: egen meanpop = mean(pop)
. by region popsize, sort: egen meanpop2 = mean(pop)
. by sex age: regress wage expert expert2 occup
28

El comando by permite generar variables por diversas categoras, adems, permite
ordenar de acuerdo a alguna variable. En el ltimo ejemplo hace una regresin por cada
categora entre el gnero y la edad.
3.7 Codebook e Inspect
codebook, escribe el contenido de las variables, indicando nmero de observaciones,
valores perdidos, percentiles, entre otros.
. codebook foreign

Tabla 12. Comando codebook foreign.
. codebook price

Tabla 13. Comando codebook price
El comando inspect, entrega el nmero de observaciones de una variable identificando los
valores positivos, negativos, cero, missing, y si estos corresponden a nmeros enteros o
no. Los missing values se sealan en Stata mediante un punto (.). Se considera que un
missing value es mayor que cualquier valor.
3 1 Foreign
12 0 Domestic
tabulation: Freq. Numeric Label
unique values: 2 missing .: 0/15
range: [0,1] units: 1
label: origin
type: numeric (byte)

foreign Car type

3 15906
3 14500
3 13594
3 13466
3 12990
tabulation: Freq. Value
unique values: 5 missing .: 0/15
range: [12990,15906] units: 1
type: numeric (int)

price Price
29


Tabla 14. Comando inspect rep78
3.8 Conservar y recargar bases de datos
Es importante cuidar la base de datos que se est trabajando, por eso se recomienda
salvar la base de datos, pero adems, Stata ofrece opciones que le permitirn al usuario
guardar la base de datos de forma virtual, por medio de los comandos preserve y
snapshot y para recuperar la base con el comando restore
. preserve
. restore
. snapshot save, label("nombre del elemento guardado")
. snapshot restore 1


Figura 15. Opcin snapshot

La diferencia entre el snapshot y el preserve es que este ltimo solo permite guardar una
vez la base de datos, mientras el snapshot varias veces.
3.9 Filtros de la base de datos
Ejemplo acerca de la opcin filtros:
. browse if pop > 10000000
. browse if pop > 10000000 & marriage > 100000
. browse if pop > 10000000 & marriage > 100000 & popurban > 10000000
. browse if pop > 10000000 | marriage > 100000 & popurban > 10000000

Uso del in
(5 unique values)
1 5 74

. # # # # Missing 5
# # # Total 69 69 -
# #
# Positive 69 69 -
# Zero - - -
# Negative - - -
Total Integers Nonintegers

rep78: Repair Record 1978 Number of Observations
. inspect rep78
Snapshot
Agregar
Snapshot
Remover Snapshot
Cambiar el nombre
Restaurar
30


. browse pop in 1/10
. browse pop in f/10 f = FIRST, l = LAST
. browse pop in 10/l hasta el ltimo

Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep,
drop y list.
drop elimina observaciones y/o variables, keep conserva observaciones y/o variables, list
presenta variables y/o observaciones en la ventana de resultados, edit permite visualizar
los datos en una hoja de datos y podr editar y modificar los datos, browse realiza las
mismas opciones de edit pero no se puede modificar la informacin.
El comando keep y drop tienen la misma estructura
keep/drop variables
keep/drop if expression
keep/drop in rango
Ejemplo:
. sysuse census
. drop death divorce * Elimina las variables death y divorce
. keep state pop medage marriage * Conserva las variables indicadas
. drop if medage > 30 * Elimina las observaciones donde medage sea mayor a 30
. sort popurban
. keep in -10/l * Conserva las ltimas 10 observaciones con mayor popurban
3.10 Administrador de variables
En la versin 11 de Stata se incluy la ventana del administrador de variables, este
administrador de variables permite modificar informacin de cada variable, principalmente
el cambio de nombre, etiquetas, tipo de variable, formato, notas y creacin de categoras
y etiquetas.
. varmanage
31


Figura 16. Administrador de variables.
Para la modificacin de la variable, deber ser seleccionada la variable y una vez
modificada la informacin correspondiente debe dar clic en Apply.
En la versin 12, Stata ha incluido una nueva ventana que es la ventana de propiedades
en la cual se pueden modificar la informacin de cada variable:

Figura 17. Ventana de Propiedades
Entre los cambios del administrador de variables y la ventana de propiedades se
encuentran las siguientes opciones, se describe el comando correspondiente para
automatizacin de tareas.
32

3.10.1 Rename
Este comando permite cambiar el nombre de una variable. Por ejemplo:
rename nombreviejo nombrenuevo
. rename price precio
3.10.2 Label Variable
Para colocar la etiqueta a la variable, con la cual se describe la informacin de la misma:
label var nombrevariable etiqueta variable
. label var precio Precio del auto
3.10.3 Notes
Se pueden crear dos tipos de notas, una para las variables o para la base de datos, a
continuacin un ejemplo para cada caso:
. notes divorce: 1 si la persona es divorciada, 0 en otro caso * nota para la variable divorce
. notes _dta: Censo 1994 * nota para la base de datos
3.11 Creacin de categoras
La forma ms sencilla de crear categoras de variables es por medio del administrador de
variables, la variable que seleccionar debe ser discreta, una vez inicie el administrador
debe seleccionar la variable que codificar, luego debe dar clic en Manage que se
encuentra a la derecha de la opcin Value label

Figura 18. Manage
La figura 16 presenta el administrador de etiquetas, en el cual podr crear, editar o
eliminar etiquetas y para las etiquetas ya creadas puede agregar, editar o eliminar valores
que se encuentran en una etiqueta creada.
33


Figura 19. Administrador de Value Labels
Para crear una nueva etiqueta haga clic en Create Label, en la figura 17 podr agregar,
eliminar y editar las categoras con su correspondiente descripcin.

Figura 20. Creacin de Labels
Una vez haya creado la etiqueta deber asignarla a la(s) variable(s) que correspondan,
para ello en el administrador de variable a la izquierda de Manage seleccione el nombre
de la etiqueta.
34


Figura 21. Asignacin de etiquetas
Por medio de comandos
. label define respuestas 1 si 2 no * Creacin de la etiqueta con sus valores
. label values pregunta1 respuestas *Se asigna a la variable pregunta1 la etiqueta respuestas
3.12 Modificacin y transformacin de variables
En la seccin anterior se present la forma de creacin de variables por medio de los
comandos gen y egen, de igual forma el comando replace. Pero existen otras formas de
modificar variables ya sea en su formato, tipo de variable, codificacin entre otras, a
continuacin se presentan las ms importantes.
3.12.1 Recode
Este comando permite recodificar algn valor de una variable
. recode x (1=2), gen(nx) *Ejemplo 1
. recode x1 (1=2) (2=1), gen(nx1) *Ejemplo 2
En el ejemplo 1 se recodifica la variable x, cambiando los valores 1 por valores 2, la
variable transformada se guarda como nx.
35


Figura 22. Recode
En el ejemplo 2 se cambia de 1 a 2 y de 2 a 1, generando la variable nx1.
3.12.1.1 Variables categricas a partir de variables continuas.
Ejemplo:
Suponga que se quiere generar una variable que segmente a la poblacin en grupos de
edad (menores de 18 aos, entre 18 y 25 aos, entre 26 y 40 aos, entre 41 y 60 aos,
mayores de 60 aos), con un numero distintivo para cada categora. Una opcin es
emplear el comando recode y generate (desde el do-file editor ) as:
. recode e02 (min/17=1) (18/25=2) (26/40=3) (41/60=4) (61/max=5), gen(gedad)

o en forma alternativa
recode e02 (min/17=1 "Menores de edad") (18/25=2 "Entre 18 y 25 aos") (26/40=3 "Entre 26 y 40 aos")
(41/60=4 "Entre 41 y 60 aos") (61/max=5 "Mayores de 60 aos"), gen(gedad)

La variable gedad es una recodificacin de e02 (edad). Note que se han aplicado
etiquetas a cada una de las categoras entre comillas.
. codebook gedad
36


Tabla 15. Comando codebook
3.12.2 Divisin de Variables de texto
Split divide una variable texto en nuevas variables por el espacio o un carcter especfico
split var1, parse(,) gen(geog)
3.13 Combinacin de bases de datos
La combinacin de bases de datos es un problema muy comn para el investigador o el
analista de informacin, Stata le permite realizar diferentes tipos de fusiones de bases de
datos, a continuacin se presentan los dos formatos ms importantes, la adicin vertical
(merge) y horizontal (append).

Figura 23. Combinacin de base de datos
3.13.1 Combinacin Vertical Append
Este comando agrega filas a la base de datos, las variables deben como regla contener
los mismos nombres, el mismo tipo de variable y adems la base de datos sus variables
deben estar ordenadas de igual forma. Para combinar conjuntos de datos verticalmente
se emplea el comando append.
En nuestro ejemplo, a la base de datos HOMBRES se va adicionar los casos
correspondientes la informacin de las mujeres as:

EDUCACION.dta
HOMBRES.dta
Adicin casos:
append
No es necesaria
variable llave

+
MUJERES.dta
Adicin de variables:
merge
Es necesaria variable llave.
Las bases de datos deben
estar ordenadas.
Revisar la variable _merge

+
37

. use hombres, clear
. append using MUJERES

En la nueva base de datos se ha combinado la informacin hombres y mujeres en una
nica base de datos.
. d

Tabla 16. Comando describe
En este punto se deben tener en cuenta dos aspectos.
1. El comando append debe estar acompaado de la palabra using la cual indica que
el nombre a continuacin corresponde a la base de datos de datos que ser
adicionada verticalmente.
2. Como la base de datos cargada en la memoria RAM ha cambiado es conveniente
que el usuario salve la nueva informacin con otro nombre as.

. save PERSONAS, replace
3.13.2 Combinacin Horizontal Merge
Se usa cuando se quieren traer nuevas variables de una base llamada using a una base
de datos ya existente o master, ste comando une dos bases de datos utilizando una
variable en comn (generalmente es una ID, llave o cdigo que identifica las
observaciones de la base de datos). Las dos bases de datos deben estar guardadas en
formato .dta, y deben estar ordenadas de acuerdo a la variable que se va a pegar. El
objetivo de este comando es agregar variables (columnas).
Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:
1. Ordenar (sort) la base de datos B de acuerdo a las variables con las que se har la
unin de las bases, es decir de acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.
38

3. Usar el comando merge
4. Guardar la base de datos (save)

Si la base no est ordenada y contiene datos repetidos emerge el siguiente error:
Using data not sorted
Master data not sorted

Para verificar que usted tenga un identificador nico se recomienda que lo verifique por
medio del comando isid.
. isid id num
Si emerge error es porque el identificador se repite y si va hacer una fusin tendr
inconvenientes. Al momento de realizar el merge se crea una variable denominado
_merge, que contiene tres valores:
_merge = = 1 Las observaciones son originarias del archivo master o base
_merge = = 2 Las observaciones son originarias del archivo using
_merge = = 3 Las observaciones se encuentran en ambos archivos
Siguiendo con el ejemplo anterior, se va a agregar a la base de datos PERSONAS.dta,
nuevas variables con la informacin sobre el nivel educativo y los aos de educacin
aprobados de las personas. Esta informacin se encuentra en la base de datos
EDUCACION.dta. Los pasos a seguir para realizar este tipo de pegue son:
1. Cargar la base using (EDUCACION.dta) de donde se quiere traer las nuevas
variables, la ordenamos de acuerdo con la(s) variable(s) identificadora(s) numero
y e01 y salvamos los cambios. El comando para ordenar las observaciones es
sort as:

. use EDUCACION
. sort numero e01
. d
. save EDUCACION, replace

En este caso, el comando save est acompaado de la opcin replace la cual
denota que se est sobrescribiendo en la base EDUCACION original.
2. Cargar la base master (PERSONAS.dta), se ordenan por el mismo criterio
anterior y se guardan los cambios.

. use PERSONAS
. sort numero e01
. d
39

. save PERSONAS, replace

3. Se aplica el comando merge para pegar horizontalmente las dos bases as:

La base de datos PERSONAS.dta contiene ahora las variables de la base de datos
EDUCACION.dta, creando automticamente la variable _merge.
3.14 Cambio en la organizacin de los datos
Cuando una base de datos tiene ms de una observacin por unidad de estudio
(individuo, pas, empresa, etc.) nos puede interesar slo trabajar con una observacin por
unidad (collapse) o mantener las observaciones distintas para cada individuo pero que se
creen como variables o columnas distintas (reshape)
3.14.1 Collapse
Si se tiene una base de datos de hogares, cada observacin es un miembro del hogar. Si
cada hogar dispone de un identificador nico, entonces se puede formar una base de
datos alternativa que contenga una sola observacin por hogar (en lugar de una
observacin por individuo) para cada una de las variables deseadas. Esta observacin
puede contener la media, desviacin estndar, suma u otro estadstico. Ejemplo:
. collapse (mean) edad (max) educacin (p50) ingreso, by(hogar)
Lo anterior crea una base de datos con cuatro variables, hogar, edad, ingreso y
educacin.
Con frecuencia, la informacin estadstica tiene algn grado de reserva o confidencialidad
que la hace no accesible al pblico en su forma original. La mayor parte de la informacin
proveniente de bases de datos grandes, por ejemplo las encuestas (de personas, de
hogares, de empresas de la industria manufacturera, etc.) o los censos (de poblacin, de
instituciones educativas, de edificaciones, etc.) suele ser presentada en tablas resumen y
en bases de datos colapsadas o agregadas.
En Stata es posible colapsar bases de datos a travs del comando collapse. Debe
tenerse en cuenta:
1. La(s) variable(s) de agregacin: Variable(s) que definen las nuevas unidades de
observacin u observaciones agregadas.
40

2. El(Los) criterio(s) de agregacin: Es la(s) operacin(es) matemtica(s) que ser(n)
aplicados a la base de datos original para obtener las nuevas unidades de
observacin colapsadas: suma, media, mediana, cuenta, percentil, etc.
3. La base de datos original ha sido modificada. Debera salvarse con un nuevo
nombre.
Por ejemplo, a partir de la base personas.dta, se puede obtener una base de datos
agregada por localidad y sexo as:
. collapse (mean) edu007, by(localid e03)

Tabla 17. Collapse
La variable edu007 corresponde a los aos de educacin promedio y jefe a la suma de los
jefes de hogar, en ambos casos, por localidad y sexo.
3.14.2 Reshape
En algunas ocasiones dependiendo del estudio muestral y de la construccin de la base
de datos, usted encontrar su informacin en dos formatos, ancho (wide) y largo (long), el
formato ancho es aquel en el cual usted tiene un conjunto i de individuos y un nmero j de
variables, donde j es generalmente una variable con informacin para diferentes perodos
de tiempo.
Para mostrar un ejemplo, se utilizar la base de datos reshapeState descrita en el libro
[1]:
. use http://www.Stata-press.com/data/imeus/reshapeState, clear
. list
41


Tabla 18. Comando list
En este caso se encuentran seis cdigos de estados de nueva Inglaterra, y aparece la
informacin de la poblacin desde 1970 hasta el 2000 calculada cada dcada, a
continuacin se transforma la base de datos de formato wide a long por medio del
comando reshape, la estructura de este comando es:
reshape long variable_j, i(variable_individuos) j(nombre nueva variable)
reshape wide variable_j, i(variable_individuos) j(variable_temporal)

Con la base de datos actual se pasa de wide a long
. reshape long pop, i(state) j(ao)

Tabla 19. Reshape long
. list

6. VT .1086679 .0445188 .5644092 .7219492 .6759487

5. RI .684176 .2551499 .2110077 .4079702 .0580662
4. NH .6047949 .8714491 .8414094 .1180158 .8944746
3. ME .5578017 .5552388 .5219247 .2769154 .4216726
2. MA .6432207 .0610638 .8983462 .9477426 .4611429
1. CT .1369841 .6184582 .4241557 .2648021 .871691

state pop1970 pop1980 pop1990 pop2000 area


pop1970 pop1980 ... pop2000 -> pop
xij variables:
j variable (4 values) -> ao
Number of variables 6 -> 4
Number of obs. 6 -> 24
>

Data wide -> long
42


Tabla 20. Comando list despus de Reshape long
Si se encuentra usted con una base de datos similar a la generada con el comando
reshape, podr pasarla a formato wide, en nuestro caso se usar la siguiente sintaxis
reshape wide pop, i(state) j(year)
Continuando con el ejemplo de la encuesta de hogares. Se puede hablar de orientacin
vertical u horizontal cuando a cada una de las observaciones i en una base de datos, se
las segmenta por algn criterio j (v.g., diferentes periodos de tiempo). En nuestro ejemplo,
cada una de las localidades i, ha sido segmentada por sexo j, mientras que la base de
datos en conjunto ha sido desplegada de forma vertical. En este caso sin embargo, puede
resultar ms cmodo emplear una base de datos orientada horizontalmente, en particular
si se quieren hacer comparaciones para cada una de las localidades entre hombres y
mujeres. Se puede emplear el comando reshape, acompaado de las opciones wide
(despliegue horizontal) o long (despliegue vertical), para cambiar la orientacin de la base
de datos colapsada as:
. reshape wide edu007, i(localid) j(e03)

24. VT 2000 .7219492 .6759487
23. VT 1990 .5644092 .6759487
22. VT 1980 .0445188 .6759487
21. VT 1970 .1086679 .6759487

20. RI 2000 .4079702 .0580662
19. RI 1990 .2110077 .0580662
18. RI 1980 .2551499 .0580662
17. RI 1970 .684176 .0580662
16. NH 2000 .1180158 .8944746

15. NH 1990 .8414094 .8944746
14. NH 1980 .8714491 .8944746
13. NH 1970 .6047949 .8944746
12. ME 2000 .2769154 .4216726
11. ME 1990 .5219247 .4216726

10. ME 1980 .5552388 .4216726
9. ME 1970 .5578017 .4216726
8. MA 2000 .9477426 .4611429
7. MA 1990 .8983462 .4611429
6. MA 1980 .0610638 .4611429

5. MA 1970 .6432207 .4611429
4. CT 2000 .2648021 .871691
3. CT 1990 .4241557 .871691
2. CT 1980 .6184582 .871691
1. CT 1970 .1369841 .871691

state ao pop area

43


Tabla 21. Comando list despus de Reshape wide
Para volver a la forma vertical
. reshape long edu007, i(localid) j(e03)

Tabla 22. Comando list despus de Reshape long
3.14.3 Xpose
Usted podr modificar la orientacin de una forma completa en su base de datos, es decir,
pasar de filas a columnas (similar a realizar un transponer en Excel), debe tener cuidado
dado que no podr retornar a la posicin inicial.
44

. sysuse auto , replace
. snapshot save, label(base original)
. keep mpg foreign
. xpose , clear varname


Figura 24. Antes de utilizar el comando xpose

Figura 25. Despus de utilizar el comando xpose
3.14.4 Stack
El comando stack le permitir a usted fusionar variables por ejemplo tiene los meses de
cada ao ordenados en columnas y quiero formar una sola variable con todos los meses
para todos los aos.

Figura 26. Base de datos antes del comando stack
. stack var2010 var2011 var2012 var2013, into(meses20102013) wide
45


Figura 27. Base de datos despus del comando stack
3.14.4.1 Extraer una muestra aleatoria de su base
En algunas ocasiones para hacer estudios muestrales requiere que la base de datos sea
dividida por un mtodo aleatorio, para ello podr hacer uso del comando simple
. sample 80 || tomar el 80% de la muestra
. sample 20, count || tomar 20 observaciones a l azar
3.15 Problemas en el manejo de bases de datos
Cuando usted trabaja con bases de datos en el da a da se encontrar con diferentes
problemas y situaciones que lo pondrn a prueba en el manejo no solo de Stata sino en el
conocimiento de su informacin, por eso es importante que siempre se pregunte antes de
hacer cualquier cambio en su base de datos, qu quiere hacer y cul es el resultado
esperado, de esta forma podr pensar ms fcilmente que tipo de ejecucin requiere en
Stata para llegar a su objetivo, a continuacin se presenta un conjunto de comandos que
presentan algunos casos tpicos en el manejo de bases de datos.
3.15.1 Replicar informacin
Dependiendo su anlisis podr requerir replicar algn tipo de informacin de su base de
datos, por ejemplo un cliente, un usuario, un grupo, una empresa, un pas, aunque no es
una alternativa muy comn, Stata le ayudar a realizar la reproduccin de sus datos,
expand, es el comando para duplicar informacin, pero con la caracterstica que lo puede
hacer n veces.
. sysuse auto, clear
. keep if price > 12000
. list make price
46


Tabla 23. List make y price
. expand 3
De acuerdo al comando usado, los datos se encontrarn 3 veces en la base de datos, tal
y como se presenta a continuacin.
. sort make price
. list make price

Tabla 24. Comando list mpg y price despus de expand 3
3.15.2 Verificacin de datos
El comando assert le permitir verificar la valides de sus datos, este comando le ofrece la
posibilidad de incluir en un archivo de programacin una condicin, si la condicin se
cumple parar la ejecucin de la programacin, y de esta forma usted podr chequear si
hay algo que no es correcto en su base de datos, por ejemplo, usted tiene una base de
datos con la edad de las personas, podr utilizar assert para verificar que en sta variable
no hayan datos extraos, como una edad mayor a 100 aos o menor a 0. La estructura
sera:

5. Peugeot 604 12,990
4. Linc. Versailles 13,466
3. Linc. Mark V 13,594
2. Cad. Seville 15,906
1. Cad. Eldorado 14,500

make price


15. Peugeot 604 12,990
14. Peugeot 604 12,990
13. Peugeot 604 12,990
12. Linc. Versailles 13,466
11. Linc. Versailles 13,466

10. Linc. Versailles 13,466
9. Linc. Mark V 13,594
8. Linc. Mark V 13,594
7. Linc. Mark V 13,594
6. Cad. Seville 15,906

5. Cad. Seville 15,906
4. Cad. Seville 15,906
3. Cad. Eldorado 14,500
2. Cad. Eldorado 14,500
1. Cad. Eldorado 14,500

make price

47

. assert edad < 0 | edad > 100
Y an ms completo se recomienda incluir evaluar valores perdidos
. assert edad < 0 | edad > 100 | edad = =.
3.15.3 Contador y reporte de datos repetidos
El comando count cuantifica el nmero de observaciones con ciertas caractersticas. La
instruccin por s sola, presenta el nmero total de observaciones, pero es posible
determinar algunas restricciones
Data Data Utilities Count obsevations
. count if foreign ==1
El comando isid nos permite asegurar que una variable es una codificacin nica dentro
de una base de datos, este comando se usa generalmente para chequear que no existan
observaciones duplicadas dentro de una base de datos. Si la variable tiene exactamente
valores nicos entonces no emerge ningn mensaje, de lo contrario aparece lo siguiente:
. isid foreign
variable foreign does not uniquely identify the observations
Otro comando que permite verificar si una variable no tiene valores duplicados es
duplicates report, que entrega informacin respecto a la cantidad de veces que se replica
la informacin, el comando duplicates se analiza en la siguiente seccin.
3.16 Anlisis de duplicados
Uno de los problemas comunes en el manejo de una base de datos es analizar si hay
presencia de observaciones duplicadas
En muchas ocasiones el analista de la informacin se enfrenta con un problema muy
comn y es la rplica de la informacin, por problemas de digitacin y/o captura de la
informacin, se puede repetir un caso, para ello Stata cuenta con un grupo de diferentes
opciones que le ayudarn a solucionar este problema tan comn, con las herramientas
vistas hasta el momento como la creacin de variables, condicionales, transformacin
entre otras tiene a la mano diferentes formas de conocer cundo hay un valor repetido o
similar en la base de datos,
Data Data utilities Manage Duplicate Observations
48


Figura 28. Administracin de Duplicados
En la figura 18 puede observar las opciones disponibles para el manejo de datos
duplicados, se recomienda seguir cada una de las opciones, Report Duplicates le ofrece
la opcin de seleccionar bajo que variable(s) desea analizar si existen duplicados o no,
por ejemplo:
. sysuse auto, clear
. keep if price > 12000
. expand 3
. duplicates report make

Lo que nos genera el siguiente resultado

Tabla 25. Comando duplicates
El resultado indica que hay 15 observaciones en total de las cuales hay 10 en exceso o
duplicadas, indica adicionalmente que para cada observacin hay 3 copias.
Para ver el listado total de elementos duplicados
. duplicates list make

3 15 10

copies observations surplus

Duplicates in terms of make
. duplicates report make
49


Tabla 26. List despus de duplicates
Como se puede observar para cada marcar de automvil hay dos valores adicionales, lo
que ya nos haba indicado la opcin report informando que haban tres observaciones
para cada categora.
La siguiente opcin Tags duplicates permite crear una variable que indica el nmero de
valores adicionales en este caso ser 2, si se utiliza el tag y se realiza una lista se
apreciar el resultado.
. duplicates tag make, generate(duplicado)
. list make duplicado

Tabla 27. Comando list make duplicado

5 15 Peugeot 604
5 14 Peugeot 604
5 5 Peugeot 604
4 13 Linc. Versailles
4 12 Linc. Versailles

4 4 Linc. Versailles
3 11 Linc. Mark V
3 10 Linc. Mark V
3 3 Linc. Mark V
2 9 Cad. Seville

2 8 Cad. Seville
2 2 Cad. Seville
1 7 Cad. Eldorado
1 6 Cad. Eldorado
1 1 Cad. Eldorado

group: obs: make

Duplicates in terms of make

15. Peugeot 604 2
14. Peugeot 604 2
13. Peugeot 604 2
12. Linc. Versailles 2
11. Linc. Versailles 2

10. Linc. Versailles 2
9. Linc. Mark V 2
8. Linc. Mark V 2
7. Linc. Mark V 2
6. Cad. Seville 2

5. Cad. Seville 2
4. Cad. Seville 2
3. Cad. Eldorado 2
2. Cad. Eldorado 2
1. Cad. Eldorado 2

make duplic~o

50

Uno de los objetivos es eliminar los valores duplicados
Para ello use la opcin drop duplicates

Figura 29. Eliminar duplicados
. duplicates drop make, force
. list make

Tabla 28. Eliminar los duplicados con respecto a make
3.17 Creacin de programas editor de texto

Figura 30. Creacin de un archivo .do
El usuario puede ejecutar uno o ms comandos simultneamente, generar (macros) o
crear rutinas nuevas para STATA desde un editor de texto al que se accede haciendo clic
en el icono New Do-file Editor. A travs de este editor se pueden crear archivos tipo

5. Peugeot 604
4. Linc. Versailles
3. Linc. Mark V
2. Cad. Seville
1. Cad. Eldorado

make

51

*.do y *.ado. Los archivos *.do son conjuntos de comandos y macros que nicamente se
pueden ejecutar cuando el archivo est activo. En contraste, los archivos *.ado son rutinas
que se incorporan a STATA permanentemente y pueden ser ejecutadas desde la el
cuadro de comandos o incluso desde otros archivos *.do y *.ado. Se accede a este editor
como se muestra en la siguiente ilustracin, presionando CTRL+9 o haciendo clic en el
submen Do-file Editor en el men Window en la barra de herramientas
5
.
3.18 Ejemplo aplicado
En ocasiones las bases de datos no se encuentran completas, por un lado por datos
faltantes en columnas o en filas, por lo tanto en esta seccin se explica cmo aadir
nuevas observaciones de bases de datos externas utilizando comandos como merge y
append.
1. Se utiliza la base de datos llamada REGION19572004, la cual contiene datos de
1957 hasta 2004 para pases de la regin latinoamericana excluyendo a Chile para
efectos de aprendizaje, la cual fue descargada de la base de datos de
https://pwt.sas.upenn.edu/.
2. Se utiliza la base de datos llamada POBLACION19572004, la cual contiene la
poblacin de cada pas en cada periodo de tiempo, y se aplicara el comando
merge, con el objetivo de agregar esta variable a la base de datos del primer punto
de forma vertical.
3. Se utiliza la base de datos llamada CHILE19572004, la cual contiene las misma
variables que el punto uno y dos, pero solo para el pas de Chile, se aplicara el
comando append, con el objetivo de agregar una nueva observacin de orden
horizontal.
4. Se identificara algunos comandos bsicos para el manejo de bases de datos tales
como: browse, codebook, describe, drop in, drop, keep, sort, save,
. cd "C:\Users\SOFWARESHOPFILES"
. use "POBLACION19572004"
. sort country year
. browse
. save "POBLACION19572004.dta", replace

. use "REGION19572004"
. sort country year
. merge 1:1 country year using "POBLACION19572004"
. br
.codebook _merge
.drop _merge


5
Es posible usar el comando doeditor para abrir el editor de programacin.
52


Tabla 29. Merge 1:1

Tabla 30. Codebook

.append using CHILE19572004
.sort country year
.save "DATASETALL"

En ocasiones solo se necesita la observacin de un pas o un determinado ao, para este
caso se utilizan comandos como keep y drop.

keep, mantiene las variables en la memoria dependiendo de las condiciones o el rango de
observaciones, drop, elimina las variables de la base de datos dependiendo de las
condiciones o el rango de observaciones.

Por ejemplo, se desea que se mantenga en memoria los pases de Brazil y Chile para los
aos 2000 y 2004.

. keep if country=="Brazil" | country== "Chile"
. drop if year>=1957 | year<=1999

Por ejemplo, se desea mantener en memoria aquellas variables que cumplan con alguna
condicin en este caso para aquella poblacin que sea mayor a 30.000.000.

. keep if pop>=30000

Por ejemplo, se desea que se eliminen las dos primeros aos para cada pas.

. by country: drop if year==1957 | year==1958

53

3.18.1 Cambiando la orientacin de la base de datos: De horizontal a vertical
y viceversa

. reshape wide xrat ppp cgdp2 cc cg ci pop, i(country) j(year)


Tabla 31. Reshape wide
Para volver a la forma vertical

. reshape long xrat ppp cgdp2 cc cg ci pop, i(country) j(year)


Tabla 32. Reshape long
3.18.2 Ejercicio

1. Utilizar las bases de datos de calidad de vida para el pas Colombia ao 2010:
Dbfp_encv_547_1, Dbfp_encv_547_4, Dbfp_encv_547_5.
2. Se debe aplicar el comando merge 1:1 para consolidar las tres bases de datos,
siendo la base de datos Dbfp_encv_547_1 master.
3. Recomendaciones: elegir la llave correcta, eliminar los datos que se desean
excluir de la muestra (e.g. Nro_encuesta, nro_encuesta) drop, organizar de forma
ascendente la llave sort, guardar la bases de datos con nombre alternos (e.g.
20101, 20102, 20103) save, aplicar el comando merge.

54

3.19 Comandos usados
append
browse
by
bysort
cd
clear
codebook
compress
db
decode
describe
destring
drawnorm
drop
duplicates
edit
encode
egen
exit
format
generate
gsort
infile
insheet
invnormal()
keep
label
list
log
merge
mvdecode
mvencode
open
order
outfile
prefix
recode
rename
replace
reshape
save
snapshot
sort
sysuse
use
uniform()
varmanage
xpose
55

3.19.1 Otros comandos recomendados
capture
cf
count
cross
datasignature
expand
filin
format
infile
inspect
joinby
label language
language

mat
more
notes
sample
seed
separate
split
stack
svy
tostring
translate
version
operators




























56

4. ANLISIS ESTADSTICOS CON STATA

Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posible
encontrar varios comandos en diferentes mens. Por ejemplo para poder obtener las
estadsticas descriptivas de una variable es posible usando inicialmente los comandos o
por medio de ventanas de ejecucin.
Algunos comandos despliegan mucha informacin que se va mostrando por secciones,
para que sigan apareciendo los resultados es necesario dar clic en el botn clear--more--
condition, o en el mensaje de more- que aparece en la parte inferior de la ventana de
resultados.

Figura 31. Opcin More and Break
Pero es posible desactivar la opcin para que aparezca todo el resultado inmediatamente
por medio de set more off.
Para el anlisis estadstico el men Statistics permite obtener gran cantidad de opciones
para poder desarrollar los temas del manual. Por ejemplo en Statistics Summary,
tables, and test Summary and descriptive statistics:

Figura 32. Anlisis estadstico
Break
Clear--more
57

Finalmente en Statistics Summarize, tables and test, se pueden realizar varias
operaciones como son clculo del intervalo de confianza, test para medias, varianzas, dos
muestras, etc., pruebas parmetricas y no parmetrica
4.1 Estadstica descriptiva
Para poder realizar este tipo de procedimiento se escribe en la barra de comandos el
comando sum que es el prefacio del comando summarize es un comando estndar para
generar estadsticos descriptivos, proporciona informacin acerca del nmero de
observaciones, la media, la desviacin tpica, el mnimo y el mximo de la variable
especificada, por medio de la secuencia Data Describe data Summary Statistics o en
el men Data y en Statistics Summary, tables and test

Figura 33. Estadstica descriptiva
Lo que se genera:

Tabla 33. Comando summarize
Si se agrega la opcin detail, se agrega el coeficiente de asimetra, y curtosis y varios
percentiles de la(s) variable(s) dadas:
58


Tabla 34. Comando sum, detail
4.2 Ponderadores -weight-
fweight: frequency weights, indica el nmero de casos que representa realmente cada
observacin muestral. La variable debe contener enteros positivos.
pweight: sampling weights, indica la inversa de la probabilidad de seleccin muestral de
cada observacin. Han de ser positivos, pero no necesariamente enteros.
aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza de
cada observacin. Un uso tpico de este tipo de ponderacin es cuando las observaciones
son medias y el peso representa el nmero de elementos que generan la media. Han de
ser positivos, pero no necesariamente enteros.
Iweight (importance weights): estos comandos no tienen definicin estadstica formal,
simplemente representan de alguna forma la importancia que se atribuye a cada
observacin. Cada comando que los acepta explica cmo los utiliza puede tener cualquier
forma.
4.3 Calculo de medias
Medias StatisticsSummarize, tables and testSummary and descriptive statistics
Arith/Geometric/Harmonic means
Esta opcin permite calcular la media: aritmtica, geomtrica o armnica. Para una
variable en especfico o para toda la base de datos en caso de dejar el espacio variables
en vacio. Los comandos que se pueden utilizar para realizar el clculo son: ameans,
gmeans o hmeans
59


Figura 34. Media para las variables

Tabla 35. Medias para las variables price y mpg
4.4 Intervalos de confianza
Intervalos de confianza StatisticsSummarize, tables and test Summary and
descriptive statisticsConfidence Intervals.

60


Figura 35. Intervalos de confianza para las variables

Tabla 36. Intervalos de confianza para la variable price
4.5 Pruebas de hiptesis
4.5.1 Media
Con Stata se pueden realizar test de hiptesis sobre la media
. ttest horas = 15
Tambin realizar hiptesis de diferencia de medias cuando existe homogeneidad en
varianzas
. ttest horas = wporhora
Cuando no existe homogeneidad en varianzas
. ttest horas = wporhora, unequeal

price 74 6165.257 342.8719 5481.914 6848.6

Variable Obs Mean Std. Err. [95% Conf. Interval]
. ci price
61

4.5.2 Varianza
Este comando realiza una prueba en la igualdad de varianzas (desviaciones estndar).
Este prueba tiene tres formas para ser evaluada, en la primer forma se demuestra que la
desviacin estndar es igual a un nmero, en la segunda se demuestra si una variable1 y
otra vairable2 tienen la misma desviacin estndar y la ltima forma se realiza la misma
prueba pero utilizando una variable grupo. Esta prueba utiliza la tradicional prueba F para
la homogeneidad entre varianzas entre muestras con n-1 grados de libertad, donde la
hiptesis nula describe la igualdad entre varianzas y una hiptesis alternativa
describiendo la diferencia que existe en la varianza de las muestras
. sdtest variable1=1
. sdtest variable1=variable2
. sdtest variable1, by(variablegrupal)
4.5.3 Proporciones
Este comando realiza pruebas en la igualdad de proporciones utilizando grandes
muestras estadsticas. Y posee las mismas caractersticas y formas de emplear que el
comando de la seccin 4.5.2.
. prtest variable1=variable2
4.6 Manejo de tablas de datos
Los comandos tabulate y table ofrecen a los usuarios de Stata una amplia gama de
posibilidades de descripcin y anlisis de datos a travs de diferentes tipos de
estadsticos y cruces de variables en cuadros de frecuencias y tablas de resumen.
Se puede encontrar en el submen StatisticsSummary, tables, and testTables
62


Figura 36. Tablas
Gran variedad de opciones para analizar encuestas como tablas de doble y mltiple
entrada, de igual forma permite ver la tabla de frecuencias y de contingencia
4.6.1 Tabstat
Para la generacin de tablas descriptivas, Stata ofrece diferentes opciones, la opcin
tabstat puede calcular la media, desviacin estndar, varianza, el nmero de
observaciones, entre otras.

Figura 37. Tabstat
63


Figura 38. Opciones Tabstat
4.6.2 Tabulate (tab)
El comando tabulate (en forma abreviada ta o tab) produce un cuadro de frecuencias para
diferentes valores o categoras de una variable. La sintaxis del comando es:



Tabla 37. Comando tabulate rep78
Combinado con la opcin plot, el comando tabulate genera un histograma horizontal que
describe grficamente la frecuencia de cada una de las categoras.
Total 69 100.00

5 11 15.94 100.00
4 18 26.09 84.06
3 30 43.48 57.97
2 8 11.59 14.49
1 2 2.90 2.90

Record 1978 Freq. Percent Cum.
Repair
. tabulate rep78
64

Se puede tabular de forma separada ms de una variable con el comando tab1. Para
visualizar las frecuencias de cada una de las variables creadas con el procedimiento
anterior se podr usar la siguiente sintaxis:
. tab1 ed1 ed2 ed3 ed4 ed5 ed6
El comando tab permite generar cuadros de frecuencia de 2 vas (2 variables) as:
. tab edu004 e03
Donde la primera variable enunciada determinar el contenido de las filas y la segunda el
contenido de las columnas.

Tabla 38. Comando tabulate doble entrada.
4.6.3 Table
De otro lado, el comando table permite crear tablas de contingencia doble o mltiple y a
su vez definir el tipo de contenido estadstico para los campos de una tabla. La forma ms
simple de una tabla de contingencia es un cuadro de frecuencias absolutas. La sintaxis
para generar tablas de contingencia es:


Por ejemplo la sintaxis
. table edu004
Genera una tabla de frecuencia simple con el sub-total de personas que alcanzaron cada
nivel educativo. La tabla resultante tan slo tiene en cuenta las unidades sin expansin
disponibles en la muestra. Sin embargo, las opciones del comando table, permiten
obtener reportes mucho ms elaborados como se muestra a continuacin:
1. Con la opcin [weight=] es posible expandir la informacin de la muestra para que
se ajuste a la poblacin (universo) total proyectado. Esto se logra a travs de
65

ponderadores de frecuencia, de muestra, ponderadores analticos y de importancia.
Siguiendo con el ejemplo:

. table edu004 [pw=fex]
Genera una tabla expandida que reporta el total de personas proyectadas en la
poblacin total que alcanzan cada uno de los niveles educativos.
2. As mismo el comando table permite resumir informacin de una variable teniendo en
cuenta uno o ms criterios de segmentacin as:

. table edu004 e03 [pw=fex],
La primera variable edu004 define las categoras de cada una de las filas de la tabla
de contingencia y la segunda variable e03 las categoras de cada columna.
3. Los totales por columna y por fila para una o ms variables se obtienen con las
opciones col y row respectivamente as:

. table edu004 e03 [pw=fex], row col
4. La opcin format permite dar formato a los contenidos de la tabla para facilitar la
lectura de los resultados. Por ejemplo, para desplegar la informacin con separadores
de miles y cero decimales la sintaxis es:

. table edu004 e03 [pw=fex], row col format(%10.0fc)

Tabla 39. Comando table
5. Adems de las frecuencias absolutas, el usuario puede definir otro tipo de contenido
c() estadstico para los campos de la tabla. Por ejemplo, se pueden obtener en una
tabla de contingencia la edad promedio de hombres y mujeres por nivel educativo as:

. table edu004 e03 [pw=fex], c(mean e02) row col format(%4.2fc)

66


Tabla 40. Comando table con estadstica descriptiva
Hasta 5 diferentes tipos de medicin pueden ser incorporados a una tabla de
contingencia. Algunos de los ms usados son:
mean media de la variable
sd desviacin estndar
sum suma
count conteo de observaciones
max mximo
min mnimo
median mediana

Finalmente puede crear una variable dummy para cada categora, simplemente, se
agrega la opcin generate.
. tabulate rep78, generate(dummy)
4.7 Pruebas no paramtricas
- Test No parmetrico Spearmans StatisticsSummarize, tables and test
Nonparametric Test of hyphotesisSpermans rank correlation
Esta prueba es una manera de medir la correlacin en una medicin no
paramtrica, en donde se asume que no existe ningn supuesto sobre la
distribucin de frecuencia de las variables. La correlacin de Spearman mide el
grado de asociacin entre dos variables cuantitativas que siguen una tendencia
siempre creciente o siempre decreciente.
. spearman price mpg
. spearman price mpg, matrix
67


Figura 39. Prueba de Sperman

Tabla 41. Correlaciones por la prueba de Speaman
Con el anterior test se comprueba que el precio y las millas por hora de un vehculo tienen
una relacin dependiente negativa.
- Test No parmetrico KSStatisticsSummarize, tables and
testNonparametric Test of hyphotesis Two- sample Kolmogorov-Smirnov test
Es una prueba de significancia estadstica no paramtrica para contrastar la
hiptesis nula cuando los parmetros de localizacin de ambos grupos son
iguales. Por lo tanto, la hiptesis nula describe que las dos distribuciones son
iguales y que existe evidencia de un patrn aleatorio, mientras que la hiptesis
alternativa corresponder a que existe un patrn no aleatorio.

Figura 40. Opciones de la prueba no paramtrica Kolmogorov-Smirnov
68


Tabla 42. Prueba Kolmogorov-Smirnov
A travs de esta prueba se puede inferir que la distribucin del precio de los vehculos es
igual para el grupo de vehculos que provienen del extranjero y los nacionales. Por lo
tanto se acepta la hiptesis nula de que la muestra proviene de una distribucin normal.
4.8 Ejemplo aplicado
Para esta seccin se utiliza la base de datos Cenan-2009-2010-Personas, descargada
de la pgina web del Instituto Nacional de Estadstica e Informtica de Per.

Variable a utilizar Descripcin
ao_prg Ao en el cual se realiza la encuesta
mes_prg Mes en el cual se realiza la encuesta
c101_edad_anio Edad del individuo
c101_sexo Genero del individuo
c104 Peso neto del individuo (Kg)
c107 Talla (Cm).
C116 Ocupacin profesional
Tabla 43. Descripcin de las variables en el ejemplo
En la seccin de manejo de bases datos se describi los comandos para mantener e
eliminar variables para este caso se toma el ao 2010 y el mes de abril.

. use "C:\Users\Desktop\298-Modulo124 2\Cenan-2009-2010-Personas.dta"
. keep if ao_prg=="2010"
. keep if mes_prg=="04"
4.8.1 Comandos Bsicos
Sum, table, tabstat, tabulate.
69

4.8.2 Ayuda visual table y tabstat

Figura 41. Estadstica descriptiva para una entrada

Figura 42. Estadstica descriptiva dos entradas
Por ejemplo, se quiere saber los aspectos generales de la muestra, alguna variable en
especfico o algn momento estadstico de una variable.

. sum
. sum c101_edad_anio, d

70


Tabla 44. Estadstica descriptiva para la variable aos
. tabstat c101_edad_anio c104 c107, stat (mean sd min max n)

Tabla 45. Estadstica descriptiva teniendo en cuenta variables y momentos estadsticos
. tabstat c101_edad_anio c104 c107, stat (count mean sd p50 min max skew kurt n) by ( c101_sexo)


Tabla 46. Estadstica descriptiva desagregada por gnero
71

Nota: Puede notar que el valor mximo para talla en centmetros es igual 999.9. Para codificar esta
variable se digita el siguiente comando recode c107 (999.9=.). (Ver ms informacin en la seccin
3.12.1)
4.8.3 Tablas de contingencia
Por ejemplo, se requiere el peso promedio neto por edad y sexo, teniendo como
restriccin aquellas personas que sean mayores de 17 y menores a 41 aos.

. table c101_edad_anio c101_sexo, contents(mean c104), if c101_edad_anio>=18 & c101_edad_anio<=40

Tabla 47. Tabla de contingencia por gnero
Se requiere una tabla que contenga el peso promedio neto y el nmero de individuos por
edad y sexo, teniendo en cuenta la ocupacin profesional del individuo.

. by c116, sort: table c101_edad_anio c101_sexo, contents(mean c104 count c104)
72


Tabla 48. Tabla de contingencia por ocupacin profesional.
4.8.4 Tablas de frecuencia
Se requiere una tabla de frecuencia que tenga en cuenta la edad y una restriccin con
respecto a que los individuos sean menores a 18 aos.
. tabulate c101_edad_anio if c101_edad_anio<=18
Se requiere una tabla de frecuencia que tenga en cuenta la poblacin entre los 16 y 18
aos y que muestre el porcentaje del total en forma de fila y una siguiente en forma de
porcentaje por filas y columnas.
. tabulate c101_edad_anio c101_sexo, row, if c101_edad_anio<=18 & c101_edad_anio>=16
. tabulate c101_edad_anio c101_sexo, row col, if c101_edad_anio<=18 & c101_edad_anio>=16

73







4.8.5 Correlaciones
Se requiere medir el grado de asociacin entre las variables de edad y peso neto, con
dos medidas de correlacin. Una de manera paramtrica y la otra de manera no
paramtrica.
Tabla 50. Tabla de frecuencia para individuos
menores de 18 aos
Tabla 51. Tabla de frecuencia con porcentaje fila
y columna para individuos entre 16 y 18 aos

Tabla 49. Tabla de frecuencia por fila de
individuos entre 16 y 18 aos

74

. pwcorr c101_edad_anio c104, sig *Lineal
. spearman c101_edad_anio c104 *No lineal


Tabla 52. Correlacin entre edad y peso neto

Tabla 53. Prueba de Spearman
Para los dos tipos de prueba existe evidencia que el peso est altamente correlacionado
con la edad del individuo, con una correlacin positiva..
4.8.6 Prueba para la media
En una muestra de 6.898 individuos es la edad media igual que la de la poblacin de la
que proviene esta muestra?
. sum c101_edad_anio

Tabla 54. Estadstica descriptiva para la edad
. ttest c101_edad_anio=29.78994
75


Tabla 55. Prueba de medias
4.8.7 Prueba para detectar normalidad
. sktest c101_edad_anio

Tabla 56. Prueba de normalidad
. egen aniosmean=mean( c101_edad_anio)
. egen aniossd=sd( c101_edad_anio)
. ksmirnov c101_edad_anio=normprob( (c101_edad_anio-aniosmean)/aniossd)


Tabla 57. Prueba Kolmogorov-Smirnov
Mediante las dos pruebas que se realizaron para detectar la presencia de normalidad en
la variable de aos del individuo se llega a la conclusin que esta variable no sigue una
distribucin normal.
4.8.8 Pruebas para la media: dos muestras independientes
Es igual la media de la edad para hombres y mujeres?
76

. tabstat c101_edad_anio, by( c101_sexo)
4.8.8.1 Homogeneidad de varianzas
. sdtest c101_edad_anio, by( c101_sexo)

Tabla 58. Test de homogeneidad de varianzas
Como se cumple la homogeneidad de varianzas, se puede utilizar la t de Student para
muestras independientes.
. ttest c101_edad_anio, by( c101_sexo)

Tabla 59. Test de medias.
En caso de que las varianzas de las dos muestras sean diferentes, se utiliza unequal o el
test de Welch w.
. ttest c101_edad_anio, by( c101_sexo) unequal
. ttest c101_edad_anio, by( c101_sexo) w
4.8.9 Comparacin de k medias independientes
Se obtiene de 6.898 individuos el peso neto y su respectivo sexo. Es diferente el peso
neto en funcin del gnero?
77

4.8.9.1 ANOVA de una Va
. tabstat c104, by ( c101_sexo)

Tabla 60. Media del peso neto por gnero
Primero se crea una variable con los residuales para comprobar su normalidad.
. gen residuales= c104-50.77146 if c101_sexo==1
. replace residuales= c104-48.40414 if c101_sexo==2
Segundo se comprueba la normalidad de los residuales, tanto con test estadsticos como
por mtodos grficos.
. pnorm residuales
. qnorm residuales
. swilk residuals
.sktest residuals



Tabla 61. Prueba de normalidad Shapiro-Wilk de los errores
-
1
0
0
-
5
0
0
5
0
1
0
0
r
e
s
id
u
a
le
s
-100 -50 0 50 100
Inverse Normal
Figura 44. Distribucin normal estandarizada
0
.
0
0
0
.
2
5
0
.
5
0
0
.
7
5
1
.
0
0
N
o
r
m
a
l
F
[
(
r
e
s
id
u
a
le
s
-
m
)
/
s
]
0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1)
Figura 43. Cuantiles de los residuales vs
cuantiles de la distribucin normal
78



Tabla 62. Prueba de normalidad de los errores
Tercero, se comprueba la homogeneidad de varianzas
. robvar c104, by ( c101_sexo)

Tabla 63. Prueba de Homogeneidad de varianzas
Cuarto, se lleva a cabo el ANOVA, y se coloca como opcin elaborar una tabla descriptiva
t y algunas opciones tiles para hacer comparaciones b anova, sc anova, si anova, para
hacer comparaciones Bonferroni, Scheffe y Sidak, respectivamente.
. oneway c104 c101_sexo, t

Tabla 64. Tabla ANOVA
79

4.8.10 Exportar tablas
Existen algunas aplicaciones dentro de STATA 12, para exportar tablas las cuales son
tabout y outreg2, outreg2 solo ser til despus de una estimacin economtrica. Pero
antes de ser utilizadas deben ser instaladas y mirar su aplicabilidad dentro del software.
Despus de instalar las aplicaciones y la posterior apertura al software Stata 12, se digita
el comando adoupdate, update, para mostrar si existe alguna nueva actualizacin de la
aplicacin.
. ssc describe tabout
. ssc describe outreg2
. ssc install tabout
. ssc install outreg2

1. Codificar las variables a las cuales se desea exportar en tablas
. recode c101_sexo (1=1 "Hombre") (2=2 "Mujer"), gen (genero)
2. Utilizar el comando tabout teniendo en cuenta parmetros y opciones.
. help tabout
tabout [ varlist ] [ if exp ] [ in range ] [ weight = exp ] using filename [ , options ]
. tabout c101_edad_anio genero using table1.xls if c101_edad_anio>=18 & c101_edad_anio<=22, cells(freq
col cum) format (0 1 1) cl ab(No. Col% Cum%) replace

Tabla 65 Comando tabout en Stata 12

Tabla 66. Archivo en Excel.

80


Tabla 67. Archivo de texto
3. Utilizar el comando outreg2 teniendo en cuenta parmetros y opciones.
. help outreg2
outreg2 [varlist] [estlist] using filename [, options] [: command]
4.8.11 Ejercicio
1. Utilizar la base de datos que se consolido en la seccin manejo de base de
datos.
2. Construir una tabla estadstica que muestre el valor mximo y mnimo de
p6154s2a1 Valor de la consulta mdica. tabstat
3. Construir una tabla de contingencia en donde muestre el promedio de la edad
p6040 teniendo en cuenta el parentesco del hogar p6051 y el sexo p6020.
by, table, contents, mean.
4. Construir una matriz de correlaciones entre edad p6040 y salario
j12_cuanto_gano. pwcorr.
5. Establecer si para la muestra, la edad media de hombres y mujeres es igual.
ttest, sdtest.
4.9 Comandos usados
ameans
anova
by, sort
ci
collapse
contract
correlate
display
egen
estat
gen
gmeans
help tabout
hmeans
keep
ksmirnov
level
mean
misstable
normprob
oneway
oneway
outreg2
pnorm
pwcorr
pwcorr
qnorm
quietly
81

recode
replace
robvar
scalar
sdtest
sktes
sktest
sktest
spearman
ssc describe
ssc install
summarize
swilk
tab1
tab2
table
table
tabstat
tabstat
tabulate
tabulate
test
ttest
ttest
use
xi
4.9.1 Otros comandos recomendados

compare
ereturn
ktau
ladder
outreg
outreg2
Return
set level 90
Signtest
spearman
stem
tabi
weight










82

5. GRAFICAS CON STATA

Stata cuenta con una poderosa herramienta grfica, permitiendo obtener grficas de
excelente calidad y con varias opciones de edicin de las mismas, es posible realizar
grficas como histogramas, barras, de torta, series de tiempo, Box plot, dispersin, para
datos panel y para otros tipos de anlisis como son de supervivencia, multivariado, control
de calidad, etc.
Stata tiene dos formas de generar mltiples grficos, a travs de la ventana de comandos
con el comando graph o utilizando la barra de herramientas en Graphics. El comando
graph se utiliza con el tipo de grfico a realizar. A continuacin se presenta la lista de
posibles grficos
Plottype Description
scatter Scatterplot
line line plot
connected connected-line plot
scatteri scatter with immediate arguments
area line plot with shading
bar bar plot
spike spike plot
dropline dropline plot
dot dot plot
rarea range plot with area shading
rbar range plot with bars
rspike range plot with spikes
rcap range plot with capped spikes
rcapsym range plot with spikes capped with symbols
rscatter range plot with markers
rline range plot with lines
rconnected range plot with lines and markers
pcspike paired-coordinate plot with spikes
pccapsym
paired-coordinate plot with spikes capped with
symbols
pcarrow paired-coordinate plot with arrows
pcbarrow
paired-coordinate plot with arrows having two
heads
pcscatter paired-coordinate plot with markers
pci pcspike with immediate arguments
pcarrowi pcarrow with immediate arguments
tsline time-series plot
tsrline time-series range plot
83

mband median-band line plot
mspline spline line plot
lowess Lowess line plot
lfit linear prediction plot
qfit quadratic prediction plot
fpfit fractional polynomial plot
lfitci linear prediction plot with CIs
qfitci quadratic prediction plot with CIs
fpfitci fractional polynomial plot with CIs
function line plot of function
histogram histogram plot
kdensity kernel density plot
lpoly local polynomial smooth plot
lpolyci local polynomial smooth plot with CIs
Tabla 68. Grficos twoway

Plottype Description
graph matrix Matrices de grficos
graph bar Grficos de barras vertical
graph hbar Grficos de barras horizontal
graph dot Grficos de medias
graph box Grficos de cajas
graph pie Grficos de tortas
Tabla 69. Otro tipo de grficos
Ejemplo:
. graph twoway connected var1 var3
. graph twoway scatter var3 var1 var4
. graph box var5 if dummy = =1
. graph pie var3 var1 in 1/30

Para grabar un grfico, se usa el comando graph save graph.gph y el nombre del archivo,
recuerde que la extensin de los grficos de Stata es .gph. Si se quiere traer de nuevo se
usar graph use graph.gph
Es posible combinar grficos por medio del comando combine graph1 graph2..
A continuacin se presenta una explicacin ms detallada de la creacin de los diferentes
tipos de grficos
84

5.1 Histograma
Histograma: GraphicsHistogram

Figura 45. Histograma

Figura 46. Opciones del histograma.
. histogram price, normal, (bin=33, start=2006, width=258942.94)
85


Figura 47. Histograma del precio
5.2 Grfico de tortas
Grfica de Tortas : GraphicsPie Chart

Figura 48. Opciones del grfico de tortas
. graph pie, over(foreign) title(Grfico de tortas) legend(on rows(2)) pie(2, explode) plabel(1 percent, gap(30))
plabel(2 percent) legend(position(9))
0
1
.
0
e
-
0
4
2
.
0
e
-
0
4
3
.
0
e
-
0
4
D
e
n
s
i
t
y
0 5,000 10,000 15,000
Price
86


Figura 49. Grfico de tortas porcentajes como etiqueta
. graph pie, over(foreign) title(Grfico de tortas) plabel(_all name, gap(-5)) plabel(_all percent, gap(5))
legend(off)

Figura 50. Grfico de tortas con etiquetas
87

5.3 Graficas twoway

Figura 51. Grficos twoway
Todos los comandos para graficas empiezan por graph, pero esto es opcional
dependiendo el tipo de grfico solo se pone la opcin TWOWAY


Figura 52. Opciones de grficos twoway
88


Figura 53. Grafica twoway dispersin.

Usando los comandos para hacer esta grfica solo es necesario escribir

. scatter mpg weight

Se puede crear grficos por grupos usando el comando by

. twoway scatter mpg weight, by(foreign)


Figura 54. Grfico por grupos

Para acceder por medio de ventanas

1
0
2
0
3
0
4
0
M
i
l
e
a
g
e

(
m
p
g
)
2,000 3,000 4,000 5,000
Weight (lbs.)
1
0
2
0
3
0
4
0
2,000 3,000 4,000 5,000 2,000 3,000 4,000 5,000
Domestic Foreign
M
i
l
e
a
g
e

(
m
p
g
)
Weight (lbs.)
Graphs by Car type
89


Figura 55. Ayuda visual para crear grficos por grupo

Es posible crear varios tipos de grficas en un solo grfico, algo muy usual es el uso de la
grfica scatter con una recta de regresin ajustada.

Se debe crear un nuevo grfico sin eliminar el anterior


Figura 56. Generar dos grficos en uno solo

. twoway scatter mpg weight || lfit mpg weight *Con una notacin diferente de separacin
. twoway (scatter mpg weight) (lfit mpg weight)

90


Figura 57. Grfico de dispersin y ajuste lineal.

5.4 Editor de grficos de Stata

Figura 58. Edicin de grficas


1
0
2
0
3
0
4
0
2,000 3,000 4,000 5,000
Weight (lbs.)
Mileage (mpg) Fitted values
91


Figura 59. Opciones en la edicin de grficos
5.4.1 Haciendo doble clic sobre el rea de la grafica
Se pueden agregar lneas horizontales o verticales indicando el valor del eje Y/o X donde
se desea trazar la lnea


Figura 60. Agregar lneas a la grfica



92

5.5 Grfico de series de tiempo
. twoway line Coke date



Figura 61. Grfico del precio de la accin de Coca Cola a travs del tiempo
Otra manera de graficar series de tiempo, primero se debe crear una variable de tiempo
con el comando tsset y utilizar el comando tsline con la variables que se desean grficar.
. tsset date, m
. tsline Coke
93


Figura 62. Grficos con series de tiempo
5.6 Grfico de dispersin
. sysuse census.dta, clear
94


Figura 63. Grficos de dispersin.

Figura 64. Opciones de grficas de dispersin

. graph matrix pop medage death marriage, maxes(ylab(none) xlab(none)) by( region)
95


Figura 65. Grfico de dispersin por regin
5.7 Grfico de puntos
. twoway (dropline price mpg, sort ), name( "uno" ) title("dropline")
. twoway (connected price mpg, sort ), name( "dos" ) title("connected")
. twoway (dot price mpg, sort ), name( "tres" ) title("dot")
. graph combine uno dos tres

Figura 66. Tipos de grficos de puntos
96

5.8 Grfico de barras
Se puede acceder al men de grfico de barras desde la barra de herramientas
Graphics Bar chart o con el Launch dialog.
. db graph bar

Figura 67. Grfico de barras

Figura 68. Opciones de grfico de barra
97


Figura 69. Visualizacin del grfico de barras
. graph bar (mean) tenure (mean) prev_exp, over(occ5) stack

Figura 70. Visualizacin del grfico de barras opcin stack
La opcin de STACK produce una grfica donde cada barra sera de dos o ms barras
apiladas, por lo que la divisin muestra la relacin de las variables con respecto a total de
la suma de las variables.
0
2
4
6
8
Prof/Mgmt Sales Clerical Labor/Ops Other
mean of tenure mean of prev_exp
0
5
1
0
1
5
Prof/Mgmt Sales Clerical Labor/Ops Other
mean of tenure mean of prev_exp
98

5.9 Generando Funciones

Figura 71. Grficos avanzados

Figura 72. Grfica raz cuadrada (x).
5.10 Combinando grficas
. graph combine "C:\Users\USER\Desktop\Graph1.gph" "C:\Users\USER\Desktop\Graph2.gph"
0
1
2
3
4
5
y
0 5 10 15 20
x
99

5.11 Ejemplo aplicado
En esta seccin y en la prxima acerca de regresin lineal en Stata y supuestos de
regresin se trabaja la base de datos Encuesta de Calidad de vida para Colombia 2011.
5.11.1 Transformaciones Tukey
El investigador con el objetivo de corregir la asimetra de los datos, decide observar la
mejor ajuste de potencia que se aproxime a los valores observados, para lo cual utiliza el
comando gladder sobre la variable dependiente.
. use"C:\Users\SOFWARESHOPFILES\CALIDADDEVIDA2011COLOMBIA.dta", clear
. gen w=exp(Ln_w)
. gladder w, title(Transformacion Tukey) ylabel(none) xlabel(none)


Figura 73. Ayuda visual Ladder y Gladder

100


Figura 74. Escalera de Potencias de Tukey
5.11.2 Grficos de matriz
Para elaborar un anlisis exploratorio del conjunto de relaciones entre ms de dos
variables, Stata 12 puede realizar este tipo de anlisis grafico a partir del comando matrix.
graph matrix Ln_w p6040 infanteshogar, half

Figura 75. Grafica de correlaciones entre variables
101

5.11.3 Grficos de lneas
Existen dos comandos que permiten aplicar este tipo de grficos. El primero connect
dibuja los puntos y los conecta. El segundo line hace la conexin de los puntos pero los
deja invisible. Se recomienda utilizar la opcin sort, que ordena los casos en funcin de
las variables independientes para que la conexin se produzca entre casos continuos y no
se produzca crucen entre lneas dibujadas.
. graph twoway connected w p6040, sort name(Ingresoedad)
. graph twoway line w p6040, sort name(Ingresoedad1)
. graph combine Ingresoedad Ingresoedad1, name(ConnectVSLine)

Figura 76. Grficos de lneas
5.11.4 Edicin de grficos
Despus de lograr el grfico que se require, se podr editar de tal manera que genere
algn tamao en particular, alguna lnea, algn color o algn otro cambio que se quiera
agregar al grfico diseado.

Figura 77. Barra de herramientas en la edicin de grficos.
102

Para editar colores y tamaos en los ejes ser necesario dar un doble clic sobre el rea a
editar.

Figura 78. Edicin de grficos.
5.11.5 Grfica de histogramas
Los histogramas son grficos que se utilizan en la representacin de variables
cuantitativas continuas, el cual consiste en dividir los valores de la muestra en una serie
de intervalos y representar cada uno de estos con un rea proporcional a su tamao. Las
opciones que con mayor frecuencia se utilizan en este tipo de grficos se encuentran
bin(#), siendo # el nmero de intervalos que se desean dibujar, width(#), siendo # el
ancho de las barras, start(#), siendo # el punto de partida del histograma, frequency
muestra las frecuencias en vez de los porcentajes y normal realiza una grafica donde
sobrescribe sobre el histograma la curva de Gauss para que se pueda comparar la
distribucin emprica y la normal.
. histogram p6040, name(Histogramaedad)
. hist p6040, bin(10) name(Histogramaintervalos)
. hist p6040, start(0) width(20) name(Histogramainicio)
. hist p6040, start(0) width(10) frequency normal name(HistogramaGauss)
. graph twoway (hist p6040) (kdensity p6040), name(Graficodensidad)
. graph combine Histogramaintervalos Histogramainicio HistogramaGauss Graficodensidad
103


Figura 79. Histograma de la Edad

Figura 80. Opciones graficas con los histogramas
5.11.6 Diagramas de dispersin
Con el objeto de llevar a cabo este apartado es necesario generar una base de datos a
partir de la base de datos de la Encuesta de Calidad de vida 2011 para Colombia
utilizando el comando collapse, con el objetivo de obtener los ingresos y aos de
educacin promedio por nivel educativo y sexo.
. collapse (mean) w edu, by( nivele p6020 )
. scatter w edu, name(Scatter1,replace)
104


Figura 81. Diagrama de dispersin
Algunas opciones como ylabel y xlabel, permite editar los ejes de las ordenadas y
abscisas dentro de un rango y un intervalo, lfit, permite hacer una grfico bidimensional
trazando una lnea que mejor se ajuste a las variables de la muestra.
. scatter w edu, ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) /// name(Scatter2,replace)
title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin promedio)
. scatter w edu, ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) /// name(Scatter3,replace)
title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin promedio) by(p6020)
. scatter w edu, mlabel(nivele) || Lfit w edu ,ylabel(0(200000)3000000, angle(horizontal)) xlabel(0(1)15, grid) ///
name(Scatter4,replace) title(Ingresos vs Educacion) ytitle(Ingreso promedio) xtitle(Aos de educacin
promedio) by(p6020)





105




Figura 84. Ajuste lineal
5.11.7 Exportar grficos
Los grficos que se realizaron en la seccin se mantienen en la memoria RAM del
computador con un nombre sujeto a los parmetros de las variables o al nombre que se le
ha otorgado a cada grfico.
. graph describe Scatter4
. graph rename Scatter4 ScatterRegresion, replace
. graph display Scatter4
. graph copy Scatter4, replace
. graph drop Scatter4
. graph combine Scatter4 Scatter2, name(combinacin, replace)

Figura 82. Dispersin Ingresos vs Educacin Figura 83. Dispersin Ingresos vs Educacin por gnero.
106

Con el objeto de utilizar los grficos al momento que se necesitan y no se tenga a
disposicin el software Stata 12, exportar grficos es la mejor solucin, existen tres
maneras de exportar grficos.
1. Dar clic derecho al grfico, se habilita copiar y guardar como.

Figura 85. Guardar grfica.

Figura 86. Guardar grfica desde barra de herramientas.
2. Si en algn momento se sale del editor de grficos, el grficos quedara grabado en
memoria RAM por lo tanto solo ser necesario utilizar el siguiente comando,
aunque esta opcin no es recomendable ya que la grfica quedara de manera tal
que solo estar disponible si se posee Stata 12.
.graph save Scatter4"C:\Users\Desktop\SOFWARESHOPFILES\Scatter4"
107

3. La opcin de exportar en formato ps|eps|wmf|emf|png|tif|pict|pdf, con el siguiente
comando:
.graph display Scatter4
. graph export "C:\Users\Desktop\ SOFWARESHOPFILES\Scatter4.pdf", as(pdf) replace
5.12 Comandos usados

bar
box
cchart
combine
dot
graph
histogram
kdensity
matrix
pchart
pie
qnorm
quantile
rchart
rvpplot
scatter
title
tslinetwoway
xchart



























108

6. REGRESIN LINEAL EN STATA

Una de las principales fortalezas de Stata tiene que ver con la gran versatilidad,
flexibilidad y facilidad que ofrece para estimar modelos de regresin. Uno de los
principales objetivos de los modelos de regresin es explicar el comportamiento de uno o
ms fenmenos (variables dependientes) a partir de un conjunto de regresores (o
variables independientes) que, en la mayora de los casos, han sido identificados por la
teora como los factores que explican el fenmeno que se est estudiando. Sin duda, por
la facilidad de su interpretacin, los modelos de regresin lineal son los ms populares y
los ms empleados por los investigadores de diferentes disciplinas.
A continuacin se presentan los pasos para estimar un modelo lineal a travs de mnimos
cuadrados ordinarios (MCO) a partir de la informacin de la base de datos ECUACION
INGRESO.dta. El ejercicio propuesto busca establecer la relacin existente entre los
ingresos laborales mensuales (expresada en logaritmos) y un conjunto de variables de
contexto de los individuos (horas de trabajo al mes, aos de educacin aprobados, aos
de experiencia laboral, sexo, etc.). La teora econmica establece que la relacin entre los
ingresos laborales y el conjunto de variables de contexto individual se puede representar
(en su forma ms simple) a travs de la ecuacin

=
0
+
1

+
2
uu7

+
3

+
4

2
+
5
uS

(1)
Donde el conjunto de variables empleadas en la estimacin son:
Variable Descripcin de la variable
lny Logaritmo natural del ingreso laboral mensual (Dependiente)
lnm Logaritmo natural de las horas de trabajo al mes (Independiente)
edu007 Nmero de aos de educacin aprobados (Independiente)
exp Aos de Experiencia laboral (Independiente)
exp2 Aos de experiencia laboral al cuadrado (Independiente)
e03 Dummy de sexo "1=hombre; 0=Mujer" (Independiente)
Tabla 70. Descripcin de las variables
6.1 Ejercicio
1. A partir de la informacin de la base de datos ECUACION INGRESO.dta,
generar las variables necesarias con sus respectivas etiquetas para estimar la
ecuacin (1)
109

6.2 Descripcin estadstica de la informacin
Antes de estimar la ecuacin de ingreso (1), es conveniente realizar una primera
aproximacin a los datos de forma descriptiva. El comando summarize (en forma
abreviada summ) genera las estadsticas descriptivas bsicas de una o ms variables. La
sintaxis del comando se describe a continuacin:
Por ejemplo:
. summ lny lnm edu007 exp exp2 e03

Tabla 71. Resumen de variables
Se obtiene el siguiente reporte:
- Nmero de observaciones de cada variable (Obs),
- Promedio de cada variable (Mean)
- Desviaciones estndar (Std. Dev.)
- Valor mnimo de cada variable (Min)
- Valor mximo (Max).

Se puede obtener ms detalles estadsticos de cada una de las variables con la opcin
detail as:
. summ lny lnm edu007 exp exp2 e03, d
6.3 Relacin lineal entre las variables dependientes e independientes
Con el fin de analizar la relacin lineal entre las variables independientes del modelo se
calcula la matriz de correlaciones. A travs de la instruccin pwcorr se obtiene la matriz de
correlacin de las variables que van a ser incluidas en el modelo de regresin as:
. pwcorr lny lnm edu007 exp exp2, sig
110


Tabla 72. Correlaciones entre variables
El comando pwcorr estima los coeficientes de correlacin del conjunto de variables del
modelo. En la matriz de correlaciones aparece el coeficiente de correlacin que es un
valor nmero que va desde 0 a 1 e indica el grado de asociacin lineal entre las variables,
este coeficiente viene acompaado del nivel de significancia (con la adicin de la opcin
sig), que permite decidir sobre la hiptesis nula de que el coeficiente de correlacin vale
cero. En nuestro ejemplo, el coeficiente de correlacin entre aos de educacin (edu007)
e ingreso salarial en logaritmos (lny) es de 0,4 y tiene una significancia de 0, lo cual indica
que existe una relacin significativa entre estas dos variables.
6.4 Representacin grfica de las relaciones entre variables
En segundo lugar, y como paso previo al proceso de estimacin, se analiza grficamente
la relacin entre la variable dependiente y cada uno de los regresores del modelo. Por
ejemplo, para representar la relacin entre los ingresos y los aos de educacin
aprobados, es conveniente que primero se genere una variable que indique el ingreso
promedio por ao de educacin as:
Col1 Col2 Col3 Col4
Id
Aos de
educacin
Ingreso (Miles de
pesos)
Ingreso
promedio por
ao de
educacin
1 6 20000 25000
2 6 30000 25000
3 6 25000 25000
4 5 25000 24000
5 5 24000 24000
6 5 23000 24000
7 2 24000 22000
8 2 20000 22000

0.0000 0.0000 0.0000 0.0000
exp2 -0.1373 -0.0541 -0.4213 0.9425 1.0000

0.0000 0.0037 0.0000
exp -0.0766 -0.0211 -0.3772 1.0000

0.0000 0.0812
edu007 0.4995 -0.0127 1.0000

0.0000
lnm 0.3674 1.0000


lny 1.0000

lny lnm edu007 exp exp2
111

9 0 20000 17500
10 0 15000 17500
Tabla 73. Ejemplo de una base de datos
La variable ingreso promedio por ao de educacin en la columna 4 se grafica respecto
a los aos de educacin (el usuario puede comprobar que es ms fcil identificar la
relacin entre la variable dependiente y los regresores si se generan variables promedio)
Como se observa en la tabla anterior, la operacin realizada en la columna 4 (ingreso
promedio por ao de educacin), resulta de efectuar un clculo al interior de la columna 3
(Ingreso), teniendo en cuenta como criterio de agrupacin la columna 2 (aos de
educacin). Este tipo de operaciones se pueden efectuar en Stata a travs del comando
egen.
Como en nuestro caso la variable dependiente es el logaritmo de los ingresos laborales
1. Se genera la variable lny_ed que ser promedio del logaritmo natural de los ingresos
por ao de educacin aprobado. Esta operacin, se realiza a travs del comando egen
y la opcin by as:
. egen lny_ed=mean(lny), by(edu007)
2. A continuacin, se grafica el promedio del logaritmo natural de los ingresos por ao de
educacin respecto a los aos de educacin aprobados por medio del comando line
as:
. line lny_ed edu007, sort

Figura 87. Aos de educacin vs ingreso laboral.
Ahora se tiene una idea bastante clara de la relacin promedio observada entre el
logaritmo de los ingresos laborales y los aos de educacin y de qu tan realista es la
aproximacin lineal en este caso. El grfico parece indicar que sera conveniente estimar
la relacin entre estas dos variables a travs de una transformacin de tipo spline.
112

De otro lado, la relacin entre los ingresos laborales promedio y los aos de experiencia
es de tipo cuadrtico.

Figura 88. Aos de experiencia vs ingresos laborales.
Se observa que la variable de experiencia tiene un comportamiento exponencial, lo cual
justifica el uso de la variable experiencia al cuadrado en las estimaciones.
6.5 Estimacin del modelo lineal de regresin
6

Para estimar la ecuacin (1) a travs de MCO se utiliza el comando regress (en forma
abreviada reg) as:
. regress lny lnm edu007 exp exp2

Tabla 74. Salida de una regresin.
El comando regress genera una amplia gama de estadsticas adems de los coeficiente
de regresin.

6
Help regress
Findit aboutreg
113

- La tabla source tambin, conocida como tabla de anlisis de varianza ANOVA,
presenta la informacin relacionada con la suma de cuadrados SS, los grados de
libertad df y los cuadrados promedio MS del modelo y de los residuos. El
clculo del R2 se puede obtener manualmente dividiendo la suma de cuadrados
del modelo entre la suma de cuadrados totales.
- Al lado derecho de la tabla fuente se presenta otro paquete de estadsticas. El
estadstico F resulta de calcular la razn entre la suma de cuadrados promedio del
modelo y la suma de cuadrados promedio de los residuos. A travs de este
estadstico se puede probar la hiptesis de que todos los coeficientes excluyendo
la constante son estadsticamente iguales a cero.

0
:
1
=
2
=
3
=
4
= u
- Significancia e intervalos de confianza de los coeficientes: A travs del estadstico
=
`
(
`
) puede probar la hiptesis de que cada uno de los coeficientes
estimados es estadsticamente igual a cero, mientras que en la columna 95%
Conf. Interval se presenta el intervalo, al 95% de confianza, para cada uno de los
coeficientes.
- Interpretacin de los coeficientes: La interpretacin de los coeficientes vara
dependiendo de la forma como estn expresadas las variables en el modelo as:
Interpretacin de los betas estimados de acuerdo a la forma como estn expresadas las
variables del modelo
Variable independiente en
logaritmos
Variable independiente en niveles
Variable
dependiente en
logaritmos
Elasticidad: Cambio porcentual
esperado en y ante un cambio
porcentual en x. En nuestro
ejemplo ,
1

|
Semi-elasticidad: Cambio porcentual
esperado en y ante un cambio marginal
en x. En nuestro ejemplo ,
2

| ,
3

| y
`
4

Variable
dependiente en
niveles
Cambio esperado en nivel en y
ante un cambio porcentual en x
Efecto marginal: Cambio esperado en
nivel en y ante un cambio marginal en x.
Tabla 75. Interpretacin de los coeficientes.
- Resumen estadstico de la muestra empleada en la estimacin: Raras veces el
nmero de observaciones empleadas en las estimaciones coincide exactamente
con las observaciones que originalmente estaban disponibles en la base de datos.
Para obtener una descripcin resumida de la muestra empleada efectivamente en
la estimacin despus de realizar M.C.O, se emplear el comando estat sum el
114

cual genera el siguiente resultado:
. estat sum

Tabla 76. Estadstica descriptiva despus de la estimacin por M.C.O
Es fcil comprobar que las caractersticas de las personas en la muestra empleada en la
estimacin difieren de las observadas en la base de datos original.
6.5.1 Pruebas de hiptesis lineales
Una vez realizada una regresin lineal es posible probar hiptesis lineales sobre los
coeficientes estimados a travs del comando test as:
. test lnm=1

Tabla 77. Prueba individual
En el primer caso se prob que si el coeficiente estimado asociado a las horas de trabajo
al mes es igual a 1. La probabilidad de que el coeficiente sea 1 es cero, por los tanto no
se acepta la hiptesis. En trminos econmicos se podra afirmar que no hay elasticidad
unitaria entre horas de trabajo al mes y el ingreso laboral.
6.5.2 Ejercicio
2. Pruebe la hiptesis de que todos los coeficientes del modelo exceptuando el
intercepto son estadsticamente iguales a cero. Compare con la prueba F
generada por Stata en la regresin lineal antes estimada.
. test lnm=edu007=exp=exp2=0
3. Cuntos aos de experiencia laboral seran necesarios para maximizar los
ingresos laborales mensuales?
115

. lincom -0.0347/(2*-0.0003987)
6.6 Comprobacin del cumplimiento de los supuestos de M.C.O.
6.6.1 Multicolinealidad (Asociacin lineal entre variables)
Pese a que en presencia de multicolinealidad los estimadores son MELI (Mejores
Estimadores Lineales Insesgados), los errores estndar de los coeficientes estimados
tienden a estar inflados (sobreestimados), haciendo ms fcil que se acepte que uno o
ms regresores son estadsticamente iguales a cero. La velocidad con la cual se
incrementan las varianzas y las covarianzas de los estimadores puede analizarse a travs
del factor inflador de varianza, el cual calcula Stata a travs del comando vif despus de
ejecutar regress as:
. vif

Tabla 78. Prueba multicolinealidad
Los VIF de cada uno de los estimadores cuyo valor sea superior a 10 (algunos menos
conservadores consideran 30) indican que la variable a la que acompaan puede
considerarse como una combinacin lineal de otras variables independientes.
Alternativamente suele observarse el ndice de Tolerancia (1/VIF). Un ndice de tolerancia
igual a 0.1 es equivalente a un VIF de 10. Valores de tolerancia inferiores a 0.1 (0.333
para los menos conservadores) indican presencia moderada o severa de
multicolinealidad.
6.6.1.1 Ejercicio
4. Calcule cada uno de los VIF de la regresin anterior.
6.6.2 Homocedasticidad
Es uno de los principales supuestos de MCO. En trminos generales, en presencia de
heroscedasticidad la varianza de los estimadores est sesgada (sobrestimada o
subestimada). En estos casos no se puede confiar en las pruebas t y F. Visto de otro
modo, si el modelo est bien especificado no debera existir un patrn definido entre los
residuales del modelo y la variable dependiente pronosticada. Cuando la varianza de los
residuales no es constante se dice que la varianza de los residuales es heteroscedstica.
Existen mtodos grficos y mtodos formales para detectar heterocedasticidad.
116

- Mtodo Grfico: A travs de un grfico que relacione los residuales del modelo
contra los valores estimados de la variable dependiente se puede hacer una
primera comprobacin visual de posibles patrones de interrelacin entre estas dos
variables. Siguiendo con nuestro ejemplo, en Stata se puede obtener este grfico
a travs del comando rvfplot as:
. rvfplot, yline(0)

Figura 89. Grafica para detectar heterocedasticidad
No parece haber un patrn definido en los residuales del modelo.
- Mtodo formal: Stata ofrece una gran variedad de pruebas de heteroscedasticidad
para modelos lineales estimados a travs de MCO. Sin embargo, una de las
pruebas de heteroscedasticidad ms ampliamente difundida es la prueba de
WHITE. Esta prueba se puede obtener despus de emplear el comando regress
as:
. imtest, white

Tabla 79. Prueba para detectar heterocedasticidad.
Claramente se rechaza la prueba de homocedasticidad. As mismo se puede constatar
que los residuales tienen problemas de asimetra (skewness) y apuntalamiento (kurtosis).
117

Una forma simple de corregir heterocedasticidad segn el criterio de WHITE (1980)7 es a
travs de la opcin robust en la estimacin por MCO as:
. regress lny lnm edu007 exp exp2, robust

Tabla 80. Regresin con correccin de heterocedasticidad.
Aunque el problema de heterocedasticidad no era importante (la significancia de los
coeficientes se mantuvo inalterado), se puede constatar que los errores estndar en el
modelo correccin de heterocedasticidad son mayores, lo cual prueba que inicialmente
estaban subestimados.
6.6.3 Normalidad de los residuos
Es un supuesto necesario nicamente garantizar la validez de las pruebas t y F en MCO.
En realidad, MCO tan solo requiere que los residuales estn idntica e
independientemente distribuidos. Despus de ejecutar el comando regress, se puede
emplear el comando predict seguido por la opcin res para estimar los residuales as:
. predict residual, res
Mtodo Grfico: A continuacin empleamos los comandos kdensity y qnorm para
constatar grficamente si los residuos siguen una distribucin normal as
. kdensity residual, normal

7
WHITE H. 1980. A Heteroscedasticity Consistent Covariance Matriz Estimator and Direct Test of
Heteroscedasticity. Econometrica, vol 48.
118


Figura 90. Prueba kdensity para detectar normalidad en los errores.
La opcin normal permite comparar la funcin de densidad de los residuales con una
funcin de densidad normal. Se puede observar apuntalamiento y asimetra en los
residuales. Otra comprobacin grfica de normalidad muy conocida es aquella que
contrasta cuantiles de una variable contra cuantiles de una distribucin normal. Cuanto
ms cerca estn los cuantiles de la variable a los cuantiles de la distribucin normal (lnea
diagonal continua) ms cerca est la variable de ser normal. Stata la representa a travs
del comando qnorm as:
. qnorm residual

Figura 91. Prueba qnorm para detectar normalidad en los errores.
- Mtodo formal: Claramente hay problemas en los residuales que nos hacen
pensar en que no se cumple el supuesto de normalidad. Sin embargo, para estos
casos en los que la variable tiene muchas observaciones, Stata ofrece una prueba
formal de normalidad a travs del comando sktest as:
. sktest residual
119


Tabla 81. Prueba sktest para detectar normalidad en los errores.
Se rechaza la hiptesis de normalidad en los residuales del modelo.
6.6.4 Exogeneidad de las variables independientes
Otro supuesto bsico en regresin lineal es que las variables explicativas estn
determinadas por fuera del modelo que se est estimando. En otras palabras, se supone
que ninguno de los regresores est determinado por otro u otros regresores dentro del
modelo. A travs de la prueba de HAUSMAN (1978)
8
es posible establecer si un regresor
es exgeno o no. La prueba se realiza en etapas: en primer lugar, se estima un modelo
que se considera consistente pero ineficiente (en el sentido que no empleamos toda la
informacin disponible para explicar la variable dependiente).
A continuacin, se estima otro modelo (el cual tiene en cuenta la variable que deseamos
comprobar si es exgena) que se supone consistente y eficiente. En tercer lugar, se
emplea el estadstico de HAUSMAN el cual compara los coeficientes comunes en ambos
modelos y sus respectivas matrices de varianzas y covarianzas. Si no hay diferencias
sistemticas en los coeficientes la nueva variable se puede considerar exgena. Los
pasos y los comandos necesarios para realizar esta comprobacin en Stata son:
1. Estimar el modelo consistente pero ineficiente (no tiene en cuenta la variable lnm)
. regress lny edu007 exp exp2
2. Almacenar los resultados con el comando est store as:
. est store reg
3. Estimar el modelo que se supone consistente y eficiente (tiene en cuenta la variable
lnm)
. regress lny lnm edu007 exp exp2
4. Calcular el estimador de HAUSMAN
. hausman reg, eq(1:1)

8
HAUSMAN J,. Specification Test in Econometrics, Economtrica Vol. 46. No. 6. 1978.

120


Tabla 82. Prueba de Hausman para detectar endogeneidad.
Existen diferencias sistemticas en los coeficientes, por lo tanto la variable lnm es
endgena, en otras palabras, puede estar explicada por los otros regresores del modelo.
6.6.5 Ejercicio
5. Pruebe la hiptesis de exogeneidad de cada una de las variables del modelo.
6.7 Pronstico
El pronstico de la variable dependiente se realiza empleando el comando predict
. predict lnyp if e(sample), xb
La opcin e(sample) restringe la estimacin a la muestra efectivamente empleada en la
estimacin.
6.7.1 Representacin grfica del pronstico de la variable dependiente y su
relacin con los regresores
Finalmente es posible visualizar la aproximacin del modelo de regresin lineal a travs
de MCO, graficando el ingreso estimado promedio respecto a cada una de las variables
independientes. Por ejemplo, la relacin entre el ingreso estimado promedio por ao de
educacin y los aos de educacin se obtiene siguiendo los siguientes pasos:
. egen plny_ed=mean(lnyp), by(edu007)
Generacin de los ingresos promedio estimados por ao de educacin
. line plny_ed lny_ed edu007, sort
Grfico que representa los ingresos estimados y observados por ao de educacin y los
aos de educacin
121


Figura 92. Grafica de los datos observados vs pronstico.
Ahora se tiene una idea bastante clara de la aproximacin lineal que se ha llevado a cabo
entre los ingresos promedio y los aos de educacin a travs de MCO.
6.7.2 Ejercicio
6. Grafique la relacin promedio entre las variables dependiente y dependiente
pronosticada contra cada uno de los regresores del modelo.
7. Estime una ecuacin que adems tenga en cuenta el sexo como variable
explicativa
8. Compruebe si se cumplen los supuestos de MCO
9. Cmo decidir cul de los dos modelos estimados (sin sexo y con sexo) es el
mejor y como lo hara en Stata?
6.8 Exportar tabla de contenido
Para exportar los resultados de la tabla de regresin, existe un comando llamado outreg2
que permite hacer esta labor. Se utilizar despus de evaluar el modelo de regresin. En
caso de que Stata 12 no tenga el comando en necesario instalarlo mediante el comando
ssc install outreg2.
1. Por ejemplo, se desea exportar una tabla a Excel que contenga una regresin
diferenciada por gnero, con las mismas variables independientes vistas en la
seccin de la funcin de ingresos.
. reg Ln_w Ln_m edu exp exp2 if Hombre==1
. outreg2 using primero.xls, ctitle(Hombre)
. reg Ln_w Ln_m edu exp exp2 if Hombre==0
. outreg2 using primero.xls, append ctitle(Mujer)

122


Tabla 83. Hoja de clculo con la exportacin de parmetros
6.9 Ejemplo aplicado
En esta seccin se da continuacin al ejemplo aplicado 5.13.
_

=
0
+
1
_

+
2

+
3

+
4

+
3


Donde,
Ln_w
i
, corresponde a la tranformacin logartmica del salario del individuo i, Ln_m
i
,
corresponde al logaritmo natural de la horas trabajadas por mes del individuo i, edu
i
,
corresponde a los aos de educacin que tiene el individuo i, exp
i
, correponde a los aos
de experiencia que tiene el individuo i, exp
2
,

corresponde a los aos de experiencia que
tiene el individuo i, por ltimo una variable binaria que toma el valor de uno si es hombre
y cero en caso contrario, Hombre
i
.
El comando general para evaluar un modelo de regresin lineal se llama regress o reg.
. regress Ln_w Ln_m edu exp exp2 Hombre
123


Tabla 84. Ecuacin Minceriana.
6.9.1 Prueba de hiptesis
. regress Ln_w Ln_m edu exp exp2 Hombre
. test Ln_m edu exp exp2 Hombre
. test exp=0


Figura 93. Prueba de hiptesis conjunta Figura 94. Prueba de hiptesis individual
6.9.2 Supuestos para mnimos cuadrados ordinarios
6.9.2.1 Multicolinealidad
Existen tres mtodos para detectar multicolinealidad entre las variables independientes.
1. Correlaciones de orden cero entre parejas de regresores. La regla de decisin es
que si la correlacin supera el 0.8, existe multicolinealidad.
. pwcorr Ln_m edu exp exp2 Hombre
124


Tabla 85. Correlaciones entre variables independientes
2. Regresiones auxiliares, si el estimador R2 es mayor a 0.9, hay presencia de
multicolinealidad
. reg Ln_m edu exp exp2 Hombre
. reg edu Ln_m exp exp2 Hombre
. reg exp Ln_m edu exp2 Hombre
. reg Hombre Ln_m edu exp exp2

3. Utilizar el comando vif, el cual se utiliza para crear el estimador que mide el factor
inflador de varianza, la regla de decisin consiste en que si el VIF es mayor o igual
a 10, existe multicolinealidad. La variable exp demuestra que existe
multicolinealidad, ser necesario excluirla pero por propsitos acadmicos existe
evidencia emprica de que la experiencia afecta de manera positiva el ingreso del
individuo.

Tabla 86. Factor inflador de varianza
6.9.2.2 Heterocedasticidad
Existen dos mtodos para detectar la presencia de heterocedasticidad dentro del modelo
por un lado se encuentra el anlisis grfico y otro que hace parte del anlisis formal como
son las pruebas de Park, Glejser, White y Breush-Pagan.
. reg Ln_w Ln_m edu exp exp2 Hombre
. rvfplot
. imtest,white
. estat hottest
125


Figura 95. Residuos en funcin de la prediccin de Ln_w
Prueba White

Tabla 87. Prueba para detectar heterocedasticidad White

Figura 96. Prueba para detectar heterocedasticidad Breush-Pagan
Con esta prueba se concluye que hay presencia de heterocedasticidad, una de las
maneras que existen para corregir este problema es a travs de la opcin robust en la
estimacin por M.C.O as:
. reg Ln_w Ln_m edu exp exp2 Hombre, r
126

. reg Ln_w Ln_m edu exp exp2 Hombre, robust
. reg Ln_w Ln_m edu exp exp2 Hombre, vce(robust)
6.9.2.3 Normalidad de los errores
. reg Ln_w Ln_m edu exp exp2 Hombre
. predict residual, resid
. qnorm residual
. kdensity residual, normal
. sktest residual, noadjust


Figura 97. Mtodo grfico qnorm Figura 98. Mtodo grfico Kdensity

Tabla 88. Mtodo formal
Aunque se rechaza la hiptesis nula de normalidad de los errores, en el estudio de datos
de corte transversal no es relevante ya que los datos no se autocorrelacionan de un
periodo y su respectivo rezago, los datos son obtenidos en el mismo periodo para cada
individuo.
6.9.2.4 Exogeneidad de las variables independientes
. reg Ln_w Ln_m edu exp exp2 Hombre
. est store reg
. reg Ln_w edu exp exp2 Hombre
. hausman reg, eq(1:1) sigmamore

127


Tabla 89. Prueba para detectar endogeneidad.
6.9.2.5 Sesgo de especificacin: Reset de Ramsey
Esta prueba permite determinar si el modelo est mal especificado en otras palabras
permite saber si dentro del modelo existe alguna variable omitida
. reg Ln_w Ln_m edu exp exp2 Hombre
. estat ovtest

Figura 99. Prueba para detectar sesgo de especificacin de Ramsey
Se concluye que el modelo que describe una funcin de salario con variables observables
omite algunas variables que afectan el salario del individuo.
6.10 Comandos usados
by
e(sample
egen
est store
estat
estat ovtest
hausman
imtest
kdensity
lincom
line
mean
normal
outreg2
predict
pwcorr
qnorm
regress
res
rvfplot
sktest
sort
summ
test
vif
xb
128

7. MODELOS DE VARIABLE DEPENDIENTE BINARIA: MODELOS LOGIT Y PROBIT

Con frecuencia es necesario explicar el comportamiento de fenmenos cuya medicin ha
sido realizada a travs de variables cualitativas. Dependiendo del nmero de resultados
posibles la variable cualitativa puede ser binaria dictoma (categoras 0 y 1), tricotmica,..,
o, en general, policotmica (o de categora mltiple).
Los modelos de regresin con variables de eleccin discreta se caracterizan porque la
variable que se desea explicar o modelar est registrada de forma dictoma. Este tipo de
modelos son tiles cuando se desea pronosticar la presencia de una caracterstica dado
un conjunto de variables de contexto (o variables dependientes) cuando se desea
conocer los determinantes que hacen ms probable que un evento ocurra.
En la encuesta CASEN 2006 se encuentra la variable ACTIV, que considera a la
poblacin en edad de trabajar (15 aos y superior). El comando tab acompaado de los
pesos relativos nos permite alcanzar una descripcin de la condicin actividad en Chile
para dicho ao:
ACTIVIDAD Freq. Percent Cum.
Ocupados 6,578,325 53.11 53.11
Desocupados 519,357 4.19 57.3
Inactivos 5,288,175 42.7 100
Total 12,385,857 100

Tabla 90. Comando tab Actividad
De la Poblacin en Edad de Trabajar el 53% se encontraba ocupada, el 4% de la
poblacin se encontraba desempleada y un 42% no se estaba ni trabajando ni buscando
empleo. La Poblacin Econmicamente Activa est determinada por aquella poblacin
ocupada o buscando activamente empleo, por lo que el 57% participaba activamente en el
mercado laboral. Se puede generar una variable de participacin a partir la variable
ACTIV. La siguiente cadena de comandos genera la variable PARTI:
. gen PARTI=1 if ACTIV==1 | ACTIV==2
. recode PARTI (mis=0) if ACTIV==3
. label variable PARTI "Participa en el mercado laboral"
. label define part 1 "si" 0 "no"
. label values PARTI part
. tab PARTI [w=EXPR]

Participa Freq. Percent Cum.
No 5,288,175 42.7 42.7
Si 7,097,682 57.3 100
Total 12,385,857 100

Tabla 91. Participacin en el mercado laboral
129

Para el propsito de este ejemplo se va a considerar las variables de gnero, edad,
estado civil, nivel de estudios, nivel de ingresos del hogar, relacin con el jefe de hogar y
el nmero de personas en el hogar. Sin embargo, en un modelo ampliado podran
considerarse otras variables.
Algunas de las opciones que se pueden utilizar para analizar la variable de participacin
son:
- Modelo de regresin logstica (el usado en el presente ejemplo)
- Modelo de regresin probabilstica. Los resultados bajo este tipo de anlisis
producen resultados similares a los resultados de la regresin logstica. La
escogencia entre uno y otro modelo depende de las preferencias del investigador.
Estos dos modelos construyen una funcin de probabilidad acerca de la ocurrencia
del evento a describir, (en este caso que un individuo participe en el mercado
laboral) y la diferencia est en la forma funcional que asume cada modelo
9
.
- Mnimos cuadrados ordinarios. Cuando se utiliza esta metodologa sobre una
variable dicotmica se le conoce como un modelo lineal de probabilidad. Sin
embargo, los residuos de la estimacin violan los supuestos de homocedasticidad
y de normalidad del modelo clsico, lo que resulta en errores estndar y pruebas
de hiptesis invlidas.
7.1 Representacin de las relaciones entre variables
7.1.1 Participacin y Gnero

Figura 100. Grfico de barras participacin por gnero

9
La funcin logstica es () =
c
z
c
z
+1
y la funcin probabilstica es () = (z), donde z es una combinacin
lineal de las variables independientes y es la funcin cumulativa de la distribucin normal.
0
1
,
0
0
0
,
0
0
0
2
,
0
0
0
,
0
0
0
3
,
0
0
0
,
0
0
0
4
,
0
0
0
,
0
0
0
P
A
R
T
I
C
I
P
A
N
Hombre Mujer
130


Participa en el Mercado
Laboral
Sexo No Si Total
Hombre 1,622,038 4,303,680 5,925,718
Mujer 3,666,137 2,794,002 6,460,139
Total 5,288,175 7,097,682 12,385,857
Tabla 92. Participacin laboral por gnero.
7.1.2 Participacin y Nivel Educativo

Figura 101. Grfico de barras participacin por nivel educativo y gnero
Comparar el nmero de participantes entre los diferentes niveles educativos, no hace
sentido cuando las poblaciones no son comparables en trminos relativos. Si la Tasa
Global de Participacin est determinada por la cantidad de personas que participan en el
mercado laboral sobre el PET, para comprender el efecto del nivel educativo se deben
comparar las tasas globales de participacin para cada grupo. El promedio aritmtico de
la variable PARTI nos dar la TGP total y para diferentes grupos.
0
.
2
.
4
.
6
.
8
1
S
IN
E
D
U
C
.
B
A
S
IC
A
IN
C
B
A
S
IC
A
C
O
M
P
M
.H
U
M
. IN
C
O
M
M
.H
U
M
. C
O
M
P
L
T
E
C
. O
U
N
I. IN
C
.
T
E
C
. O
U
N
I. C
O
M
P
S
IN
E
D
U
C
.
B
A
S
IC
A
IN
C
B
A
S
IC
A
C
O
M
P
M
.H
U
M
. IN
C
O
M
M
.H
U
M
. C
O
M
P
L
T
E
C
. O
U
N
I. IN
C
.
T
E
C
. O
U
N
I. C
O
M
P
Hombre Mujer
T
a
s
a

G
l
o
b
a
l

d
e

P
a
r
t
i
c
i
p
a
c
i
[
o
n

(
M
e
a
n

P
A
R
T
I
)
Graphs by Sexo
131

7.1.3 Participacin y Edad

Figura 102. Grfico de barras participacin por edad y gnero
7.2 El modelo tipo Logit encuesta Casen 2006.
El comando logit (probit) nos permite obtener los resultados de la estimacin logstica
(probabilstica). La estimacin se hace a travs de la metodologa de mxima verosimilitud
por lo que en el proceso de estimacin, Stata primero muestra las iteraciones necesarias
para alcanzar la convergencia.
Cuando existen variables categricas con ms de dos categoras (parentesco, estado
civil) Stata las puede codificar automticamente para que cada una de las categoras
cuente como una dummy. Para eso se antepone el prefijo xi: frente a toda la expresin
de la regresin y el prefijo i. antes de cada variable.
El comando para nuestra regresin sera:
xi: logit PARTI EDAD ESC NUMPER YTOTHAJ i.PCO1 i.ECIVIL [w=EXPR], or
En este caso las variables de parentesco con el jefe de hogar (PCO1) y de estado civil
(ECIVIL) son codificadas por Stata y la codificacin responde al orden en que las
variables categricas adoptan valores. Por ejemplo PCO1, ordinalmente la primera
etiqueta es Jefe de Hogar y Stata crea una dummy _IPCO1_1 para nombrarla. En la
siguiente tabla se ha cambiado los nombres por los valores de las categoras.
A travs del men se puede acceder a travs de la siguiente ventana:
0
.
2
.
4
.
6
.
8
1
25 30 35 40 45 50 25 30 35 40 45 50
Hombre Mujer
T
G
P
Edad
Graphs by Sexo
132


Figura 103. Modelo Logit.
7.2.1 Interpretacin de resultados
Error! Vnculo no vlido.Los primeros resultados observados anteriormente se refieren al
mximo de la funcin de verosimilitud, que puede ser utilizado como un criterio de
informacin para comparar modelos anidados (nested). Por ejemplo si se adicionan ms
variables a nuestro modelo y se mantienen las mismas, esos dos modelos estarn
anidados porque el modelo extendido (el nuevo) contiene al modelo reducido (con menos
variables).
Tambin se puede observar que del total de observaciones iniciales con descripcin de
participacin (12,385,857) hemos perdido algunas observaciones por los missing values
en las variables que se utilizaron para analizar el modelo.
La prueba de hiptesis de significancia conjunta del modelo est establecida por la razn
de verosimilitud que se distribuye como una Chi-cuadrado con k+1 g.l.. Stata presenta el
estadstico (LR chi2 (25)) y su p value. La interpretacin es que nuestro modelo
representa mejor a los datos que un modelo sin variables.
Para la interpretacin de la relacin entre las variables independientes e independientes,
el coeficiente nos da un efecto parcial (el signo) y nos da el efecto total sobre la funcin
lineal z, pero no sobre la funcin de probabilidad de ocurrencia de la variable dependiente.
Lo anterior debido a que un cambio en una variable dependiente genera un cambio sobre
la probabilidad de ocurrencia que depende del nivel de todas las dems variables
133

consideradas. La significancia de las variables est testeada individualmente en el
resultado de la estimacin y la interpretacin es igual al caso de regresin lineal clsica.
7.2.2 Odds - Ratio (p/q)
La interpretacin de los coeficientes de las variables categricas
10
viene de la relacin
entre el coeficiente y el logaritmo del radio de probabilidad de ocurrencia del evento (log
odds ratio) es igual a
[
. El odds ratio aproxima el qu tanto es ms probable que el
evento ocurra dado que se tiene la caracterstica descrita por la variable categrica con
respecto a la referencia. Para observar el odds ratio, directamente se puede combinar la
opcin or con el comando logit.
En el caso de nuestro ejemplo, las mujeres son menos propensas a participar en el
mercado laboral hasta en un 72%, teniendo en cuenta que el coeficiente fue de -1.25. Las
otras variables categricas generaron cada una subsecuentes variables dicotmicas, y la
interpretacin se hace en comparacin a la referencia.
La relacin entre los coeficientes y la probabilidad en el caso de las variables continuas es
un poco ms compleja, la comparacin se hace con la distancia a la media. Sin embargo,
la direccin del efecto sobre la probabilidad es igual al efecto sobre la funcin lineal z.
En el ejemplo un aumento en el salario tambin aumenta la participacin relativa de una
personal igual que la escolaridad. Un aumento de un 1% en el salario con respecto a la
media ($351,000) hace que la razn de participar en el mercado laboral (vs. no participar)
aumente con un factor de 1.41 (= exp(0.3447)). Un aumento de la edad aumenta la
probabilidad de participar en el mercado laboral, pero a una tasa decreciente. El nmero
de personas en el hogar disminuye la probabilidad de que no se participe
7.2.3 Post estimacin
Un primer paso de la post estimacin consiste en probar la significancia conjunta de las
variables dummies que conforman las categricas. Para esto se puede correr una prueba
de Wald ajustada a travs del comando test. Por ejemplo, se puede rechazar la hiptesis
nula de que la variable de estado civil es conjuntamente no significativa:
test _IECIVIL_2 _IECIVIL_3 _IECIVIL_4 _IECIVIL_5 _IECIVIL_6 _IECIVIL_7 _IECIVIL_9
chi2( 7) =60644.47
Prob > chi2 = 0.0000
Para obtener las probabilidades estimadas, que es lo que finalmente se desea saber,
Stata 11 creo el comando margins. El siguiente comando va a modelar todas las

10
Para una prueba formal ver Applied Logistic Regression p.50.
134

probabilidades para cada valor de SEXO, empezando por el 0 hasta 1 con un ancho de
intervalo de 1.

margins, at(SEXO=( 0 (1) 1)) atmeans




Predictive
margins

Number of
obs =

12350554

Model VCE :
OIM



Expression :
Pr(PARTI),
predict()

1._at :
(lista de
medias


SEXO= 0


(lista de
medias

2._at :
(lista de
medias)


SEXO= 1


(lista de
medias)



Margin Std. Err. z P>z
[95%
Conf.
Interval
]
_at
1 0.7362227 0.0002468 2982.78 0.000 0.7357389 0.736706
2 0.4423416 0.0002768 1598.17 0.000 0.4417992 0.442884

Tabla 93. Efectos marginales para la variable sexo.
La probabilidad de que una persona trabaje siendo hombre (1. at SEXO = 0) es el 73.6%,
mientras que la probabilidad de que una persona trabaje siendo mujer es de 44.2%,
manteniendo todas las dems variables en su media.
Si quiere fijarse el valor de ms de una variable, o fijar los intervalos de variables
continuas, o en cortes de distribucin de las variables independientes:
. margins, at(SEXO=(0(1)1) PCO1=1) atmeans noatlegend
. margins, at(ln_yh=(11 11.5 12 13 13.5) PCO1=1) atmeans noatlegend
. margins, at((p25) _all) atmeans noatlegend
. margins, at((p25) _all (mean) ESC ) atmeans noatlegend
Variable
de Inters
Valor
Inicial
Ancho
Intervalo
Valor
Final
135

7.3 Modelo Lineal de probabilidad y modelo tipo Probit
7.3.1 Modelo Lineal
A partir de la informacin proveniente de la base de datos ECUACION INGRESO.dta, se
desarrolla un modelo de participacin laboral para identificar las variables que explican el
que una persona haga parte del mercado de trabajo (trabajando o buscando empleo) y el
efecto de cada una de stas variables en la probabilidad de hacer parte de la fuerza
laboral. Inicialmente, para realizar el ejercicio propuesto es necesario crear la variable
dicotmica dependiente que identifique a la poblacin econmicamente activa:
. gen pea=(ocu==1|des==1)
La estimacin de este modelo a travs del procedimiento de Mnimos Cuadrados
Ordinarios (MCO) generara una serie de problemas en los resultados. Por ejemplo,
supngase que la participacin en la fuerza de trabajo est determinada nicamente por
la escolaridad de las personas (variable edu007) y se utiliza el comando regress para
aplicar un modelo lineal:
. regress pea edu007
. predict p if e(sample)

Al obtener el pronstico de la variable dependiente y representar grficamente los
resultados del modelo se puede visualizar el ajuste de la recta de regresin a la nube de
puntos. A travs del comando twoway se pueden representar dos series en distintos tipos
de grficos:
. tw(scatter pea edu007) (line p edu007)


Figura 104. Datos observados vs pronostico por M.C.O
El grafico anterior es una representacin de los datos observados de las personas
clasificadas en la pea (scatter) y los valores pronosticados por el modelo (line), segn los
aos aprobados de educacin (eje de las abscisas). Sin embargo, a partir del grfico es
136

fcil concluir que el procedimiento de MCO no genera un modelo capaz de explicar el
comportamiento de los datos.
Las principales problemas de la estimacin de este tipo de variables a travs de MCO
son: i) no se garantiza que el vector de probabilidades que resulta del pronstico del
modelo se encuentre entre 0 y 1, ii) los errores no se distribuyen normalmente, debido a
que la variable dependiente solo toma dos valores, iii) no se puede suponer
homocedasticidad en los errores, y iv) el R
2
del modelo es muy bajo debido a que no la
recta de regresin presenta un bajo ajuste a los datos observados.
La alternativa es utilizar un modelo de regresin con una funcin no lineal que genere una
estimacin en el rango comprendido entre 0 y 1. Las funciones de densidad acumulada
normal y logstica cumplen con esta propiedad y dan origen a los modelos probit y logit
respectivamente.
7.3.2 Modelo tipo Probit
Para corregir los problemas que genera la estimacin del modelo de participacin laboral
por MCO, se supone la existencia de una variable latente Y* que es explicada por un
conjunto de variables independientes y que determina el valor de la variable dicotmica
que se observa. A medida que el valor de la variable latente aumenta, la probabilidad de
participar en el mercado laboral Y tambin se incrementa as:
) ( ) 0 ( ) 0 ( ) 1 ( 0 1
* *
X F e X P Y P Y P Y si Y | | = > + = > = = > =

La teora establece que la decisin de hacer parte de la fuerza de trabajo est
determinada por los aos de educacin, la condicin de jefe de hogar, la edad y la forma
cuadrtica de esta ltima variable, modelo que se puede especificar a travs de la
siguiente ecuacin:
i i i i i i
e jefe edad edad edu Y + + + + + =
4
2
3 2 1 0
007 | | | | |
Para llevar a cabo las estimaciones de este modelo primero se debe generar la variable
edad al cuadrado:
. gen e02_2= e02^2
En STATA se utiliza el comando probit para estimar modelos con variable discreta a partir
del mtodo de mxima verosimilitud. Para analizar los resultados del comando, se
comienza con estimar un modelo vaco:
. probit pea, r
137


Tabla 94. Probit con restricciones
Luego, se estima el modelo completo:
. probit pea edu007 jefe e02 e02_2, r

Tabla 95. Probit sin restricciones
Adems de los coeficientes de regresin, el comando probit genera una amplia gama de
estadsticas:
- La prueba de Wald evala la significancia global del modelo, es equivalente a la
prueba F en MCO. Bajo la hiptesis nula de que todos los coeficientes son
estadsticamente igual a 0, el estadstico de Wald se distribuye chi2 con grados de
libertad equivalentes al nmero de variables del modelo. Tambin se puede utilizar
el estadstico del cociente de verosimilitud, que se puede calcular manualmente
travs del comando display, la formula se define as:

) ( 2
0
ood Loglikelih ood Loglikelih LR
F

- El pseudo R2 es una medida de bondad de ajuste del modelo. Se puede obtener
manualmente dividiendo el logaritmo de las verosimilitudes del modelo vaco entre
el modelo completo y restado una unidad a este resultado.

Los parmetros que se obtuvieron en el modelo anterior no se pueden interpretar como
efectos esperados de los regresores en la probabilidad de hacer parte del mercado de
trabajo, nicamente es posible analizar si el efecto de la variable es positivo o negativo en
la probabilidad de ocurrencia del evento. Para evaluar el efecto de un cambio en una
variable independiente sobre la probabilidad de participar en el mercado de trabajo, es
138

necesario calcular el efecto marginal en varios valores de las variables. El clculo que se
tendra que hacer es
| | | ) (
i
X
, donde
|
corresponde a la funcin de densidad estndar.
La funcin podra ser evaluada en el valor medio de la variable X
i
. Por lo tanto, el primer
paso consiste en calcular el valor medio de las variables que se incluyeron en el modelo
probit a travs del comando estat sum, que reporta las principales estadsticas de los
datos utilizados en el modelo de regresin:
. estat sum

Tabla 96. Estadstica descriptiva de los regresores del modelo
El clculo de las marginales se puede realizar manualmente utilizando la funcin
normalden, que toma como argumento la multiplicacin del valor medio de la variable y el
parmetro y devuelve la densidad normal estndar.
7.3.2.1 Ejercicio
1. Calcule los efectos marginales de las dems variables incluidas en el modelo
probit.

7.3.2.2 Efectos marginales
Una de las fortalezas de STATA es que permite calcular con un comando, el efecto
marginal de cada una de las variables:
. dprobit pea edu007 jefe e02 e02_2, r
139


Tabla 97. Efectos marginales del modelo.
La interpretacin de los efectos marginales es la siguiente: por un aumento en 1 ao de
escolaridad, la probabilidad de participar en el mercado laboral se incrementa en 2.7%;
por cada ao de experiencia la probabilidad de salir al mercado de trabajo se incrementa
en 1.2% y el signo negativo de la forma cuadrtica de esta variable indica que a partir del
valor mximo de la variable edad, un ao ms reduce la probabilidad de salir del
desempleo en 0,01%.
Las columnas que le siguen a los coeficientes nos ayudan a realizar la inferencia de cada
uno de ellos. La columna Robust Std. Err. muestra el error estndar de cada coeficiente
a partir de una matriz de varianzas y covarianzas robusta, y la columna z muestra el
estadstico de una normal estndar que resulta de dividir el coeficiente de cada variable
sobre su propio error estndar. La columna P>|z| muestra la informacin
correspondiente a la probabilidad acumulada que le pertenece a cada estadstico z y la
columna [95% Conf. Interval] nos informan sobre los lmites superior e inferior en los que
podran variar los parmetros estimados con un 95% de confianza.
7.3.3 Comprobacin de supuestos
7.3.3.1 Prueba de Pearson
El estadstico de Pearson es una prueba de bondad de ajuste que se distribuye chi
2
con
grados de libertad igual al nmero de patrones de covariables menos el nmero de
parmetros.
. estat gof

Tabla 98. Prueba Pearson.
140

Los resultados sealan que la hiptesis nula es rechazada y por lo tanto, el modelo no
presenta un buen nivel de ajuste a los valores actuales. La principal consecuencia de este
resultado, es que no se puede utilizar el modelo para hacer inferencias acerca de la
relacin entre las variables explicativas y la probabilidad de participar en el mercado de
trabajo. Sin embargo, el modelo an posee algn valor predictivo y puede utilizarse para
pronosticar casos.
7.3.3.2 PRUEBA DE HOSMER-LEMESHOV(H-L)
Al igual que la prueba de Pearson, el estadstico de Hosmer Lemeshov es una prueba de
bondad de ajuste que permite comparar el valor original de los datos con el valor
estimado por grupos de observacin (G). En Stata la prueba de H-L puede practicarse
utilizando el comando estat gof y adicionando la opcin group(#), para definir el nmero
de particiones de las observaciones que generalmente son 10 grupos iguales.
. estat gof, group(10)

Tabla 99. Prueba H-L
Bajo la hiptesis nula de que el modelo presenta un buen nivel de ajuste, el estadstico de
H-L sigue una distribucin chi
2
con G-2 grados de libertad. Al comparar las frecuencias
observadas y estimadas a travs del estadstico de H-L y analizar el p-valor asociado a la
prueba, se rechaza la hiptesis nula. Una vez ms, el modelo de participacin laboral fall
una prueba de bondad de ajuste.
7.3.3.3 Estadsticas de clasificacin
Otra prueba de bondad de ajuste de la regresin probit es la capacidad predictiva del
modelo para clasificar correcta o incorrectamente los valores originales. A partir del
pronstico de la variable dependiente, el modelo clasifica como 1 los valores que tienen
mayor probabilidad de ocurrencia y que son superiores a un punto de corte, en caso
contrario los valores se clasifican como 0. En general, se asume que el punto de corte
es igual a 0.5. En Stata se utiliza el comando estat class para generar las estadsticas de
clasificacin as:
. estat class
141


Tabla 100. Estadstica de clasificacin
El resultado general de esta prueba es que el 66% de los valores originales estn
clasificados correctamente. De la tabla de clasificacin tambin se puede analizar la
siguiente informacin:
- El primer cuadro de la tabla realiza una comparacin entre los valores observados
y los pronosticados por el modelo. Las filas corresponden a los valores 1(+) y
0(-) clasificados por el modelo, y las columnas corresponden a los valores
observados (D=1 y ~D=0).
- La sensibilidad mide el porcentaje de los valores 1 que fueron clasificados
correctamente. En nuestro ejemplo el 89.11% de la poblacin que hace parte de
la Poblacin Econmicamente Activa (PEA) fue clasificada correctamente por el
modelo.
- La especificidad corresponde al porcentaje de 0 que fueron pronosticados
correctamente por el modelo. En el ejemplo, el 24.9% de los 0 observados la
poblacin que no hace parte de la PEA, fueron clasificados correctamente por el
modelo.
- La prediccin de los valores positivos o negativos mide el porcentaje de valores
pronosticados que acertaron correctamente en la clasificacin de 1 o 0. En el
caso de los 1 (+), el 67.9% de los datos pronosticados corresponden a los
verdaderos valores de 1, en otras palabras, del total de personas que fueron
catalogadas como PEA por el modelo, el 67,9% de los casos realmente haca
parte de la PEA. En caso contrario, el 56.2% de los valores 0 pronosticados
equivalen a los valores originales de los 0.
- Los errores de clasificacin miden el porcentaje de valores observados que fueron
incorrectamente clasificados. Por ejemplo, el 75% de los valores 0 observados
fueron clasificados incorrectamente por el modelo, es decir, del total de personas
142

que no hacen parte de la fuerza de trabajo, en el 75% de los casos el modelo las
clasifico incorrectamente como poblacin PEA.
- Una interpretacin similar se realiza para el caso de los unos. El 10.8% de los
valores 1 de la poblacin que en la muestra hace parte de la PEA, fueron
clasificados como 0 por la prediccin del modelo.
- La tasa de falsos unos (ceros) corresponde al porcentaje de valores 1 (0)
pronosticados que en realidad son valores 0. En el ejemplo, el 32.1% de las
personas que fueron clasificadas en la PEA por el modelo, no hacen parte de este
grupo. De manera anloga, el 43.7% de los valores 0 pronosticados, son valores
1
- De manera anloga, el 43.7% de las personas que el modelo clasific como 0 o
que no hacan parte de la PEA, corresponden a valores 1 que debieron
pronosticarse como parte de la PEA.

7.3.3.4 CURVAS ROC
Las Curvas ROC (Receiver Operating Characteristic) son una representacin grfica de
todos los pares posibles (1-especificidad, sensibilidad) que se generan con distintos
puntos de corte. A medida que se incrementa el valor del punto de corte, el porcentaje de
1 clasificados correctamente por el modelo aumenta (sensibilidad), al tiempo que el
porcentaje de 0 clasificados como 1 tambin se incrementa (falsos positivos). En
STATA las curvas ROC se obtienen al ingresar en la ventana de comando la opcin:
. lroc

Figura 105. Curva ROC

La mayor precisin del modelo para pronosticar un estado o un evento correspondera al
punto (0,1). Por lo tanto, cuanto ms cercanas se encuentren las curvas a este punto,
mejor es la capacidad predictiva del modelo. La forma ms prctica de realizar esta
prueba es calcular el rea bajo la curva ROC, que puede tomar valores entre 0,5 y 1.
143

Cuando el rea es equivalente a 0.5, la curva es cercana a la lnea diagonal y el modelo
es intil, pero, si el rea es cercana a 1, si tiene por lo tanto un buen modelo.
En nuestro ejemplo, el rea bajo la cuerva ROC (0.68) estara indicando que el modelo
tiene alguna capacidad predictiva.
A travs del comando lsens, es posible identificar el punto ptimo de corte que resulta de
la interseccin de las curvas de sensibilidad y especificidad:
. lsens

Figura 106. Curvas de sensibilidad y especificidad
7.3.4 Pronstico
El pronstico de la probabilidad de un estado u ocurrencia de un evento se realiza
empleando el comando predict y adicionando la opcin pr as:
. predict prob if e(sample), pr
7.3.5 Ejercicio
2. Calcule el valor de la variable latente o la funcin ndice. (Utilice el comando
invnormal).
3. Replique todo nuevamente teniendo en cuenta la variable tenencia de vivienda
propia
4. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al
mercado de trabajo para los jefes de hogar
5. Calcule el efecto de la tenencia de vivienda en la probabilidad de entrar al
mercado de trabajo para las mujeres
6. Calcule las estadsticas de clasificacin
7. Qu criterio empleara para escoger entre modelos?
144

7.4 Ejemplo aplicado
Para este ejemplo aplicado se utiliza la base de datos de calidad de vida para el pas de
Colombia en el ao 2010. Primero se evala un modelo lineal de probabilidad, despus un
modelo tipo Logit y finalmente un modelo tipo Probit, todo esto con el fin de obtener
caractersticas de cada modelo.
7.4.1 Modelos con variable dependiente binaria MLP, Logit y Probit

=
o
+
1

+
2

+
3

+
4

+
5

+
6

+
7

+
8
_

+
t

Donde,
Edad: edad del individuo i, Edad
2
: edad al cuadrado del individuo i, pri, sec, uni, post:
variable binaria que toman el valor de uno cuando el individuo i ha alcanzado el nivel
educativo respectivo, spouse: variable binaria que toma el valor de uno si el individuo i
est casado y cero en cualquier otro caso y h_head: variable binaria que toma el valor de
uno si el individuo i es jefe de hogar y cero en cualquier otro caso.
Con un simple ejemplo se puede probar porque se deben utilizar otros instrumentos de
estimacin diferentes a M.C.O cuando la variables dependiente es binaria es decir toma el
valor de 1 en un caso afirmativo y cero en caso contrario.

. gen Participacion= Ln_w!=.
. keep if p6040>=18 & p6040<=65
. reg Participacion p6040 edad2 pri sec uni post spouse h_head
. predict partmpl
. logit Participacion p6040 edad2 pri sec uni post spouse h_head
. predict partlogit
. sum partmpl partlogit

Tabla 101. MPL VS Logit
Para el valor de las predicciones por M.C.O existe un rango que toma valores negativos,
por lo tanto no se puede evaluar la probabilidad de participar en el mercado laboral para el
ao 2011, las probabilidades predichas de cualquier medida deben estar entre 0 y 1.
7.4.1.1 Prueba de Wald y prueba bondad de ajuste del modelo
. logit Participacion p6040 edad2 pri sec uni post spouse h_head,
. logit Participacion,
. display 2*(-18001.881 --18765.493)
. display 1-(-18001.881/-18765.493)
145



Tabla 102. Modelo Logit sin restricciones

Tabla 103. Modelo Logit con restricciones
7.4.1.2 Comprobacin de supuestos
. probit Participacion p6040 edad2 pri sec uni post spouse h_head,r
. mfx
146


Tabla 104. Resultados modelo Probit
Los parmetros que se obtuvieron en el modelo anterior no se pueden interpretar con
efectos esperados de los regresores en la probabilidad de participar en el mercado laboral
para Colombia en 2011. Para evaluar el efecto de un cambio en una variable
independiente sobre la probabilidad de participar en el mercado laboral, es necesario
calcular el efecto marginal en varios valores de la variable. Stata 12 permite calcular estos
efectos marginales con un comando que se llama mfx.

Tabla 105. Efectos marginales del modelo
1. Prueba de Pearson
. estat gof

147


Tabla 106. Prueba Pearson
2. Prueba de Hosmer-Lemeshov (H-L)
. estat gof, group(10)

Tabla 107. Prueba H-L
3. Estadstica de clasificacin
. estat class

Tabla 108. Estadstica de clasificacin
4. Curvas Roc
148


. lroc

Figura 107. Curva Lroc

Tabla 109. Estadstico Lroc
7.5 Comandos usados
atmeans
display
dprobit
estat class
estat gof
estat gof, group(10)
estat sum
gen
invnormal
keep
label define
label values
label variable
lroc
lsens
margins
mfx
normalden
predict
probit
recode
regress
tab
test
tw
w
xi: logi
t

149

8. MODELOS DE SERIES DE TIEMPO
8.1 Serie de tiempo en Stata modelos autorregresivos de media movil (arma)
Los modelos autorregresivos (AR), de media mvil (MA) y autorregresivos de media mvil
(ARMA) se caracterizan por incorporar en la explicacin futura de la variable dependiente
su propio comportamiento pasado. Esta forma de modelar la conducta de una serie de
datos temporales hace posible, en su forma ms simple en modelos univariados, la
generacin de pronsticos sin emplear informacin adicional proveniente de otros
regresores. En las secciones siguientes se sigue la metodologa de BOX y JENKINS
(1976)
11
para estimar y pronosticar modelos univariados de serie de tiempo a travs de
Stata. En particular se har uso de la informacin mensual de inflacin contenida en la
base de datos INFLACION.dta.
Antes de desarrollar la metodologa de BOX y JENKINS se aprender a generar variables
con formato de fecha, variables rezagadas y a designar la variable que representar el
tiempo en las estimaciones. Se carga la base de datos INFLACION.dta
. use INFLACION.dta
8.1.1 Generacin de variables con formato de fecha
Las variables de tiempo; fechas en aos, semestres, trimestres, meses, semanas y das
deben tener un formato especial en el anlisis de serie de tiempo y panel de datos. Los
formatos de estas variables en cada caso se describen a continuacin:
Formato Descripcin Codificacin
%td %d Diario
0 =
01jan1960;
1 = 02jan1960
%tw Semanal 0 = 1960w1; 1 = 1960w2
%tm Mensual 0 = 1960m1; 1 = 1960m2
%tq Trimestral 0 = 1960q1; 1 = 1960q2
%th Semestral 0 = 1960h1; 1 = 1960h2
%ty Anual 1960 = 1960; 1961 = 1961
Tabla 110. Formato de fechas
Es posible generar variables con formato de fecha a partir del comando generate. Por
ejemplo, para crear una variable con formato mensual se emplea la siguiente sintaxis:


11
BOX G. & JENKINS G. Time Series Analiysis, Forecasting and Control. Holden Day, San Francisco. 1976
150


Como la base de datos es relativamente pequea se puede listar la informacin en la
base de datos por medio del comando list as:
. list

Figura 108. Comando list.
La variable fecha tiene un formato numrico general que corresponde al nmero de
meses desde 1960. En el mes 1 del ao 2001 el nmero de meses transcurridos desde
1960 son 492. Sin embargo a la variable fecha se le puede dar un formato numrico
mensual as:

8.1.2 Designando la variable que representa al tiempo
Antes de estimar cualquier modelo de serie de tiempo es necesario que Stata reconozca
la variable que representa el tiempo (en nuestro ejemplo, la variable fecha). Este paso se
logra a travs del comando tsset as:
151

. tsset fecha, monthly
La opcin monthly indica la periodicidad mensual de la variable de tiempo fecha.
Nota: Para hacer pronsticos varios perodos hacia delante es necesario que la variable
que representa el tiempo se extienda tantos perodos hacia delante como perodos de la
variable dependiente se quieran pronosticar. En nuestro ejemplo, 7 perodos hasta
diciembre de 2006. Se dispone de informacin de inflacin hasta mayo de 2006.
8.1.3 Variables con rezago
En anlisis de serie de tiempo resulta muy til generar variables con uno o ms rezagos.
En estos casos suele acompaarse al comando generate con los operadores [_N] y [_n].
El operador _N se usa para contar el nmero total de observaciones en una variable y, el
operador _n numera las observaciones dentro de una variable.
Por ejemplo, se puede generar una variable rezagada un periodo as:
. g rezago = inflacion[_n-1]
En este ejemplo se debe tener en cuenta:
- Inflacin es el nombre de la variable que ser rezagada.
- Los corchetes en este caso deben ser cuadrados.
- No puede hacer separacin entre la variable a rezagar y el corchete cuadrado de
apertura.
- -1 en este caso indica que la variable inflacion ser rezagada 1 perodo.
Al listar las variables fecha, inflacion y rezago se puede visualizar la nueva variable
rezago correspondiente a la inflacin rezagada un perodo.
. list fecha inflacion rezago

152


Tabla 111. Comando list despus de generar rezago.
8.2 Metodologa Box Jenkins (BJ) aplicada al caso de seleccin y estimacin de
un modelo arma para pronstico de la inflacin.
BOX JENKINS difundieron una metodologa en tres fases para identificar, estimar y
validar modelos de serie de tiempo univariada y generar pronsticos. A continuacin se
seguirn estos pasos para obtener un modelo de pronstico tipo ARMA para la inflacin
mensual.
8.2.1 Fase de identificacin
La primera aproximacin a los datos es grfica. Al graficar la variable a pronosticar
respecto al tiempo se puede obtener informacin sobre posibles outliers, valores
perdidos missing values o cambios estructurales en la serie de datos. As mismo, si la
variable a pronosticar es no estacionaria podrn observarse tendencias pronunciadas o
comportamientos sin media y/o varianza constante a travs del tiempo. Con el comando
tsline es posible efectuar esta primera constatacin as:
. tsline inflacion

153


Figura 109. Grafico en series de tiempo
A su vez es posible constatar si se viola el supuesto de estacionariedad comprobando la
existencia de races unitarias por medio de la prueba de DICKEY y FULLER DF (1979)
12
.
En Stata la prueba se puede efectuar a travs del comando dfuller as:
. dfuller inflacion, trend regress lags(7)
Nota: Previamente se comprob que no eran significativos los rezagos 7,,12 (se probaron 12
rezagos porque la serie es mensual). Para tener en cuenta la tendencia en la prueba se emplea la
opcin trend. La opcin regress se puede omitir si tan slo se desea el valor del estadstico DF.
Para omitir la constante se emplea la opcin noconstant.

Tabla 112. Prueba Dickey-Fuyller

12
DICKEY D. & FULLER W. 1991. Distribution of the Estimates for Autoregressive Time Series With a Unit
Root. Journal of the American Statistical Association 74.
154

Al 1% de significancia se rechaza la hiptesis de existencia de raz unitaria, en otras
palabras, se puede pensar que la variable inflacin ha sido generada por un proceso
estacionario.
El paso a seguir consiste en identificar la naturaleza del proceso generador de datos (en
nuestro ejemplo, la inflacin). Para llevar a cabo esta tarea se suele recurrir a las
funciones de autocorrelacin (para identificar el componente de media mvil MA del
modelo) y autocorrelacin parcial (para identificar el orden la parte autorregresiva AR del
modelo). En Stata ambas funciones se pueden graficar con los comandos ac y pac
respectivamente as:
. ac inflacin
. pac inflacion


Figura 110. Autocorrelacin de la inflacin Figura 111. Autocorrelacin parcial de la inflacin
8.2.2 Fase de estimacin
Las funciones de autocorrelacin y autocorrelacin parcial sugieren varios procesos
ARMA factibles para la inflacin. La seleccin de los modelos debe tener en cuenta los
criterios de parsimonia (menor parametrizacin posible) estacionariedad e
invertibilidad de la variable dependiente y bondad de ajuste del modelo. A continuacin
se presenta uno de los posibles procesos ARMA para la inflacin. El comando para
estimarlos en Stata es arima y a travs de las opciones ar(nmero de los rezagos de la
variable dependiente separados por comas) ma(nmero de los rezagos separados por
comas) se puede especificar el componente autorregresivo y de media mvil as:
. arima inflacion tendencia, ar(1,12) ma(5,8,11) robust
155


Tabla 113. Modelo ARIMA
Nota: El orden de integracin en este caso es 0. Sin embargo a travs del prefijo D1., D2.,
D3.,,etc., antecediendo la variable dependiente (por ejemplo, D1.inflacion, D2.inflacion,
D3.inflacion,) se pueden lograr diferenciaciones de orden superior. La opcin robust genera una
matriz de varianzas y covarianzas consistente con posibles problemas de heteroscedasticidad.
A travs del comando estat ic se puede obtener el criterio de informacin de Akaike (AIC)
y el criterio bayesiano de Schwartz (BIC) los cuales son las dos medidas ms comunes de
bondad de ajuste. Cuanto ms pequeo es el valor de los estadsticos (AIC) y (BIC) mejor
ajuste tiene el modelo. Estos criterios se pueden emplear para seleccionar el modelo ms
apropiado de un conjunto de posibles modelos.
. estat ic

Tabla 114. Criterio de informacin AIC
8.2.3 Fase de verificacin y diagnostico
Es muy importante que los residuales del modelo estimado no estn serialmente
correlacionados. Cualquier evidencia de correlacin serial implicara movimientos
sistemticos en la variable dependiente que no han sido tenidos en cuenta por los
coeficientes incluidos en el modelo ARMA. Para chequear correlacin en los residuales se
pueden construir las funciones de autocorrelacin y autocorrelacin parcial para los
residuales. A travs del comando predict seguido de la opcin res se podr estimar los
residuales as:
156

. predict residual, res
. ac res
. pac res


Figura 112. Autocorrelacin de los residuales Figura 113. Autocorrelacin parcial de los residuales
En una prueba ms general, se puede constatar si los residuales son ruido blanco, en
otras palabras, tienen media cero, varianza constante y no estn serialmente
correlacionados. A travs del comando wntestq realizar esta prueba as:
. wntestq residual

Tabla 115. Prueba para comprobar ruido blanco en los residuales
No hay evidencia para rechazar que la serie de residuales es ruido blanco.
8.2.4 Pronsticos
Finalmente, se puede emplear el modelo para hacer pronsticos. El pronstico se puede
hacer tantos periodos hacia delante como horizonte temporal tenga la variable de tiempo
fecha la cual est definida entre el mes 1 de 2001 y el mes 12 de 2006, mientras que se
tiene dato mensual de inflacin hasta el mes 5 de 2006. A travs del comando predict
seguido de la opcin xb, se podr pronosticar la inflacin para los siguientes 7 meses as:
predict inf_p, xb
El pronstico de inflacin para el mes 6 de 2006 (segn este proceso ARMA) es del
0.366%. Se elabora una lista de las variables fecha, inflacin e inf_p a travs del
comando list as:
157

. list fecha inflacion inf_p

Tabla 116. Comando list despus del pronstico de la serie.
Finalmente, a travs del comando tsline es posible visualizar los valores observados y
pronosticados de la inflacin hasta diciembre de 2006.
. tsline inflacion inf_p

Figura 114. Grafica de la serie observada y pronosticada
8.2.5 Ejercicio
1. Replique las fases 7.4.1, 7.4.2 y 7.4.3 de la metodologa de BJ para generar un
proceso ARMA para la inflacin.
2. Compar entre varios modelos posibles la bondad de ajuste de los mismos para
seleccionar el mejor modelo.
3. Pronostique la inflacin para los prximos 6 meses y grafique los resultados frente
a los valores observados.
158

8.2.6 Ejemplo aplicado: FILTROS, ARIMA, SARIMA.
En esta seccin de utilizar la base de datos del ndice de precio del consumidor de orden
mensual para el pas de Mxico para una serie temporal de 1995 a 2013.
8.2.6.1 Generacin de variables con formato de fecha
1. Utilizar el comando br para observar cmo est determinada la variable de tiempo,
lo cual tiene una parmetro de meses en letras en idioma espaol y aos en
nmeros, por lo tanto se deber hacer un tratamiento diferente a como se
presentara en una base de datos con tiempo January 1,1995, 1/1/1995 o 1995-1-
1, lo cual se transformara de la siguiente manera
. gen fecha=date(NOMBREDELAVARIABLEFECHA, MDY)
. format fecha %td

2. Por lo tanto se debe en primera instancia dividir la variable Fecha en dos partes la
primera que contenga los meses en letras y la segunda la fecha, el comando que
se utilizar es Split, despus se debe renombrar las variable, respectivamente
rename, segundo generar una variable de tiempo que contenga valores numricos
ordenados a partir de la variable aos bysort year: gen, tercero generar la
variables de tiempo con el formato ao mes, ym, cuarto definir el formato de la
variable de tiempo format, y por ltimo se designa la variable que representa al
tiempo con el comando tsset.
. split Fecha, gen(fecha) destring
. rename fecha1 mes
. rename fecha2 ao

Tabla 117. Comando split
. bysort ao: gen meses=_n
. gen fecha1=ym(ao, meses)
. format fecha1 %tm

159


Tabla 118. Generar fechas en Stata.
. drop mes ao meses
. tset fecha1, monthly


Figura 115. Formato fecha
8.2.6.2 Anlisis de series temporales
8.2.6.2.1 Filtro de Hodrick y Prescott
La base de datos incluye 218 datos con periodicidad mensual, el objetivo de esta seccin
es separar la tendencia y encontrar el componente cclico del IPC de Mxico entre el
primer mes de 1995 y el segundo mes de 2013 empleando el filto H-P.
El comando a utilizar es tsfilter hp, donde trend crea una nueva variable denominada
tendencia atenuada y smooth representa la constate de suavizamiento que para datos
mensuales es igual a 14400, en caso de trimestres es igual a 1600 y en caso de aos
corresponder a 1000.

. gen LnIPC=ln(IPC)
. tsfilter hp IPC_hp=LnIPC, trend(tendenciaLnIPC) smooth(14400)
. tsline LnIPC tendenciaLnIPC
. tsline IPC_hp

160


Figura 116. Serie observada VS tendencia Figura 117. Filtro H-P
8.2.6.2.2 Modelos de pronsticos con tendencia determinstica
Siguiendo la base de datos del IPC para Mxico, se proyectar su valor para los meses
(marzo y abril de 2013), mediante los modelos de pronsticos con tendencia
determinstica. Para lo cual se utilizaran los comandos tsappend, add(#), el cual agrega
dos observaciones ms para su determinado pronstico, range, el cual funciona para
crear una variable acumulada que va desde 1 hasta 220 y boxcox para determinar la
forma funcional que mejor se ajuste a la tendencia del IPC.
. tsline IPC
. tsappend, add(2)
. range tendencia 1 220 220
. boxcox IPC tendencia, model(theta) lrtest

Figura 118. Grfica IPC
161


Tabla 119. Regresin BOX-COX
Segn la prueba ninguna funcin se ajusta a la tendencia del IPC, por lo tanto el
pronstico no se puede llevar a cabo mediante esta metodologa. En caso contrario se
evala una regresin del IPC en funcin de la tendencia teniendo en cuenta la hiptesis
nula del anterior test de prueba. Por ejemplo, si theta=lambda=1 entonces, regress IPC
tendencia, para luego pronosticar la variable IPC con el comando, predict IPCF, xb
8.2.6.2.3 Pronstico con atenuacin exponencial
Los mtodos que se utilizan dependern de la naturaleza de la variable IPC, ya se
descarta de antemano que el IPC sigue una funcin con tendencia con la prueba BOX-
COX, para determinar la naturaleza de la variable dependiente si es o no estacionaria se
elabora la prueba de Dickey-Fuller, mediante esta prueba se rechaza la hiptesis nula de
estacionariedad, por lo tanto ser necesario diferenciarla n veces para volverla
estacionaria.
Para lo cual se sugieren modelos tales como promedio mvil, promedio mvil doble,
atenuacin simple, atenuacin doble. En caso de que el modelo tenga tendencia se puede
pronosticar mediante Holt-Winters no estacional, Holt-Winters estacional multiplicativo o
Holt-Winters estacional aditivo.
. dfuller IPC, drift lags(14)
. dfuller D.IPC, drift lags(14)
. tsappend, add(10)
. tssmooth dexponential ADIPC=D.IPC, forecast(10)
. gen PronosticoIPC=IPC[_n-1]+ADIPC
. replace PronosticoIPC= PronosticoIPC[_n-1]+ADIPC if tin(2013m4, 2013m12)
. tsline PronosticoIPC IPC if tin(2010m1, 2013m12)

162


Tabla 120. IPC Dickey-Fuller test

Tabla 121. Primeras diferencias IPC Dickey-Fuller test

Tabla 122. Pronsticos para el IPC de Mxico
163


Figura 119. IPC VS Pronstico
8.2.6.3 Metodologa Box-Jenkins para el pronstico de series de
tiempo
8.2.6.3.1 Detectar estacionariedad
Las dos maneras ms comunes de detectar este problema en series temporales es
mediante la funcin de autocorrelacin simple, en donde le criterio para detectarla se
fundamenta cuando decae la funcin exponencialmente entre 1 y 0, otra manera es
mediante el correlograma de la variable de estudio en donde el criterio para detectar
estacionariedad se fundamenta en la probabilidad de tener ruido blanco, lo que implica
automticamente que la series es estacionaria por lo tanto se acepta esta hiptesis
cuando la probabilidad es mayor a 5%. Un segundo instrumento es el anlisis de raz
unitaria, en donde el estadstico de prueba ms conocido es Dickey-Fuller en donde la
hiptesis nula describe la presencia de raz unitaria.
. ac IPC
. corrgram IPC
. dfuller IPC, drift lags(12) regress
. dfuller IPC, trend lags(12) regress

Las opciones de la prueba de Dickey-Fuller dfuller, corresponde a las restricciones del
modelo, se encuentra drift un modelo con intercepto o constante, trend un modelo
evaluado con tendencia, noconstant un modelo que no incluye la constante.

164


Figura 120. Grafica de autocorrelacin del IPC

Tabla 123. Correlograma del IPC
165


Tabla 124. Prueba Dickey Fuller con tendencia

Tabla 125. Prueba Dickey Fuller con intercepto
Mediante las dos pruebas se confirma la presencia de autocorrelacin serial de la serie de
tiempo. Para corregir este problema se pueden hacer transformaciones de la serie
original.
166

. gen LnIPC=ln(IPC)
. gen dLnIPC=D.LnIPC
. tsline dLnIPC
. ac dLnIPC
. corrgram dLnIPC
. dfuller dLnIPC, drift lags(12) regress


Figura 121. Variacin porcentual mensual IPC Figura 122. Autocorrelacin de la serie diferenciada

Tabla 126. Correlograma de la serie en diferencia logartmica
167


Tabla 127. Prueba Dickey- Fuller de la serie diferenciada
La prueba de estacionariedad Dickey-Fuller no es vlida por la presencia de
estacionalidad del IPC para Mxico El correlograma no muestra probabilidades por
encima del 5% lo que demuestra el comportamiento estacional de la serie de tiempo. La
manera para arreglar este problema es desestacionalizar la serie, calculando la diferencia
estacional de la primera diferencia logartmica, para luego trabajar con la serie
desestacionalizada.
. gen dlnipc12=DS12.LnIPC
. tsline dlnipc12
. ac dlnipc12
. corrgram dlnipc12
. dfuller dlnipc12,lags(1) regress noconstant
168


Figura 123. Autocorrelacin de la serie estacionalizada.

Tabla 128. Correlograma de la serie estacionalizada.


169


Tabla 129. Prueba Dickey- Fuller series desestacionalizada.
En la tabla 127 se puede apreciar cmo se desvaneci el efecto estacional de la serie de
tiempo, la gran mayora de
k
se encuentra dentro del intervalo de confianza. Mediante la
prueba Dickey-Fuller se puede afirmar que la primera diferencia logartmica
desestacionalizada del IPC de Mxico es estacionaria.
8.2.6.3.2 Estimacin
Ahora para modelar la variable de debe escoger el orden ARIMA y SARIMA con el
correlograma de la diferencia logartmica desestacionalizada.
. arima DS12.LnIPC, ar(1) sarima(0,0,1,12) noconstant

Tabla 130. Modelo arima, sarima
8.2.6.3.3 Verificacin
Antes de ir a la parte de pronstico de la serie de tiempo se deben validar algunos
parmetros como por ejemplo los estimadores sean estadsticamente significativos lo cual
pasan la prueba al 1% de nivel de significancia, segundo se realiza una prueba de ruido
blanco para los errores.
. predict residuales, r
170

. wntestq residuales

Tabla 131. Prueba para detectar ruido blanco en los residuos
Bajo esta prueba se confirma que los residuales del modelo son ruido blanco.
8.2.6.3.4 Pronstico
Ahora se prosigue al pronstico de la serie para lo cual se agregan n observaciones para
el pronstico, se predicen los valores de la variables IPC y luego se halla el antilogaritmo
de la diferencia logartmica con el fin de obtener el IPC en niveles.
. tsappend, add(10)
. predict forescastlnipc, y dymamic(tm(2013m3))
. gen IPCF=exp(forescastlnipc)


Tabla 132. Pronstico de la serie IPC para el pas de Mxico.
Despus de este procedimiento se hace una evaluacin de la calidad del pronstico con
la serie observada, primero un anlisis grfico, segundo observar si el dato pronosticado
est por encima o por debajo del valor real mediante el comando rmse y tercero observar
si la prediccin est bien ajustada con el comando inequal7
. tsline IPC IPCf
. ssc install rmse
. ssc install inequal7
. rmse IPC IPCf
. inequal7 IPCf [weight=IPC]
171


Figura 124. Grfica IPC VS Pronstico Tabla 133. Prueba RMSE e INEQUAL7

Por lo tanto, al valor pronosticado de 108.573 para el mes de abril de 2013 se le debe
restar 0.245356 para que la proyeccin se aproxime mejor a la observacin de ese
periodo, es decir un IPC de 108.327. Tambin se puede observar si el pronstico est
bien ajustado de acuerdo con el Theil index de 0.028 que se aproxima a cero.
8.3 Modelos ARCH y GARCH, modelo condicional autorregresivo generelazidado
con heterocedasticidad
8.3.1 Antecedentes
En el estudio de Engle (1982), se pretende analizar la volatilidad de la tasa de inflacin y
su respectivo pronstico para el Reino Unido con un modelo tipo ARCH, con lo cual se
trataba de una crtica a los modelos bsicos por M.C.O, en donde se coloca de relieve el
concepto de una varianza constante en el periodo de pronstico. Para lo cual Engle
introduce un mtodo economtrico basado en que la varianza no condicional es constante
en el tiempo, mientras que la varianza condicional es variable en el tiempo. Para tales
procesos, el pasado reciente da informacin acerca de la varianza del pronstico de un
periodo. La eficiencia del modelo ARCH se calcula y puede ser infinita. Para comprobar si
los choques siguen un proceso ARCH, el procedimiento que se emplea son los
multiplicadores de Lagrange. La prueba se basa simplemente en la autocorrelacin de los
residuos al cuadrado. Por lo tanto el modelo realizado por Engle se utiliz para estimar las
medias y las varianzas de la inflacin en el Reino Unido. Este estudio obtuvo un gran xito
para estimar la volatilidad de la serie por lo cual desde ese entonces se empez a utilizar
esto procesos para pronosticar variables que tienen periodos con bastante volatilidad.
Engle concluye que el efecto ARCH es significativo y que las varianzas estimadas
aumentan sustancialmente durante los aos 70s (los aos setenta fueron caticos con un
sistema de precios voltiles).
172

Despus de 5 aos de permanecer el modelo ARCH aparece en 1987 Bollerslev, con un
mtodo innovador donde se introduce al modelo bsico un trmino no observable aditivo
de error en la ecuacin de la varianza condicional. En donde la evidencia emprica de
estos modelos se comprueba para una conjunto de datos de tipos de cambio e ndices de
precios de acciones. La principal conclusin del modelo radica en el hecho de que los
precios burstiles y las tasas de retornos no tienen autocorrelacin a travs del tiempo
pero se caracterizan por una alta volatilidad y tiempos apacibles en el rango de la serie de
tiempo, la misma conclusin de las revisiones de la literatura en hallazgos previos. El
autor coloca en relieve la utilizacin se un modelo simple GARCH (1,1), el cual se ajusta a
la serie de datos y a su descripcin. Y coloca una nueva pregunta de investigacin para
posteriores investigaciones y es lo concerniente a si existen otras distribuciones
condicional de los errores, proporciona una mejor estimacin y an ms la utilizacin de
otro orden es la especificacin GARCH, para modelar otras series de tiempo financieras.
La metodologa de la teora de la volatilidad dinmica, toma gran relevancia en la parte de
modelizacin de los precios financieros va los modelos ARCH-GARCH. Estos modelos
son bsicamente no lineales gaussianos que surgen a partir del supuesto de no
normalidad de la serie de rendimientos financieros y en si al fenmeno de colas pesadas y
de la concentracin de variabilidad en choques coyunturales, esto lo hace admitiendo
cambios en las perturbaciones, ya que estas varan en el tiempo
8.3.2 El modelo GARCH(1,0)

t
2
=
0
+
1

t-
2
+
t
n
=1

Donde

t
= ; (
t
) = u ; vai(
t
) =
2
v

_
1
n
=1
_ < 1: ; o .

8.3.2.1 Versin ARMA del GARCH

t
2
=
0
+
1

t-
2
+
1

t-
+
t
q
=1
p
=1

2
=

0
1
1

1

GARCH (1,1)
173

t
2
=
0
+
1

t-1
2
+
1

t-1
+
t

8.3.2.2 VARIANZAS
()

=
1
1
1
2
_

0
1
1
_

8.3.3 Metodologa ARCH EN STATA
- Para determinar si una serie de tiempo tiene efecto ARCH, se debe primero
estacionarizar la serie, por lo general en series financieras una manera de resolver
este problema es utilizar la frmula de rendimientos continuos
t
% = (
t

t-1
) .
- Segundo evaluar un modelo de regresin en donde incluya la metodologa
previamente vista Box Jenkins (BJ) y utilizar los comandos estat archlm y estat
bgodfrey, donde la hiptesis nula describe que no existe la existencia de un efecto
ARCH y una hiptesis alternativa que describe la presencia de un efecto ARCH.
- Tercero, el orden del Arch (autocorrelacin) y del Garch (autocorrelacin parcial)
sern determinados a partir de los residuos al cuadrado del modelo, para este
caso se debe utilizar el comando armadiag, arch, el cual no viene preinstalado en
Stata 12 por lo tanto se debe instalar con el comando ssc install armadiag para
ms ayuda sobre productores de programacin utilizar el comando findit armadiag.
- Cuarto, despus de evaluar el modelo correspondiente se debe hacer diagnstico
de los residuos para detectar ruido blanco en los errores y un diagnstico a los
residuos al cuadrado si sigue la persistencia en la varianza condicional. Los
comandos a utilizar son armadiag y armadiag, arch, respectivamente.
- Por ltimo se hace un anlisis de pronstico graficando la serie original y la serie
pronosticada con el comando tsline.
8.3.4 Ejemplo aplicado
Para esta seccin se utilizar una serie financiera tomada de la base de datos de
finance.yahoo.com desde enero de 2007 hasta marzo de 2013 con una periodicidad
diaria.
. gen tiempo=_n
. tsset tiempo
. gen Lncoke=ln(Coke)
. gen rendimientos= D.Lncoke
. regress D.Lncoke
. estat archlm, lags(1)
. estat bgodfrey, lags(1)

AR(1) ARCH(1)
174


Tabla 134. Regresin para detectar presencia de varianza condicional

Tabla 135. Prueba LM para detectar efectos ARCH

Tabla 136. Prueba Breush- Godfrey para detectar efectos ARCH
A travs de las dos pruebas se confirma la presencia de un efecto Arch en el modelo, ya
que la probabilidad de ocurrencia es inferior al 5% de un nivel de significancia, por lo tanto
se rechaza la hiptesis nula de la no presencia de autocorrelacin serial entre los residuos
al cuadrado.
Para seguir el ejemplo, se debe encontrar el orden de los rezagos de la variable y de
media mvil a travs de los comandos pac y ac, respectivamente.
. ac rendimientos
. pac rendimientos

175


Figura 125. Autocorrelacin de los rendimientos Figura 126. Autocorrelacin parcial de los rendimientos


. arima D.Lncoke, ar(1) ma(1)
. predict residuos, residuals
. gen residuos2= residuos*residuos
. corrgram residuos2


Tabla 137. Modelo ARIMA (1,0,1)
176


Tabla 138. Correlograma de los residuos al cuadrado
. arch D.Lncoke, ar(1) arch(1) garch(1)

Tabla 139. Modelo Ar(1) Garch(1,1)
177

8.3.4.1 Ejercicio
1. Evaluar el modelo incluyendo los parmetros ar(2) ma(2) GARCH (2,2) y verificar
individualmente la significancia de los coeficientes al 5% como nivel de
significancia.
8.3.4.2 Verificacin del modelo
Se debe verificar si los residuos se comportan con media cero y varianza constante, lo
que se llama ruido blanco y adems verificar si los residuos al cuadrado no muestran
patrones de volatilidad. Para esto se utiliza el comando armadiag y armadiag, arch, para
lo cual se debe mirar la probabilidad del estadstico Q, debe sobrepasar los niveles del 5%
para cada rezago, concluyendo que se debe aceptar la hiptesis nula de normalidad y no
presencia de volatilidad condicional.
. armadiag
. armadiag, arch


Figura 127. Diagnstico de los residuos

178


Figura 128. Diagnstico de los residuos al cuadrado.
8.3.4.3 Pronstico
Por ltimo se realiza el pronstico para los siguientes 7 das hbiles en el mercado
accionario, con el fin de predecir hasta el fin del mes. Adems de predecir el precio se
utiliza la opcin variance con el fin de pronosticar la varianza sujeta a nuestro modelo
economtrico.
. tsappend, add(7)
. predict pronosticolncoke, y dynamic(1565)
. predict cond_var, variance
. gen pronosticocoke=exp(pronosticolncoke)
. tsline Coke pronosticocoke in 1400/1571


Figura 129. Datos observados vs pronstico
179

8.4 Comandos usados
%td
_n-1
ac
add
ar
arch
arima
arima
armadiag
boxcox
bysort
corrgram
D.
date
destring
dfuller
drift
drop
DS12
dymamic
estat archlm, lags(1)
estat bgodfrey, lags(1)
estat ic
forecast
format
g
garch
inequal7
lags(7)
list
list
lrtest
ma
model(theta)
noconstant
pac
predict
range
regress
rename
res
rmse
robust
sarima
smooth(14400)
split
ssc install
tin
trend
tsappend
tsfilter hp
tsline
tsset
tssmooth dexponential
use
weight
wntestq
wntestq
xb
ym
9. MODELOS DE DATOS PANEL O LONGITUDINALES

Un conjunto de datos panel (o longitudinales) consta de una serie temporal para cada
miembro del corte transversal en el conjunto de datos. Como ejemplo, suponga que se
tienen las variables de salario, educacin y experiencia de un grupo de individuos a los
que se les hace seguimiento por 5 aos. De igual forma es posible recopilar informacin
en unidades geogrficas. Por ejemplos, datos de municipios de un pas sobre impuestos,
salarios, gastos estatales, niveles de educacin, entre otros.
La caracterstica principal de los datos panel, que los distinguen de las combinaciones de
cortes transversales, es el hecho de que se da seguimiento a las mismas unidades
transversales ya sean individuos, pases, regiones, entre otros, durante cierto perodo de
tiempo.
180

Como los datos de panel exigen la repeticin de las mismas unidades con el tiempo, los
conjuntos de estos datos, en particular de los individuos, hogares y empresas, son ms
difciles de conseguir que en las combinaciones de cortes transversales. La ventaja es
que al tener las mismas unidades es posible controlar ciertas caractersticas inobservadas
de individuos, empresas, etc.
Es decir es posible capturar inferencias causales que no es posible capturar con los
cortes transversales. La segunda ventaja de los datos panel es que permite estudiar la
importancia de los rezagos en el comportamiento o el resultado de tomar una decisin.
Esta informacin puede ser significativa, puesto que es de esperar que muchas polticas
econmicas tengan efecto slo al paso del tiempo.
La idea de los panel es poder capturar esos factores inobservables, por ejemplo, lo que
influye en el salario de un individuo en 1990 tambin influir en el mismo individuo en
1991, ese factor inobservable puede ser la capacidad o habilidades.
9.1 Anlisis de datos panel
El principal objetivo de aplicar y estudiar los datos en panel, es capturar la heterogeneidad
no observable, ya sea entre agentes econmicos o de estudio as como tambin en el
tiempo, dado que esta heterogeneidad no se puede detectar ni con estudios de series
temporales ni tampoco en corte transversal.
La aplicacin de esta metodologa permite analizar dos aspectos de suma importancia
cuando se trabaja con este tipo de informacin y que forman parte de la heterogeneidad
no observable: i) los efectos individuales especficos y ii) los efectos temporales.
En lo que se refiere a los efectos individuales especficos, se dice que estos son aquellos
que afectan de manera desigual a cada uno de los agentes de estudio contenidos en la
muestra (individuos, empresas, bancos) los cuales son invariables en el tiempo y que
afectan de manera directa las decisiones que tomen dichas unidades. Usualmente se
identifica este tipo de efectos con cuestiones de capacidad empresarial, eficiencia
operativa, capitalizacin de la experiencia, acceso a la tecnologa, etc.
Los efectos temporales seran aquellos que afectan por igual a todas las unidades
individuales del estudio pero que no varan en el tiempo. Este tipo de efectos pueden
asociarse, por ejemplo, a los choques macroeconmicos que pueden afectar por igual a
todas las empresas o unidades de estudio.

Stata con un conjunto de procedimientos que le permiten al usuario trabajar bases de
datos de Stata, para ello se debe utilizar el prefijo xt, el cual le indica a Stata que se est
trabajando con datos panel. Los comandos para iniciar Stata con panel y hacer su
descripcin son:
181

- Identificador de bases de datos de Stata
. xtset id t
- Descripcin de bases de datos tipo panel
. xtdescribe
- Resumen de estadsticas con variaciones WITHIN y BETWEEN
. xtsum id t lwage ed exp exp2 wks south tdum1
- Tabulacin de datos para una variable panel
. xttab south
- Clculo de probabilidades de transicin para una variable
. xttrans south, freq
9.1.1 Estructura de bases de datos panel
Stata requiere un ajuste de la base de datos panel, dado que solo trabaja con bases de
datos micropanel, es decir con N grande y T pequeo.
Reshape
reshape long stubnames, i(varlist) [options]
reshape wide stubnames, i(varlist) [options]
WIDE
i ....... x_ij ........
id sex inc80 inc81 inc82
-------------------------------
1 0 5000 5500 6000
2 1 2000 2200 3300
3 0 3000 2000 1000

Tabla Ejemplo Wide

En la base de datos en forma horizontal (wide form), existe una sola observacin por id,
pero ms de una variable por ingreso.

LONG
i j x_ij
id year sex inc
-----------------------
1 80 0 5000
182

1 81 0 5500
1 82 0 6000
2 80 1 2000
2 81 1 2200
2 82 1 3300
3 80 0 3000
3 81 0 2000
3 82 0 1000

Tabla. Ejemplo Long

En la base de datos de forma vertical (long form) se puede observar que existe una
variable que es constante al interior de un grupo, en este caso el id y una variable que
vara en el interior del grupo que es el ao.

De Long a Wide
reshape wide stub, i(i) j(j) j es una variable existente
De Wide a Long
reshape long stub, i(i) j(j) j es una nueva variable
- Formato de los datos WIDE (i=state)
. use mus08cigarwide.dta, clear
. list, clean
- Transformar del formato WIDE al formato LONG (i=Stata, j=year)
. reshape long lnp lnc, i(state) j(year)
- Formato de los datos LONG
. list in 1/6, sepby(state)
- Retransformar del formato LONG al formato WIDE
. reshape wide lnp lnc, i(state) j(year)

9.2 Ejemplo Prctico El caso de la CASEN
Para esta ltima seccin se utilizar la base de datos de la encuesta de caracterizacin
socioeconmico nacional (Casen) para los aos 1996, 2001, 2006, con el objetivo de
estimar la ecuacin de ingresos con respecto a algunas variables que poseen los
individuos como es la experiencia, los aos de educacin y las horas dedicadas al trabajo.
De esta manera la ecuacin objetivo sigue la siguiente forma.
183

En primera instancia se delimita que se va a trabajar con una base de datos de orden
panel con el comando xtset(i,j), donde i denota la variable que determina el corte
transversal y j determina el periodo con que se denomina la base de datos. Es pertinente
que la variable de serie de tiempo debe ir organizada en fila y no en columnas, el
comando que se utiliza es reshape.
Al igual que series de tiempo con el comando ts, datos de panel trabaja con un comando
especial xt, por ejemplo si se desea describir las variables de la base de datos de xtdes,
para hacer algn tipo de estadstica descriptiva xtsum, para realizar tablas de frecuencias
xttab y para calcular matrices de transicin se utilizar el comando xttrans.
. by idpersona: gen fecha=_n
. xtset idpersona fecha
. gen lwage=ln( ytrabcor)
. gen exp2=exp*exp
. xtdes
. xtsum
. xttab econyugal
. xttrans econyugal,freq

Tener en cuenta que overrall hace referencia a todos los individuos de la muestra en todo
los n periodos, between es una muestra entre individuos y within es una variacin entre la
variable de tiempo, manteniendo a los mismos individuos.

Tabla 140. Frecuencia para el estado conyugal
Para entender un poco mejor el anterior anlisis, preste atencin a la columna overall freq,
quiere decir que sobre todas las observaciones se encontraron 3640 ocasiones donde el
individuo est casado, 456 ocasiones donde los individuos se encontraron solteros. Ahora
observe la columna between freq. Por ejemplo el nmero 406, indica que 406 individuos
estuvieron solteros alguna vez. Ahora observe la columna within percent, indica que del
total de la muestra el 89.68% de las personas estaban alguna en otro estado conyugal
diferente al casado.
184


Tabla 141. Matriz de transicin para el estado conyugal
Tambin se puede mirar matrices de probabilidades entre el cambio de estado conyugal
en el periodo observado, por ejemplo del total de la muestra el 95.23% de las personas
siempre estuvo casada y el 19.01% de las personas pasaron de estar casados a estar
solteros. Del total de la muestra el 2% de las personas cambiaron de estar solteras a estar
casadas.
9.2.1 Grficos de evolucin
El comando xtline permite hacer grafico de evolucin de aquellas variables que que se
quieren analizar, por ejemplo si se quiere saber la dinmica del comportamiento del
logaritmo del salario y la dinmica de las horas de trabajo al mes;
. xtline lwage if idpersona<=39, overlay title("Logaritmo salario") name(lwage, replace)
. xtline horas if idpersona<=39, overlay title("Horas de trabajo al mes") name(hora, replace)
. graph combine lwage hora

185


Figura 130. Grfico de evolucin entre el salario y las horas de trabajo
Ahora para la realizar grficos de dispersin scatter con ajustes paramtricos qfit y no
paramtricos lowess se utilizar el comando graph twoway. Por ejemplo se quiere el
grfico del comportamiento del salario con respecto a los aos de experiencia de los
individuos de la muestra, con un ajuste cuadrtico para observar si existe un efecto lineal
y un ajuste no paramtrico para observar que tanto se desva del ajuste paramtrico.
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grfico)

186


Figura 131. Ajustes de la grfica de dispersin entre el salario y la experiencia
Por otro lado tambin se pueden realizar grficos en donde solo se incluya el efecto within
y between de la muestra que se elige. Por ejemplo si se quisiera realizar el anterior grafico
pero solo entre el cambio de cada individuo a travs del tiempo se utilizar el comando
xtdata, fe, mientras que para realizar anlisis entre individuos between se utilizar xtdata,
be.
*variacion within*

. snapshot save, label("Snapshot 1")
. xtdata idpersona anos lwage exp, fe
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grficowithin)
. snapshot restore 1

*variacion between*

. xtdata idpersona anos lwage exp, be
. graph twoway (scatter lwage exp) (qfit lwage exp) (lowess lwage exp), title(Dinamica: Salario vs experiencia)
ytitle(Logaritmo Salario) xtitle(Aos de experiencia) legend(label(1 "Datos reales") label(2 "Ajuste Cuadratico")
label(3 "Lowess")) name(Grficobetween)
. snapshot restore 1

. graph combine Grficowithin Grficobetween, title(Logaritmo del salario vs experiencia)

187


Figura 132. Anlisis comparativo between y within
9.2.2 Modelos economtricos para datos de panel
El modelo general viene determinado de la siguiente manera:

t
=

+
t

t
+
t

Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puede
ser
- Modelo agrupado (pooled)

Si el intercepto es constante, y no hay heterogeneidad entre individuos.
Exogeneidad (
t
,
t
) = u.
El modelo resultante es el modelo agrupado.

- Modelo de efectos fijos (fixed effects, FE)

Si el intercepto no es constante, hay heterogeneidad entre individuos.
(
t
,

) u.
Exogeneidad (
t
,
t
) = u.
El modelo resultante es el modelo de efectos fijos.

- Modelo de efectos aleatorios (random effects, RE)

Si el intercepto no es constante, hay heterogeneidad entre individuos.
188

(
t
,

) = u.
Exogeneidad (
t
,
t
) = u.
El modelo resultante es el modelo de efectos aleatorios.
9.2.2.1 Regresion Pooled
La regresin agrupada se evala sin tener en cuenta de que los datos son datos de panel
agrupados. En este parte, primero se crea una variable categrica de gnero, toma el
valor de 1 si es hombre y 0 en caso contrario, segundo se crea una variable global que
contenga todas la variables independientes y al momento de requerirla se utilizar el
nombre del global antecedido del signo $, tercero se evala la funcin de los ingresos del
individuo, cuarto se examina si los residuos tienen algn tipo de autocorrelacin serial.
. gen sexo=genero==1
. global xvarlist exp exp2 horas esc sexo

*Regresion agrupada pooled*

. sort idpersona fecha
. reg lwage $xvarlist
. reg lwage $xvarlist, vce(cluster idpersona)
. predict uhat, resid
. correlate uhat L.uhat

Tabla 142. Matriz de correlaciones entre los residuales y su rezago
9.2.2.2 Estimacin del modelo de efectos fijos
Es una estimacin a travs de la transformacin within, tomando la desviacin respecto a
la media en el tiempo para cada individuo.


(
t

) = (
t

) +(
t


Con este mtodo no se pueden estimar los coeficientes de aquellas variables que no
varan en el tiempo. El comando que se utiliza es xtreg, fe. Para detectar
heterocedasticidad se utiliza el comando xttest3, para corregir el efecto de
heterocedasticidad se utiliza el comando vce(cluster idpersona). Para detectar
autocorrelacin en los residuos se utiliza el comando xtserial, para corregir este problema
se utiliza el comando xtregar.
. xtreg lwage $xvarlist, fe
189

. xttest3
. xtserial lwage $xvarlist
. xtreg lwage $xvarlist, fe vce(cluster idpersona)



Tabla 143. Regresin datos de panel por efectos fijo

Tabla 144. Prueba para detectar heterocedasticidad

Tabla 145. Prueba para detectar autocorrelacin
190

Por medio de las anteriores pruebas se demuestra que por medio de la regresin por
efectos fijos existe presencia de heterocedasticidad y la no presencia de autocorrelacin
seria.l

Tabla 146. Regresin datos de panel por efectos fijos y correccin de heterocedasticidad.
Se puede observar que Stata 12 omite la variable que no cambia a travs del tiempo
entre los individuos, que es el gnero. A diferencia del modelo por mnimos cuadrados
ordinarios las variables de aos de escolaridad y de experiencia al cuadrado no son
significativas al 5%.
9.2.2.3 Estimacin del modelo de efectos aleatorios
La estimacin se puede realizar mediante tres mtodos el primero hace nfasis en
evaluarlo en primeras diferencias, segundo, por el mtodo de mnimos cuadrados
generalizados y tercero con el mtodo between. El comando que se utiliza es xtreg, re.
. xtreg lwage $xvarlist, re vce(cluster idpersona)
. xttest1


191


Tabla 147. Regresin datos de panel por efectos aleatorios y correccin de heterocedasticidad.

Figura 133. Prueba conjunta para detectar autocorrelacin y heterocedasticidad
Con la anterior prueba que demuestra que al evaluar el modelo por efectos aleatorios
existe presencia de heterocedasticidad y autocorrelacin, para corregir estos dos
problemas se utiliza la opcin vce(cluster idpersona) y el comando xtregar.
192

9.2.3 Comparacin de modelos
En esta parte se utilizaran los comando quietly para realizar la estimacin sin que muestre
los resultados en la pantalla, est store para que guarde en memoria los resultados de la
estimacin y est table para mostrar los resultados en una tabla con las opciones que se
quieran mostrar, por ejemplo b, se, r2, para los coeficientes, la desviacin estndar y el r
cuadrado, respectivamente.
. quietly regress lwage $xvarlist, vce(cluster idpersona)
. est store MCO
. quietly xtreg lwage $xvarlist, fe
. est store FE
. quietly xtreg lwage $xvarlist, fe vce(robust)
. est store FE_rob
. quietly xtreg lwage $xvarlist, re
.. est store RE
. quietly xtreg lwage $xvarlist, re vce(robust)
. est store RE_rob
. est table MCO FE FE_rob RE RE_rob


Tabla 148. Comparacin de modelos datos de panel
Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando
hausman.
. hausman FE RE, sigmamore
193


Tabla 149. Prueba Hausman
La hiptesis nula de esta prueba es que la diferencia de los coeficientes no es
sistemtica, de otra manera no existe diferencia entre los modelos fijos y aleatorios, por lo
tanto no hay diferencia entre un modelo y el otro, se podra evaluar cualquiera de los dos.
Por otro lado, si se rechaza esta hiptesis nula, la mejor manera para estimar el modelo
seria efectos fijos. En este orden de ideas para el modelo para la base de datos CASEN el
mejor modelo a estimar sera el de efectos fijos ya que la prueba de Hausman arroja un p-
valor por debajo del 5% del nivel de significancia.
9.2.4 Interpretacin de los parmetros de efectos fijos.
A travs de la prueba de Hausman se estima el modelo por efectos fijos, por lo tanto si la
experiencia se incrementa en una aos adicional, manteniendo las dems variables
constantes, los individuos de la muestra incrementaran su nivel de salario en un 2,7%.
Por un incremento de un ao de escolaridad de cada individuo, manteniendo las dems
variables constantes, el salario se incrementara en un 3.5%.
9.3 Comandos usados

$
by
clean
est store
gen
global
graph combine
hausman
list
predict
quietly
reshape
reshape long
reshape wide
resid
sigmamore
use
vce(cluster
xtdata, be.
xtdata, fe
xtdescribe
xtgls
xtline
xtpcse
194

xtregar
xtse
xtserial
xtset
xtsum
xttab
xttest0
xttest1
xttest3
xttrans

































195

10. INTRODUCCIN A LA PROGRAMACIN

10.1 Local macros
Las macros locales de Stata le van a permitir trabajar ms fcilmente con Stata, estas
macros le permitirn alojar objetos como nmeros, variables o varios conjuntos de
objetos. Estos objetos pueden contener caracteres alfanumricos y hasta 8000
caracteres. El comando para definir una macro es con local seguido por el nombre del
objeto y sus caractersticas.
Ejemplos:
local country US UK DE FR
local ctycode 111 112 136 134
display `country
US UK DE FR

El comando global le permite crear nombres de listas de variables, para as poder
referirse a ellas de forma conjunta y evitar tener que escribir cada una de ellas cada vez
que se vayan a utilizarlas.
Por ejemplo
global grupo1 var1 var2 var3
Luego para hacer referencia al grupo de variable utilizando algn comando, se debe
anteponer el smbolo $ al nombre del grupo
Por ejemplo
keep $grupo1
10.2 Creando ciclos
Una de las utilidades principales de la programacin es la creacin de loops estos le
permiten al usuario crear rutinas para evaluar diferentes alternativas o para crear ciclos de
comandos. Los comandos ms importantes para estos ciclos son forvalues y foreach.
10.2.1 Comando IF
If expression {
Comandos Stata
}
else if expression {
comandos stata
}
else {
comandos stata

196

10.2.2 Comando For
set obs 100
For new u1-u10: gen x=uniform()
For any . : replace z=. If y= X
For new x2-x5 \ num 2/5: gen X =variable^Y
10.2.3 Comando Forvalues
forvalues nueva_macro = rango {
comandos referidos a nueva_macro
}

program define diez
forvalues i = 1(1)10 {
display "`i'"
}
End
10.2.4 Comando While:
while condicion {
comandos Stata
}

local i = 1
while `i' <= 10 {
display `i'
local i = `i' + 1
}

10.3 ESCALARES Y MATRICES
scalar raiz2 = sqrt(9)
generate raizPIB = PIB*raiz2

Los estadsticos, pruebas y resultados que genera Stata es posible visualizarlos por
medio del comando return y ereturn. Por ejemplo
197


Tabla 150. Comando sum, detail
Luego se obtienen los resultados

Tabla 151. Comando return
Vea en este caso, que al hacer un comando de sum e indicando la opcin de detail, Stata
se muestran los resultados generales ms otras medidas de percentiles, la curtosis y la
simetra. Ahora suponiendo que se quiere armar una tabla que muestre para la base de
nlsw88.dta, por raza, el promedio del salario, la mediana, la varianza y el nmero de
observaciones. Para ello se usar la construccin de una matriz.
Para la creacin de la matriz se construye indicando el tamao que se quiere.
La matriz que se debe construir es la siguiente:
BLACK WHITE
Promedio
Varianza
Mediana
No. Observaciones
Tabla 152. Tabla de ejemplo
Se utiliza el comando matrix, help matrix_functions
99% 15906 15906 Kurtosis 4.819188
95% 13466 14500 Skewness 1.653434
90% 11385 13594 Variance 8699526
75% 6342 13466
Largest Std. Dev. 2949.496
50% 5006.5 Mean 6165.257
25% 4195 3748 Sum of Wgt. 74
10% 3895 3667 Obs 74
5% 3748 3299
1% 3291 3291
Percentiles Smallest

Price
. sum price, detail
r(p99) = 15906
r(p95) = 13466
r(p90) = 11385
r(p75) = 6342
r(p50) = 5006.5
r(p25) = 4195
r(p10) = 3895
r(p5) = 3748
r(p1) = 3291
r(max) = 15906
r(min) = 3291
r(sum) = 456229
r(kurtosis) = 4.819187528464004
r(skewness) = 1.653433511704859
r(sd) = 2949.49588476892
r(Var) = 8699525.97426879
r(mean) = 6165.256756756757
r(sum_w) = 74
r(N) = 74
scalars:
. return list
198

Usando la base de datos de nlsw88.dta
. sysuse nlsw88.dta
. matrix define A=J(4,2,0)

Tabla 153. Comando sum del salario cuando la raza es blanco
matrix A[1,1] = r(mean)
matrix A[2,1] = r(p50)
matrix A[3,1] = r(Var)
matrix A[4,1] = r(N)

Debe hacer lo mismo para los negros

Tabla 154. Matriz A
Ahora para generar el nombre de las filas y las columnas
matrix rown A = Promedio Media Varianza Observaciones
matrix coln A = Blanco Negro


Tabla 155. Matriz A con rtulos
99% 38.70926 40.19808 Kurtosis 14.74577
95% 17.34411 40.19808 Skewness 3.00474
90% 13.14009 40.19808 Variance 35.46285
75% 9.758451 40.19808
Largest Std. Dev. 5.955069
50% 6.545891 Mean 8.082999
25% 4.516906 1.501798 Sum of Wgt. 1637
10% 3.344482 1.392914 Obs 1637
5% 2.875546 1.032247
1% 2.090301 1.004952
Percentiles Smallest

hourly wage
. sum wage if race ==1, d
r4 1637 583
r3 35.462848 25.767671
r2 6.5458913 5.434783
r1 8.0829994 6.8445578
c1 c2
A[4,2]
. matrix list A
Observacio~s 1637 583
Varianza 35.462848 25.767671
Media 6.5458913 5.434783
Promedio 8.0829994 6.8445578
Blanco Negro
A[4,2]
. matrix list A
199

Para pasar de matriz a variable, se usa el comando svmat.
. svmat A
10.3.1 Ejercicio
1. Ahora haga una prueba de igualdad de medias de los salarios, por la raza
2. Cree una tabla de resultados tal como se presenta a continuacin
BLANCO NEGRO ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error
std
T-test

Tabla 156. Ejercicio de matrices
La primera fila no es posible crearla en Stata, entonces solamente ingrese como nombres
la segunda fila.
Ahora utilizando loops realice la siguiente tabla por las variables tenure, hours, wage
grade
SINGLE MARRIED ESTADSTICAS
Promedio Observaciones Promedio Observaciones Diferencia Error
std
T-
test
tenure
Hours
Wage
Grade
Tabla 157. Ejercicio 2 de matrices
. global grupo tenure hours wage grade
Se define una matriz 4x7
. matrix def C=J(4,7,0)
Se genera el indicador del loop i que comience desde cero
. local i = 0
Utilizando el comando foreach me dice que para cada variable en el grupo que acabo de
formar realice los comandos dentro del loop.
foreach var in $grupo {
local i = `i'+1
preserve
qui ttest `var', by(married)
matrix C[`i',1]=r(mu_1)
matrix C[`i',2]=r(N_1)
matrix C[`i',3]=r(mu_2)
200

matrix C[`i',4]=r(N_2)
matrix C[`i',5]=r(mu_1) - r(mu_2)
matrix C[`i',6]=r(se)
matrix C[`i',7]=r(t)
restore
}
matrix rown C = tenure hours wage grade
matrix coln C = Prom1 Obs1 Prom2 Obs2 Dif ErrSt T-test
matrix list C

11. TRUCOS CON STATA

11.1 Algunos consejos con Stata
13

1. Si quiere redondear los nmeros en su base de datos podr usar los comandos
floor(), round() y ceil().

Ejemplo:
. sysuse auto
. gen g_ratio = floor(gear_ratio)
. gen g_ratio = ceil(gear_ratio)

2. En algunas ocasiones se recomienda que el usuario antes de ejecutar algn
comando o un archivo .do, verifique que las condiciones se cumplan, una de las
formas para verificarlo es usando el comando assert.

Ejemplo:
. sysuse bplong
. assert sex == 0 | sex ==1
. replace sex = 3 in 1
. assert sex == 0 | sex == 1

3. Para ingresar caracteres de texto en grficas, crear variables, tablas, puede utilizar
el comando char() , en su interior debe ingresar el cdigo ASCII

Ejemplo:
. gen arroba = char(64)
. global copyr = char(169)

13
Retomado del libro Seventy-six of Stata tips.
201

. scatter price mpg, xtitle(MPG) ytitle(Precio $copyr)

4. El comando creturn, c(), le permite al usuario obtener la informacin parametrizada
del sistema, tal como, meses, das, fecha actual, versin de Stata. Algunos
ejemplos son:

display `c(alpha)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(ALPHA)
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
di `c(Mons)
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
di `c(current_date)
di `c(current_time)
di `c(sysdir_stata)
di `c(N)
di `c(k)
di `c(memory)
di `c(more)
di `c(virtual)
di `c(pi) - Genera el nmero Pi
5. Fillin

. clear
. set obs 3
. gen y = _n
. gen x = y
. fillin y x

Tabla 158. Comando fillin
6. Predefiniendo teclas, Stata, le permite al usuario la posibilidad de usar las teclas
funtions, para el llamado de comandos, funciones, caracteres, entre otros.

Ejemplo:
. global F4 = char(96)
202

. global F4 = char(180)
. global F4 = list;

7. Descargar programas escritos por usuarios

net from http://www.stata.com
. net cd stb
. net cd stb42
. net install sbe16_1

8. Actualizacin Menores de Stata

Stata es un programa que continuamente se encuentra en desarrollo, adems, al
contar con una amplia comunidad de usuarios en diferentes partes del mundo le
brinda la oportunidad de estar frecuentemente mejorado por los Statistical Software
Components (SSC) que continuamente generan los usuarios.
Pero Stata en su versin 11.0 ha generado ya dos actualizaciones menores dentro de
esta versin, siendo la ms actual la versin 11.2, los usuarios que tengan registrado
el software y que cuenten con una conexin a Internet podrn acceder a la ltima
actualizacin de forma gratuita, lo primero que debe verificar es la conexin a internet,
si se encuentra en un equipo que pertenece a una red deber consultar si su conexin
requiere proxy, para configurar el proxy en Stata debe ir a Edit Preferences
General Preferences

Figura 134. Preferencias generales
Posteriormente en la pestaa de Internet, configur el proxy, el puerto y el usuario y
contrasea en caso de ser necesario.
203


Figura 135. Pestaa Internet
En la misma pestaa de Internet podr activar la opcin de actualizacin automtica, si
activa esta opcin debe tener en cuenta que cada vez que Stata se inicie se actualizar
con la frecuencia que usted seleccione y el tiempo de la actualizacin depender de su
conexin a internet.
En caso de no activar la actualizacin automtica, usted podr realizar la actualizacin en
el momento que lo desee, ingresando en la ventana de comandos el comando update all
el cual le indicar paso a paso las instalaciones que desea.
Se recomienda tambin ver la ayuda de
. help update
. help ssc
. help net
. help sj

11.2 Ejecutando comandos en Stata sin resultados (quietly)
El comando quietly de Stata permite ejecutar otros comandos de Stata sin presentar los
resultados o salidas en la ventana de resultados, la instruccin se ubica como prefijo al
comando principal. Esta es una herramienta clave si se requiere retornar algunos
resultados por ejemplo: media, varianza, coeficientes, etc., (ver listado de la opcin r() por
medio de help return list) sin necesidad de ver la salida completa.
Ejemplo 1:
204

. sysuse auto, clear
. quietly summarize mpg, detail
Ejemplo 2:
. quietly: summarize mpg, detail
De igual forma se pueden ejecutar un bloque o grupo de comandos con quietly
Ejemplo 3:
. sysuse auto, clear
quietly {
summarize mpg, detail
local a=r(mean)
summarize price, detail
local b=r(mean)
}
En el caso que se desee mostrar un resultado completo en un bloque de comandos, se
usa el comando noisily como prefijo al comando principal.
Ejemplo 4:

. sysuse auto, clear
quietly {
summarize mpg, detail
local a=r(mean)
noisily summarize price, detail
local b=r(mean)
}
205


Figura 136. Comando nosily
Para ms informacin ver:
. help quietly
11.3 Herramienta de calificacin de Stata 12
La versin de Stata 12 liberada el mes de agosto de 2012, incluy una nueva herramienta
denominada Installation Qualification Tool (IQT) la cual verifica que el software y todas
sus actualizaciones estn instaladas correctamente, en ste momento se cuenta con IQT
para Windows y Mac y tambin para las versiones 11 y 12.
Para descargar la herramienta ingrese a http://www.stata.com/support/installation-
qualification/, una vez descargado el programa, instlelo, se requiere que tenga permisos
de administrador para ejecutar la aplicacin.
206


Figura 137. Stata directory
Una vez ejecutado la IQT deber instalar un recurso de evaluacin, para ello haga clic en
Browse de la opcin de Qualification source, seleccione una ubicacin, puede ser la
carpeta de Stata 12, e instale el complemento.

Figura 138. Revision
Al instalar el complemento, la aplicacin buscar la versin de Stata actual y las
actualizaciones realizadas, seleccione la que desee y de clic en RUN TEST.

Figura 139. Run test
El programa empezar a evaluar su correcta instalacin del software y generar un
reporte sobre los resultados del anlisis el cual podr exportar a PDF haciendo clic en
Export.
207


Figura 140. Exportar reporte
Para mayor informacin dirjase a http://www.stata.com/support/installation-qualification/
11.4 Archivos en PDF de logs y grficas con Stata 12
En Stata 12 los archivos log (archivos de registro) se siguen generando como SMCL o
texto. Pero en esta ltima versin estos archivos pueden ser convertidos a formato PDF.
Esto se puede hacer fcilmente con el comando translate, por ejemplo:

. log using C:\Users\Soporte\Desktop\logfile.smcl, replace
. sysuse auto, clear
. tab rep78 foreign
. log close
.translate C:\Users\Soporte\Desktop\logfile.smcl C:\Users\Soporte\Desktop\logfile.pdf, translator(smcl2pdf)

La visualizacin del PDF ser la siguiente:

208


Figura 141. Comando translate
Adems, en Stata 12 se puede producir un PDF de un grfico desde Stata. Por ejemplo:
. sysuse auto, clear
. gladder price
. graph export C:\Users\Soporte\Desktop\graph.pdf //name(scatter)


Figura 142. Exportar grficos en formato PDF

209

Para ayuda sobre un comando especfico digite:
. help
Y por ejemplo especifique un comando
. help translate
. help graph export
11.5 Material de apoyo
Algunos recursos en Internet para usuarios Stata:
- http://www.ats.ucla.edu/stat/stata/
- http://econpapers.hhs.se/paper/bocbocoec/531.htm
- http://fmwww.bc.edu/ec/res.info.php
- http://ideas.repec.org/s/boc/bocins.html
















210

12. BIBLIOGRAFIA

[1] Adkins, L. & Hill, R. (2008). Using Stata for Principles of Econometrics. Wiley, Third
Edition.
[2] Baum, Christopher. (2006). An Introduction to Moderm Econometrics Using Stata.
Stata Press, Second Edition.
[3] Baum, Christopher. (2009). An Introduction to Stata Programming.. Stata Press, First
Edition.
[4] Cameron, A. & Trivedi, P. (2009). Microeconometrics Using Stata. Stata Press, Second
Edition.
[5] Cox, N. & Newton, H. (2009) Seventy-six Stata Tips. Stata Press, Second Edition.
[6] Freese, J. & Long. S. (2006). Regression Models for Categorial Dependent Variables
Using Stata. Stata Press, Second Edition.
[7] Hamilton, Lawrence. (2004). Statistics with Stata. Thomson.
[7] Mitchell, Michael. (2008). A Visual Guide to Stata Graphics. Stata Press, Second
Edition.
[8] Mitchell, Michael. (2010). Data Management Using Stata, A Practical Handbook. Stata
Press, Second Edition.
[9] Rabe, S & Everitt, B. (2004). A Handbook of Statistics Analyses using Stata. Chapman
& Hall/CRC, Third Edition.



STATA es un programa estadstico desarrollado para el manejo y anlisis de datos. En la
actualidad, es ampliamente usado por investigadores de diferentes disciplinas,
incluyendo desde bioestadsticos hasta investigadores sociales. Los diferentes tipos de
anlisis integrados a STATA estn documentados y respaldados por numerosos libros,
publicaciones y revistas.
Los manuales de de STATA que en las versiones anteriores estaban reunidos en 15
volmenes de explicaciones tericas, mtodos, frmulas, ejemplos estadsticos y
documentos de referencia, ahora hacen parte de la ayuda interactiva que ofrece el
programa. Al tratarse de un programa en ambiente Windows, su interfaz es similar a la de
todos los programas bajo este ambiente.
SOFTWARE shop | publishing@SOFTWARE-shop.com | www.SOFTWARE-shop.com R
12
Introduccin al Anlisis y Modelacin
de Datos con Stata