Está en la página 1de 135

APRENDIENDO A USAR STATA

Carlos Giovanni Gonzlez Espitia


Email: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en el uso bsico de Stata,
posiblemente el software economtrico ms popular y con las herramientas
predefinidas ms adecuadas de clculo automatizado para la docencia y la
investigacin en economa.

Palabras Clave: Econometra, software economtrico, Stata


Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

.::UdecomBooks::.

1 Introduccin
Este documento es el primero de una serie de documentos de carcter acadmico que
se escribirn sobre el uso en econometra del software Stata. Este programa no es
libre y tampoco es gratuito, por lo que es necesario acceder a una licencia para su uso
legal. La empresa que desarrolla y comercializa el software es StataCorp
(www.stata.com). Este programa supera prcticamente todos los test de fiabilidad
(www.stata.com/support/cert/), por esta razn, adems de su rigurosidad y manejo
de dos ambientes de trabajo, es uno de los programas economtricos ms utilizados.
Una de las ventajas ms destacadas del programa es que permite un ambiente de
trabajo tradicional por medio de ventanas (Windows), el cual es muy fcil de utilizar a
travs de un men principal y de una barra de herramientas de donde se despliegan
todas las opciones posibles que tiene predefinidas el software. Por otro lado, tambin
permite trabajar con comandos predefinidos, que se complementa con un potente
lenguaje de programacin. Esta opcin permite utilizar rutinas para ejecutar
programas previamente hechos sin necesidad de empezar de nuevo. Posiblemente,
sta opcin de uso es una de las ventajas ms reconocidas para usar Stata.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. Adems, el documento es una herramienta de apoyo y no sustituye
los manuales de Stata, ni los libros ms rigurosos de econometra.
El objetivo de este documento es introducir al lector en el uso bsico de Stata, uno de
los programas ms populares y rigurosos para hacer econometra. Actualmente los
econometristas pueden facilitar su labor al realizar una buena eleccin del software
con el que se va a trabajar. Algunas de las ventajas de utilizar Stata son que permite
realizar las regresiones de manera sencilla y rpida mediante comandos, adems de
que tiene propiedades particulares como la facilidad de guardar en un archivo todo lo
realizado hasta cierto punto para reanudar con el trabajo despus de cerrado el
programa.
El documento consta de cuatro apartados, el primero de ellos es esta introduccin. En
el segundo apartado se hace una introduccin al programa y a los comandos ms
bsicos. El tercer apartado recoge las nociones bsicas para el procesamiento de
datos. En el cuarto apartado se presentan algunos comentarios generales del uso
bsico del programa. Finalmente, el documento termina con una seccin de la
bibliografa usada y otra complementaria. El documento termina con un anexo sobre
el uso del programa Stattranfer, la econometra no sera lo mismo sin l.

2 Comandos bsicos
Stata es un programa que se instala fcilmente y que tiene una interface muy
amigable. En el Cuadro 1, se puede observar la salida inicial del programa. En la parte
superior de la interfase de salida de Stata vemos el men principal con todas sus
opciones (File, Edit, Data, Graphics, Statistics, User, Windows y Help), as como una
barra de herramientas con once iconos, distribuidos en el siguiente orden (Open,
Save, Print, Log, New viewer, Graph, New do-file editor, Data editor, Data browser,
Clear y Break). En la misma salida se observan cuatro grandes ventanas, (i) Results, (ii)
variables, (iii) Review y (iv) Command.
Cuadro 1. Salida inicial de Stata 11

A continuacin se describe cual es el uso de cada una de las ventanas que se observan
en la pantalla principal del programa:
a. Results
En esta ventana encontramos el logo de Stata, la versin del programa que se est
usando y la memoria que tenemos disponible para cargar los datos y el nmero de
variables. En esta ventana de resultados, como su nombre lo indica, se tendrn todo
tipo de resultados sobre los comandos que se ejecuten; tambin aparecen mensajes
de lo que se est haciendo o lo que est ejecutando el programa, as como mensajes si
cometemos algn tipo de error. Los colores de las palabras nos indican si son
resultados de un comando, si es un comando o si es un error. Esta opcin de los

.::UdecomBooks::.

colores est predefinida pero se puede cambiar. Con click derecho sobre la ventana
podemos copiar, imprimir el texto, o establecer las preferencias para esta ventana.

b. Variables
Esta ventana, que aparece a un lado de la ventana de resultados, muestra las variables
que contiene el archivo que se abri o del fichero que actualmente se tiene en
memoria, tambin nos muestra informacin de las etiquetas de cada una de las
variables; as como la informacin relevante de cada variable (Name, Label, Type y
Format). Puede utilizarse para introducir los nombres de las variables en la ventana de
comandos haciendo click sobre la variable. Igualmente, situndonos en la variable y
haciendo click derecho se puede introducir comentarios a esa variable. Para ver las
notas de un fichero se puede usar el comando .notes list.
c. Review
La ventana de revisin, muestra una lista de los comandos que recientemente se han
ejecutado desde que se abri algn tipo de archivo, sea de datos (*.dta), un do-file
(*.do) o un log (*.log). Desde esta ventana se pueden incluir comandos tecleados con
anterioridad en la ventana command, con hacer click una vez en el mismo. Y haciendo
click dos veces se copia y ejecuta.
d. Command
Esta es la ventana donde se deben escribir los comandos que se desean ejecutar. Se
pueden recuperar comandos escritos anteriormente o posteriormente con la tecla
RePg o AvPg, hasta llegar al comando buscado, o tambin se pueden buscar en la
ventana Review y darle click. Otra ayuda importante en esta ventana es la opcin de
completar automticamente el nombre de una variable tecleada parcialmente con la
tecla Tab.
En general, Stata permite ser usado por medio de ventanas con la opcin del men
principal convencional. Una vez se selecciona una opcin del men, se puede buscar y
seleccionar la opcin de lo que se desea hacer (inmediatamente el programa abre otra
ventana, donde se define la tarea que deseamos que realice el programa).
La otra opcin es por comandos o programacin, que se debe hacer directamente en
la ventana de comandos o creando un do-file. Ej: Se escribe directamente la opcin
use or open.
Muchos de los comandos de Stata se pueden abreviar a las primeras letras. Por
ejemplo: el comando inspect se puede escribir ins, teniendo el mismo resultado.
Es fundamental tener cuidado en el uso de los comandos porque este software es muy
sensible al uso de maysculas y minsculas. Ejemplo: Para Stata no es lo mismo
inspect que INSPECT o que Inspect. El comando correcto es inspect. Todos los
4

comandos de Stata se escriben en minsculas, mientras que los nombres de las


variables dependen del creador del archivo de datos y pueden ir en maysculas,
minsculas o combinaciones.
Por otra parte, los tipos de archivos que podemos usar en Stata son:
Tabla 1. Extensin y tipos de archivos en Stata
Extensin
Tipo de archivo
.dta
Archivos de datos
.do
Archivos de comandos
.ado
Programas
.hlp
Archivos de ayuda
.gph
Grficos
.dct
Archivos diccionarios
.smcl
Archivos log
.raw
Ficheros de datos ASCII/text
.dct
Ficheros de instrucciones ASCII
A continuacin, se presentan algunos temas que es necesario conocer antes de
empezar a usar el programa.
2.1 Personalizacin de la ventana inicial
El programa tiene unas preferencias establecidas para su uso. Sin embargo, estas
pueden ser cambiadas desde el men principal. Siguiendo la ruta: Edit Preferences.
Algunas de las preferencias que se pueden modificar son:
Edit Preferences General preferences
En las preferencias generales se pueden cambiar las preferencias de la ventana inicial
de Stata. Por ejemplo, se pueden modificar los colores de la ventana de resultados,
hay tres colores negro (predefinido), blanco y azul. En esta misma ventana, se pueden
hacer cambios sobre los colores de las letras. Por ejemplo, el programa tiene
predefinidos mensajes en letras rojas para errores. Aqu tambin se puede definir el
tamao de la ventana y si se quiere minimizar o maximizar la ventana: Edit
Preferences General preferences Manage preferences, o dando click derecho
sobre la ventana de resultados y despus en Font. Modificando la fuente de la
ventana de resultados se puede obtener mayor claridad al copiar el resultado por
ejemplo en un archivo de Microsoft Word, y/o Latex.
2.2 Ayudas de Stata
Stata es un programa muy completo y en ocasiones es difcil conocer para qu sirven
todos los comandos que el programa trae predefinidos. El men desplegable Help, nos
permite de forma muy intuitiva buscar informacin sobre estadsticas, grficos,
5

.::UdecomBooks::.

manejo de datos, programacin, etc., as como descargar de la red las ltimas


actualizaciones de Stata, programas realizados por analistas y puestos a disposicin de
todos los usuarios del software.
Para situaciones en las cuales necesitamos ayuda, podemos acceder fcilmente al
men de ayuda del programa haciendo click en el men help de la barra de
herramientas. En caso de necesitar ayuda acerca de cmo se utiliza un comando, los
pasos son los siguientes:
Primero, dando click en Stata Command Stata abre una nueva ventana donde se nos
pide introducir el comando sobre el que necesitamos ayuda:

Una vez introducido el comando, se abre la ventana Viewer(#1) [Help describe] que
proporciona la informacin que se est solicitando:
Cuadro 2. Ventana de ayuda de Stata

En esta nueva ventana el programa ofrece la descripcin completa de la sintaxis que


se debe usar para escribir correctamente el comando. Igualmente, si se tienen dudas
6

sobre qu hace un comando o cmo se utiliza, se puede acceder a la informacin


tecleando simplemente:
.help nombre del comando
En caso de que no se sepa cmo se escribe el comando o se desconoce si el programa
tiene predefinido un comando para lo que se desea hacer, se puede usar el comando:
.search palabra clave.
2.3 Modificar la memoria
Cuando se abre un archivo de datos en Stata el programa mantiene los datos en la
memoria. As, si se est trabajando con un archivo de datos y se desea cargar otro
archivo es necesario remover el archivo de la memoria y para esto usamos el
comando:
.clear
Tecleando este comando se borran todos los datos que se encontraban en la memoria
del programa.
En otras ocasiones cuando se intenta abrir un archivo puede salir el siguiente mensaje:
.no room to add more observations
.r (901);
Lo cual significa que la memoria asignada por defecto por el programa es insuficiente
para cargar los datos o ejecutar lo que solicitamos. Se puede averiguar cunta
memoria hay asignada y cunta se tiene libre tecleando:
.memory
Y se puede ampliar la memoria asignada, por ejemplo a 10Mb, tecleando:
.set memory 10m
Se puede asignar una memoria permanente diferente a la predefinida siempre que se
abra el programa, esto se puede hacer agregando permanently al comando, de la
siguiente manera:
. set memory 10m, permanently
Generalmente, la memoria asignada por defecto es insuficiente para la mayora de
trabajos en investigacin y algunos en docencia. Por lo que es mejor siempre al inicio
de cada sesin de trabajo ampliar la memoria.

.::UdecomBooks::.

2.4 Estructura de los comandos


La estructura general de la sintaxis de los comandos de Stata es la siguiente:
[by varlist:] Command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,
options]
Donde los corchetes indican partes que tienen o no que aadirse segn el comando
especfico del que se trate y lo que se desee hacer. A continuacin se describirn
brevemente cada una de las opciones entre corchetes.
[by varlist:]
Esta opcin hace que el comando se ejecute por separado, dentro de cada grupo de
variables del archivo o de algunas variables especificadas. El fichero tiene que estar
ordenado por esas variables (para ordenar variables usamos el comando .sort):
.sort sex age
Este comando ordena los datos por sexos y dentro de cada sexo, por edades.
.by sex age: regress vard var1 var2 var3
Este otro, estima una regresin de vard sobre var1, var2 y var3 dentro de cada grupo
de sexo y edad.
[varlist:]
Esta opcin especifica las variables para las que se pide el comando. Por ejemplo:
var1
var1 var 2 var3
hh*
var1-var6

Variable var1.
Variables var1, var2, var3.
Variables que empiezan con hh.
Desde la variable var1 hasta var6.

[=exp]
Esta opcin sirve para expresiones matemticas o lgicas. Especifica el valor asignado
a una variable. Los operadores que pueden incluirse son los siguientes:
Tabla 2. Operadores bsicos de expresiones en Stata
Aritmticos
+
*
/

suma
resta
multiplicacin
divisin

Lgicos
~ no
l o
& y

Relacionales
(variables
numricas y de cadena)
> mayor que
< menor que
>- mayor o igual que
<- menor o igual que
8

^ potencia
+
encadenamiento de
cadenas

== igual que
~= no igual que

Es importante aclarar que las expresiones lgicas generan dos posibles resultados para
Stata, segn las va evaluando, observacin a observacin:
Verdadero=1, si son ciertas para esas observaciones, o bien,
Falsas=0, si no son ciertas para esa observacin.
Otras expresiones que pueden utilizarse son las variables del sistema, que son
variables internas de Stata cuyos nombres empiezan por _. Por ejemplo, dos
variables del sistema que pueden ser tiles son:
_n nmero de la observacin, segn el orden actual del fichero.
_N nmero total de observaciones (coincide con el _n de la ltima observacin)
[if exp]
Las condiciones if se utilizan para restringir el campo de actuacin de un comando a
slo las observaciones que cumplen la condicin especificada. Por ejemplo:
.list var1 var2 if var1>20
.list var1 var2 if var1>20 & var1<30
.list var1 var2 if var1>20 l var1<10
El comando in [range] especifica las observaciones para las que ha de ejecutarse el
comando. Ejemplo:
in 5
in 1/100
in f/100
in 100/200
in -70/-1
in 2300/1

Observacin nmero 5
Las 100 primeras observaciones
Las 100 primeras observaciones
Observaciones desde la 100 hasta la 200
Las 70 ltimas observaciones (-1)
Observaciones desde la 2300 hasta la final (l)

[weight]
Esta opcin se utiliza para indicarle a Stata que tiene que utilizar unas determinadas
ponderaciones al ejecutar el comando. Bsicamente, Stata acepta cuatro tipos de
weights:
fweight: frequency weights, indica el nmero de casos que representa realmente cada
observacin muestral. La variable debe contener enteros positivos.
pweight: sampling weights, indica la inversa de la probabilidad de seleccin muestral
de cada observacin. Han de ser positivos, pero no necesariamente enteros.

.::UdecomBooks::.

aweight: analytic weights, indica los pesos inversamente proporcionales a la varianza


de cada observacin. Un uso tpico de este tipo de ponderacin es cuando las
observaciones son medias y el peso representa el nmero de elementos que generan
la media. Han de ser positivos, pero no necesariamente enteros.
Iweight (importance weights): estos comandos no tienen definicin estadstica formal,
simplemente representan de alguna forma la importancia que se atribuye a cada
observacin. Cada comando que los acepta explica cmo los utiliza puede tener
cualquier forma.
Estas variables de ponderacin se incorporan a los comandos as (recuerde que los
weights se especifican siempre entre corchetes):
.command ponderacin [weighttype=varname]
[using filename]
Se utiliza slo en algunos comandos, como infile o outfile.
[, options]
En la sintaxis de cada comando, que puede verse en las ayudas, se especifican las
opciones disponibles. Las opciones se escriben siempre detrs de una coma, pero no
es necesario poner comas entre las distintas opciones.
2.5 Comando para usar bases de datos que vienen con Stata:
Otra de las herramientas bsicas con las que podemos contar para practicar y
perfeccionar nuestro entrenamiento en Stata es un conjunto de bases de datos que
vienen incorporadas automticamente con el programa. El comando para abrir stas
bases de datos es:
.sysuse nombre de la base de datos
Un ejemplo es: .sysuse auto
Tras ejecutar este comando, inmediatamente se observa cmo el programa carga un
archivo de datos llamada auto. Alternativamente, el programa permite realizar la
misma accin mediante la barra de herramientas, as: File Example datasets. Con
esta opcin, podemos acceder a todas las bases de datos o podemos acceder a los
ficheros por temas de estudio como regresin lineal, series de tiempo, datos de panel,
etc.
Adems de esto, el programa ofrece una serie de bases de datos disponibles en
Internet. Estas se pueden utilizar por ejemplo con la direccin
http://www.ats.ucla.edu/stat/stata/ o por REPEC mediante la direccin
http://ideas.repec.org/ .

10

3 Procesamiento de datos
Despus de descargar los datos a un software amigable como Stata, el econometrista
se enfrenta al procesamiento de los datos, variables y observaciones para realizar su
anlisis economtrico. A continuacin, se describen algunos de los comandos bsicos
para realizar un buen procesamiento de la base de datos.
3.1 Abrir, guardar y salir
a. Abrir archivos de Stata:
Stata permite varias opciones para abrir o leer ficheros de datos. As, si ya se tienen
grabados los datos en formato Stata (*.dta), podemos abrir el archivo mediante el
men Open o directamente con el comando:
.use
Algunas de las posibilidades que permite el programa para usar este comando son:
Si los datos estn en una carpeta especfica entonces se debe utilizar:
.use C:\carlos\2009\
use t12009
O tambin, para obtener el mismo resultado:
.use C:\carlos\2009\t12009.dta
Se debe tener en cuenta que no es preciso indicar el directorio si los datos estn en el
directorio de trabajo actual (el directorio de trabajo lo da Stata en la lnea inferior de
la pantalla). Por defecto, el directorio de trabajo es C:\DATA. En este caso se debera
usar:
.use t12009
Adems, no es preciso sealar tampoco la extensin .data, ya que el programa lo
asume por defecto.
Tambin podemos abrir datos parciales de un archivo:
.use var1 var2 using t12009
Con la opcin anterior slo se abrirn las variables var1 y var2 del archivo t12009.
Adems, si se desea seleccionar las diez primeras observaciones, entonces se debe
indicar:
.use t12009 in 1/10
Las dos anteriores opciones se pueden combinar seleccionando de un archivo de
datos slo algunas variables y algunas observaciones. Cuando se trabaja al mismo
11

.::UdecomBooks::.

tiempo con varias bases de datos, es importante tener cuidado, ya que si se tienen en
la memoria unos datos en los que se han hecho cambios no grabados e se intenta
abrir un archivo de datos nuevo, Stata dar un mensaje de error con el aviso de que
no se han guardado los cambios. Para evitar esto, se debe incluir al final el comando
.clear, de la siguiente forma:
.use t12009, clear
Tambin se puede abrir un archivo de Stata por medio de ventanas: File Open (o
directamente con el icono Open).
b. Abrir archivos en otro formato
Para abrir datos que todava no estn en formato Stata se utilizan los comandos
.insheet, .infile o .infix, dependiendo del formato y disposicin de los datos
.infile
Este comando permite la lectura de archivos sin formato o con formato ASCII
.infix e insheet
Estos comandos sirven para leer datos desde un fichero auxiliar de formato fijo y
hacer lectura recursiva de algn archivo, respectivamente.
c. Guardar
Para gravar un archivo de datos se utiliza el comando:
.save nombre del archivo
Stata graba el nuevo archivo en el directorio de trabajo y le aade automticamente la
extensin .dta. Si lo que se desea es que el programa lo guarde en el directorio de
trabajo predeterminado, Stata lo guardar por defecto siempre en c:\data. Debemos
escribir .save y el nombre del archivo.
Ahora bien, si se tiene el fichero con ese nombre y se quiere guardar una nueva
versin del mismo, con algunas modificaciones, como por ejemplo, nuevas variables
que hemos creado, se aade el comando .replace.
.save, replace
Si se desea grabar en otro directorio distinto de trabajo, se debe especificar:
.save C:\econometria\nombre del archivo

12

d. Salir
Para salir definitivamente del programa, se puede hacer por el men File, dando click
en la X de la esquina superior derecha o utilizando directamente el comando exit. Hay
que tener en cuenta que si se tienen los datos sin grabar, el programa pedir
confirmacin.
3.2 Describir, listar e inspeccionar
a. Describir datos
Para facilitar la explicacin de los comandos a partir de ahora se trabajar con los
datos auto.dta, que vienen predefinidos como (data examples) en Stata. Se abren los
datos:
.sysuse auto.dta
Una vez se tienen cargados los datos se puede empezar a trabajar con ellos. Lo
primero que se hace es una descripcin bsica de la base de datos. El comando que se
usa para describir la base de datos es:
.describe
O simplemente (d). Con esta opcin se puede ver cuntas observaciones y cuntas
variables se tenan cuando se cre el archivo y qu tamao tiene; as como una
descripcin de cada una de las variables con las que se puede trabajar. En el cuadro 3
se muestra la salida en la ventana de resultados de Stata:
Cuadro 3. Resultados del comando .describe

En el siguiente apartado se explica otro de los comandos importantes para conocer la


base de datos con la que se trabaja en un estudio economtrico.
13

.::UdecomBooks::.

b. Inspeccionar datos
.inspect
Proporciona un resumen bsico del tipo de valores que tiene una variable numrica y
un histograma de: valores positivos, nulos, negativos, enteros y no enteros de la
variable, as como los valores missing que existen. Estos ltimos estn codificados en
Stata como un punto (.) en las variables numricas y un espacio ( ) en las variables de
texto. As, si se desea inspeccionar una sola variable, se deb escribir .inspect nombre
de la variable; pero si queremos inspeccionar todas las variables se escribe
simplemente .inspect o .inspect _all.
La siguiente tabla representa los resultados que se obtienen con este comando al
introducirlo en Stata con los datos de la base auto generada por el programa.
Como se observa en la tabla, Stata arroja un grfico que muestra una estimacin de la
distribucin de los datos de la muestra de la variable seleccionada. El grfico est
comprendido entre los dos valores extremos que alcanza la variable y muestra una
distribucin aproximadamente normal. Junto a esto, el programa muestra una tabla
que indica si la variable toma valores negativos positivos o iguales a cero, adems de
mostrar si presenta algn caso de missing o no.
mpg:

#
#
#

Mileage (mpg)

#
#
#
#
#
#

Number of Observations

Negative
Zero
Positive
#
#

Total
Missing

12

41

Total
74

Integers
74

74
-

74

Nonintegers
-

74

(21 unique values)

Otros dos comandos que sirven para inspeccionar los datos son:
.edit
Este comando permite editar la base de datos abriendo la ventana de editor de datos,
mientras que el comando .browse permite ver y revisar los datos que se tienen
cargados en Stata.
c. Listar datos
Igualmente, si se quiere obtener un listado de los valores que tienen las observaciones
de una o ms variables, se usa el comando:
.list

14

Si se desea un listado para todas las variables se usa el comando slo, pero si se quiere
hacer un listado solo de los valores de una variable o de algunas, se escriben los
nombres de las variables despus del comando: .list var1 var2.
Se puede filtrar la lista de tres diferentes maneras, tal como lo muestra la siguiente
lista de ejemplos:
.list var1 var2 in 1/5
Para listar las primeras 5 observaciones de las variables indicadas
.list var1 in -5/-1
Para listar las ultimas 5 observaciones de las variables seleccionadas
.list var1 if var2 <0
Para listar todas las observaciones de la variable var1 para las que se cumple que el
valor de var2 es negativo.
Es importante aclarar que el resultado puede ser muy largo; en estos casos, se puede
cortar el resultado usando la letra (q) en la ventana de comandos: automticamente
se cortar la accin que est ejecutando el programa.
Otros dos comandos que permiten comprender los datos con los que se est
trabajando son .count, que permite conocer cul es el tamao de la muestra, y
.codebook, que muestra una descripcin de los datos, algunas estadsticas
descriptivas como la media y una distribucin de los datos por percentiles.
3.3 Seleccionar y eliminar variables
En ocasiones, en la prctica de la econometra, se tienen bases de datos con un gran
nmero de variables. Para evitar que el trabajo sea engorroso por tener cargadas en el
programa variables que no son de inters, se tienen dos opciones bsicas: i).
seleccionar las de inters o, ii) eliminar las que no son de inters de la memoria.
.keep es el comando de la primera opcin, el cual permite seleccionar las variables de
la base de datos con las que se desea trabajar. Este guarda en la memoria las variables
u observaciones indicadas, eliminando las restantes. Algunos ejemplos del uso de este
comando son:
. keep make price

Conserva las variables make y price, eliminando el resto.

. keep in 1/100

Conserva las 100 primeras observaciones y elimina el resto.

. keep if price>=0
resto.

Conserva las observaciones con precio positivo y elimina el

Por otro lado, el comando drop es el comando de la segunda opcin, el cual permite
borrar de la memoria las variables u observaciones de la base de datos, conservando
las restantes. Algunos ejemplos pueden ser:
15

.::UdecomBooks::.

. drop price

Elimina la variable Price

. drop in 1/15

Borra las 15 primeras observaciones

. drop if price<0

Borra las observaciones en las que el precio es negativo

Cuando se usa uno de estos comandos, eliminar o seleccionar, Stata comunica que es
lo que ha hecho con las variables o la muestra.
3.4 Cambiar nombres de las variables y hacer etiquetas
Una vez seleccionadas (filtradas) las variables y la muestra de inters, se pueden
cambiar los nombres acortndolos o poniendo nombres ms intuitivos para facilitar
el trabajo con las variables. Tambin se pueden crear etiquetas (label) a cada una de
las variables para que ayuden a identificar qu es en si la variable. A continuacin se
describe una serie de comandos tiles:
a. Cambiar nombre de variables
Para cambiar los nombres predeterminados de las variables por otros que sean ms
cmodos para el usuario, se utiliza el comando:
. rename
Por ejemplo, para cambiar el nombre de la variable price por precio, se introduce:
. rename price precio

b. Hacer etiquetas a las variables


Para crear una etiqueta para cada variable se utiliza el comando .label. La etiqueta es
una palabra o una serie de palabras que ayuda a identificar qu es cada variable. As
por ejemplo, la variable Price, que ahora es precio, se refiere al precio de mercado de
los carros (precio de mercado nominal en dlares). Se puede crear la etiqueta para las
variables con fin de identificar de forma rpida qu es cada variable.
. label variable precio precio de mercado nominal en dlares
La etiqueta que se desea para la variable va escrita entre comillas.
Los cambios de nombres (. rename), etiquetas (. label) y tambin formatos (. format)
de las variables se pueden hacer fcilmente desde el Data Editor (Data  Data Editor).
Situando el cursor encima de la variable y pulsando dos veces, aparece en pantalla la
informacin sobre el nombre, etiqueta y formato actual de esa variable, y se pueden
introducir ah los cambios. Al salir del editor pedir confirmacin de los cambios si no

16

se han marcado explcitamente (, preserve) antes de abandonarlo. Tambin es posible


poner etiquetas a las variables desplegando el men Data Labels.
3.5 Creacin y modificacin de variables
A continuacin se presentan algunas formas bsicas de crear y modificar variables
entre las que se destacan: generar, recodificar, renombrar y organizar variables.
a. Generar
El comando ms simple y directo para crear nuevas variables es generate. La sintaxis
bsica es:
. generate newvar = expresin
Es importante recordar que la expresin puede incluir cualquier operacin aritmtica,
de relacin o funcional (ver Tabla 2). Tambin es importante tener en cuenta que este
comando, como muchos otros de Stata, puede restringirse a determinados casos
usando las condiciones (if in).
Una extensin del comando generate es el comando egen.
. egen
Este comando puede utilizarse con determinadas funciones que se sealan a
continuacin. Dependiendo de la funcin, los argumentos se refieren a una expresin,
una lista de variables, etc. Las opciones tambin dependen de la funcin utilizada. A
continuacin se da un ejemplo sencillo de cmo utilizar este comando.
Se crea un archivo con cuatro observaciones:
.set obs 4
Se generar tres variables var1, var2 y var3:
.generate var1=2
.generate var2=4
.generate var3=var1 + var2
Se ha creado una base de datos con tres columnas (variables) y con cuatro
observaciones, cada una. A continuacin, se crean dos nuevas variables var4 y var5.
Var4 ser la suma acumulada de cada observacin de var3 (va sumando rengln tras
rengln, el dato de la observacin fila por fila):
.generate var4=sum(var3)

17

.::UdecomBooks::.

Y var5, ser la suma acumulada final de la variable var3:


.generate var5=sum(var3)
Para generar una variable con el nmero de una observacin en la base de datos se
puede usar:
.generate id=_n
Otra opcin que permite este comando es generar una variable dummy:
.generate dummy1=sexo==2
Con este comando se crea una variable dummy que es igual a 1 si sexo=2 y cero en
otro caso.
Tambin se puede crear de esta otra forma:
.generate dummy1=0
.generate dummy1=1 if sexo==2
En cualquiera de estos casos se debe tener cuidado si hay valores missing, puesto que
se estara asignando un cero a algo que en realidad es un missing. Para arreglar este
problema tenemos:
.replace dummy1= if sexo== .
b. Recodificar
Este comando puede cambiar el valor de una variable determinada.
.recode var1 2=0
Algunas encuestas vienen con los missing codificados, estos se pueden convertir
nuevamente en missing.
.recode va1 999=.
Tambin se puede recodificar una variable. Por ejemplo; recodificando la edad en
rangos:
.recode edad 15/25=1 26/35=2 36/45=3 46/55=4 56/65=5 *=9
Otros ejemplos son:
.recode edad 0/25=1 25/50=2 50/max =3, gen(edad_agrupada)
.recode x (1 2 3=1) (4 5 6 =2), gen(n_x)

18

c. Renombrar
Cambia el contenido de una variable ya existente.
.replace
As, si se desea que en la variable edad todas las observaciones que tienen una edad
mayor o igual a 65 tomen el valor de 65, entonces se usa el siguiente comando:
.replace edad=65 if edad=65
d. Renombrando variables
Un comando muy til para renombrar algunas variables ya existentes es:
.rename
Este comando puede cambiar los nombres de las variables para que se ajusten a
nuestro inters, hacer ms cortos los nombres o ms familiares.
e. Otros comandos: sort, gsort
Es muy frecuente la necesidad de organizar una base de datos segn una o varias
variables, dando prioridad al orden de la variable que se pone en primer lugar y as
sucesivamente. Por defecto este comando ordena las observaciones de menor a
mayor.
.sort var1
El comando anterior ordena las observaciones de menor a mayor segn var1
.sort var1 var2
El comando anterior ordena las observaciones por la variable 1 y dentro var1, se
ordena de menor a mayor segn la variable 2.
Un comando que permite elegir como se debe ordenar cada variable, y a su vez,
permite cambiar entre descendente o ascendente para cada variable es:
.gsort +var1 var2
Con este comando ordenamos var1 de menor a mayor y var2 de mayor a menor
3.6 Combinacin de bases de datos
a. Comando merge
Este comando sirve para aadir variables a un archivo de datos que tenemos abierto.
Esto es, pegar datos de forma horizontal, o sea, aadir variables a las observaciones
19

.::UdecomBooks::.

existentes. Hay que tener en cuenta que no se requiere que los dos archivos de datos
tengan exactamente las mismas observaciones. Este comando es muy apropiado
cuando se tienen datos de los individuos que participan en una encuesta y se reciben
datos de un segundo modulo de la encuesta. Por ejemplo, la Encuesta Nacional de
Hogares (ENH), Encuesta Continua de Hogares (ECH) y la Gran Encuesta Integrada de
Hogares (GEIH), realizada por el Departamento Administrativo Nacional de
Estadsticas (DANE).
Para poder llevar a cabo con xito esta orden, ambos conjuntos de datos deben estar
ordenados con base a las mismas variables y en el mismo orden. Entonces, este
comando se usa con el siguiente orden. Primero se abre el archivo de datos (.use), en
segundo lugar se ordenan las variables, en este caso se supone que las variables
ordenadas son var1 y var2 (.sort) y en tercer lugar se hace el Merge:
. merge var1 var2 using ECH
Noten que merge crea una variable adicional _merge, esta variable puede tomar tres
valores que nos sirven para revisar si estamos trabajando correctamente con la base
de datos. Esta variable toma los siguientes valores:
.merge==1
merge==2
merge==3

para las observaciones del fichero master


para las observaciones del fichero using
para las observaciones presentes en ambos ficheros

Recuerde que en ocasiones se puede tener una nueva versin de algunas variables
que pueden combinarse con las anteriores con la opcin update replace.
.merge using filename, update replace
f. Comando append
El comando append es muy til para unir archivos de datos. Esto es, pegar datos de
forma vertical en una base de datos. Al contrario de merge con el que se agregan
variables, este comando agrega observaciones.
. append
Este comando aade un fichero de datos con formato Stata al final del archivo que se
tiene abierto. Es una combinacin vertical de bases de datos, aadiendo al final del
archivo que est abierto las observaciones. Para el uso de este comando no se
requiere que los dos ficheros de datos tengan exactamente las mismas variables.
g. Comando joinby
Este comando puede crear diferentes combinaciones entre varias bases de datos. Y
crea un archivo de datos con todas las parejas entre ficheros. Lo primero es abrir el
archivo de datos (.use) y posteriormente

20

. joinby idenh using varfam


Con este comando combinamos, usando una variable de identificacin del hogar
denominada varfam, variables familiares.
Otros comandos importantes para la combinacin de bases de datos son:
.cross
Este comando crea todas las posibles combinaciones entre ambos ficheros.
. fillin
Este comando rellena con observaciones todas las posibles combinaciones de un
listado de variables. Los valores de otras variables, aparte de las que definen el
relleno, se asignan a missing. Esta opcin es buena cuando se trabajan datos
longitudinales para balancear datos de panel.
3.7 Archivos log, do y ado
Primero, se describe el papel de los archivos log file para, posteriormente, pasar a los
do file y finalmente a los ado file. Se observa que en la ventana de resultados no se
muestran todos los resultados de la sesin, slo los ltimos, y puede ocurrir que tras
ejecutar una orden que genera un output, especialmente largo, slo se tenga en
memoria la ltima parte. Por ello, la forma normal de trabajar es abrir un fichero log
al principio de la sesin. Los ficheros log contienen los comandos y los resultados del
anlisis (no los grficos), este tipo de archivos se pueden abrir por Stata o por un
procesador de texto. Tambin, pueden crearse los archivos log (por defecto), en un
formato de Stata (.smcl). Algunos ejemplos de este tipo de archivos son:
a. log file
.log
Al principio de cada sesin de trabajo se debe crear un archivo log. Esto se puede
realizar mediante el men File de la barra de herramientas donde damos en Begin:

21

.::UdecomBooks::.

Una vez hecho esto, se guarda el archivo en formato *.log con el nombre que se
desea. Tambin es posible realizarlo mediante el uso de comandos, tal como se
menciona a continuacin.
. log using nombre del archivo
Por defecto tiene formato *.smcl (Stata Markup Control Language).
Si se desea que el archivo se pueda abrir en un procesador de texto el comando seria:
. log using nombre del archivo.log
Este ltimo tiene formato ASCII, y se puede abrir en el block de notas, como un
archivo de texto *.txt.
Con los comandos log se puede usar entonces dos nuevos comandos.
El primero es: log using carlos.log, append el cual es similar al comando log using,
pues si existe ya otro fichero con el mismo nombre, continua grabando encima del
archivo.
El segundo comando es: log using carlos.log, replace, el cual lo que hace es
reemplazar el archivo ya existente por el nuevo.
Para ver el log file, usamos el comando (. view).
. view carlos.log
Stata tambin permite abrir o convertir el logfile a un formato de texto y poder
abrirlo en cualquier procesador de texto.
. translate carlos.smcl to hw1.txt
Igual resultado se obtiene, con el siguiente comando:
. translate carlos.smcl to hw1.log
Una vez se abre el archivo log en una sesin iniciada en Stata, la grabacin de este
puede ser se puede interrumpir o reanudar temporalmente interrumpida con el
comando log off o reanudada con el comando log on.
Stata permite tambin que se pueden introduzcan comentarios en el log a travs de
lneas que empiezan por *. Por ejemplo:
*INTRODUCCION Y ANALISIS DE DATOS*
******INTRODUCCION Y ANALISIS DE DATOS******
Basta con un asterisco al principio, pero con muchos (*) el comentario resalta ms y
es de ms ayuda para leer fcilmente el log.

22

El log se cierra automticamente al salir de Stata pero tambin se puede cerrar en


cualquier momento de la sesin o al final de la sesin con los siguientes comandos:
. log close
. cmdlog close
b. Do file
Los do files son ficheros que contienen una lista ordenada de instrucciones de Stata,
que se ejecutan de una sola vez. Se crean, graban, cargan, modifican y ejecutan
utilizando el do file Editor, aunque tambin pueden utilizarse otros editores de texto
para escribir las instrucciones (se recomienda el block de notas). Son especialmente
tiles cuando se desean utilizar los mismos comandos de forma repetida sobre
muestras distintas, o bien reproducir los resultados con algunos cambios. A menudo
incorporan la utilizacin de programas definidos por el usuario, as como instrucciones
para crear los oportunos ficheros Log en los que se graban los resultados.
Los comandos se pueden escribir en cualquier editor de texto o en el editor de texto
de Stata (Do-file editor).
El Dofile se realiza dando click en el cono que abre la ventana New Do-file Editor,
ubicado justo debajo de la barra de herramientas clsica. Una vez abierto, el usuario
se encuentra frente a una ventana en blanco para iniciar la realizacin del archivo Do.
Es importante tener en cuenta que se debe preceder de un asterisco (*) cualquier
ttulo, anotacin o comentario que se desee incorporar al archivo: estos aparecern
de color verde. Los comandos se escriben cada uno en diferentes lneas y aparecern
en color azul oscuro, acompaados de las variables que estarn en negro. Los
comandos que abren una nueva base de datos estarn escritos de color rojo oscuro en
el archivo.
En general, un Dofile lucira as:
Cuadro 4. Ventana del Dofile Editor

23

.::UdecomBooks::.

El nico comando que se desconoce del ejemplo anterior es .set more off. Este
comando es til cuando la extensin de los resultados (en la ventana de resultados)
supera una pgina, entonces Stata pausa el proceso y pregunta si se desea continuar
con la opcin more. El comando set more off, nos permite hacer el do file sin pausas.
La opcin contraria es .set more on.
Para ejecutar un archivo do y mostrar los resultados, se utiliza el siguiente comando:
. do carlos.do
Con esto, una vez reiniciado el programa, el archivo le permite al usuario volver a
correr los comandos guardados en el Dofile y ver todos los resultados en la ventana
Results de Stata.
Por el contrario, para ejecutar un archivo do y no mostrar los resultados, se utiliza:
.run carlos.do
El uso real de Stata se apoya normalmente en la construccin y ejecucin de archivos
do file, ms que en la forma interactiva de trabajo. Por eso, la importancia de estos
comandos, log, do y ado. Recordemos que los do files son archivos de comandos,
mientras que los ado son macro archivos de programacin.
c. Archivos ado file:
Un fichero ado file (que se refiere a un authomatic do file), es como un archivo do,
es decir, es un archivo que contiene una serie de lneas de programacin Stata. Sin
embargo, a diferencia de un fichero do, el ado debe que estar archivado en
determinados directorios y se ejecuta de la misma forma que los dems comandos de
Stata. Los archivos ado se pueden buscar con el comando .sysdir, y los encontraremos
en el directorio preestablecido previamente por Stata o por el autor del archivo ado.
Este tipo de archivos se ejecuta igual que cualquier comando de Stata. Hay que tener
en cuenta que si no se ha creado o se est apenas creando, lo primero es guardarlo
en un directorio predefinido que est usando Stata para luego usar la opcin do.
.do nombre del ado
Este comando le dice a Stata que lea el archivo do. Despus este se debe ejecutar
dndole el nombre del ado. Por otra parte, algunos econmetras han escrito
programas ado que hoy en da se pueden encontrar publicados en el Stata Technical
Bulletin, o directamente en la pgina web de Stata en forma de ado files. Como ya se
mencion, estos programas ado se pueden descargar desde Internet de manera
permanente de tal forma que Stata los reconozca como si fueran comandos internos
(predefinidos) del programa. Estos archivos en su mayora vienen acompaados de un
archivo que explica exactamente la sintaxis y el funcionamiento del nuevo comando.
Entre los ado files que pueden descargarse de Internet se encuentran las
actualizaciones oficiales de Stata.
24

Para buscar e instalar ado files sobre, por ejemplo, desigualdad, hacemos:
Help  Search  Search net resources  inequality (=palabra clave)
Esto genera una lista de ados, con una pequea descripcin. Se entra en los que
interesan y, si se desea instalarlos, se siguen las instrucciones (click here to install).
4. Comentarios finales
El econometrista tiene una amplia gama de software entre los que se puede permitir
hacer una eleccin minuciosa de un programa que vaya acorde a las diferentes
necesidades. Stata es una herramienta utilizada alrededor del mundo pues, adems
de la facilidad y rapidez para su uso, presenta otras mltiples ventajas, no solamente
para los estudiantes y principiantes en el manejo de software de este tipo, sino
tambin para usurarios ms experimentados que tienen certeza sobre la superioridad
del programa.
Una vez los usuarios se hayan iniciado en Stata con los elementos bsicos
anteriormente descritos, puede dar paso ahora al manejo completo del programa
haciendo uso de nuevas herramientas que el software proporciona.
5. Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
25

.::UdecomBooks::.

Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ


Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

26

Anexo 1:
Introduccin a Stattransfer
Un excelente complemento para los usuarios de Stata es el software Stattransfer
(www.stattransfer.com) y/o (www.stata.com). Este programa es de gran utilidad para
la conversin de bases de datos de un formato a otro. Por ejemplo, si se tiene acceso
a unos datos en SPSS, Epi-info, SAS, Excel, o datos en otro formato; con Stattransfer se
pueden convertir a archivos de Stata con mucha facilidad.
El programa no slo permite pasar a Stata, sino que convierte los datos que se tengan
en cualquier otro formato, si se desea. Es importante aclarar que Stattransfer no tiene
todos los formatos en los que se puede trabajar una base de datos, pero si tiene una
amplia gama de programas estadsticos y economtricos que son convencionalmente
usados en la docencia y la investigacin econmica.
En el Cuadro 2 se presenta la salida inicial de Stattransfer 9. A continuacin, se hace
una breve descripcin de cmo usar este programa para convertir bases de datos a
diferentes extensiones. El programa tiene un men de opciones que no es necesario
saber usar para convertir una base de datos de una extensin o formato a otra. No se
profundizar en este men dado que presenta opciones avanzadas son opciones para
expertos y la idea es slo introducir al lector en el uso de este programa.
Se puede observar que el programa tiene dos opciones: tipo de datos de entrada
(Input File Type) y tipo de datos de salida (Output File Type), en la primera de ellas se
selecciona la extensin o programa en el que se tiene la base de datos, e
inmediatamente en la parte de abajo se selecciona la ubicacin donde se encuentra el
archivo (se puede hacer con browse o view), as, con el paso anterior, el programa
identifica el archivo y formato o programa en el cual se tienen originalmente los datos.
Ahora bien, el siguiente paso es seleccionar la extensin o programa en el que se
desea tener los datos, esto se hace en la opcin tipo de datos de salida, y, una vez
seleccionado un formato, en la parte inferior elegimos el folder o carpeta donde
queremos guardar la nueva base de datos convertida a la extensin que hemos
seleccionado. Tenga en cuenta que Stattransfer le dar automticamente la misma
ubicacin al nuevo archivo donde se encuentran los datos originales.
Seleccionados el tipo de datos de entrada y el tipo de datos de salida, y sus respectivas
ubicaciones se activar la opcin transfer, con darle click, el programa empezar a
transformar los datos a la nueva extensin. Una vez termina podemos ver el nuevo
archivo creado con la extensin que se ha predefinido; tambin se puede iniciar otro
proceso de conversin con la opcin reset o salir del programa con exit.

27

.::UdecomBooks::.

Cuadro 2 Salida inicial de Stattransfer 9

28

DESCRIBIENDO Y GRAFICANDO DATOS EN STATA

Carlos Giovanni Gonzlez Espitia


Email: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
Este documento est dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de hacer anlisis de estadsticas descriptivas, tablas y grficos en
Stata.

Palabras clave: Econometra, software economtrico, Stata.


Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

.::UdecomBooks::.

1 Introduccin
En esta sesin se mencionarn distintas herramientas que proporciona Stata para
analizar los datos, como un primer paso. Las formas ms utilizadas para esto es
mediante tablas estadsticas y el anlisis grfico.
Para empezar a usar Stata, se har una breve descripcin de las estadsticas
descriptivas y los grficos que ofrece Stata, ya que estos son fundamentales para
hacer un buen anlisis previo de los datos que se tienen antes de la realizacin de las
regresiones economtricas.
El objetivo es acercar a los interesados en la econometra a uno de los pasos
fundamentales de todo anlisis economtrico, en este caso, el procesamiento y
comprensin de los datos con los que se est trabajando. De hecho, antes de realizar
la estimacin de cualquier modelo, el econometrista se enfrenta a descargar los datos
a un software en el cual pueda trabajar. Una vez se han sido cargados los datos en
Stata, el paso siguiente es el procesamiento de los mismos. Este paso es de vital
importancia pues, los investigadores deben tener presente la estructura de datos con
la que estn trabajando a lo largo del desarrollo del ejercicio. Obtener algunas
estadsticas descriptivas de la base de datos es fundamental para analizar fcilmente
el comportamiento de las variables que se usarn en un futuro para realizar las
regresiones. Finalmente, es importante poder hacer grficos y tablas que permiten, en
muchos casos, hacer un anlisis intuitivo del comportamiento de las variables y de los
datos.
Con base en lo anterior, este documento se estructura en cuatro secciones. La primera
de ellas es esta introduccin, donde se presenta la motivacin para iniciar al usuario al
anlisis de datos, siendo esto parte fundamental del trabajo del econometrista. En la
segunda seccin se hace muestra de las estadsticas descriptivas bsicas mediante
tablas que proporciona el software. En la tercera parte, se hace una introduccin al
anlisis grfico como una opcin alternativa para el usuario en la revisin de los datos.
En la cuarta y ltima seccin, se hacen unos breves comentarios finales intentando
introducir al lector al siguiente documento, mostrando tambin la bibliografa que se
utiliz para la construccin del documento.

2 Estadsticas descriptivas
En econometra, despus de obtener los datos y organizarlos es necesario realizar
algunas estadsticas bsicas para familiarizarnos con las variables de la base de datos.
Es por ello que en esta seccin se presentan algunos de los comandos bsicos que
tiene predefinido Stata para realizar estadsticas descriptivas.
Para una mejor explicacin de la realizacin de las estadsticas descriptivas, en esta
sesin se utilizar como ejemplo la base de datos WAGE1.RAW tomada de Wooldridge
(2002).

a. Estadsticas descriptivas bsicas


El comando summarize obtiene las estadsticas descriptivas bsicas de las variables
que tengamos en la base de datos.
.summarize
La tabla que arroja Stata tras introducir este comando es la siguiente:
Tabla 1. Estadsticas descriptivas bsicas
Variable

Obs

Mean

Std. Dev.

Min

Max

wage
educ
exper
tenure
nonwhite

526
526
526
526
526

5.896103
12.56274
17.01711
5.104563
.1026616

3.693086
2.769022
13.57216
7.224462
.3038053

.53
0
1
0
0

24.98
18
51
44
1

female
married
numdep
smsa
northcen

526
526
526
526
526

.4790875
.608365
1.043726
.7224335
.2509506

.500038
.4885804
1.261891
.4482246
.4339728

0
0
0
0
0

1
1
6
1
1

south
west
construc
ndurman
trcommpu

526
526
526
526
526

.3555133
.1692015
.0456274
.1140684
.0437262

.4791242
.3752867
.2088743
.318197
.20468

0
0
0
0
0

1
1
1
1
1

trade
services
profserv
profocc
clerocc

526
526
526
526
526

.2870722
.1007605
.2585551
.3669202
.1673004

.4528262
.3012978
.4382574
.4824233
.3735991

0
0
0
0
0

1
1
1
1
1

servocc
lwage
expersq
tenursq

526
526
526
526

.1406844
1.623268
473.4354
78.15019

.3480267
.5315382
616.0448
199.4347

0
-.6348783
1
0

1
3.218076
2601
1936

Como se observa, este comando permite obtener, por ejemplo, la media que
representa el valor promedio que alcanza determinada variable en la muestra con la
que se trabaja; la desviacin estndar, que representa el valor promedio en que se
desvan las observaciones de la media muestral; el valor mnimo y el valor mximo que
alcanzan las variables dentro de la muestra, y el nmero de observaciones que se
tienen para cada variable de la base de datos.
Para la realizacin de la descripcin estadstica de cada una de las variables por
separado, se debe utilizar el mismo comando anterior pero con la especificacin de la
variable que se desea describir:
.summarize var1
3

.::UdecomBooks::.

Este comando obtiene las estadsticas descriptivas de la variable var1. Se puede


tambin usar el comando para obtener las estadsticas de un conjunto de variables a
la vez:
.summariza var1 var2 var3
Igualmente, se puede entrar en detalle de las estadsticas descriptivas de la siguiente
manera:
.summarize var1, detail
La siguiente tabla muestra los detalles que se obtienen con el uso de este comando:
Tabla 2. Estadsticas descriptivas en detalle
years of education

1%
5%
10%
25%
50%
75%
90%
95%
99%

Percentiles
4
8
9
12

Smallest
0
0
2
3

12
14
16
17
18

Largest
18
18
18
18

Obs
Sum of Wgt.
Mean
Std. Dev.
Variance
Skewness
Kurtosis

526
526
12.56274
2.769022
7.667485
-.6195741
4.884245

Como se observa, para la variable aos de educacin (Wooldridge (2002)), se obtuvo


la descripcin por percentiles de la muestra, adems de la media, la desviacin
estndar, la varianza, la asimetra y la curtosis.
b. Tablas
Con frecuencia, es necesario realizar tablas con algunas estadsticas como las
frecuencias, entre otras. Por esto, en esta seccin se introduce el tema de cmo
realizar algunas tablas que permitan obtener mayor informacin estadstica y dems
informacin relevante para el anlisis de los datos.
El comando que nos permite obtener una tabla con la frecuencia de una o dos
variables es:
. tabulate, var1
Lo que se observa en la ventana de resultados tras digitar dicho comando es:

Tabla 3. Frecuencias de los aos de educacin


years of
education

Freq.

Percent

Cum.

0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

2
1
1
3
1
6
4
22
17
30
29
198
39
53
21
68
12
19

0.38
0.19
0.19
0.57
0.19
1.14
0.76
4.18
3.23
5.70
5.51
37.64
7.41
10.08
3.99
12.93
2.28
3.61

0.38
0.57
0.76
1.33
1.52
2.66
3.42
7.60
10.84
16.54
22.05
59.70
67.11
77.19
81.18
94.11
96.39
100.00

Total

526

100.00

Este comando permite obtener la frecuencia de los datos. Por defecto, aparecen las
frecuencias absolutas, las porcentuales y las porcentuales acumuladas. Algunas
opciones adicionales para este comando son:
. tabulate var1, plot
. tabulate var1, nolabel
Con la primera opcin se obtienen las frecuencias absolutas junto con un pequeo
grfico de barras que representa dichas frecuencias. Con la segunda opcin, se
obtienen en la tabla los valores de las variables, en lugar de las etiquetas de esos
valores, eso si, solamente cuando se tiene asignada una etiqueta a dichos valores.
Adicionalmente a esto, el comando tabulate arroja tambin tablas de cruce de
variables (tambin llamadas tablas de doble entrada). As por ejemplo, si se desea
cruzar la variable 1 con la variable 2, simplemente se introduce:
.tabulate var1 var2
A continuacin se muestra el uso de este comando haciendo una tabla de cruce entre
la variable aos de educacin y la variable gnero, esta ltima siendo una variable
dummy que toma el valor de 1 si se trata de una mujer y 0 en caso contrario.

.::UdecomBooks::.

Tabla 4. Tabla de doble entrada: aos de educacin vs. gnero


years of
education

=1 if female
0

Total

0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

0
1
1
3
0
4
2
15
8
13
17
85
14
31
12
45
10
13

2
0
0
0
1
2
2
7
9
17
12
113
25
22
9
23
2
6

2
1
1
3
1
6
4
22
17
30
29
198
39
53
21
68
12
19

Total

274

252

526

Por defecto, con este comando aparecen slo las frecuencias absolutas. Sin embargo,
algunas de las opciones que se pueden especificar son:

.tabulate var1 var2, row


.tabulate var1 var2, col
.tabulate var1 var2, cell
.tabulate var1 var2, nofreq
.tabulate var1 var2, nolabel
.tabulate var1 var2, missing
.tabulate var1 var2, chi

Frecuencias relativas horizontales


Frecuencias relativas verticales
Frecuencias relativas totales
No presenta las frecuencias absolutas
Idntico a .tabulate var1 var2
Frecuencias con el porcentaje de valores
missing
Frecuencias con el estadstico chi2

Con la opcin chi2 junto al comando tabulate, se calcula el coeficiente de chi


cuadrado de Pearson para la hiptesis de que las filas y columnas, en una tabla de dos
variables, son independientes.
Existen, adems, dos extensiones de este comando que resultan frecuentemente muy
tiles: tab1 y tab2.
.tab1 var1 var2 var3
Con la primera opcin, se obtienen tablas de frecuencias separadas de una lista de
variables.

.tab2 var1 var2 var3


Con la segunda opcin, se pueden obtener tablas de frecuencias para cada variable.
Otras dos opciones para realizar tablas que permitan analizar las estadsticas
descriptivas de la base de datos son: .tabstats y .table. El primer comando es una
opcin muy recurrida para construir tablas con estadsticos:
.tabstat
Este comando puede calcular las estadsticas que se desean de las variables. Por
ejemplo el mnimo, la mediana, la media, el mximo, el tamao de la muestra y el
coeficiente de variacin.
.tabstat var1 var2 (min median mean max n cv)
Por otro lado, con el comando .table se pueden crear tablas de estadsticos
controlando el contenido de cada casilla. Por ejemplo, crear una tabla cruzada de dos
variables var1 y var2, y que est controlada por la media de la var3, se introduce:
.table var1 var2, cont(mean var3)
La tabla que Stata muestra en la ventana de resultados es:
Tabla 5. Estadsticos controlando el contenido de cada casilla
years of
education
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

=1 if female
0
1
32
39
51
41
37.75
32
30.2667
16.125
20.9231
14.3529
16.8118
18.5
17.9032
14.5833
12.8667
14.9
10.6154

34
16
30.5
33.8571
15.7778
10.1765
13.3333
19.1504
12.88
13.6364
11.7778
11.3478
5.5
12.1667

Esta tabla revela entonces el nmero de aos de educacin para los individuos de la
muestra separndolos entre mujeres y hombres media la variable dummy female.

.::UdecomBooks::.

c. Correlaciones
Otro estadstico relativamente importante en econometra es el anlisis de
correlaciones. El comando para realizar correlaciones es:
.correlate var1 var2
Esta opcin es til cuando se tienen dos variables, pero tambin puede utilizarse
cuando se tienen ms de dos variables, de la siguiente manera:
.correlate var1 var2 var3 var4
As, con el comando anterior, se calcula el coeficiente de correlacin de Pearson y
aparecer, como se muestra a continuacin, una matriz de correlaciones. Al igual que
con todos los comandos anteriores, podemos usar filtros para usar slo una parte de
la muestra o usar alguna variable de control.
Tabla 6. Matriz de correlaciones

educ
exper
expersq
female
married

educ

exper

expersq

female

married

1.0000
-0.2995
-0.3313
-0.0850
0.0689

1.0000
0.9610
-0.0416
0.3170

1.0000
-0.0279
0.2173

1.0000
-0.1661

1.0000

Esta tabla ensea todas las correlaciones que hay entre dos de las cinco variables
especificadas: se trata de una matriz diagonal.
d. Algunos tests de comparacin de medias
En ocasiones es necesario hacer una comparacin de medias antes de pasar a hacer la
estimacin del modelo. Utilizando el comando ttest. Este comando se utiliza
introduciendo en la ventana de comandos de Stata lo siguiente:
ttest var1, by(var2)
Con esto, se obtiene un test de comparacin de medias donde se puede contrastar la
hiptesis de que las medias de la variable (var1) son iguales y no dependen de la
variable (var2).

Tabla 7. Test de comparacin de medias


Two-sample t test with equal variances
Group

Obs

Mean

0
1

274
252

combined

526

diff

Std. Err.

Std. Dev.

[95% Conf. Interval]

12.78832
12.31746

.1814107
.1557618

3.002882
2.472642

12.43118
12.01069

13.14546
12.62423

12.56274

.1207351

2.769022

12.32555

12.79992

.4708609

.2410361

-.002655

.9443767

diff = mean(0) - mean(1)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.9744

t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.0513

1.9535
524

Ha: diff > 0


Pr(T > t) = 0.0256

Para que sean significativas las diferencias es necesario observar si el valor p de la


Hiptesis alternativa (Ha) es cercano a cero (0,000). Como en general se sabe, un valor
de 0.05 indica un t de 1,96.
3 Grficos
Realizar algunos grficos es esencial en econometra por lo cual esta seccin se dedica
a explicar brevemente como realizar algunos grficos en Stata. En ocasiones los
grficos permiten hacer anlisis intuitivo del comportamiento de algunas variables o
de cmo se relacionan entre ellas. Stata ofrece numerosas posibilidades y opciones
para realizar grficos.
Algunos de los comandos para realizar grficos son:
.graph twoway
.graph matrix
.graph bar
.graph dot
.graph box
.graph pie
Se puede obtener ayuda para cada uno de estos grficos con el comando .help.
.help twoway
As se puede hacer
graph/matrix/bar,.etc.

con

todas

las

opciones

antes

descritas.

help

Algunos comandos que permiten grabar grficos y vuelven a dibujar grficos


previamente guardados son:
.graph save
.graph use
.graph display
9

.::UdecomBooks::.

.graph combine
Los comandos que permiten imprimir grficos son:
.graph print
.graph printcolor
.graph export
Los comandos que permiten realizar operaciones con los grficos que estn en la
memoria son:
.graph display
.graph dir
.graph rename
.graph copy
.graph drop
a. Diagrama de dispersin (scatter)
Uno de los grficos ms comunes en econometra es el diagrama de dispersin. Con el
comando scatter se pueden representar las observaciones en una nube de puntos.
Con las opciones line se unen las observaciones, y la opcin connected une las
observaciones representadas por los puntos.
.scatter var1 var2

10

20

var1

30

40

Grfico 1. Diagrama de dispersin entre dos variables

2,000

3,000

4,000

5,000

var2

El diagrama anterior muestra entonces la dispersin entre dos variables: var1 y var2.
La opcin anterior muestra cmo se puede hacer un slo grfico; sin embargo
tambin existe la posibilidad de hacer varios grficos.
10

.scatter var1 var2, by(foreign, total)


En este tipo de grficos tambin se puede agregar la lnea de regresin. Ya que con el
comando scatter slo aparece la nube de puntos, se debe agregar el comando line.
b. Grficos de cajas (Box Plots)
Los grficos de cajas proporcionan informacin bsica sobre la distribucin de las
variables, adems de que permite observar la asimetra y los outliers (valores
atpicos). Para la realizacin de este tipo de grficos se utiliza el comando de la
siguiente manera:
.graph box var1
Una vez digitado el comando acompaado de la variable de inters, Stata abre una
nueva ventana que muestra el siguiente grfico:

years of education
10

15

20

Grfico 2. Grfico de cajas (Box Plots)

c. Grficos de barras
sta es una de las opciones ms comunes de grficos que se pueden encontrar para
analizar tanto la evolucin de una variable como su comportamiento. Con esta opcin
se pueden realizar grficos de barras en presentacin vertical (.graph bar) y tambin
horizontal (.graph hbar). Hay que tener cuidado pues el eje Y es la variable numrica y
el eje X es la variable categrica.

11

.::UdecomBooks::.

Tambin es importante recordar que la media de la variable numrica puede ser


sustituida por cualquier estadstico (mean, median, min, max, sum, count, .etc). A
continuacin se presenta un ejemplo.
.graph bar var1, over(var2)
El comando graph bar var1 realiza entonces el grfico con barras verticales, mientras
que graph hbar var1 lo hace con las barras horizontales. A continuacin se muestran
las dos opciones:

10

15

20

Grfico 3. Grficos de barras

mean of wage
mean of educ

10
mean of wage
mean of educ

mean of exper

15

20

mean of exper

Tambin se puede hacer el grfico con las estadsticas descriptivas:


.graph bar (mean) var1, over(var2)

mean of wage
5

10

Grfico 4. Grfico con las estadsticas descriptivas

9 10 11 12 13 14 15 16 17 18

12

d. Grficos de dos variables


Estos son los grficos ms comunes, se pueden hacer grficos de lneas, reas, barras
entre otros muchos para una combinacin de dos variables. Por ejemplo, la evolucin
de un precio en el tiempo. El comando es:
. twoway

10

20

var1

30

40

Grfico 5. Grfico de lneas entre dos variables

2,000

3,000

4,000

5,000

var2

e. Histogramas
Con este comando se pueden hacer histogramas de variables continuas y discretas.
Permite la opcin fweiht y la opcin by. La opcin por defecto sobrepone al
histograma el grfico de una distribucin normal.
.histogram var1
Este comando arroja un grfico como el siguiente:

.02

.04

Density
.06

.08

.1

Grfico 6. Histograma de una variable

10

20

30

40

var1

13

.::UdecomBooks::.

Como se observa en el grfico, el histograma lo que muestra es la tendencia de la


variable. Las barras hacen una aproximacin a la distribucin de la variable a lo largo
de la muestra.
Igualmente, es posible realizar un histograma de frecuencias y distribuciones de
densidad de Kernel utilizando los comandos histogram y kdensity respectivamente.
Ambas funciones se pueden combinar en un solo grfico como se muestra aqu:
Grfico 7. Histograma y Kernel
5

10

15

20

25

20

25

20

40

60

Frequency
80 100 120 140 160

10
15
average hourly earnings

Para obtener el grfico anterior, se debe utilizar los comandos mencionados de la


siguiente manera:
.histogram wage, freq kdensity xaxis(1 2) ylabel(0(20)150,grid)
De esta forma, se le est especificando al programa lo que se va a mostrar en los ejes,
en este caso las densidades y el salario por hora de los individuos; al igual que se est
especificando el rango de valores del eje Y, en este caso es entre 0 y 150.
f. Varios diagramas en un slo grfico
En el momento de la presentacin de documentos, una forma til es la de mostrar
varios grficos en un mismo recuadro. Esta opcin permite ahorrar espacio al tiempo
que permite hacer nfasis sobre alguna variable de inters.
Como primera medida, se debe realizar cada grfico por separado con los comandos
anteriormente descritos y guardarlos. Una vez hecho esto, el usuario debe ir al Men
de la barra de herramientas dando click en Graphics y despus en Table of graphs.
Stata abre una primera ventana donde se debe entrar en Browse y ah se despliega
una nueva ventana para seleccionar los grficos que se guardaron y se desean poner

14

uno junto al otro: entrando nuevamente en Browse, se buscan cada uno de los
grficos:

Al dar la opcin OK, una vez seleccionados los grficos, Stata abre inmediatamente
una nueva ventana con los tres o cuatro grficos seleccionados ya todos incluidos en
un mismo recuadro, de la siguiente manera:

mean of wage
4
6

kdensity wage
.05
.1
.15

.2

Grfico 8. Varios diagramas en un solo grfico

10

15

20

25

Male

Female

-1

.2

log(wage)
1
2

Density
.4
.6

.8

-1

1
log(wage)

10
15
years of education

20

Los grficos que se observan en la Salida de Stata que se realizaron en este ejemplo
son: [1] Es el grfico que muestra la densidad del salario, realizado mediante el
comando twoway kdensity wage; [2] grfico de barras que representa los salarios por
divisin en gnero; [3] es el histograma que muestra una aproximacin a la

15

.::UdecomBooks::.

distribucin del la variable logaritmo del salario; y, por ltimo, [4] es el grfico de
dispersin entre el logaritmo del salario y los aos de educacin del individuo.
4 Comentarios finales
Este documento pretende mostrar al usuario de Stata la amplia gama de posibilidades
que el programa ofrece para hacer un anlisis minucioso de los datos que se tienen
con el fin de dar inicio al trabajo deseado. La revisin de los datos es un primer paso
que no se debe obviar pues hace parte fundamental del trabajo del econometrista.
Es importante variar en el uso de las herramientas para las estadsticas descriptivas,
utilizando mtodos grficos y tablas simultneamente para as tener una mejor visin
de aquellas variables de inters y de la muestra suministrada.
Una vez realizado este segundo paso en el manejo de las bases de datos, el usuario
puede ahora pasar a realizar las regresiones que crea pertinentes para el modelo
encontrado que se ajusta al anlisis que est llevando acabo. El software Stata
permite continuar an ms con las regresiones y las correcciones de los posibles
problemas economtricos hallados en el camino.
5. Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson

16

Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ


Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

17

.::UdecomBooks::.

INTRODUCCIN A LA ECONOMETRA Y EL MRLS EN STATA

Carlos Giovanni Gonzlez Espitia


E-mail: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en el mbito de la econometra y
del Modelo de Regresin Lineal Simple (MRLS), siguiendo una metodologa bsica
sobre la especificacin, estimacin, contrastes y proyecciones del modelo, y realizando
su aplicacin en el programa economtrico Stata.

Palabras Clave: Econometra, software economtrico, Stata


Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

1 Introduccin
Pocas obligaciones si alguna supera en importancia a la que los economistas
profesionales tienen de conocer y comprender las herramientas bsicas de la
econometra para el desarrollo de su profesin. Un deber cuyo cumplimiento importa
cada da ms a un amplio nmero de agentes y participantes del proceso econmico.
Adems, estos agentes precisan disponer de las conclusiones que esta herramienta les
puede proporcionar en estudios empresariales, consultoras e investigaciones. As por
ejemplo, algunos agentes econmicos a los cuales les debera interesar la econometra
son, los empresarios, cuyas decisiones estn esencialmente afectadas por la
informacin que disponen con respecto a la relacin de las variables del entorno
empresarial y general de la economa en la que desarrollan sus actividades. Los
polticos y servidores pblicos cuyas elecciones tienen que guardar coherencia con las
teoras, los datos, las regularidades empricas y hechos estilizados de la economa.
Finalmente, los ciudadanos como consumidores necesitan una herramienta para
analizar su toma de decisiones.
Los economistas jvenes y los que todava estn estudiando sabrn que antes de
tener su grado como profesionales deben pasar por materias de matemticas,
estadsticas y de teora econmica, antes de llegar a la econometra. Y es en esta
ltima donde surge una excelente combinacin de las matemticas, estadsticas y de
teora econmica para alcanzar lo que los economistas podramos llamar la capacidad
de anlisis econmico. Pero sorprende que esta herramienta, considerada como vital
para la formacin de los economistas y de otras disciplinas o profesiones similares, no
cuente en muchos pases en vas de desarrollo con obras que pongan al da a los
usuarios sobre los mtodos que se utilizan hoy y los softwares ms especializado para
interpretar correctamente las realidades econmicas y no pasar el oso, por
quedarse en meras intuiciones o anlisis estadsticos bsicos, o tal vez, por usar un
software desconocido por la comunidad cientfica de la disciplina.
Esa ausencia de un documento que presente los mtodos economtricos y un
software de calidad para el anlisis econmico, se cubre en esta serie de documentos.
De ah que el objetivo de este tercer documento sea introducir al lector en la
econometra y en el modelo de regresin lineal simple usando un software de frontera
como lo es Stata. A este documento lo preceden otros dos: 1. Aprendiendo a usa Stata
y 2. Describiendo y graficando datos en Stata.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. El documento es una herramienta de apoyo y no sustituye los
manuales de Stata, ni a los libros ms rigurosos de econometra.
El documento consta de ocho apartados, el primero de ellos es esta introduccin. En
el segundo apartado se hace una introduccin a la econometra, pasando por su
definicin, algunos conceptos bsicos, los datos y la metodloga de la econometra. En
el tercer apartado se presenta la especificacin del modelo. En el cuarto apartado se
presenta la estimacin del modelo usando el mtodo MCO. En el quinto apartado se
2

.::UdecomBooks::.

contrasta el modelo usando las pruebas de significancia y la bondad de jute del


modelo. En el sexto apartado se muestra como se hacen las proyecciones. En el
sptimo apartado se presenta una seccin de comentarios. El documento termina con
la bibliografa.
2 La econometra
La econometra es una rama de la economa que se basa en la teora econmica
(microeconoma y macroeconoma) y que tiene hoy en da una amplia aplicacin en
diversas actividades del ser humano tales como el anlisis econmico de la toma de
decisiones de los consumidores, empresas y del Estado. Segn Paul Samuelson (1915 2009), uno de los economistas ms influyentes que han existido, la economa es una
ciencia social que estudia la asignacin eficiente de los recursos escasos para satisfacer
las necesidades humanas. En esta ciencia social es necesario medir, calcular y estimar
las relaciones de las variables econmicas, cosa de la que se encarga la econometra.
La palabra econometra se deriva del vocablo econo que significa economa, y
metra que quiere decir medicin, es decir, medicin de la economa. Es entonces la
parte de la economa que utiliza mtodos estadsticos y modelos matemticos para
cuantificar y/o medir las relaciones econmicas. Es importante resaltar que debido a la
continua evolucin de la ciencia econmica y de la misma econometra, existen
diversas definiciones de econometra que en su mayora han sido propuestas por los
economistas ms influyentes del siglo pasado.
Una de las definiciones ms aceptadas de econometra es la propuesta por el
economista noruego Ragnar Anton Kittil Frisch (1895-1973):
La econometra es un rea de la economa que se basa en la teora econmica para
analizar y/o estudiar a travs de modelos los fenmenos econmicos utilizando las
herramientas de la estadstica y las matemticas, (adaptado de Frisch, 1927).
Anton Kittil Frisch recibi el primer premio nobel de economa en el ao 1969, fue
adems el fundador de la Econometric Society, y creador y editor de la prestigiosa
revista cientfica Econometrica. Todo esto justifica pues la amplia aceptacin de su
propuesta a lo largo de la historia.
Es importante destacar que la econometra que se muestra en estos documentos es
aplicada y no pretende hacer nfasis en el desarrollo terico ni en la formalizacin de
los mtodos. Mas bien, se muestra como una herramienta de fcil aplicacin y muy
necesaria para los economistas de hoy.
2.1 Conceptos bsicos
Para el estudio de la econometra y antes de continuar, es importante tener claros
algunos conceptos fundamentales. El primero de ellos es el de economa: que es la
ciencia social que estudia la asignacin eficiente de recursos escasos para satisfacer las

necesidades humanas, es importante tener en cuenta este concepto antes de empezar


a utilizar la econometra como herramienta prctica.
Igualmente, es importante tener siempre presente que al hablar de teora econmica,
se est haciendo referencia a las dos ramas principales de la misma, que son la
microeconoma y la macroeconoma. La primera se refiere al estudio de los agentes
econmicos individuales y su comportamiento, mientras que la segunda estudia las
variables econmicas agregadas en su conjunto.
Otro concepto importante es la estadstica, que se puede definir como la ciencia que
tiene como objetivo reunir una informacin cuantitativa concerniente a individuos,
grupos o series de hechos, por ejemplo, y deducir de ella unos significados precisos o
previsiones para el futuro, mediante el anlisis de datos.
Es igualmente importante saber que las matemticas son aquella disciplina que,
mediante el razonamiento deductivo, estudia las propiedades de los entes abstractos,
nmeros, figuras geomtricas, etc., as como las relaciones que se establecen entre
ellos.
2.2 Anlisis de regresin
Ya teniendo estos conceptos claros, es posible dar paso a lo que es la base del estudio
de la econometra: el anlisis de regresin.
En la economa como en las ciencias sociales, no es posible hacer experimentos
exactos como en las matemticas, fsica o las ciencias naturales (tambin llamadas
ciencias exactas), principalmente, por no poder acceder a toda la informacin de la
poblacin en estudio. Y por lo tanto, se deben utilizar modelos para estudiar los
fenmenos econmicos y de esta forma aproximarnos a la explicacin de la realidad.
De ah que la simplificacin de la realidad sea necesaria a travs de modelos que son
representaciones de la realidad.
Segn Gujarati (2010), el anlisis de regresin trata del estudio de la dependencia de la
variable dependiente (Y), en una o ms variables, las variables explicativas (X)
utilizando modelos, con el objetivo de estimar y/o predecir la media o valor promedio
poblacional de la primera en trminos de los valores conocidos o fijos (en muestras
repetidas) de las ltimas.
Con base en lo anterior, se puede deducir la funcin de dependencia bsica que por lo
general se establece por la teora econmica:
Y = f (X )

Esta funcin se pude tambin reescribir como modelo matemtico a manera de


funcin lineal de la siguiente manera:

Y = a + bX
4

.::UdecomBooks::.

Donde Y es la variable dependiente, X es la variable independiente o explicativa, a es el


parmetro constante y b es el parmetro dependiente. Esta ecuacin es la ecuacin de
una recta de pendiente b y de ordenada al origen a en un eje cartesiano tradicional.
El modelo matemtico se convierte en modelo economtrico (tambin conocido como
modelo estadstico) en el momento en el que se agrega una variable aleatoria al
modelo: esta variable aleatoria es el trmino de error estocstico:

Y = 0 + 1 X +
Donde la variable representa el trmino de error del modelo. Es importante recordar
que en este caso se trata de un modelo que representa una relacin lineal entre la
variable X y la variable Y.
Una vez estimado el modelo, este se escribe de la siguiente manera: Y = 0 + 1 X
donde cada variable o parmetro acompaado de un acento hace referencia a un valor
estimado.
En econometra, la variable dependiente (Y) es llamada tambin variable endgena,
regresando, variable explicada, predicha o de respuesta. De la misma forma, la variable
independiente (X) se le puede tambin llamar variable exgena, regresor, variable
explicativa, predictor o de control.
Ahora bien, en economa buscamos relaciones determinanticas de las variables
econmicas. Lo cual implica que detrs de los datos y las regresiones debe existir un
marco terico o una prueba estadstica de que la relacin entre la variable
dependiente y las independientes no es una mera correlacin, sino que buscamos una
relacin causal, llamada causalidad. La variable X causa a Y. La asociacin de estos dos
conceptos es fuente de numerosos errores de interpretacin que, en ocasiones, han
tenido graves consecuencias en las decisiones que toman los economistas. Por lo
tanto, es importante entender que es cada uno de estos dos conceptos. Segn Gujarati
(2010):
i. Correlacin: Mide la fuerza o el grado de asociacin lineal entre dos variables. Hay
que tener en cuenta que una relacin estadstica, por mas fuerte o sugerente que sea,
nunca podr establecer una conexin causal.
ii. Causalidad: La relacin de causalidad debe provenir de estadsticas externas y, en
mejor trmino, de una u otra teora. Lo que se debe notar es que una relacin
estadstica por si misma no puede, por lgica, implicar causalidad.
No olviden que lo que buscamos en economa (y en econometra) es un efecto causal y
no una mera correlacin. Para aducir causalidad se debe acudir a consideraciones a
priori o tericas. Y si buscamos o estimamos una correlacin que no est mal es
importante aclararlo.
5

2.3 Los datos


A la hora de hacer una estimacin de un modelo economtrico, es necesario contar
con los datos especficos de las caractersticas representativas del modelo. La muestra
de los datos debe ser una muestra representativa, obtenida bajo los distintos mtodos
estadsticos (muestreo aleatorio, conglomerado, estratificado, etc.)
La estructura de los datos en econometra puede ser de tres tipos:
- Datos de corte transversal
- Datos de Panel
- Series de tiempo
El corte transversal se trata de una muestra de n observaciones de individuos,
empresas, familias o pases, entre otros, recogidas en un momento puntual del
tiempo. Las variables no tienen horizonte temporal. La siguiente tabla muestra un
ejemplo de este tipo de datos haciendo referencia al PIB de diferentes pases en un
mismo periodo de tiempo:
Tabla 1. Datos de corte transversal

Las series de tiempo son muestras que recogen observaciones de un mismo individuo,
empresa, familia o pas a lo largo del tiempo. Son variables que tiene un horizonte
temporal un principio y un fin en el tiempo. Por ejemplo, las ventas de una
determinada empresa a lo largo de varios aos representan una muestra de series de
tiempo, tal como se muestra en la tabla 2:

.::UdecomBooks::.

Tabla 2. Datos de series de tiempo

Por ltimo, los datos de panel son datos de informacin combinada entre cortes
transversales y series temporales. La informacin sobre el PIB para diferentes
provincias en un rango de tiempo son datos de panel:
Tabla 3. Datos de panel

2.4 Metodologa de la econometra


La metodologa de la econometra sigue la metodologa convencional de la
investigacin donde existe una hiptesis que se desea probar. Para realizar esto se
plantean cuatro etapas bsicas llamadas: especificacin, estimacin, contrastes y
proyecciones. Segn Gujarati (2010), estas se pueden desagregar as:
Dentro de la especificacin del modelo se deben tener en cuenta pasos como: el
planteamiento de la teora o de la hiptesis, la especificacin del modelo matemtico
de la teora y la especificacin del modelo economtrico de la teora.

La etapa de estimacin consta de dos pasos que son la obtencin de los datos y la
estimacin de los parmetros del modelo economtrico.
Ms adelante, se deben hacer las respectivas pruebas de hiptesis como mtodo para
contrastar, dentro de las cuales estn las pruebas de significancia tanto individual
como conjunta y la verificacin de los ajustes del modelo. Tambin en esta etapa se
contrasta la existencia de problemas economtricos como multicolinealidad,
heteroscedasticidad, autocorrelacion, omisin de variables relevantes, errores de
medicin y distribucin normal de los errores, entre otros.
Por ltimo, no se debe olvidar hacer las proyecciones, etapa de suma importancia
dentro del estudio. Este paso se refiere a la realizacin de un pronstico o prediccin
acompaado de un comentario sobre la utilizacin del modelo y su importancia en
fines como el control o la poltica econmica.
3. Especificacin del MRLS
La regresin lineal simple, como ya se mencion dentro de los conceptos bsicos de la
econometra, se habla de regresin lineal en el caso en que hay una relacin de
linealidad entre la variable dependiente y las independientes. Los mtodos de
estimacin ms frecuentes son el de Mnimos Cuadrados Ordinarios (MCO) y el de
Mxima Verosimilitud (MV). El mtodo de MCO es el ms comn por ser mucho ms
intuitivo y matemticamente ms sencillo que el de MV. Adems, en el contexto de la
regresin lineal, ambos proporcionan resultados bastante similares.
3.1 Modelo econmico
El modelo, tal como se mencion anteriormente, se trata de una funcin de
dependencia bsica que plantea la teora econmica:
Y = f (X )

3.2 Modelo matemtico


A partir del modelo econmico, se tiene que el modelo matemtico asociado es:

Y = a + bX
Donde Y es la variable dependiente, X es la variable independiente o explicativa, a es el
parmetro constante y b es el parmetro dependiente. Esta ecuacin es la ecuacin de
una recta de pendiente b y de ordenada al origen a en un eje cartesiano tradicional.
3.3 Modelo economtrico
Ahora, el modelo matemtico se convierte en modelo economtrico en el momento
en el que se agrega una variable aleatoria al modelo: esta variable es el trmino de

.::UdecomBooks::.

error, o variable estocstica, generalmente representada por una letra griega al final
de la ecuacin, tal como se muestra aqu:

Y = 0 + 1 X +
Donde la variable representa el trmino de error del modelo. Es importante recordar
que en este caso se trata de un modelo que representa una relacin lineal entre la
variable X y la variable Y.
Para la especificacin del modelo, debe existir una teora: se hace referencia a la teora
econmica en esta etapa. Para una mayor claridad, se har mencin al ejemplo del
libro de Wooldridge (2002) en el cual se estima la ecuacin bsica minceriana de
salarios, especificada de la siguiente manera:

ln( salario)i = 0 + 1educi + i


Donde el subndice i especifica que se trata de una muestra de corte transversal. En la
base de datos WAGE1.RAW, las variables se llaman as:

lwagei = 0 + 1educi + i
Para la especificacin particular de este modelo, es importante conocer la teora del
capital humano desarrollada por Becker (1964) pues esta relaciona el salario percibido
con variables como la educacin y la experiencia. Esta teora establece como variable
dependiente, el logaritmo del salario del individuo, en funcin del nivel de educacin,
la experiencia, la experiencia al cuadrado, y otras variables que explican el nivel salarial
de los individuos1. Becker enfatiza su teora con el supuesto de que las personas son
racionales y hacen sus elecciones teniendo en cuenta costos y beneficios, y que
adems tienen la posibilidad de elegir si educarse o no y si trabajar o no. Sumado esto
al trabajo de Mincer (1974), qued demostrado que tanto la educacin como la
experiencia estn relacionadas positivamente con el logaritmo del salario. De hecho,
tendera a haber una correlacin positiva entre la escolaridad y las inversiones en la
experiencia laboral, no porque estas sean complementarias sino porque generalmente
individuos que invierten en capital humano, lo hacen simultneamente de las dos
formas (Chiswick, 2003).
La teora econmica se debe usar de manera pertinente en a la hora de la
especificacin del modelo pues es a partir de esta que se proporcionan los argumentos
que sustentan los signos esperados de las variables en el modelo economtrico. Es
adems fundamental basarse en una teora que se ajuste a los datos con los que se va
a trabajar.
Las teoras generalmente surgen de una intuicin proveniente de una regularidad
emprica que es corroborada por las estimaciones economtricas cientficas a lo largo

En este caso se utilizar solamente la primera variable dependiente especificada por la teora debido a
que se est planteando la especificacin de un modelo de regresin lineal simple.

del tiempo. Las hiptesis surgen como base para el planteamiento de un problema o
inquietud que se desea confirmar con experiencia.
4. Estimacin del MRLS
La estimacin se hace por el mtodo de MCO. Este mtodo tiene ciertos supuestos y
propiedades que es pertinente que sean estudiados para una mejor comprensin de la
tcnica que utiliza la econometra.
La estimacin en econometra trata de encontrar un mtodo para hallar una recta que
ajuste de una manera adecuada la nube de puntos definida por todos los pares de
valores muestrales ( xi ; yi ) tal como se muestra en el siguiente grfico:

Grfico 1. Grfico de dispersin de los datos

-1

 

10
years of education
log(wage)

15

20

Fitted values

Los puntos de dispersin representan las observaciones obtenidas en la muestra y la


recta representa la estimacin que se busca realizar, tambin llamada Funcin de
Regresin Muestral (FRM) segn Gujarati (2010). Las distancias entre cada
observacin y la recta, es decir la diferencia entre los verdaderos valores de las
observaciones y los valores estimados, representan el trmino de error de la
estimacin, y, teniendo en cuenta que hay tantos puntos por encima como puntos por
debajo de la lnea, la suma de todas estas diferencias ser cero:
     
4.1 Mtodo de MCO
El mtodo de Mnimos Cuadrados Ordinarios (MCO) estima la recta obteniendo el
Mejor Estimador Lineal Insesgado (MELI) el cual minimiza la suma de los cuadrados de
los residuos:
10

.::UdecomBooks::.

2
i

2
= (Yi Yi )

= (Yi 1 2 X i ) 2

El criterio considera que la funcin que mejor se ajusta a los datos es la que minimiza
la varianza del error , lo que es equivalente a minimizar:
n

i =1

i =1

S ( 0 , 1 , 2 ,..., k ) = i 2 = ( yi ( 1 + 2 x1i ) )

Las propiedades y caractersticas del mtodo de MCO son:


-

Este mtodo busca la mejor lnea que represente las observaciones


Busca estimadores insesgados
La mejor variabilidad del estimador
Una relacin lineal entre X e Y
La variable X es no estocstica
Los estimadores MCO tienen la menor varianza posible
E[ i ] = 0

Var[ i ] = 2
E[ i j ] = 0 donde i j, es decir que los errores son independientes entre s

El teorema de Gauss Markov especifica las propiedades ideales u ptimas de las


estimaciones, el cual plantea que:
Dadas las propiedades del modelo clsico de regresin lineal, los estimadores de
mnimos cuadrados ordinarios, dentro de la clase de estimadores lineales insesgados,
tienen varianza mnima, es decir, son MELI (Gujarati (2010))
Los supuestos de este teorema en los cuales se basa son:
-

Existe una relacin lineal entre X y Y


Las X s son no estocsticas y linealmente independientes entre s
El trmino de error:
o E[ i ] = 0
o Var[ i ] = 2
o

E[ i j ] = 0 donde i j

De acuerdo con esto, por el mtodo de MCO se obtienen estimadores:


-

Insesgados, es decir que se cumple que el valor esperado del coeficiente


muestral estimado es igual al poblacional: E ( 1 ) = 1

11

Eficientes, es decir que se cumple que Var ( 2 ) =

(x x )
i

i =1

Consistentes, es decir que se cumpla que Cov( i ; j ) =

(x x )
i

t =1

El objetivo de la estimacin en el caso del mtodo de mnimos cuadrados ordinarios es


minimizar la suma de los errores al cuadrado. Sabemos que los residuos son la
diferencia entre el valor estimado y el valor observado de Y, por tanto, la sumatoria se
expresa como:

Donde, si sustituimos el valor estimado obtenemos:


n

S = (Yt 1 2 X t )2
t =1

De donde, haciendo la derivada parcial de ( 1 2 ) obtenemos que las expresiones


analticas para los estimadores de mnimo cuadrticos de la regresin lineal simple
son:
n

( X X )(Yi Y )
=
2 = ni
2
i =1
(Xi X )
i =1

x y n.x. y
i

i =1
n

n.x

1 = Y 2 X

i =1

Mediante las sumatorias anteriormente mostradas, es posible calcular los s del


modelo planteado. Con esto, el lector puede ya entender qu es lo que hace el mtodo
de MCO a la hora de hacer la estimacin de los coeficientes.
Sin embargo, los clculos son algo tediosos teniendo en cuenta que el econometrista
generalmente se ve enfrentado a bases de datos bastante grandes con las que tiene
que trabajar. Por esto, hay software especializados en realizar este tipo de regresiones:
Stata es uno de ellos.
4.2 Anlisis y obtencin de los datos
Para la estimacin de un modelo economtrico, el primer paso de suma importancia es
tener una base de datos con la cual se realizar el trabajo. Igualmente, se deben
conocer bien la estructura de los datos, es decir tener en cuenta la realizacin previa
de las estadsticas descriptivas, con el fin de conocer con qu tipo de variables se va a
trabajar, qu media o desviacin estndar tienen y si se cuenta con valores missing
no. Para esto, se recomienda revisar el documento Describiendo y Graficando en Stata,
captulo anterior a este.
12

.::UdecomBooks::.

En el caso del ejemplo de Wooldridge (2002), se utilizan datos de corte transversal en


los cuales hay 24 variables diferentes disponibles.
4.3 Estimacin del MRLS
Ya habiendo entendido los clculos de fondo de la regresin del modelo de regresin
lineal simple, el usuario de Stata puede ahora realizar la regresin de manera sencilla,
simplemente utilizando el comando regress de la siguiente manera (este comando se
puede utilizar igualmente de manera abreviada introduciendo simplemente reg):
.regress depvar indepvar
La sintaxis oficial que ofrece Stata al utilizar la herramienta Help en el Men principal
sobre este comando es:
.regress depvar [indepvar] [if] [in] [weight] [,options]
Se puede utilizar if o in para limitar la muestra, asignar diferentes pesos a las
observaciones con weight u otras opciones con options.
Tras teclear el comando regress y utilizando el modelo del ejemplo de Wooldridge
(2002), Stata arroja la siguiente tabla:
Tabla 4. Resultados de la estimacin en Stata
Source

SS

df

MS

Model
Residual

27.5606288
120.769123

1
524

27.5606288
.230475425

Total

148.329751

525

.28253286

lwage

Coef.

educ
_cons

.0827444
.5837727

Std. Err.
.0075667
.0973358

t
10.94
6.00

Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

526
119.58
0.0000
0.1858
0.1843
.48008

P>|t|

[95% Conf. Interval]

0.000
0.000

.0678796
.3925563

.0976091
.7749891

La tabla se divide en tres partes: la primera es la que muestra la tabla ANOVA de las
sumatorias de los residuos; la segunda muestra algunos detalles de la estimacin como
el nmero de observaciones y otra informacin que ms adelante se analizar; y, por
ltimo, la tabla con el resultado del estimado, el error estndar, el valor de la prueba
t, el valor p y el intervalo de confianza.

13

Esta fraccin de la tabla de estimacin que muestra Stata en su ventana de resultados,


es la tabla Anova, en la cual se muestran las diferentes sumatorias que comprenden el
fondo de la estimacin: la suma de los cuadrados totales (SS), la suma de los cuadrados
medios (MS), y los grados de libertad; cada uno tanto para la regresin como para los
residuos.

Stata tambin muestra detalles de la estructura de datos como el nmero de


observaciones total que se tienen. Calcula adems la probabilidad del estadstico F, el
coeficiente de determinacin r2 y r2 ajustado, que ms adelante se definirn, y el Root,
que es la raz cuadrada de la sumatoria de los cuadrados medios del error.

lwage

Coef.

educ
_cons

.0827444
.5837727

Std. Err.
.0075667
.0973358

t
10.94
6.00

P>|t|

[95% Conf. Interval]

0.000
0.000

.0678796
.3925563

.0976091
.7749891

Esta ltima fraccin de la tabla, es la estimacin del modelo. Se observa la variable


dependiente lwage, la variable independiente educ y el intercepto o constante. Para
cada una, aparece el coeficiente estimado, el error estndar, el valor del estadstico t
junto a su valor p, y el intervalo de confianza.
4.4 Interpretacin de los resultados
Una vez el econometrista tiene frente a l la tabla con la estimacin, su trabajo es
ahora el de interpretar los resultados obtenidos, parte fundamental de su labor.
Las interpretaciones varan de acuerdo con la especificacin del modelo, tal como se
muestra a continuacin:
Suponiendo que el modelo se escribe de la siguiente forma (modelo nivel-nivel):

y = 0 + 1 x1 + i
y
= 1
x1

0 Ser el pronstico de y cuando las x j se anulan, teniendo en cuenta que no


siempre tiene interpretacin econmica. Adems, ante una variacin en una unidad
en x1 se esperara que y variara en 1 unidades, ceteris paribus, es decir, manteniendo
todo lo dems constante.

14

.::UdecomBooks::.

Suponiendo que el modelo es un modelo con logaritmo natural en la variable


explicativa x1 (modelo nivel-log):
y = 0 + 1 ln( x1 ) + i
1
y = 1 x
x1
y.x1
= 1
x1
y

= 1
( x1 / x1 )100 100

Se puede interpretar entonces que ante un cambio en 1 por ciento en x1 se esperara


que y variara en

unidades, ceteris paribus.


100
En el caso en que el modelo se escriba con logaritmo natural tanto en la variable
dependiente como en la variable explicativa x1 (modelo log-log o de doble logaritmo)
tendramos que:

ln( y ) = 0 + 1 ln( x1 ) + i
1
1
y = 1 x
y
x1
y / y
= 1
x1 / x1
En este caso, se puede decir que ante un cambio en 1 porciento en la variable
independiente x1 se esperara que y variara en 1 porciento, ceteris paribus.
En el caso en que el modelo tenga un logaritmo en la variable dependiente solamente
(modelo log-nivel):
ln( y ) = 0 + 1 x1 + i
1
y = 1.x
y
y 1
= 1
x1 y

( y / y )100 = (100)
x1

Podemos entonces interpretar que 1 (100) es el cambio porcentual en la variable


dependiente y dado un cambio en una unidad en x , ceteris paribus.

15

La tabla siguiente resume las interpretaciones de los coeficientes en los distintos tipos
de modelos economtricos:

Modelo

Variable
dependiente

Variable
independiente

Nivel nivel

Nivel log

Log(x)

Log nivel

Log(y)

Log log

Log(y)

Log(x)

Interpretacin de 1

y
= 1
x1
y

= 1
( x1 / x1 )100 100

( y / y )100 = (100)
x1
y / y
= 1
x1 / x1

En el ejemplo aqu utilizado y utilizando la Tabla 4 que muestra los resultados de la


estimacin, es posible decir que 2 = 8,274 es el cambio porcentual en la variable
dependiente W dado un cambio en una unidad en educi , ceteris paribus.
5. Contrastes del MRLS
Una vez estimado el modelo de regresin lineal simple, es importante no olvidar hacer
los contrastes y las validaciones del modelo, con el fin de corroborar que el modelo s
es el apropiado y que se logr encontrar resultados coherentes.
Como primera medida, se deben contrastar los signos esperados a priori con los
obtenidos en el modelo. En este caso, como se trata de un modelo de regresin lineal
simple en el que se estiman dos , cada uno de ellos se compara.
5.1 Significancia individual
Otro paso importante para el contraste del modelo y su validacin son las pruebas de
significancia. La prueba individual tiene como objetivo probar la validez del coeficiente
dentro del modelo, y se realiza siguiendo la metodologa estadstica de las pruebas de
hiptesis. En este caso, para probar la significancia de los betas por separado, se hace
referencia a las siguientes hiptesis:
H 0 : 1 = 0
H 1 : 1 0

Para realizar la prueba de hiptesis se debe tener en cuenta el valor del estadstico t o
su valor p asociado. El criterio para rechazar la hiptesis nula es que si el valor p es
menor que un de 0.01, 0.05 o 0.10, se rechaza H0 y el coeficiente ser significativo al
99%, 95% o 90%, respectivamente. Se debe tener en cuenta que la hiptesis se debe
16

.::UdecomBooks::.

rechazar al nivel de significancia ms alto y se debe dejar de rechazar al nivel de


significancia ms bajo.
Teniendo en cuenta los valores p del ejemplo, que en este caso son cero para ambos
coeficientes y por tanto inferiores a 0.01, 0.05 y 0.10, es posible rechazar la hiptesis
nula de no significancia. En conclusin, en este caso ambos s son significativos con
un nivel de confianza del 99%.
5.2 Significancia conjunta
Por otro lado, es importante realizar tambin la prueba de significancia conjunta,
siguiendo el mismo mtodo anterior:
H 0 : 1 = 2 = 0
H 1 : No H 0

La prueba de hiptesis se realiza teniendo en cuenta la probabilidad asociada al


estadstico F que se revela en la tabla en la parte superior derecha. Igualmente para
esta prueba, el criterio se define mediante el valor p asociado y se compara con un
nivel de significancia de 0.01, 0.05 y 0.10.
De la misma forma que lo anterior, en este caso la hiptesis nula se rechaza a un 99%
de confianza, mostrando as una significancia conjunta de ambos coeficientes dentro
del modelo.
5.3 Bondad de ajuste
Por ltimo, para analizar el fit del modelo, se debe analizar su bondad de ajuste. Para
esto, la econometra utiliza el coeficiente de determinacin r2 como medida de la
bondad de ajuste, es decir, como medida de cun bien se ajusta la lnea de regresin a
los datos. Si todos los datos cayeran sobre la lnea de regresin se obtendra un ajuste
perfecto, sin embargo esto rara vez ocurre: por tanto, lo que se busca es la lnea mejor
ajustada a los datos.
Como primera medida, para analizar el coeficiente de determinacin, se debe
entender el Diagrama de Venn siguiente:

Grfico 2. Diagrama de Venn

17

Lo que muestra se muestra es que el los crculos X e Y representan la variacin en las


variables X e Y respectivamente. La interseccin de los crculos que se muestra
sombreada de color gris, indica la medida en que las variaciones en la variable Y son
explicadas por variaciones en la variable X. Entre mayor sea el rea sombreada, mayor
ser esta relacin entre las dos variables. El coeficiente de determinacin es pues una
medida numrica de esta interseccin. Cuando no hay interseccin entre los crculos,
el r2 es cero, mientras que cuando ambos crculos se superponen perfectamente, el r2
es 1, pues ciento por ciento de la variacin en Y es explicada por variaciones en X.
Para calcular el coeficiente, se debe tener presente que: yi = yi + i

= y i 2 + i 2 + 2 y i 2 i 2
= yi 2 + i 2

De aqu que:

= 2 2 xi 2 + i 2

La sumatoria

tambin llamada Suma de cuadrados totales muestra la variacin


total de los valores reales de Y respecto de su media muestral. La sumatoria 2 x 2
i

es la variacin de los valores de Y estimados alrededor de su media, tambin llamada


Suma de cuadrados de la regresin. Por ltimo, i 2 es la variacin residual o suma
no explicada, tambin llamada Suma de cuadrados de los residuos.
SCT = SCR + SCE
o SST = SSR + SSE por las siglas en ingls.
Ahora, si esta ecuacin se divide a ambos lados por la SCT se obtiene que:
1=
=

SCR SCE
+
SCT SCT
(Yi Y )2

(Y Y )
i


(Y Y )
2

Por tanto, llegamos entonces a la definicin del r : r

(Y Y )
=
(Y Y )

i
i

SCE
SCT

El valor del coeficiente se encuentra comprendido entre cero y uno: a medida que el
coeficiente se acerca a cero, el ajuste del modelo es menor, es decir hay menor
nmero de variaciones de la variable dependiente que son explicadas por cambios en
las variables independientes. De la misma manera, a medida que se acerca a uno el
modelo presenta un mejor fit.

18

.::UdecomBooks::.

En la tabla que muestra Stata tras hacer la regresin del modelo lineal simple, se
observa el coeficiente de determinacin ya calculado. En este caso, tiene un valor de
0,1858, nmero suficientemente cercano a cero como para decir que el modelo no
presenta un buen ajuste. Se puede interpretar entonces que el 18,58% de las
variaciones en el salario estn explicadas por variaciones en los aos de educacin del
individuo.
Por ltimo, hay otros contrastes necesarios como el de heteroscedasticidad,
multicolinealidad, autocorrelacin, especificacin, errores de medicin, normalidad de
los errores, variables omitidas, etc., que se realizaran en el modelo de regresin lineal
mltiple que se explicar ms adelante.
6. Proyecciones del MRLS
Tambin se puede usar los valores estimados para encontrar el valor medio y la
proyeccin para el valor esperado de la variable dependiente. Es importante saber
que:
E[ yi | X = xi ] = E[ 0 + 1 xi + ]

E[ yi | X = xi ] = 0 + 1 xi + E[ ]
E[ yi | X = xi ] = 0 + 1 xi
Ahora, hay que tener en cuenta que el valor esperado de la variable dependiente
(prediccin media) dado un determinado valor de X, se refiere al promedio esperado
para Y, mientras que la proyeccin de la variable dependiente dado un determinado
valor de X (prediccin individual) se refiere al valor que se espera de Y y no a su valor
medio.
Para la realizacin de las proyecciones en el software Stata, el comando que se utiliza
es:
.predict yest, xb
Donde yest es el nombre de la variable estimada que ahora aparecer en el archivo de
datos de ltima en el listado de las variables, y xb estipula que se haga una prediccin
lineal.
En la siguiente tabla se muestra la prediccin de la variable Y del ejemplo de los datos
de Wooldridge que se estn usando en este caso, tras la regresin del modelo
planteado anteriormente:

19

Tabla 5. Prediccin de la variable Y

Para obtener los residuos se utiliza la opcin residuals as:


.predict yest, residuals
7. Comentarios finales
En este documento se present una breve introduccin a la econometra y su
aplicacin en Stata. Se explico la importancia de los conceptos bsicos de la
econometra, del anlisis de regresin y se presento la metodologa de la econometra
teniendo en cuenta nicamente dos variables: dependiente e independiente.
Sin embargo, debido a que la realidad es mucho ms compleja y por razones que se
explicaran ms adelante, el modelo de regresin simple presenta ciertas limitaciones
cuando se emplea como herramienta de anlisis econmico y por ello no es una
herramienta definitiva.
Es necesario ampliar el modelo usando ms de una variable independiente y a este
modelo se le conoce como modelo de regresin lineal mltiple.
8. Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press

20

.::UdecomBooks::.

Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of


earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

21

EL MODELO DE REGRESIN LINEAL MLTIPLE CON STATA

Carlos Giovanni Gonzlez Espitia


E-mail: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector al modelo de regresin lineal
mltiple (MRLM), siguiendo una metodologa bsica sobre la especificacin,
estimacin, contrastes y proyecciones del modelo, y realizando su aplicacin en el
programa economtrico Stata.

Palabras Clave: Econometra, software economtrico, Stata


Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

.::UdecomBooks::.

1 Introduccin
Generalmente en economa, los fenmenos no son explicados por nicas variables,
pues estos estn determinados por un sinnmero de interacciones de distintas
variables y actores. Rara vez la teora econmica es tan simple como para explicar el
comportamiento de una variable solamente a partir de cambios en otra. Para poder
explicar variaciones en una determinada variable econmica, la economa apela a la
modelizacin para facilitar la comprensin de los acontecimientos: de esto surge el
modelo de regresin lineal mltiple.
En la regresin lineal simple, el valor promedio de una variable dependiente est
determinado como una funcin lineal de una constante y una nica variable
explicativa. Es importante conocer primero los detalles de la regresin simple para
tener una aproximacin a la regresin mltiple. Para esto, se recomienda estudiar
primero el documento que precede a este titulado Introduccin a la Econometra y el
MRLS con Stata.
La regresin lineal mltiple simplemente incrementa el nmero de variables
explicativas. Se trata entonces de un modelo que pretende relacionar una variable
dependiente con un conjunto de variables exgenas. La variable dependiente,
tambin llamada regresando o explicada, se designa generalmente como Y , y las
variables dependientes, regresores o explicativas, se designan generalmente por
X 1 , X 2 ... X k . La variable Y es entonces funcin de k factores explicativos:
Y = f ( x1 ; x2 ...xk )
El nmero de variables dependientes x vara de acuerdo con la teora econmica y la
variable que se desee explicar.
El objetivo de este documento es acercar al lector a la formalizacin de un modelo
economtrico mucho ms utilizado en el amplio mundo de la economa, con el fin de
que se inicie en la labor del econometrista haciendo una aproximacin de las
relaciones entre variables mucho ms acertada.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. El documento es una herramienta de apoyo y no sustituye los
manuales de Stata, ni a los libros ms rigurosos de econometra.
2 Especificacin
Como ya se ha mencionado en los anteriores documentos, una parte fundamental
para iniciar en el proceso de regresin de un modelo economtrico es la obtencin y
el anlisis de los datos. Para un efectivo conocimiento de los mismos, se recomienda
realizar una serie de estadsticas descriptivas, utilizando herramientas como tablas y
grficos para as lograr saber frente a que tipo de estructura de datos se enfrenta el
econometrista.
2

Generalmente, se trabaja con una muestra de n observaciones y en el modelo se


utilizan k variables. Adems, se trabaja bajo el supuesto de que existe una relacin
lineal entre las variables X s y la variable dependiente Y, por lo tanto se puede
representar matemticamente de la siguiente manera:

y1 = 0 + 1 x11 + 2 x12 + ... + k xk 1 + 1


y2 = 0 + 1 x12 + 2 x22 + ... + k xk 2 + 2

yn = 0 + 1 x1n + 2 x2 n + ... + k xkn + n
Se trata entonces de un modelo que es representable de manera matricial as:

y1
x11

y
2


x
Y = .
, X = 12
...

.
x1n
y
n n x 1

1
1
... xk 1


2

2
... xk 2
, = . y = .
... ...


.

.
... xkn n x k


n n x 1
n n x 1

x21
x22
...
x2 n

Donde la variable dependiente es una variable aleatoria que est en funcin de las k
variables independientes y un trmino de error u. El primer subndice de las variables
explicativas representa la posicin de la variable como tal, mientras que el segundo
subndice representa las n observaciones determinadas de la muestra. Esta forma
matricial de escribir el modelo es equivalente a:
Yi = 1 X 1 + 2 X 2 + 3 X 3 + ... + k X k + i

i = 1, 2...n

Este se puede abreviar de la siguiente manera:

Y = X +
En el ejemplo de Wooldridge (2002), el modelo de regresin lineal mltiple, teniendo
en cuenta la teora econmica de la ecuacin de salarios de Mincer, se especifica as:
lwagei = 0 + 1educi + 2 exp eri + 3 exp eri 2 + i

i = 1, 2,...526

Donde lwage representa el logaritmo del salario, educ representa los aos de
educacin, exper representa los aos de experiencia del individuo y exper2 los aos de
experiencia al cuadrado que muestra los rendimientos decrecientes a lo largo del
tiempo. La muestra tiene 525 observaciones y se trata de una base de datos de corte
transversal.
2.1 Supuestos del modelo terico

.::UdecomBooks::.

Un primer supuesto sobre el modelo es el que plantea que la variable Y es una variable
aleatoria ya que depende de la variable estocstica y adems debe haber una
relacin lineal entre la variable dependiente Y y las variables explicativas X s.
Otro supuesto para el modelo de regresin lineal mltiple es sobre el trmino de
error. Este supuesto plantea que el residuo es una variable aleatoria con valor
esperado nulo, E ( ) = 0 y matriz de varianzas y covarianzas constante y diagonal. Es
decir que para todo i la variable tiene media cero y varianza no dependiente de i.; la
violacin de este supuesto genera un problema de heteroscedastidad. Adems,
cov(i ; j ) = 0 lo que quiere decir que los errores no estn correlacionados entre s; la
violacin de este supuesto genera un problema de autocorrelacin.
Es importante adems el supuesto segn el cual las variables X1, X2,...Xk son linealmente
independientes y son no estocsticas, es decir que no dependen de un trmino de
error; la violacin de este supuesto genera un problema de multicolinealidad.
3 Estimacin
3.1 Clculo de los coeficientes
Al igual que en el modelo de regresin lineal simple, se utiliza el mtodo de Mnimos
Cuadrados Ordinarios (MCO), el cual estima la recta obteniendo el Mejor Estimados
Lineal Insesgado (MELI) el cual minimiza la suma de los cuadrados de los residuos. El
criterio considera que la funcin que mejor se ajusta a los datos es la que minimiza la
varianza del error u, lo que es equivalente a minimizar:
n

i =1

i =1

S ( 0 , 1 , 2 ,..., k ) = ui 2 = ( yi ( 0 + 1 x1i + ... + k xk ) )

Para el clculo de los coeficientes s de manera manual, se va a trabajar con la matriz


de las X s, y es importante tener en cuenta, desde el principio, que la matriz X T X
debe ser invertible. Para esto, es necesario que el rango de la matriz X, que es el
nmero de regresores k, sea menor que el nmero de observaciones n. Este es un
primer paso que debe verificar el econometrista antes de empezar a trabajar, aunque
por lo general, como se trabaja con muestras representativas, estas son generalmente
grandes, y por tanto se cumple con esta condicin.
En el modelo de k variables explicativas, los estimadores de MCO se obtienen al
reducir:

= (Y
2

2 X 2i ... k X ki ) 2

En notacin matricial, lo anterior equivale entonces a realizar la reduccin de T


pues:

T = [ 1 2

1

... n ] 2 = 12 + 2 2 + ... + n 2 = i 2


n

Ahora, como el modelo estimado escrito en trminos matriciales es: Y = X + , lo


que tenemos es que: = Y X
Por lo tanto, de lo anterior se puede deducir fcilmente que:

T = (Y X )T (Y X )
= Y T Y 2 T X T Y + X T X

Si el lector conoce las propiedades de la transpuesta de una matriz, debe saber que:
( X )T = T X T y, adems, como T X T es un escalar, entonces es igual a su
transpuesta Y T X
El mtodo de MCO consiste pues, como ya se mencion en el documento previo a
este, en estimar unos coeficientes de tal manera que se minimice i 2 .
Como lo expone Guajarati (2010), de este proceso resultan k ecuaciones simultneas
con k incgnitas, que son las ecuaciones normales de la teora de mnimos cuadrados.
Dichas ecuaciones escritas de forma matricial son:
n

X 2i


X ki

X i
X

...

2i

ki

X 2i

XTX

...

1 1

X 2i
2i
ki 2
=





X ki 2 k X ki

X
X X
ki

1 Y1
... X 2 n Y2
  

... X kn Yn
1

X 22
X k2

XT

Es decir:
( X T X ) = X T Y

Si se multiplica a ambos lados de la ecuacin por ( X T X ) 1 con el fin de hallar la matriz


de los s se obtiene entonces que:
( X T X ) 1 ( X T X ) = ( X T X ) 1 ( X T Y )

Donde ( X T X ) 1 ( X T X ) es la matriz identidad, y por tanto se ha encontrado el clculo


para hallar el vector de coeficientes as:
5

.::UdecomBooks::.

= ( X T X ) 1 ( X T Y )
Se sabe adems que es una matriz de (kx1), ( X T X ) 1 es una matriz de (kxk), X T es
una matriz de (kxn) y Y de (nx1).
El clculo de los estimadores de MCO para el modelo de regresin lineal mltiple es
entonces posible realizarlo manualmente hallando la matriz inversa de ( X T X )
mediante mtodos como el de GaussJordan o el mtodo de cofactores, por ejemplo,
y posteriormente realizando los clculos de multiplicacin de matrices bsicos de un
curso de lgebra matricial.
El mtodo de MCO arroja los estimadores insesgados y de mnima varianza:
1. Insesgamiento: el valor esperado de la estimacin es aproximadamente igual al
valor del parmetro poblacional, es decir:   
2. Mnima Varianza: los coeficientes estimados son consistentes, lo cual se
2

muestra mediante una varianza tal que: s y = var( y ) =

2
n

El trmino independiente 0 no necesariamente debe aparecer en el modelo, sin


embargo es la muestra de una variable x0 cuyo valor siempre es 1.
El objetivo de la estimacin es obtener los valores de los parmetros 0 , 1 , 2 ,..., k
 , 
, 

 .
del modelo los cuales, una vez estimados, se representan por 
3.2 Estimacin en Stata del modelo
Una vez se conoce entonces cual es el procedimiento que se sigue al estimar los
coeficientes del modelo terico, es posible pasar pues a la estimacin mediante un
software economtrico: en este caso se utilizar Stata.
Para la estimacin del modelo, se utiliza el mismo comando que cuando se trata de un
modelo de regresin lineal simple:
.regress depvar indepvar1 indepvar2
De la misma forma, este comando permite utilizar las opciones [in], [if], [weight] y
[options].
La tabla de estimacin que se revela en la ventana de resultados de Stata una vez se le
indica al programa que corra la regresin del modelo mediante este comando es:

Tabla 1. Resultados de la estimacin mediante Stata


Source

SS

df

MS

Model
Residual

44.5393713
103.79038

3
522

14.8464571
.198832146

Total

148.329751

525

.28253286

lwage

Coef.

educ
exper
expersq
_cons

.0903658
.0410089
-.0007136
.1279975

Std. Err.
.007468
.0051965
.0001158
.1059323

t
12.10
7.89
-6.16
1.21

Number of obs
F( 3,
522)
Prob > F
R-squared
Adj R-squared
Root MSE

P>|t|
0.000
0.000
0.000
0.227

=
=
=
=
=
=

526
74.67
0.0000
0.3003
0.2963
.44591

[95% Conf. Interval]


.0756948
.0308002
-.000941
-.0801085

.1050368
.0512175
-.0004861
.3361035

La tabla que muestra Stata con los resultados se compone de tres partes: la tabla
Anova en la parte superior izquierda; detalles del modelo y la base de datos en la parte
superior derecha, y abajo los resultados de la estimacin compaados de los errores
estndar, los estadsticos t asociados, los valores p y los intervalos de confianza.
3.3 Interpretacin de los resultados
La interpretacin de los coeficientes depende siempre de la especificacin del modelo
de regresin lineal mltiple que se tenga. La interpretacin es la misma que la que se
hace en el modelo regresin simple en muchos casos.
En el ejemplo de la ecuacin de salarios minceriana de Wooldridge (2002), se tiene un
modelo del tipo:

Y = 0 + 1 X + 2 X 2 +
X
= 1 + 2 2
X
En este modelo se presenta entonces la presencia de una variable cuadrtica. En este
caso, podramos decir que ante un cambio en 1 unidad en X, Y vara en media en
1 + 22 unidades. Aqu 1 y 2 no tienen interpretacin por separado, simplemente es
posible decir que, dependiendo del signo de 2 , los efectos marginales sern
crecientes ( 2 > 0 ) o decrecientes ( 2 < 0 ) .
En el caso del modelo estimado en el ejemplo de la Tabla 1, es posible interpretar que
1 =9,036 es el cambio porcentual en la variable dependiente W dado un cambio en
una unidad en educi , ceteris paribus.
De la misma forma, 2 = 4,10 es el cambio porcentual en la variable dependiente W
dado un cambio en una unidad en la experiencia laboral del infividuo exp eri , ceteris
paribus. Sin embargo, en este punto es importante mostrar que la variable exp eri 2
7

.::UdecomBooks::.

muestra los rendimientos decrecientes de un ao adicional de la experiencia del


individuo en el salario. Esto permite saber entonces que dicho incremento en el
salario es cada vez menor a medida que se incrementan los aos de experiencia pues
el signo del asociado es negativo.
4 Contrastes
A partir de la estimacin por el mtodo de MCO, es posible realizar pruebas
estadsticas para corroborar la pertinencia del modelo, es decir para averiguar qu tan
certero es en sus predicciones.
4.1 Prueba de significancia individual
La primera prueba es la ya mencionada prueba de hiptesis para la verificacin de la
significancia individual de los coeficientes cada uno por aparte.
Los parmetros 0 , 1 , 2 ,..., k pueden ser o no significativos dentro del modelo. La
prueba de significancia individual para cada parmetro es una prueba de hiptesis que
se puede realizar mediante la prueba t student o por el mtodo estadstico del valor
p.
La hiptesis nula y la alternativa de la prueba son:

H 0 : j = 0

H1 = j 0
En el caso en que haya evidencia suficiente para rechazar la hiptesis nula, el
coeficiente es significativo, en cuyo caso se interpreta. Este caso se presenta
cuando se tiene un |t| superior a un t con /2 grados de libertad, rechazando
entonces H0. De igual manera, si se contrasta el valor p asociado al coeficiente y se
rencuentra que este es inferior al valor de significancia , el resultado es el mismo,
rechazando la hiptesis nula. La significancia de los coeficientes depende del nivel de
confianza al que se haya rechazado la hiptesis: 90%, 95% o 99% (*, **, ***). Es
importante tener en cuenta el criterio estadstico segn el cual se debe rechazar la
hiptesis al nivel de significancia ms alto posible, y no rechazar al nivel de
significancia menor posible para poder concluir de una manera ms acertada.
4.2 Pruebas de significancia conjunta y global
Es de suma importancia realizar tambin una prueba de significancia conjunta de los
s denominada prueba Wald, que tiene por hiptesis las siguientes:
H 0 : 0 = 1 = ... = k
H1 : No H 0

Con los mismos criterios estadsticos ya mencionados, se rechaza o no la hiptesis


nula concluyendo de esta manera sobre la significancia conjunta de todos los
coeficientes del modelo. Esta prueba de hiptesis permite verificar pues que existe
una significancia agregada entre todos los s.
Otra prueba es la de significancia global, la cual se denomina tambin prueba F que
tiene como hiptesis las siguientes (ntese que no se incluye el intercepto):
H 0 : 1 = ... = k
H1 : No H 0
Se utiliza en este caso el valor p asociado al estadstico F arrojado por la tabla ANOVA
del modelo, permitiendo rechazar o no la hiptesis H0 y concluir.
4.3 Bondad de ajuste del modelo
Un paso fundamental dentro de la labor del econometrista es la verificacin de la
bondad de ajuste del modelo que estim.
Como primera medida, se define el coeficiente de determinacin (R2) como una
medida descriptiva del ajuste global del modelo cuyo valor se encuentra entre 0 y 1.
Se debe introducir primero los conceptos de Suma de cuadrados total (SCT), Suma de
cuadrados de la regresin (SCR) y Suma de cuadrados de los errores (SCE); tambin
abreviados como SST, SSR y SSE por sus siglas en ingls.
Ahora, se definen como sigue:
n

SST = Yi Y i
i =1

= Y T Y nY

SSR = T = i 2 = (Yi Yi ) 2
i =1
n

SSE = Yi Y i
i =1

i =1

2
= Y T Y nY

A partir de esto, se define el coeficiente de determinacin (R2) como una medida


descriptiva del ajuste global del modelo cuyo valor se encuentra entre 0 y 1. Este se
SSE
SSR
= 1
obtiene a partir de la relacin R 2 =
SST
SST
Un modelo ser tanto mejor cuanto mayor sea su R2, es decir entre ms cercano a 1 se
encuentre. Sin embargo, es importante resaltar que este coeficiente depende del
nmero de regresores incluidos en el modelo, por tanto, entre ms variables
independientes se incluyan mayor ser el coeficiente.

.::UdecomBooks::.

Para la comparacin entre modelos, este problema se resuelve con el coeficiente de


determinacin corregido tambin llamado R2 ajustado definido como:
2
n 1
R = 1 (1 R 2 )

nk

El R es entonces una buena medida de calidad de la regresin y es til para la


comparacin de modelos economtricos entre s, ya que a medida que crece la
2

muestra ( n ) el R tiende al R2, sin depender del nmero de regresores k.

TABLA ANOVA:
FUENTE DE LA
VARIACIN

SUMA DE CUADRADOS

REGRESIN

SR = T = i 2 = (Yi Yi ) 2

ERROR

i =1

i =1

SE = Yi Y i
i =1

TOTAL

ST = Yi Y i
i =1

)
)

GRADOS
DE
LIBERTAD

2
= Y T Y nY

= Y T Y nY

k 1

nk

CUADRADOS
MEDIOS

CMR =

CME =

SR
k

ESTADSTICO
F

CME
CMR

SE
nk

n 1

4.4 Intervalos de confianza


Es usual tambin calcular intervalos de confianza (Prez, 2006) para los parmetros.
Suponiendo que se dispone de un vector ya estimado de  s de los coeficientes,
podramos escribir:
              

  1,2 

Al estimar mediante el mtodo de MCO, se hace la suma de los errores al cuadrado,


como ya se mencion anteriormente, tambin llamada suma residual (SR) o en ingls
Sum Square Residual (SSR):

n
n
SR = T = i 2 = (Yi Yi )2
i=1
i=1

10

El valor de las estimaciones de los parmetros vienen dados por:       


con su respectiva matriz de covarianzas: !    .
i
sigue una distribucin normal
De lo anterior se deduce que el estadstico Ni = i
aii
con media cero y varianza constante.
Por tanto, el intervalo de confianza para i al nivel de significancia vendr dado por:

i t / 2;n k 1 aii
Donde aii es el elemento isimo de la diagonal principal de la matriz 2 ( X T X ) 1 .

5 Proyeccin
Un ltimo y muy importante paso en el trabajo del econometrista es el de realizar las
proyecciones de las variables Los valores estimados pueden ser utilizados para
encontrar el valor medio y la proyeccin para el valor esperado de la variable
dependiente.
Al estimar el modelo Y = X y se obtiene el modelo estimado Y = X , se tiene que
el valor Y = X es un estimador lineal insesgado ptimo del pronstico de Y para un
0

valor dado X0 de X. A partir de esto, se puede predecir el valor esperado de Y0 E (Y0 ) o


el valor puntual Y0. Los residuos de la prediccin estarn cuantificados por las
varianzas de los predictores, la cual, en la prediccin media tiene un valor de
2 X 0 ( X T X ) 1 X 0T .
Un intervalo de confianza para la prediccin en la media, a un nivel de significancia
se calcula a travs de:

Y0 tn k 1 ( / 2) X 0 ( X T X ) 1 X 0T
Donde tn k 1 ( / 2) representa el valor del estadstico t en un nivel de significancia de
/2 con (n-k-1) grados de libertad.
Por otro lado, un intervalo de confianza para la prediccin puntual est dado por:

Y0 tn k 1 ( / 2) 1 + X 0 ( X T X )1 X 0T
Y por tanto, la varianza para la prediccin puntual tiene un valor de
2 ( X 0 ( X T X ) 1 X 0T + 1) . (Prez (2006))

11

.::UdecomBooks::.

Es importante tener siempre presente que el valor esperado de la variable


dependiente dado un determinado valor de X, se refiere al promedio esperado para Y,
a diferencia de la proyeccin de la variable dependiente dado un determinado valor de
X la cual se refiere al valor que se espera de Y y no a su valor medio.
El comando que se debe utilizar en Stata para las proyecciones en este modelo es el
mismo que se utiliza en el caso de la regresin lineal simple:
.predict yest, xb
El comando genera como resultado la creacin de una nueva variable llamada yest que
aparecer en el archivo de datos; se puede ver entrando a la base de datos dando click
en el editor de datos. En el comando se utiliza tambin la opcin xb para establecer
que la proyeccin sea lneal.
Dentro del ejemplo manejado en este documento, es decir aquel que estima la
ecuacin minceriana de salarios, la prediccin de una variable se muestra a
continuacin:
Tabla 2. Prediccin de la variable Y

La interpretacin de esta nueva variable debe tener en cuenta los valores asociados
para cada observacin de las dems variables del modelo, es decir: para un individuo
con once aos de educacin y dos aos de experiencia, se esperara que, en promedio,
tenga un salario de 1,2 unidades monetarias.
Para obtener los residuos se utiliza la opcin residuals as:
.predict yest, residuals

6 Comentarios finales

12

La regresin lineal mltiple es simplemente una abertura a una gran cantidad de


modelos a los que se puede recurrir a la hora de hacer una regresin. La escogencia de
los mismos depende tanto de la base de datos como de la teora econmica sobre el
tema que se est trabajando.
7 Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html
13

.::UdecomBooks::.

http://ideas.repec.org/s/boc/bocode.html

14

VARIABLES DUMMYS CON STATA

Carlos Giovanni Gonzlez Espitia


E-mail: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en las variables Dummys que se
utilizan en el modelo de regresin lineal mltiple (MRLM), siguiendo una metodologa
bsica, su interpretacin la iteracin y las pruebas de hiptesis, y realizando su
aplicacin en el programa economtrico Stata.

Palabras Clave: Econometra, software economtrico, Stata


Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

.::UdecomBooks::.

1 Introduccin
En economa existen numerosos tipos de variables que se utilizan para los modelos
econmicos. Las variables continuas son muy comunes pues hacen referencia a
aquellas variables que pueden tomar cualquier valor, incluyendo nmeros enteros y
decimales. Sin embargo, en el anlisis de regresin las variables no siempre son de este
tipo: existen aquellas que solamente pueden tomar un nmero determinado de
valores especficos o que simplemente son variables discretas cualitativas, tambin
llamadas dicotmicas.
2 Definicin
Las variables Dummy suelen indicar la presencia o ausencia de una cualidad o atributo,
por ejemplo si se trata de un hombre o una mujer, o si un individuo es casado o no.
Caractersticas como estas son muchas veces de suma importancia para los actores
econmicos a la hora de toma una decisin como la de ingresar al mercado laboral o
no, realizar estudios universitarios o no, entre muchas otras. Una manera sencilla de
poder cuantificar estos detalles de un individuo es mediante la asignacin artificial de
valores como 0 y 1 a cada opcin de respuesta, donde 0 indica ausencia de la
caracterstica y 1 indica presencia de la misma. A las variables que pueden tomar uno
de estos dos valores se les llama variables dicotmicas o dummys, y son
generalmente usadas para clasificar categoras mutuamente excluyentes (Guajarti
(2010)). Este tipo de variables tambin es til a la hora querer clasificar una variable
que es continua en diferentes rangos, pues a cada uno se le puede asignar un valor
determinado.
Las variables Dummy pueden ser utilizadas tan fcilmente como las variables continuas
en un modelo de regresin. De hecho, dentro de un mismo modelo puede haber la
presencia de una u otra, o incluso ambas.
Una variable Dummy toma entonces solamente dos valores diferentes, y un
histograma de una variable como esta muestra lo siguiente:

Density

10

15

Grfico 1. Histograma de una variable Dummy

.2

.4
.6
=1 if married

.8

Como lo muestra el grfico 1, una variable de este tipo toma bien sea el valor 0 o bien
el valor 1. El histograma lo que muestra es qu tantas observaciones toman cada valor.
En este ejemplo, se trata de una variable que toma el valor de 1 si el individuo es
casado y cero en caso contrario: el grfico refleja que dentro de la muestra con la que
se est trabajando, hay un mayor nmero de individuos casados que aquellos que no
estn casados.
2.1 Crear una variable Dummy
Para crear una variable Dummy a partir de una variable continua, se introduce el
comando:
.generate [type] newvar [:lblname] = exp [if] [in]
Por ejemplo, si se desea crear una variable dummy a partir de la variable salario del
individuo que tome el valor de 1 si este es superior a la media es decir, en este caso
5.89, y 0 en caso contrario, se introduce:
.generate wage1 = (wage>5.8)
Una vez creada esta variable, el histograma permite ver qu tantos individuos de la
muestra estn por encima y qu tantos por debajo de la media del salario.
Es importante tener en cuenta la propiedad sobre la creacin de variables dummy: si la
variable que se quiere volver una dummy tiene j nmero de categoras, se deben crear
siempre un j-1 variables dummy, siendo. As, por ejemplo, como lo menciona Pollock
(2006), si se tiene una variable con tres categoras que definen la tendencia poltica:
Demcratas, Republicanos e independientes. Se debe entonces crear tan solo dos
dummys: la primera tomar el valor de 1 cuando el individuo se declare demcrata y 0
en los dems casos; la segunda tomar el valor de 1 cuando el individuo se declare
republicano y 0 en los dems casos. Los independientes ser entonces la variable
omitida tomando el valor de 0 en ambos casos.

3 Inclusin de variables Dummy en el MRLM


La inclusin de variables Dummy como independiente dentro de un modelo de
regresin lineal mltiple puede darse en diferentes casos, pues estas pueden estar
incluidas como una variable independiente ms, en interaccin con alguna otra
variable o afectando todas las variables del modelo. Para cada caso, se debe estudiar
por separado cual es su efecto en el modelo, de tal manera que quede clara la funcin
que cumplen las mismas.
3.1 Especificacin
3.1.1 Inclusin de variables Dummy como independientes
3

.::UdecomBooks::.

Hay un primer caso para la inclusin de variables Dummy, y es aquel en el que la


variable incluida es independiente de las dems, provocando un efecto solamente en
el intercepto del modelo:
yi = 0 + 1 x1i + 2 x2i + 3 D1i + i

i = 1, 2...n

0 si posee la caracterstica
Donde D1i es la variable Dummy que se define como: D1i
en caso contrario
1

El efecto en el modelo causado por la inclusin de esta variable dummy que solamente
altera el valor del intercepto es llamado cambio proporcional. Este efecto se evidencia
al realizar el valor esperado, de la siguiente manera:

E ( yi ) = E ( 0 + 1 x1i + 2 x2i + 3 D1i + i )


E ( yi | D1i = 0) = E ( 0 ) + E ( 1 x1i ) + E ( 2 x2i ) + E ( 3 D1i ) + E ( i )
E ( yi | D1i = 0) = 0 + 1E ( x1 ) + 2 E ( x2 )
E ( yi | D1i = 1) = E ( 0 ) + E ( 1 x1i ) + E ( 2 x2i ) + E ( 3 D1i ) + E ( i )
E ( yi | D1i = 1) = 0 + 1E ( x1 ) + 2 E ( x2 ) + 3
Como vemos, cuando la variable D1i toma el valor de 1, el intercepto se ve afectado
tomando ahora el valor de 0 + 3 .
En el caso en que este tipo de inclusin de variable Dummy se haga en un modelo de
regresin lineal simple, por ejemplo, entre el logaritmo del salario y los aos de
educacin, se provocar un cambio en el intercepto que puede ser visto de manera
grfica:
lwagei = 0 + 1educi + 2 D1 + i

i = 1, 2...n

si es hombre
0
Siendo D1i una variable dicotmica tal que: D1i
1 en caso contrario

Por tanto, al calcular el valor esperado se encuentra que:


E (lwagei | D1 = 0) = 0 + 1educi
E (lwagei | D1 = 1) = ( 0 + 2 ) + 1educi
Este efecto proporcional se muestra en el siguiente grfico:

Grfico 1. Cambio en el intercepto por inclusin de una variable Dummy

Dada la especificacin de la variable Dummy, es posible decir pues que la recta


superior representa la relacin entre el logaritmo del salario y los aos de educacin
del individuo en el caso de este sea mujer; y la recta inferior muestra la relacin entre
el salario y los aos de educacin en el caso en que el individuo sea un hombre.
Si la variable dummy no est en la base de datos con la que se cuenta, esta debe ser
creada como ya se expuso anteriormente.
En Stata, el comando para incluir este tipo de variables es agregando el prefijo xi: y
adjuntando a la variable i. antes, de la siguiente manera:
.xi: regress depvar i.indepvar
Se introduce entonces xi: seguido del comando regress y el nombre la variable
dependiente. Despus se introduce i. seguido del nombre de la variable
independiente, lo cual indica a Stata de crear una serie de variables dummy de la
variable independiente. Por defecto, el menor cdigo asignado a la variable
independiente es asumido como la categora omitida, es decir que se le asigna el valor
de cero en la dummy.
3.1.2 Inclusin de variables Dummy en interaccin con otra variable
La inclusin de la variable Dummy puede estar haciendo interaccin con una de las
variables, as:
yi = 0 + 1 x1i + 2 x2i + 3 D1i x3i + i
En este caso, la variable provoca un efecto sobre la variable afectada cuando la
Dummy toma el valor de 1.

.::UdecomBooks::.

En el caso en que se trate de un modelo de regresin lineal simple, este tipo de


inclusin de variable Dummy provocar un cambio en la pendiente de la recta de
regresin.
En Stata, para crear una variable dummy en interaccin con otro regresor, el proceso
inicia con el comando:
.generate newvar = indepvar1*D1
Donde se especifica newvar que es el nombre de la nueva variable que se va a crear
seguido de la interaccin entre una variable independiente que ya est en la base de
datos con la dummy que tambin ya est.
Por ejemplo: se va a crear una interaccin entre la variable educacin y el gnero, as:
.generate educ_female = educ*female
Si se abre el editor de datos, se encontrar al final de la lista de variables a la nueva
variable creada educ_female. Si se desea correr el modelo, se introduce:
.regress lwage educ exper expersq educ_female

3.1.3 Inclusin de variables Dummy como cambio estructural


La inclusin de una variable Dummy puede tambin provocar un cambio estructural
dentro del modelo, interactuando con todas las variables del mismo de la siguiente
manera:
yi = 0 + 1 D1i x1i + 2 D1i x2i + 3 D1i x3i + 4 D1i + i
En este caso, el valor esperado da como resultado:
E ( yi | D1i = 1) = ( 0 + 4 ) + 1 x1i + 2 x2i + 3 x3i + i
E ( yi | D1i = 0) = 0
El proceso en Stata para la creacin de las variables en interaccin es el mismo que ya
se mencion anteriormente.
3.2 Estimacin
La estimacin de un modelo de regresin lineal mltiple con variables Dummy
incluidas se hace de la forma convencional. En Stata, el comando sigue siendo regress
y simplemente se eligen las variables Dummy con que se va a correr el modelo.
En el caso en que se desee estimar un modelo en el que haya un cambio estructural, la
sintaxis del comando es la siguiente:
6

.regress lwage educ*i.female exper*i.female expersq*i.female


3.3 Contrastes
Dentro de los contrastes que se pueden realizar en este caso, estn las pruebas de
hiptesis que tienen como fin verificar la significancia tanto conjunta como individual
de los coeficientes estimados. Adicionalmente a esto, se debe tambin verificar el
ajuste del modelo.
3.3.1 Prueba de significancia
Para hacer la prueba de significancia conjunta de la variable educacin y experiencia se
hace utilizando las hiptesis:
H 0 : 1 = 2 = 0
H1 : No H 0
En Stata se deben seguir los siguientes pasos: dar click en el men Statistics de la barra
de herramientas y posteriormente:

Una vez hecho esto, se abrir una ventana que mostrar lo siguiente:

Donde se debe elegir los coeficientes asociados a las variables de las que se pretende
hacer la prueba. Esta prueba de hiptesis arroja un estadstico F acompaado de su
valor p asociado que permiten concluir sobre la significancia conjunta.
El comando que es una forma alternativa para realizar esta prueba es:
.test (var1=var2)
El valor p permite entonces saber si se rechaza o no la hipotesis nula y as conocer la
significancia conjunta de los estadisticos.
7

.::UdecomBooks::.

Si por otro lado, se desea hacer la siguiente prueba de hiptesis:


 :   0; 
 0
 : 
El comando que se implementa es:
.test var1 var2 var3
Una vez ms, el estadistico F y su respectivo valor p permiten concluir sobre la
prueba.

4 Comentarios finales
En econometra, las variables representan generalmente las diferentes decisiones que
los agentes econmicos pueden tomar o simplemente sus caractersticas
representativas. En vista de que las opciones a las que ven enfrentados no son siempre
continuas, las variables dummy son tiles entonces en estos casos para modelar
variables discretas dicotmicas.

5 Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
8

Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson


Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

http://ideas.repec.org/s/boc/bocode.html

.::UdecomBooks::.

PROBLEMAS ECONOMTRICOS CON STATA

Carlos Giovanni Gonzlez Espitia


E-mail: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en los problemas economtricos
del modelo de regresin lineal, y realizando su aplicacin en el programa economtrico
Stata.

Palabras Clave: Econometra, software economtrico, Stata


Clasificacin JEL: C01, C87.

Stata es una marca registrada de StataCorporation. Copyright 19962010 StataCorp LP, 4905 Lakeway
Drive, College Station, TX 77845 USA.Las opiniones contenidas en este documento, los errores u
omisiones son de exclusiva responsabilidad del autor.

1 Introduccin
En econometra, a la hora de realizar la estimacin de un determinado modelo terico,
pueden surgir diferentes tipos de problemas, muchos de los cuales no se pueden
evadir. A la hora de la especificacin del modelo, es posible que el econometrista se
encuentre con dos variables que le proporcionan la misma informacin, o con
variables incluidas adicionales que sobran dentro del modelo o simplemente con
variables olvidadas pero que son necesarias dentro del modelo. A la hora de la
estimacin del modelo, se pueden presentar otro tipo de problemas, como son que las
observaciones no tengan varianzas constantes o que los errores estn correlacionados
entre s. Como estos, existen otros errores o problemas a los que se enfrenta el
econometrista y debe tener presente para realizar un buen desempeo.
Muchas veces existe la posibilidad de que estos sean corregidos, sin embargo, hay
ocasiones en las que simplemente se debe convivir con el problema, y es ah donde se
debe tener en cuenta para la interpretacin de los resultados.
Stata proporciona herramientas tiles y rpidas para la realizacin de grficos cuando
se sospecha la presencia de un problema, y pruebas especficas que determinan con
una mayor certeza si el problema existe dentro del modelo o en los datos, facilitando
las decisiones del econometrista a la hora de la identificacin del mismo.
2 Multicolinealidad
El problema de multicolinealidad surge en la estimacin economtrica en el momento
en que se viola el supuesto segn el cual las variables X 1 , X 2 ,..., X k son linealmente
independientes entre s. Existen cuatro grados de multicolinealidad: moderada, alta,
muy alta y perfecta.
2.1 Multicolinealidad perfecta
La multicolinealidad perfecta se da cuando una variable explicativa es linealmente
dependiente de otra, cosa que provoca que las columnas de la matriz X no sean
independientes entre s y por tanto: no hay rango columna completo, X T X no tiene
rango completo, det( X T X ) = 0 , X T X es una matriz singular, los estimadores son
incalculables.
En el caso de que sea multicolinealidad perfecta, es necesario revisar el modelo y
chequear su definicin y las variables involucradas en el mismo, pues de otra forma no
es posible que sea corregido. El modelo no podr ser estimado pues ni Stata ni ningn
otro programa de regresin lo estimar en presencia de este problema. La solucin
entonces es sencilla, pero implica la realizacin de una nueva especificacin del
modelo.
2.2 Multicolinealidad no perfecta
Los sntomas para la deteccin de multicolinealidad no perfecta en el modelo son:

.::UdecomBooks::.

Estadsticos t bajos, F global y R2 altos: poca significatividad individual de las


variables X , gran probabilidad de rechazo de la significancia conjunta y R2 alto.

Sensibilidad de los ' s a cambios pequeos en el nmero de observaciones n :


si ante cambios pequeos en la muestra, los betas estimados varan en gran
proporcin.

Sensibilidad de los ' s a la inclusin o exclusin de regresores en el modelo: si


frente a incluir una nueva variable o excluir una ya incluida, los betas
estimados varan en gran proporcin.

Una vez identificados estos sntomas en la estimacin del modelo, es importante tener
en cuenta que puede haber multicolinealidad de algn grado, y que, por tanto se debe
corregir pues de lo contrario se estara haciendo inferencia sobre estimadores
sesgados e inconsistentes.
3 Heteroscedasticidad
Los datos de corte transversal suponen un muestreo aleatorio de la poblacin
subyacente. La varianza no constante en los trminos de error es un problema comn
en la econometra. Se conoce como heterocedasticidad y se presenta precisamente
cuando se viola el supuesto segn el cual la matriz de varianzas y covarianzas del
residuo es constante. En efecto, el supuesto implicara que para todo i,

tiene

varianza constante denominada 2 . El problema bsicamente est en que en


presencia de heteroscedasticidad, la varianza de los errores ahora depende de la
observacin a la que pertenece, y por tanto dicha varianza ahora est relacionada con
el subndice que muestra la observacin en la muestra: i=1,2n.
Los supuestos sobre el trmino de error son los siguientes:
   0, 
    ,  ;    0
El intercepto y los dems coeficientes sern estimados consistentemente as la
muestra presenten problemas de heteroscedasticidad. La presencia de este problema
economtrico implica que los estimadores obtenidos por el mtodo de MCO
aunque sern insesgados, no tendrn la mnima varianza posible. El anlisis respectivo
debe hacerse por mtodos grficos, corroborando la presencia del problema
mediante pruebas especficas. La prueba no-formal, que es la grfica, se hace
graficando los residuos o la variable dependiente en funcin de cada una de las
independientes.
Se puede observar por ejemplo el de manera grfica. Stata permite hacer esto en
varios pasos:
.regress vardep var1 var2 var3

.predict ehat, residual


.twoway (scatter ehat var3)
Con estos comandos, lo que se est haciendo es estimando el modelo lineal de
manera tradicional. Despus se realiza la prediccin de los residuos llamndolos ehat
y ms adelante se realiza el grfico.
Una vez hecho esto, se debe graficar los residuos en funcin de la variable
dependiente:
.twoway (scatter ehat vardep)
En el caso del e la ecuacin minceriana de salarios del ejemplo de Wooldridge (2006),
los comandos para la realizacin de estos grficos seran los siguientes:
.regress lwage educ exper expersq
.predict ehat, residual
.twoway (scatter ehat exper)
.twoway (scatter ehat educ)
El usuario de Stata observar los grficos siguientes:
Grfico 2. Residuos vs aos de
educacin

-2

-2

-1

-1

Residuals
0

Residuals
0

Grfico 1. Residuos vs aos de


experiencia

10

20
30
years potential experience

40

50

10
years of education

15

Estos dos grficos muestran la relacin entre los residuos y cada una de las variables
independientes. Es importante hacerlo con cada una para, de manera visual, intentar
tener una idea de la variable que estara generando la presencia de
heteroscedasticidad. Es importante mencionar que las pruebas grficas no evidencian
completamente el problema, simplemente proporcionan una mayor sospecha.
Una vez realizados esto, no se debe olvidar observar tambin el grfico de los errores
en funcin de la variable dependiente. Este se obtiene as:
.twoway (scatter ehat lwage)

.::UdecomBooks::.

20

-2

-1

Residuals
0

Grfico 3. Residuos vs logaritmo del salario

-1

1
log(wage)

Lo que se observa en el grfico 3 es que aparentemente hay mayores variaciones (que


se miden por la distancia vertical en el grfico) para los salarios ms altos que para
aquellos ms bajos.
Grficos como estos dan indicios sobre la variable que presenta mayor
heteroscedasticidad, y esta es aquella cuyo grfico se separa ms de la aleatoriedad.
Las pruebas grficas sern insuficientes en la medida en que muestran la presencia de
heteroscedasticidad en una variable en particular, pero no la detectan si esta se
origina en la combinacin lineal de todas o algunas de las variables incluidas en el
modelo. Con este fin se realizan pruebas formales como la prueba Goldfeld Quandt,
Breush Pagan o White (Prez, 2006).
a) La Prueba Goldfeld Quandt
Este test es una prueba eficaz cuando se sospecha la presencia de heteroscedasticidad
en una variable especfica. Es una prueba complementaria al anlisis grfico que
permite determinar claramente si el problema existe o no en los datos con los que se
est trabajando.
Las hiptesis con las que trabaja esta prueba son:
 :  
 :   
Una vez se detecta la variable culpable de heteroscedasticidad Xj, se deben ordenar las
observaciones de tal manera que se pueda a continuacin eliminar las c observaciones
centrales de modo que representen 1/3 del total. Se realizan entonces dos regresiones
con las observaciones de los extremos, considerando un estadstico F tal que:


1
2

Donde SCE1 representa la suma de cuadrados del error de la primera regresin que se
realiz con las observaciones de valores bajos, y SSE2 la suma de cuadrados del error

de la segunda regresin realizada con los valores altos. Este estadstico tiene (n-c-2k)/2
grados de libertad.
En Stata, los comandos para la realizacin de este proceso son hacer la regresin para
las primeras 351 observaciones y guardando la varianza y los grados de libertad:
.regress lwage educ exper expersq in 1/175
.scalar s_small = e(rmse)^2
.scalar df_small = e(dr_r)
Ahora, se realiza la segunda regresin para los ltimos 175 valores guardando
igualmente la varianza y los grados de libertad:
.regress lwage educ exper expersq in 375/526
.scalar s_large = e(rmse)^2
.scalar df_large= e(dr_r)
Una vez hecho esto, se halla el estadstico Goldfeld Quandt y su valor p asociado:
.scalar GQ = s_large/s_small
.scalar crit = invFtail(df_large,df_small,.05)
.scalar pvalue =Ftail(df_large,df_small,G
.scalar list GQ pvalue crit
Los resultados obtenidos en la ventana de Stata son los siguientes:
. scalar list GQ pvalue crit
GQ =
.8194388
pvalue =
.
crit =
.

As es posible realizar la prueba de hiptesis y verificar si existe o no


heteroscedasticidad de tipo Golfeld Quandt.

b) La Prueba Breush Pagan


Las hiptesis nula y alternativa de esta prueba son:
 :  
 :     

 ! ! 

La hiptesis nula se refiere a una homoscedasticidad en los datos mientras que la


alternativa se refiere a que los datos son heteroscedsticos de una forma tal que
depende de las variables  ; " ! . La funcin h no est especificada, podra
entonces tratarse de una funcin lineal de las variables.
Como primera medida, para la realizacin de esta prueba se debe estimar el modelo
de manera tradicional y en seguida guardar los residuos. Una vez hecho esto, se deben
elevar al cuadrado los residuos y correr la regresin con los residuos al cuadrado. Por
ltimo, se debe computar NR2 de esta regresin y compararlo con un valor crtico de la
distribucin chi cuadrado a un nivel de significancia .

.::UdecomBooks::.

En Stata, los diferentes comandos para la realizacin de los pasos anteriormente


descritos son los siguientes:
.regress lwage educ
.predict ehat, residual
.gen ehat2= ehat*ehat
Ahora, para la realizacin del test:
.regress ehat2 educ
.scalar LM = e(N)*e(r2)
.scalar pvalue = chi2tail(1,LM)
.scalar list LM pvalue
El resultado que muestra Stata cuando se realiza la prueba de heteroscedasticidad de
Breush Pagan es:
. scalar list LM pvalue
LM = .74201753
pvalue = .38901536

Una vez obtenido el resultado, mediante el valor p o el test chi cuadrado se puede
rechazar (o no) a hiptesis nula y as concluir sobre la presencia del problema
economtrico.

c) La Prueba White
La prueba White es la prueba ms general comparada con las anteriores. Esta prueba
es parecida a la de Breush Pagan. En efecto, sus hiptesis son:
 :  
 :   
Si no se tiene idea alguna sobre la naturaleza de la heteroscedasticidad en lo datos, la
prueba White podra ser un buen comienzo. Los comandos que se deben usar en Stata
son:
.gen educ2 = educ^2
.regress ehat2 educ educ2
.scalar LM = e(N)*e(r2)
.scalar pvalue = chi2tail(2,LM)
.scalar list LM pvalue
Obteniendo como resultado lo siguiente:
. scalar list LM pvalue
LM = .85364976
pvalue = .65257782

Este resultado permite entonces realizar la prueba de hiptesis y as concluir sobre la


presencia de heteroscedasticidad.

Por otro lado, como ya lo sabemos, cuando se estima en Stata el modelo con el
comando .regress y se obtienen los resultados en presencia de heteroscedasticidad,
los coeficientes obtenidos sern insesgados pero las desviaciones estndar estarn mal
calculadas.
Para la correccin de este problema se utiliza el comando que da la opcin de hallar un
estimador robusto de varianzas y covarianzas denominado vce(robust) por sus siglas
en ingls: heteroscedasticity robust variance-covariance estimator.
. regress vardep indepvar1 indepvar2, vce(robust)
Una vez se introduce el comando, Stata arroja de nuevo una estimacin del modelo, en
la cual se obtienen los mismos valores para los coeficientes s que anteriormente
fueron estimados, pero con unos valores diferentes para las desviaciones estndar y
los valores de la prueba t student.
Para el ejemplo de la ecuacin de salarios minceriana, las dos tablas que se obtienen al
hacer las dos estimaciones con el fin de comparar los resultados se muestran a
continuacin:
.regress lwage educ exper expersq, vce(robust)

Tabla 1. Resultado de la estimacin del modelo


Source

SS

df

MS

Model
Residual

44.5393713
103.79038

3
522

14.8464571
.198832146

Total

148.329751

525

.28253286

lwage

Coef.

educ
exper
expersq
_cons

.0903658
.0410089
-.0007136
.1279975

Std. Err.
.007468
.0051965
.0001158
.1059323

t
12.10
7.89
-6.16
1.21

Number of obs
F( 3,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000
0.000
0.227

=
=
=
=
=
=

526
74.67
0.0000
0.3003
0.2963
.44591

[95% Conf. Interval]


.0756948
.0308002
-.000941
-.0801085

.1050368
.0512175
-.0004861
.3361035

Tabla 2. Resultado robusto de la estimacin del modelo


Linear regression

Number of obs
F( 3,
522)
Prob > F
R-squared
Root MSE

lwage

Coef.

educ
exper
expersq
_cons

.0903658
.0410089
-.0007136
.1279975

Robust
Std. Err.
.0077827
.0050237
.0001098
.1071261

t
11.61
8.16
-6.50
1.19

P>|t|
0.000
0.000
0.000
0.233

=
=
=
=
=

526
71.03
0.0000
0.3003
.44591

[95% Conf. Interval]


.0750766
.0311398
-.0009292
-.0824537

.105655
.050878
-.0004979
.3384487

Se evidencia entonces que los valores estimados para los estadsticos son los mismos,
sin embargo la desviacin estndar cambia significativamente.

.::UdecomBooks::.

3.1 Solucin del problema de heteroscedasticidad


3.1.1 Si se conoce la naturaleza
Como sabemos entonces, los estimadores de mnimos cuadrados ordinarios no son
eficientes en presencia de este problema economtrico. Existe por tanto otro
estimador igualmente insesgado y que adems es preciso, denominado estimador de
Mnimos Cuadrados Ponderados (MCP), un. En trminos generales, este estimador se
utiliza en presencia de heterosedasticidad y lo que hace es que utiliza las diferentes
varianzas de los errores para asociarles diferentes pesos a cada observacin y que as
todas tengan finalmente la misma varianza. Una vez hecho esto, el mtodo de MCO
arroja estimadores eficientes.
Para transformar el modelo, se debe tener en cuenta que si 
    y si se divide
 por  , entonces todos tendran la misma varianza igual a 1, esto es:


 $    1$ 
   %1$ &   1




Entonces el modelo de regresin lineal simple quedara tal que:


1
) 
'
 (  ( 


 
Stata incluye la posibilidad de trabajar con este mtodo. Para estimar el modelo de
regresin lineal simple dando diferentes pesos a las varianzas de los errores, se utiliza
lo que Stata denomina aweights, los cuales deben ser inversamente proporcionales a
las varianzas de las observaciones y por tanto el comando que se emplea es:
.regress vardep indepvar1 [aweight =1/indepvar]
Para dar un ejemplo, se desea estimar el modelo de salarios minceriana Stata de esta
manera. As, es necesario dar diferentes pesos a las varianzas de los errores para lo
cual se emplea el comando anterior de la siguiente manera:
.regress lwage educ exper expersq [aweight =1/educ]
3.1.2 Si no se conoce la naturaleza
En caso de que no se conozca la naturaleza de la heteroscedasticidad, Stata permite de
una manera sencilla encontrar errores estndar robustos utilizando el siguiente
comando:
.reg vardep var1 var2 var3, robust
De esta manera, la tabla que arroja Stata corrige el problema de heteroscedasticidad y
los estimadores son ahora consistentes e insesgados.

4 Autocorrelacin
El problema de autocorrelacin de los residuos se da al violarse el supuesto segn el
cual los errores son independientes entre s, es decir la hiptesis que establece que
cov( i ; j ) = 0 . Este problema se presenta cuando se est trabajando con unos datos
de series temporales. En efecto, el problema consiste en que el error del modelo
depende del error del error del periodo previo:
+,  -+,.  /,
Donde - es un parmetro que describe la dependencia de +, con +,. y /, es un
nuevo error aleatorio.
La autocorrelacin de los errores se puede dar en dos tipos:
-

Autocorrelacin de orden 1 o AR(1): se da cuando el error est correlacionado


con el del periodo inmediatamente anterior.
Autocorrelacin de orden 2 o AR(2): se da cuando el trmino de error est
correlacionado con el error del periodo anterior y el previo a este.

Las diferentes pruebas que se pueden realizar en caso de sospecha de la presencia de


un problema de autocorrelacin son:
-

Prueba de Rachas

Esta prueba asume de entrada que como existe autocorrelacin, entonces no debera
haber errores con los mismos signos seguidos en la autocorrelacin positiva, ni muchos
cambios de signo seguidos en la autocorrelacin negativa. Esto lo revelan los grficos
como se muestra a continuacin:
Grfico 4. Autocorrelacin positiva de
los errores

Grfico 5. Autocorrelacin negativa de


los errores

Las hiptesis que utiliza esta prueba son:


 : -  0
 : 0 

.::UdecomBooks::.

Los pasos para la realizacin de la prueba Rachas son: como primera medida, se debe
contar el nmero de errores con signo positivo y llamar este valor N+ al igual que se
debe contar el nmero de errores con signo negativo y llamar este valor N- . Una vez
hecho esto, se debe contar el nmero de rachas, es decir el nmero veces en que
cambia el signo de los errores y llamarlo k, para a continuacin calcular:
1 

var( k ) =

20 2 0 .
1
02  0.

2 N + N (2 N + N N + N )
( N + N ) 2 ( N + + N 1)

Ahora se debe calcular el estadstico RA:

RA =

k E (k )
var(k )

La regla para rechazar o no la hiptesis nula es:


Si |45| 6 7 entonces se rechaza  , de lo contrario no. El intervalo de confianza para
8

esta prueba es:

k E (k ) z var(k )

Se debe adems tener en cuenta que si N+ o N- son menores a 20, se emplearn los
valores de la tabla D.6. para los lmites del intervalo.
-

Prueba Durbin Watson

En esta prueba se debe calcular el estadstico Durbin Watson con la siguiente frmula:
n

( )
t

DW =

t 1

t =2

Si se tiene una muestra lo suficientemente grande, es posible demostrar que


DW 2(1 ) Y por tanto 0 < DW < 4 .
Los valores dU y dL dependen del nmero de observaciones de la muestra, y se hallan
a partir de la tabla estadstica.
Es importante no olvidar que el estadstico Durbin Watson no tiene sentido en dos
casos: el caso en el que el modelo carezca de intercepto y aquel en el que haya una
variable independiente rezagada. En estos casos, esta prueba no es una prueba vlida
para determinar autocorrelacin y se debe acudir a otro tipo de pruebas para ello.
Adems, este estadstico solamente detecta autocorrelacin de orden 1, AR(1), pero
como se mencion anteriormente existe tambin otros tipos de autocorrelacin para
las cuales se debe utilizar otras pruebas.

Prueba de Box Pierce

La prueba de Box Pierce es una prueba que permite determinar el problema de


autocorrelacin en caso de que esta sea de orden superior a uno. Es una prueba que
funciona en la medida que se realice sobre muestras mayores a 20 observaciones o
periodos de tiempo. Se basa en la autocorrelacin muestral de los errores la cual es:
n

( )(

t k

k = t =k +1

t t k

= t = kn+1

( )

( )

t =1

t =1

El estadstico Box Pierce se calcula:


s

Q = n rk 2 ~ a s 2
k =1

Donde s es el nmero de rezagos que se quieren considerar. A partir de este


estadstico con una distribucin chi cuadrado, se definen las hiptesis siguientes:
H 0 : No autocorrelacin
H1 : Al menos una correlacin no es cero

Y se toma la decisin sobre esta prueba de hiptesis si Q>2 s.


-

Prueba de Ljung Box

La prueba de Ljung Box es una prueba que se utiliza generalmente en muestras


pequeas pues esta tiene un mejor comportamiento. Este estadstico funciona igual
que el Box Pierce:

rk 2
k =1 n + k
s

Q ' = n( n + 2)

4.1 Solucin al problema de autocorrelacin


4.1.1 Si se conoce la naturaleza
En caso de que se conozca la naturaleza de la autocorrelacin de los errores, el
mtodo que se debe utilizar se denomina Diferencias Generalizadas. Este mtodo
consiste en realizar una transformacin del modelo original para construir un modelo
sin autocorrelacin.
En el caso de un modelo de regresin lineal mltiple tenemos que:

yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + t
yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1

.::UdecomBooks::.

Una vez el modelo est rezagado en un periodo, este se multiplica por a ambos lados
obteniendo:

yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1
Ahora, si se restan ambos modelos se obtiene que:

yt yt 1 = 1 1 + 2 X 2t 2 X 2t 1 + 3 X 3t 3 X 3t 1 + ... + k X kt k X kt 1 + t t 1
(1 ) 1 + 2 ( X 2t X 2t 1 ) + 3 ( X 3t X 3t 1 ) + ... + k ( X kt X kt 1 ) + t t 1
Este nuevo modelo donde el trmino de error ya no tiene autocorrelacin, se expresa
de la siguiente manera:

yt * = 1 (1 ) + 2 X *2t + 3 X *3t + ... + k X *kt + t


Con esto, el problema ha sido entonces solucionado. Sin embargo, generalmente no se
conoce la naturaleza de la autocorrelacin, caso en el cual este mtodo planteado no
funciona. Se debe entonces utilizar otra opcin.

4.1.2 Si no se conoce la naturaleza


En caso de que no se conozca la naturaleza, el mtodo de Durbin ofrece la posibilidad
de realizar una correccin del problema que se presenta.
Este mtodo consiste en estimar el modelo:

yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + k +1 X 2t 1 + k + 2 X 3t 1 + ... + k + ( k 1) X kt 1 + yt 1 + t
A partir de este se haya entonces un -9 y con esto se deben realizar las siguientes
transformaciones:
yt * = yt yt 1
X *2t = X 2t X 2t 1
X *3t = X 3t X 3t 1

Y a continuacin se estima el siguiente modelo:


y*t = 1 + 2 X *2t + 3 X *3t + ... + k X *kt + t

5 Otros problemas economtricos


Un modelo economtrico presenta endogeneidad cuando existe correlacin entre las
variables explicativas y el trmino de error. Esto se da al violarse el supuesto del
teorema de Gauss-Markov segn el cual las variables explicativas son no estocsticas.

Existen diferentes casos en los que se puede presentar un problema de endogeneidad:


simultaneidad, error de medicin y variables omitidas. La forma de corregir dicho
problema es mediante el mtodo de Variables Instrumentales, sin embargo, este tema
no se tratar en este documento.
5.1 Simultaneidad
La simultaneidad surge cuando una o ms variables explicativas estn determinadas
conjuntamente con la variable dependiente, en general a travs de un mecanismo de
equilibrio (Wooldridge, 2006).
Un ejemplo de ecuaciones simultneas es el siguiente:
:,     ;,   ;,.  <,,

>,  (  ( :,  ( :,.  (" ?,  < ,,


;, @ :,  A,  ?,

Las variables que se determinan por fuera del modelo son llamadas variables
exgenas, y aquellas que se determinan dentro del modelo son variables endgenas.
En este sistema de ecuaciones, se est estimando el consumo y las importaciones a
partir de la identidad de la demanda agregada. Sin embargo, se debe tener en cuenta
que para poder ser estimadas, el sistema de ecuaciones debe estar bien se
perfectamente identificada o bien sobreidentificada. Para poder concluir acerca de
esta caracterstica de las ecuaciones, se debe tener en cuenta las siguientes reglas de
decisin:
Sea B el nmero de variables endgenas incluidas dentro de la ecuacin, y sea 1 el
nmero de variables exgenas excluidas de la ecuacin. Tanto B como 1 sern
comparados con el nmero total de variables exgenas o endgenas dentro del
sistema de ecuaciones. La regla de decisin es:
Si 1 C B D 1 entonces la ecuacin est sobreidentificada
Si 1  B D 1 entonces la ecuacin est perfectamente identificada
Si 1 E B D 1 entonces la ecuacin est subidentificada
Una ecuacin subidentificada no permite ser estimada por el mtodo de MCO. Es
importante entonces revisar esta regla a la hora de enfrentarse a un sistema de
ecuaciones simultneas.
5.2 Error de medicin
En general, una muestra se tiene tras la medicin de las variables explicativas. Sin
embargo, esta puede tener errores los cuales convierten los regresores en variables
estocsticas, produciendo un problema economtrico en el modelo que se va a
estimar.

.::UdecomBooks::.

5.3 Especificacin: Variables omitidas


Muchas veces en la especificacin del modelo puede haber variables relevantes
omitidas. Esto es considerado como un error economtrico que el econometrista debe
tener presente pues muchas veces no es posible incluir en un modelo todas las
caractersticas que afectan una variable determinada, pero es de suma importancia
incluir aquellas ms relevantes. Las consecuencias de esta omisin de variables
relevantes son que el intercepto y las pendientes estaran sesgadas y serian
inconsistentes, adems de que tendran unas varianzas invlidas que no permiten
trabajar correctamente con los respectivos intervalos de confianza ni hacer las pruebas
de significancia parcial ni global. Adems de esto, si la variable omitida est
relacionada con otra variable independiente del modelo, se produce el problema de
endogeneidad.
Omitir una variable relevante provoca entonces un sesgo por omisin de variables (o
heterogeneidad no observada). Existen tres diferentes opciones para enfrentar este
problema: la primera es pasarlo por alto y sufrir las consecuencias; el segundo es
encontrar una variable proxy adecuada para la variable no observada; y la tercera es
suponer que dicha variable omitida no cambia en el tiempo, es decir, asumirla como
constante y realizar primeras diferencias o el mtodo denominado Efectos Fijos
(Wooldridge, 2006). Sin embargo, esos temas no competen en este nivel de anlisis y
por tanto en este documento no se analizarn estas soluciones.

6 Problemas asintticos: Distribucin normal del error


En econometra se utilizan siempre muestras para realizar inferencia sobre una
determinada poblacin. Se trata de acercarse lo ms posible a los parmetros
poblacionales a partir de unos estimadores especficos. Es evidente que entre ms
pequea sea la muestra, ms alejado estar el valor estimado del valor poblacional del
parmetro, y por ende, entre mayor sea la muestra, ms se acercar.
En el caso de que se trabaje con una muestra pequea, es fundamental verificar que el
valor esperado del error tiende a cero a medida que la muestra aumenta. La
consistencia de un estimador es una propiedad de suma importancia, sin embargo por
s sola esta propiedad no permite hacer inferencia ni realizar contrastes sobre los
parmetros. Para esto, es necesario conocer la distribucin de los estimadores MCO.
Bajo los supuestos del teorema de Gauss Markov se puede verificar que estas
distribuciones son normales (Wooldridge (2006)).
La propiedad de normalidad en la distribucin de lo estimadores del mtodo de MCO
depende de la normalidad del trmino de error en la poblacin. Si dichos errores
provienen de muestras aleatorias no distribuidas normalmente, aqu se presentara un
problema en la medida en que los estimadores MCO no estaran distribuidos de
manera normal y por tanto ni los estadsticos t ni los F serian consistentes con sus
respectivas distribuciones.

Esto es de suma importancia que sea verificado por el econometrista a la hora de la


estimacin de un modelo pues en caso de que no se evidencie, habr problemas con la
consistencia de las conclusiones a las que se llegue.
7 Comentarios finales
En econometra es bastante comn que se presenten problemas en todas las etapas
del trabajo, no solamente a la hora de especificar el modelo, sino tambin al este ser
estimado, o al momento de seleccionar la muestra con la que se va a trabajar. En
algunas ocasiones, los problemas no son evitables pero si son solucionables, cosa que
se debe tener muy claro para no olvidar hacer mencin de ellos y corregirlos en caso
tal.
El software Stata, como algunos otros, facilita la labor del econometrista permitiendo
en su programa la realizacin de grficos y pruebas especficas que evidencian la
presencia o no de un problema economtrico en el modelo que se est estimando.
8 Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press

.::UdecomBooks::.

Newton J., Cox N. (2003) Seventy-six Stata tips


STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

http://ideas.repec.org/s/boc/bocode.html

MODELOS CON VARIABLE DEPENDIENTE DISCRETA Y LIMITADA CON STATA

Carlos Giovanni Gonzlez Espitia


Email: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en los modelos de eleccin
discreta estimados por mxima verosimilitud y, a los modelos con variable
dependiente limitada. En primer lugar se presentan los modelos dicotmicos MLP,
Logit y probit. Posteriormente se presentan los modelos de mltiples alternativas
ordenadas y no ordenadas. Para finalmente presentar los modelos censurados y
truncados.
Palabras Clave: Econometra, software economtrico, Stata
Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

.::UdecomBooks::.

1 Introduccin
Los modelos de eleccin binaria corresponden a aquellos modelos de eleccin discreta en
los que el conjunto de eleccin se reduce a slo dos alternativas posibles. Dentro de los
modelos de eleccin discreta, en los que el conjunto de eleccin tiene slo dos alternativas
posibles mutuamente excluyentes, es decir cuando la variable dependiente es una variable
dummy, existen: el modelo lineal de probabilidad (MLP), el modelo Probit, y el modelo
Logit. Una posibilidad para estimar modelos con variable dependiente discreta binaria, es
usar el modelo lineal de probabilidad y estimarlo por MCO. No obstante, esta aproximacin
presenta varios problemas, que se estudiarn ms adelante. Cabe resaltar que algunos de
estos problemas tienen solucin, mientras otros no la tienen, lo que nos lleva a plantear el
uso de modelos que empleen funciones de probabilidad acumulativas, que se ajustan ms a
la realidad que se quiere estudiar. Algunos ejemplos de este tipo de modelos son el Logit,
que emplea una funcin de distribucin logstica, y el Probit, que emplea una funcin de
distribucin normal; ambos modelos se estiman por medio del mtodo de Mxima
Verosimilitud.
Los modelos de eleccin discreta presentan muchas veces algunos problemas
particulares diferentes a aquellos a los que se enfrentan los modelos clsicos de
regresin, aqu se presentarn tambin este tipo de problemas y sus posibles
soluciones.
2 Modelo lineal de probabilidad: MCO
Los modelos de probabilidad lineal se especifican de la siguiente manera:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i
i = 1, 2,..., n

1,
Yi =
0

zi 0
zi < 0

Donde Zi corresponde a una variable latente, es decir una variable que no es observable,
pero para la cual se puede inferir su valor a partir de una variable relacionada (en este caso
la variable relacionada es la variable dummy Yi). Es preciso aclarar que Zi representara, por
ejemplo, el benficio neto para el individuo de participar en el programa (Yi=1): en efecto si el
beneficio de participar es mayor que cero, el individuo toma la caracterstica relacionada
con Yi=1, y cuando el beneficio es inferior a cero aquella relacionada con Yi=0.
Este modelo expresa la variable dicotmica Yi como una funcin lineal de las variables
explicativas. Este tipo de modelos se conocen como modelos de probabilidad lineal, ya que
el valor esperado de la variable dependiente condicionada a las variables independientes,
puede ser interpretada como la probabilidad condicional de que un evento determinado
acontezca dado Xi. Suponiendo que E (i)=0 para que los estimadores sean insesgados, se
obtiene que:

E (Yi | X i ) = 0 + 1 X 1i + 2 X 2i + ... + k X ki
i = 1, 2...n

Ahora, teniendo en cuenta que Pi es la probabilidad de que el evento ocurra, es decir


cuando Yi =1, y (1-Pi) es la probabilidad de que el evento no ocurra, esto es cuando Yi =0,
entonces Yi tiene la siguiente distribucin:
1
Yi =
0

probabilidad Pi
probabilidad 1-Pi

Por lo tanto el valor esperado de la variable dependiente es igual a:

E (Yi | X i ) = (1)( Pi ) + (0)(1 Pi ) = Pi


Si se compara entonces los dos valores esperados se obtiene que:
E (Yi / X i ) = 0 + 1 X 1i + 2 X 2 i + ... + k X ki =Pi

Por lo tanto, el valor esperado del modelo inicial, puede ser interpretado como la
probabilidad condicional de Yi . Dado que la probabilidad debe estar acotada entre 0 y 1,
entonces la esperanza condicional debe tambin estar restringida entre estos valores, tal y
como sigue: 0 E (Yi / X i ) 1
No obstante, esta aproximacin tiene varios problemas, tales como la no normalidad de los
errores, la heterocedasticidad del trmino de error, los valores generalmente bajos del R2, y
la posibilidad de que los valores estimados de la variable dependiente dicotmica se salgan
del rango 0-1.
A pesar de los muchos inconvenientes que presenta el MPL, su mayor problema radica en
que supone que Pi = E (Yi = 1/ X i ) aumenta linealmente con X, es decir el efecto marginal o
incremental de X permanece constante todo el tiempo. Esto no parece ser realista, en
realidad se esperara que Pi estuviera relacionado de forma no lineal con Xi (GUJARATI
1997). Estos problemas invalidan entonces la estimacin por MCO, por lo que ser
necesario usar un mejor mtodo estadstico de estimacin.
En efecto se necesitan modelos que satisfagan las siguientes condiciones:
-

se requiere que cuando X aumenta, la probabilidad de xito aumente pero siempre


dentro del intervalo 0-1

se necesita que la relacin entre X y la probabilidad de xito no sea lineal, es decir


uno se acerca a cero a tasas cada vez ms lentas a medida que Xi se hace ms
pequeo y se acerca a uno a tasas cada vez ms lentas a medida que Xi se hace muy
grande (GUJARATI 1997).

.::UdecomBooks::.

Una opcin para lograrlo es usar funciones de distribucin acumulativa, como por ejemplo
la distribucin logstica o la normal, que dan lugar a los modelos Logit y Probit.
Para empezar se puede decir que de forma general este tipo de modelos se especifica tal y
como sigue:

P Yi = 1/ X1i , X 2i ,..., X k i = F ( 0 + 1 X1i + ... + X ki )


P (Yi = 0 / X 1i , X 2i ,..., X ki ) = 1 F ( 0 + 1 X 1i + ... + X ki )
i = 1, 2,..., n

Donde F es una funcin que toma valores entre 0 y 1 para todos los reales. Segn las
distintas definiciones de F, se tendrn distintos modelos de eleccin binaria.
3 Modelo Logit: MV
El modelo Logit es un modelo con variable dependiente binaria. Si F ( z ) =

ez
,
1 + ez

entonces estamos en presencia de un modelo Logit, cuya expresin corresponde a:


Y = F ( z ) = F ( 0 + 1 X 1 + ... + X k ) =

e 0 + 1 X1 +...+ X k
1 + e 0 + 1 X1 +...+ X k

Que de forma alternativa se podra escribir como:


P (Y = 1/ X iT ) = ( X iT )
i = 1, 2,..., n

Este modelo sigue una distribucin logstica, que permite ver que a medida que Z se
encuentra entre y - la probabilidad de que Yi tome el valor de uno se encuentra dentro
del rango 0-1, y adicionalmente dicha probabilidad no est relacionada linealmente con Xi.
Se estima por el mtodo de Mxima Verosimilitud obteniendo estimadores insesgados y
consistentes.
Stata permite estimar este tipo de modelos de la siguiente manera: el men de
herramientas se selecciona la opcin Statistics para despus elegir Binary outcomes. Una
vez hecho esto, se puede elegir bien sea el modelo Logit o el Probit, u otras opciones que
proporciona el programa.

Cuando se trabaja mediante esta opcin, a continuacin se debe ingresar la variable


dependiente acompaada de las independientes y se da Ok.
Si, en cambio, se desea trabajar mediante comandos, el comando que se debe utilizar para
la estimacin de modelos Logit es:
.logit depvar var1 var2 var3 [if] [in] [weight] [, options]
Si se realiza la estimacin de un modelo Logit, la tabla que arroja Stata es la siguiente:
Tabla 1. Resultados de la estimacin de un modelo Logit
Iteration
Iteration
Iteration
Iteration

0:
1:
2:
3:

log
log
log
log

likelihood
likelihood
likelihood
likelihood

= -20.526953
= -19.650438
=
-19.6485
=
-19.6485

Logistic regression
Log likelihood =

Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2

-19.6485

Coef.

x1
x2
x3
_cons

-.0047131
.1120338
.8902547
-.8768972

Std. Err.

.0154551
.1242195
.8861582
1.103113

P>|z|

-0.30
0.90
1.00
-0.79

=
=
=
=

30
1.76
0.6244
0.0428

[95% Conf. Interval]

0.760
0.367
0.315
0.427

-.0350045
-.1314319
-.8465835
-3.038959

.0255783
.3554995
2.627093
1.285165

Como ya se sabe, los coeficientes s estimados solamente permiten contrastar los


signos esperados a priori, sin embargo las interpretaciones se deben realizar con los
efectos marginales. El comando para el clculo de estos es:
.mfx
Ahora, el resultado que muestra este commando al ser introducido en Stata es:
Tabla 2. Efectos marginales
Marginal effects after logit
y = Pr(y) (predict)
= .42971297
variable
x1
x2
x3*

dy/dx
-.001155
.027455
.2183869

Std. Err.
.00379
.0304
.21226

z
-0.30
0.90
1.03

P>|z|

95% C.I.

0.760
0.366
0.304

-.008578
-.032128
-.197634

.006268
.087038
.634408

X
51.1
5.06667
.3

(*) dy/dx is for discrete change of dummy variable from 0 to 1

4 Modelo Probit: MV
z

Otra opcin similar es el modelo Probit. En el caso de tener que: F ( z ) = ( z ) = ( )d

Donde es la funcin de densidad normal definida como:

1 2z
( z) =
e
2

.::UdecomBooks::.

Se est en presencia de un modelo Probit, cuya expresin ser:


0 + 1 X1 +...+ X k

Y=F ( z ) = F ( 0 + 1 X 1 + ... + X k ) =

1 2
e d
2

Que de forma alternativa se podra escribir como:


P (Y = 1/ X iT ) = ( X iT )
i = 1, 2,..., n

El comando en Stata para la estimacin de este tipo de modelos es:


.probit depvar var1 var2 var3 [if] [in] [weight] [, options]
Este modelo es bastante similar al Logit dado que los resultados que arroja son
bastante cercanos. De hecho, es posible demostrar que (Cameron&Trivedi):

probit  1, 6 log it
Al realizar la estimacin de un modelo Probit, la tabla que arroja Stata es la siguiente:
Tabla 3. Resultados de la estimacin de un modelo Probit
Iteration
Iteration
Iteration
Iteration

0:
1:
2:
3:

log
log
log
log

likelihood
likelihood
likelihood
likelihood

=
=
=
=

-20.526953
-19.652544
-19.652082
-19.652082

Probit regression

Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2

Log likelihood = -19.652082


y

Coef.

x1
x2
x3
_cons

-.0028088
.0686759
.5431961
-.5460755

Std. Err.
.0095977
.0760005
.53932
.6843898

z
-0.29
0.90
1.01
-0.80

P>|z|
0.770
0.366
0.314
0.425

=
=
=
=

30
1.75
0.6259
0.0426

[95% Conf. Interval]


-.0216199
-.0802823
-.5138516
-1.887455

.0160023
.2176341
1.600244
.7953038

En esta tabla aparecen los coeficientes estimados, los errores estndar y los valores
respectivos de las z. A su vez, Stata proporciona la prueba de significancia global del
modelo llamado LR chi2(3) (el nmero 3 corresponde al nmero de variables
independientes) y su respectivo valor p. esto permite concluir pues sobre la
significancia global del modelo. Este test es una prueba de que todas las pendientes
son cero, anlogo a la prueba F usualmente utilizada en los modelos de regresin
lineal.
Como ya se sabe, los coeficientes s estimados solamente permiten contrastar los
signos esperados a priori, sin embargo las interpretaciones se deben realizar con los
efectos marginales. El comando para el clculo de estos es:
.mfx

Cuando se introduce este comando, Stata muestra los siguientes resultados:


Tabla 4. Efectos marginales
Marginal effects after probit
y = Pr(y) (predict)
= .42909092
variable
x1
x2
x3*

dy/dx
-.0011028
.0269638
.2135571

Std. Err.
.00377
.0298
.20838

z
-0.29
0.90
1.02

P>|z|

95% C.I.

0.770
0.366
0.305

-.008489
-.03145
-.194869

.006284
.085378
.621983

X
51.1
5.06667
.3

(*) dy/dx is for discrete change of dummy variable from 0 to 1

En la tabla se observan los efectos marginales que son ahora interpretables como
usualmente se hace. Tambin muestra los errores estndar, los valores z con su
respectivo valor p y el intervalo de confianza.
Si lo que se desea es calcular los efectos marginales sobre un valor puntual (por
ejemplo 10 o 20) se debe introducir:
.mfx, at (var1=10 var2=20 var3=30)
5 Modelos con mltiples alternativas
Los economistas continuamente hacen regresiones con variables dependientes
discretas buscando analizar principalmente las elecciones de los individuos. Para este
fin, los modelos de eleccin discreta resultan los ms apropiados cuando el objetivo
no es predecir el comportamiento medio de un agregado, sino analizar los factores
determinantes de la probabilidad de que un agente econmico individual elija un
curso de accin dentro de un conjunto, generalmente finito, de opciones posibles.
El agente econmico entonces, puede llegar a enfrentarse a ms de dos alternativas
en su proceso de eleccin, asumiendo el llamado problema multinomial, en donde
la variable dependiente toma un conjunto discreto y finito de valores o categoras. A
estos modelos se les conoce como modelos multinomiales, los cuales se constituyen
en extensiones del Logit y Probit binario en los cuales, dependiendo de si las
alternativas de la variable endgena sean excluyentes o incorporen informacin
ordinal se distinguen entre los modelos condicionales, modelos con datos ordenados y
los modelos con datos no ordenados. Los primeros se dan cuando nacen 2 o ms
decisiones de manera secuencial, los segundos surgen cuando las decisiones de los
individuos pueden ordenarse o jerarquizarse, plantendose la necesidad de que se
cumpla una primera condicin para optar por una segunda. Pero a pesar de que
muchos economistas han optado por los modelos de respuesta ordenada, no siempre
son la mejor opcin, pues muchas veces, no logran recoger adecuadamente la
naturales de un proceso de decisin en el que existen factores que actan en el mismo
sentido sobre la probabilidad de eleccin de las alternativas extremas.
Para especificar correctamente la funcin que ejemplifique mejor la toma de
decisiones de los individuos, se parte de la formulacin de supuestos sobre los

.::UdecomBooks::.

mecanismos de decisin que permitir vislumbrar parcialmente la racionalidad en el


proceso de eleccin. Un enfoque es el caso en que el individuo decide una
determinada opcin si la utilidad que le proporciona dicha alternativa supera aquella
que le proporcionara el resto de alternativas. En sntesis busca la opcin que le
proporcione la mxima utilidad alcanzable.
Pero adems de lo sealado anteriormente, en el proceso de especificacin de los
modelos de respuesta mltiple influyen elementos como: el tipo de funcin (Logstica
o Normal acumulativa), los diferentes criterios de eleccin para la variable endgena
(ordenado o no ordenado) y el tipo de variables dependientes a considerar, que
pueden ser propias del individuo o que corresponden a caractersticas especificas de
cada una de las alternativas.
Los modelos multinomiales se clasifican bsicamente en tres categoras: modelos de
respuesta ordenada, modelos de respuesta no ordenada y modelos de respuesta
condicionada.
5.1 Modelo Logit multinomial
Para especificar el modelo de respuesta no ordenada logit, se parte de un proceso de
decisin del individuo que puede representarse mediante una variable categrica 
tal que    si el individuo elige la alternativa j.
La especificacin en este caso del modelo de mltiples alternativas corresponde a la
siguiente ecuacin:
   
) +  =    
Donde:
 es una variable latente (no observada)
F( )= Es una funcin no lineal de una combinacin lineal de las caractersticas o ndice.
 = ( 
es el ndice del modelo
 es la variable aleatoria o trmino de error del modelo.
Se debe construir el regresando ya no ordenado en este caso, y los regresores, segn
correspondan a caractersticas propias del individuo y de las alternativas en s,
suponiendo por su puesto una funcin de distribucin logstica que relaciona el ndice
( 
.En este caso denotamos la funcin con la letra , as:
  ( 
) +  =    
i=1,2,3.n
Como nuestro objetivo es estimar la probabilidad de que un individuo medio, con un
conjunto determinado de caractersticas elija la alternativa J, en lugar de las J-1
restantes. Se deben especificar los valores que toma el regresando y escribir la funcin
(Forma general del modelo de respuesta no ordenada):

Donde,  representa la matriz de los regresores del modelo. Dichas variables


explicativas pueden ser de dos tipos:

Variables que contienen aspectos especficos del individuo y por tanto, su valor
ser el mismo en todas las alternativas. Este tipo de variables reciben el
nombre de caractersticas, y se las denota por  .

Variables que contienen aspectos especficos de las alternativas entre las que
se ha de elegir, y varan tanto entre individuos como entre alternativas. Este
tipo de variables reciben el nombre de atributos a las alternativas y las denota
por  .

La formulacin de un logit multinomial queda recogido entonces en la siguiente


ecuacin:

Donde; j representa el ndice asociado a cada alternativa y va desde 0 hasta (J-1).El


vector de parmetros lleva asociado el subndice correspondiente a la alternativa
concreta analizada. Las ecuaciones estimadas proporcionan un conjunto de
probabilidades para cada una de las alternativas que puede tomar un individuo i y
tenga  como caractersticas individuales.
La estimacin del modelo, as como en el Logit Binario, se hace por el mtodo de
mxima verosimilitud. El objetivo de este encontrar un estimador
que maximice la
probabilidad de que  ocurra dadas las variables independientes X.

El modelo estimado se presenta de la siguiente forma:

En el modelo Logit Multinomial existe una indeterminacin cuando se trata de estimar


el valor de los parmetros. La solucin que se utiliza es normalizar el modelo tomando
para los parmetros que acompaan a la alternativa cero el valor cero,
=0,
obteniendo las siguientes probabilidades (MEDINA, 2003):

.::UdecomBooks::.

Donde se tiene que cumplir que:

En donde: si j=1, obtenemos la formulacin del Logit Binomial tradicional. En el caso


sencillo de 3 alternativas de eleccin y una sola variable independiente en la
modelizacin, la probabilidad asociada a cada una de las alternativas posibles de
eleccin tomaran las siguientes expresiones (Adkins, 2008):

Con P0 +P1 +P2= 1


Y la matriz de diseo X ser la siguiente:

Los datos se estiman por Mxima verosimilitud, sin embargo mediante este mtodo
no podemos interpretar los coeficientes estimados de forma tradicional como se hace
por el mtodo de MCO. Explcitamente los coeficientes no indicarn el cambio en la
probabilidad. Slo representan la relacin Y y X, que segn el signo que arroje cada
uno, se sabr si es una relacin directa o inversa.
Lo que efectivamente se puede interpretar es la probabilidad de que suceda cada
una de las elecciones, la Odds-ratio que es un ratio de probabilidades que representa
el cociente entre la probabilidad de que suceda un hecho (elegir la opcin 1) frente a

la probabilidad de que no suceda un hecho (elegir opcin 0), como se observa a


continuacin:

Donde, en el caso de que el valor de la ratio Odds sea: Mayor que 1, la probabilidad (o
utilidad) del individuo i es mayor que del individuo j. Menor que 1, la probabilidad (o
utilidad) del individuo i es menor que el individuo j. E igual a 1, las probabilidades (o
utilidades) del individuo i e j son iguales o indiferentes.
Para realizar la estimacin de un modelo de variable dependiente con mltiples
alternativas se deben seguir los siguientes pasos:

El comando que se utiliza es:


.mlogit vardep var1 var2 var3
Al utilizar este comando en Stata, la salida que muestra el programa por ejemplo es:
Tabla 5. Estimacin Logit Multinomial

.::UdecomBooks::.

5.2 Modelo de respuesta condicionada


Cuando la variable dependiente del modelo es de mltiple respuesta, las alternativas
del individuo para elegir la opcin pueden no estar relacionadas entre s o pueden
estar condicionadas. Este tipo de modelos se utilizan para problemas en los que las
elecciones del individuo se realizan, al menos en parte, con base a los atributos
observables de cada alternativa.
La especificacin del modelo es:
Yij * = X ij + ij

Donde  son inobservables que afectan las decisiones de los individuos y  no tiene
trmino constante. Un ejemplo para este tipo de modelos es el tiempo que tarda en
llegar al trabajo el individuo i teniendo en cuenta el medio de transporte j que utilice.
Este es un tipo de decisin condicionada que se trabaja en este tipo de modelos.
El modelo Logit condicional se expresa as:
P(Yi = j | X i ) = p j ( X ) =

( X ij )

j = 0,1, 2...J

( X ih )

h=0

El comando en Stata para la estimacin del modelo Logit condicionado es:


.clogit vardep var1 var2 var3
5.3 Modelo de respuesta ordenada
Muchas veces los modelos de eleccin mltiple tienen en cuenta la naturaleza ordinal
de Y. La variable representa entonces una serie de respuestas ordenadas y el valor
asignado a cada alternativa no es arbitrario. Un ejemplo de esto es cuando se toma
una valoracin para un crdito, por ejemplo, en una escala acotada de 0 a 6.
La especificacin de este tipo de modelos, bien sea Logit o Probit ordenados es como
sigue:

Y* = X +
Donde X no contiene constante, contiene k parmetros y el trmino de error se
distribuye de manera normal con media cero y varianza constante igual a uno. Ahora,
se definen

1 < 2 < ... < j

como puntos de corte desconocidos, tales que:

Y = 0 ...
Yi* 1
Y = 1 ... 1 < Yi* 2

Y = j ...


Yi* > j

La distribucin condicional de Y dado X vendr dado por (Prez, 2008):


P (Y = 0 | X ) = P(Y * 1 | X ) = P ( X + 1 | X ) = (1 X )
P (Y = 1| X ) = P(1 < Y * 2 | X ) = ( 2 X ) (1 X )
....
*

P (Y = j | X ) = P(Y > j | X ) = 1 ( j X )

En este caso se trata de un Probit Ordenado, si en vez de utilizar (.) se utiliza (.)
sera entonces un Modelo Logit Ordenado.
En Stata, se deben realizar los siguientes pasos para la estimacin de este tipo de
modelos. En la barra de herramientas se selecciona el men Statistics, donde se
desprende lo siguiente:

Y, alternativamente, se puede tambin utilizar el siguiente comando:


.ologit vardep var1 var2 var3
.oprobit vardep var1 var2 var3

6 Modelos con variable dependiente limitada


Muchas veces la variable dependiente de mltiples alternativas o binaria presenta
problemas, bien sea de truncamiento o bien sea de censura. A continuacin se har un
anlisis detallado de cada uno de estos dos tipos de modelos haciendo nfasis en su
utilizacin con el software de Stata.
6.1 Modelo con variable dependiente truncada
Los modelos con variable dependiente trucada son aquellos en los que dentro de la
muestra seleccionada, no se cuenta ni con observaciones para la variable dependiente

.::UdecomBooks::.

ni para las independientes. Se trata de un caso particular del problema de la seleccin


muestral. Una forma ms clara de ver el truncamiento en una muestra es a travs del
siguiente grfico:

.01

Density
.02

.03

.04

Grfico 1. Variable dependiente truncada

40

50

60
achiv

70

80

La especificacin de este tipo de modelos es:

Y = X +u

u | X ~ N (0; 2 )

En el caso de estos modelos, no se tiene una muestra aleatoria porque la muestra


observada presenta una acotacin del tipo    o    . Debido a esto, si se desea
estimar o es necesario conocer la distribucin de  dado X:
En Stata, el comando que se implementa para la estimacin de un modelo con variable
dependiente truncada es:
.truncreg vardep var1 var2 var3

6.2 Modelo con variable dependiente censurada


Los modelos con variable dependiente censurada son tambin llamados modelo Tobit
censurado. La censura de la variable dependiente consiste en que le hace falta
informacin pues la muestra no recoge la probabilidad de que determinado suceso
ocurra, y por tanto existir un sesgo al este ser estimado mediante MCO, por lo que se
debe usa un modelo Tobit.
El sesgo en este tipo de modelos se ve reflejado en el siguiente grfico:
Para realizar el grafico el comando seria:
. histogram nombredelavariable, normal bin(10) xline(800)

.001

Density
.002

.003

.004

Grfico 2. Variable dependiente censurada

300

400

500

600

700

800

apt

Este modelo se especifica de la siguiente manera:

Y *i = [1x2i ...xki ][ 1 2 ... k ]'+ ui = xi + ui


Yi = 0
Yi = Yi*

si Y *i 0
si Y *i > 0

Yi representa dos opciones: el valor 0 y el valor de la variable Y*i.


En una primera etapa, se debe construir una variable dicotmica que toma el valor de
cero si Y*i es negativo o nulo, y uno si este valor es positivo. Esta nueva variable ser
llamada Di.
  

0 
1 

  0

  0

Las caractersticas ms relevantes hasta ahora son:

Ahora, en una segunda etapa, lo que se hace es calcular la probabilidad de que dentro
de la decisin del individuo potencial efectivamente ocurra el suceso estudiado. En
efecto, se trata de asignar un valor real positivo a la variable Yi una vez que, en la

.::UdecomBooks::.

primera etapa, se la ha asignado probabilsticamente, a travs de un modelo Probit, un


valor mayor que cero.
Las caractersticas ahora son:

La sintaxis del comando en Stata para la estimacin de un modelo Tobit es la misma


que usualmente se utiliza para la regresin lineal, excepto porque se debe especificar
si la censura est en la parte superior de la muestra (ul) o en la parte inferior (ll):
.tobit vardep var1 var2 var3, ll
.tobit vardep var1 var2 var3, ul
7 Comentarios finales
En este documento se present una breve introduccin a los modelos con variable
dependiente discreta, haciendo nfasis en los modelos MLP, Logit, probit y los
multinomiales ordenados y no ordenados. Tambin se presentaron los modelos con
variable dependiente limitada censurados, tobit y los trucncados. Todos los modelos
se presentaron y se mostro su aplicacin en Stata. Se explico la importancia de los
conceptos bsicos de las regresiones por el mtodo de mxima verosimilitud y los que
se estiman con variable dependiente limitada.
8 Bibliografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press
Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to
Survival Analysis using Stata. Thrid edition. Stata Press

Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of


earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
Prez L. Csar (2006) Problemas resueltos de econometra, Thomson.
Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

http://ideas.repec.org/s/boc/bocode.html

.::UdecomBooks::.

SESGO DE SELECCIN MUESTRAL CON STATA

Carlos Giovanni Gonzlez Espitia


Email: cggonzalez@icesi.edu.co
Departamento de Economa
Universidad Icesi

Resumen
El objetivo de este documento es introducir al lector en la especificacin, estimacin y
contrastes de los modelos con variable dependiente continua Heckman (1979) y con
variable dependiente discreta Heckprob (2005), que corrigen o tienen en cuenta el
problema del sesgo de seleccin muestral.
Palabras Clave: Econometra, software economtrico, Stata
Clasificacin JEL: C01, C87.

Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.

1 Introduccin
El problema de sesgos de seleccin fue introducido en la econometra moderna por el
economista James Heckman, con su trabajo Sample selection bias as a especification
error (1976). Antes de su aporte, este problema no estaba dentro de las
preocupaciones de los economistas, desconociendo a su vez que la correccin del
mismo resulta fundamental para obtener conclusiones acertadas con estimadores
insesgados, consistentes y eficientes sobre las caractersticas de la poblacin o la
muestra en estudio. Actualmente resulta ser uno de los problemas economtricos que
ms se deben tener en cuenta a la hora de la estimacin de un modelo.
Ante la presencia de un sesgo de seleccin, existen mtodos de correccin
dependiendo del tipo de modelo que se presente; si se trata de un modelo de variable
dependiente continua o si por el contrario es un modelo de variable dependiente
discreta. Cuando la variable dependiente es continua el mtodo de correccin ms
usado es el propuesto por Heckman (1979) y el cual se describir a grandes rasgos en
este trabajo. Para la correccin de sesgos de seleccin en modelos con variable
dependiente discreta el mtodo de correccin ms utilizado es el heckprob.
2 Conceptos bsicos sobre sesgos de seleccin
Un sesgo de seleccin surge principalmente de la ausencia de aleatoriedad muestral, o
seleccin muestral no aleatoria. Por lo tanto, la estimacin de modelos estructurales
cuando la muestra usada para la estimacin no es seleccionada de manera aleatoria,
conlleva a resultados y conclusiones que no describen como se esperara las
caractersticas de la poblacin en general, sino tan solo las caractersticas de un
determinado grupo poblacional, sin importar el tamao de la muestra usada.
Originalmente el tema de sesgos de seleccin tan slo fue estudiado para modelos
con variable dependiente continua, pero en la actualidad tambin es posible analizar
el sesgo de seleccin para modelos con variable dependiente discreta.
El sesgo de seleccin puede surgir bsicamente por dos razones. En un primer lugar,
este surge por decisiones del diseo muestral, es decir por las decisiones que tome el
investigador sobre aspectos de la muestra, entre estos esta, por ejemplo, el hecho de
decidir realizar un muestreo estratificado. En segundo lugar, este se puede dar por
decisiones econmicas de autoseleccin, es decir que los individuos pueden, ellos
mismos, autoseleccionarse para pertenecer a determinado grupo. Un ejemplo comn
es la decisin de los individuos de participar o no del mercado laboral de tal forma que
un individuo trabajar si el salario que percibe en el mercado es al menos igual a su
salario de reserva; por tanto la decisin de participar es endgena al modelo, debido a
que pertenecer en este caso al grupo de individuos que reciben un salario no es
aleatorio. El pertenecer o no pertenecer a este grupo de individuos viene determinado
por una decisin anterior de si los individuos quieren y pueden o no participar del
mercado laboral.

.::UdecomBooks::.

3 Variable dependiente continua


3.1 Especificacin
Los modelos de variable dependiente limitada como por ejemplo el Modelo Tobit, no
resultan apropiados cuando el proceso que genera que algunos individuos estn en el
punto de censura/truncamiento no es aleatorio, como es el caso de los sesgos de
seleccin, en el caso de variable dependiente continua. Para estos casos, Heckman
(1976) propone descomponer el modelo censurado en dos procesos, de manera que
tendremos un modelo bivariante con dos ecuaciones estimadas bsicamente por el
mtodo de Mnimos Cuadrados en dos Etapas (MC2E).
Para especificar el modelo hacemos uso de dos ecuaciones, una ecuacin de inters
que corresponde a la ecuacin que se busca estimar, de la que buscamos extraer
conclusiones, y una ecuacin de seleccin o participacin (regresin auxiliar) que
corresponde a un modelo de eleccin discreta (Probit o Logit), que mide la
probabilidad de estar en la muestra, en esta ltima ecuacin se pueden incluir las
variables independientes de la ecuacin de inters y a su vez esta ecuacin deber
contener al menos una variable continua que sea determinante en el proceso de
pertenecer o no a la muestra pero que a su vez no resulte relevante para determinar
la variable dependiente, lo anterior con el fin de no caer en problemas de
identificacin. De lo anterior se tiene que:


   



  


Ecuacin de inters

Ecuacin de seleccin

0
0  


 


  
  0

La variable 
representa la probabilidad de pertenecer a la muestra: esta variable

tomara el valor de uno si y solo si la variable latente 

es mayor a cero lo que
representa que el individuo pertenece a la muestra. Adems, slo se observar 
cuando 
= 1, es decir siempre que el individuo pertenezca al sector que se est
estudiando (la muestra), se podr observar la variable  de la ecuacin de inters.
Teniendo en cuenta tanto la ecuacin de inters como la de seleccin, la ecuacin
observada es:
     Si 
 > 0
De lo anterior se deriva que el valor esperado de la ecuacin observada viene
determinado de la siguiente manera:



|

   





 



Donde  =     representa la inversa del ratio de Mills, es decir la probabilidad



dadas unas caractersticas de que un individuo participe o no en el sector de inters
necesario para observar  .
Para hacer ms claro el problema del sesgo de seleccin a la hora de la estimacin de
un modelo economtrico, es necesario hacer referencia a un ejemplo que ilustre un
poco ms el tema. As, para estimar las ecuaciones de salario para un grupo
poblacional particular, por ejemplo las mujeres, se tendr presente que el salario es
dependiente de la educacin, la experiencia y la experiencia al cuadrado, entre otras
covariantes. Sin embargo, al estimar un modelo de regresin lineal mltiple clsico,
muy probablemente habr un problema de sesgo de seleccin en la medida en que no
se est teniendo en cuenta la poblacin que est por fuera de la poblacin
econmicamente activa (PEA). Se corre entonces el riesgo de que los estimadores no
sean el Mejor Estimador Lineal Insesgado (MELI).
3.2 Estimacin
La estimacin del modelo se puede realizar mediante el mtodo de Heckman, o el
mtodo de Heckman en dos etapas.
Mediante el mtodo de Heckman, o mtodo de Heckit, el modelo puede estimarse en
una sola etapa, en este caos debemos tener en cuenta el modelo en forma de la
ecuacin de error:


   
  


Cuando 
el segundo termino desaparece, por lo que no existira sesgo seleccin y
se podra estimar mediante MCO.
El sesgo de seleccin viene representado por
estimarse de forma consistente tanto  como

 


 

   .


En este caso podran

si  fuera observable. La desventaja

de este mtodo es que no nos permite conocer la inversa del ratio de Mills por lo que
no podremos saber si efectivamente se presentaba un sesgo de seleccin y si este se
corrigi.
En el software Stata, se puede realizar la estimacin directamente mediante el
comando:
.heckman vardep var1 var2, select (vardep var1 var2 var3)
El mtodo de Heckman en dos etapas, como su nombre lo indica, estima el modelo
por MC2E. En la primera etapa se estimara mediante el mtodo de mxima
verosimilitud, un modelo Logit o Probit que busque determinar la probabilidad de

.::UdecomBooks::.

estar en la muestra, es decir que se estima la ecuacin de seleccin. De esta forma se


halla !.



  



  1

# $

Despus mediante un Probit, por ejemplo, de 


 sobre , se calcula el valor de
lambda estimado % :
(&  !'
%  &  !' 
1  (&  !'
Aqu se est estimando la probabilidad de estar en la muestra sobre la probabilidad de
no encontrarse en la muestra.
En la segunda etapa estimamos un modelo lineal con variable dependiente continua
(ecuacin de inters) incluyendo % mediante MCO, de esto obtenemos a  y a :
    
%  
En este caso tan solo se usan las observaciones para las cuales 
  1. En este caso el
contraste del sesgo seleccin se realiza con la prueba de hiptesis de significancia
individual de la inversa del Ratio de Mills:
)* : 
 0
), : 
- 0
Si se rechaza la hiptesis nula, es decir si el coeficiente que acompaa a la inversa del
Ratio de Mills resulta ser significativo existe un sesgo se de seleccin y este fue
corregido mediante este mtodo de estimacin, si por el contrario el coeficiente no
resulta significativo lo ideal sera estimar los coeficientes obtenidos mediante MCO.
El comando que se debe usar en Stata es:
.heckman vardep var1 var2, select (vardep var1 var2 var3) twostep
De no existir un sesgo de seleccin muestral, sera correcto interpretar los coeficientes
de una estimacin realizada por el mtodo de mnimos cuadrados ordinarios dado que
los estimadores en ausencia de otro problema economtrico sern MELI; pero, en
caso de corroborarse la existencia de un sesgo de seleccin debemos interpretar los
coeficientes de la Tabla 1, es decir, el modelo estimado mediante el mtodo de
Heckman en dos etapas.
Para interpretar los resultados, es necesario, en primer lugar, verificar si el modelo,
presenta el problema de sesgo de seleccin o no. Para esto, se contrastan las
siguientes hiptesis:

)* : %  0
). : % - 0
Donde % es la inversa del ratio de Mills, coeficiente que arroja Stata en la tabla de
estimacin.
Utilizando el mtodo del valor p en el caso de este ejemplo, es posible rechazar la
hiptesis nula a un 99% de confianza. Esto indica que el coeficiente % es distinto de
cero, por lo que la probabilidad de la decisin de pertenecer al mercado laboral es
significativa, y el modelo 1, presenta problema de sesgo de seleccin. Con la
estimacin del modelo mediante el mtodo de Heckman en dos etapas se ha
corregido el problema de sesgo de seleccin.
Es posible decir que el signo del coeficiente lambda indica, en este caso, que existe
una relacin positiva entre pertenecer al mercado de trabajo y obtener un salario,
pues este es positivo.
Con lo anterior, se puede concluir que el modelo estimado mediante Heckman en dos
Etapas es el apropiado para realizar inferencia estadstica, debido que el modelo
estimado mediante MCO arroja estimadores sesgados.
Stata tambin permite realizar la estimacin mediante un mtodo robusto, que
corrige la matriz de varianzas y covarianzas. Esto se hace con el siguiente comando:
.heckman (vardep var1 var2) select (vardep var1 var2 var3) vce(robust)
En el ejemplo de la estimacin salarial para las mujeres, el modelo a estimar es:
/012    
234$  5 012  6

7  89:*  : ;0<<23  :
$=>3<2?  5 234$  :A 012 B  

Donde la primera es la ecuacin de inters y la segunda es la ecuacin de seleccin,


que pretende estimar la probabilidad de que la mujer pertenezca al mercado laboral,
y por tanto tomar el valor de 1 si lo hace y 0 en caso contrario.
La estimacin de la ecuacin de seleccin se resume pues en la estimacin de un
modelo de variable dependiente discreta (que podra hacerse mediante Logit o
Probit), en el que se incluyen otras variables que en teora afectan esa probabilidad de
participacin en el mercado laboral.
La estimacin por el mtodo de Heckman con Stata resulta en la siguiente tabla:

.::UdecomBooks::.

Tabla 1. Estimacin por el mtodo de Heckman en dos etapas


He ckman sele ction mode l -- two-s tep e stima tes
(r egres sion model with samp le se lecti on)

Std. Err.

Numb er of obs
Cens ored obs
Unce nsore d obs

=
=
=

200 0
65 7
134 3

Wald chi2 (2)


Prob > ch i2

=
=

442.5 4
0.000 0

wage

Co ef.

P>|z |

[95% Conf . Int erval ]

wa ge
educ ation
age
_cons

.9825 259
.2118 695
.7340 391

.053 8821
.022 0511
1.24 8331

18 .23
9 .61
0 .59

0.00 0
0.00 0
0.55 7

.876 9189
.168 6502
-1.71 2645

1. 08813 3
.2 55088 8
3. 18072 3

se lect
ma rried
chi ldren
educ ation
age
_cons

.4308 575
.4473 249
.0583 645
.0347 211
- 2.467 365

.07 4208
.028 7417
.010 9742
.004 2293
.192 5635

5 .81
15 .56
5 .32
8 .21
-12 .81

0.00 0
0.00 0
0.00 0
0.00 0
0.00 0

.285 4125
.390 9922
.036 8555
.026 4318
-2.84 4782

.5 76302 5
.5 03657 6
.0 79873 5
.0 43010 5
-2. 08994 8

l ambda

4.001 615

.606 5388

6 .60

0.00 0

2.81 2821

5 .1904 1

rho
sigma
l ambda

0.67 284
5 .9473 529
4 .0016 155

.606 5388

mi lls

Como ya se mencion, en el caso de estimar el primer modelo mediante el mtodo de


MCO, se encontraran unos estimadores sesgados. Sin embargo, para cerciorarse de la
presencia contundente de este problema es importante primero realizar una prueba
con la inversa del ratio de Mills, representada en la tabla por la variable . Al realizar el
test de significancia, en este caso, se realiza mediante la prueba del valor p que
permite concluir que es significativo al 99% de confianza. Esto, en efecto, da la
probabilidad de pertenecer al mercado laboral es significativa y por tanto el modelo,
en caso de ser estimado por MCO estara sesgado. Este mtodo ha corregido entonces
el problema de sesgo de seleccin. Por ltimo, cabe anotar que el signo del coeficiente
lambda dar la relacin entre, en este caso, pertenecer al mercado laboral y el salario.
4 Variable dependiente discreta 1
El modelo adecuado en este caso donde la variable dependiente es discreta es el
Modelo heckprob. Al igual que con un modelo de variable continua, existen dos
ecuaciones, la ecuacin de inters y la ecuacin de seleccin, pero en este caso las dos
variables dependientes son variables discretas.


    



  


En este caso la especificacin correcta del modelo viene dada por:


     
 |  
Donde:


 | 

( 
1  ( 


 |  
El Mtodo Heckprob permite conocer la inversa del ratio de Mills (, por lo que se
puede entonces conocer si efectivamente se presentaba un sesgo de seleccin
muestral y s fue corregido mediante el mtodo de estimacin, o si por el contrario es
mejor interpretar los resultados mediante una estimacin de un Probit o Logit.
Cabe resaltar que en este modelo los trminos de error se comportan de siguiente
manera:
    
  0
0<    0<
  1
$C    $C
  7
Con esto se puede concluir que los errores seguirn una distribucin normal, por esto
la estimacin se puede realizar mediante un modelo estimado por Mxima
Verosimilitud.
El mtodo de estimacin Heckprob, se utiliza en Stata mediante el comando:
.heckprob (vardep var1 var2 var3)
El ejemplo que se mostrar en este caso es la eleccin entre una educacin privada o
no para los hijos. En este caso pues, se est haciendo un anlisis sobre las elecciones
educativas que realizan los individuos, y en particular aquello que determina que una
persona elija un plan pblico versus uno privado. El modelo sera:

Y1i = f ( aos del individuo;ln(impuesto a la renta ))


1: privado
Y1i =
0 : o.w.

Y1i = f (aos del individuo;ln(ingreso);ln(impuesto a la renta))


1: vot
Y1i =
0 : o.w.
En este caso, la eleccin depende entonces de la edad del individuo, y el impuesto a la
renta, sin embargo, esto tambin tiene en cuenta si el individuo vot o no en las
ltimas elecciones. Precisamente necesitamos verificar si ambas decisiones estn o no
correlacionadas.

.::UdecomBooks::.

Tabla 2. Estimacin por el mtodo Heckprob


Probit model with sample selection

Log likelihood = -74.24497


Coef.
private
years
logptax
_cons

Std. Err.

Number of obs
Censored obs
Uncensored obs

=
=
=

95
36
59

Wald chi2(2)
Prob > chi2

=
=

1.04
0.5935

P>|z|

[95% Conf. Interval]

-.1142597
.3516098
-2.780665

.1461717
1.016485
6.905838

-0.78
0.35
-0.40

0.434
0.729
0.687

-.400751
-1.640665
-16.31586

.1722317
2.343884
10.75453

years
loginc
logptax
_cons

-.0167511
.9923024
-1.278783
-.545821

.0147735
.4430009
.5717545
4.070418

-1.13
2.24
-2.24
-0.13

0.257
0.025
0.025
0.893

-.0457067
.1240366
-2.399401
-8.523694

.0122045
1.860568
-.1581647
7.432052

/athrho

-.8663156

1.450028

-0.60

0.550

-3.708318

1.975687

rho

-.6994973

.7405342

-.9987984

.9622689

vote

LR test of indep. eqns. (rho = 0):

chi2(1) =

0.27

Prob > chi2 = 0.6020

El rho no es la variable que permitir concluir acerca de la correlacin. En este caso es


significativo, por lo que se puede afirmar que no hay sesgo de seleccin muestral.
Como no hay sesgo de seleccin entonces se pudo haber hecho el Modelo Probit e
interpretar sus resultados.
5 Variable dependiente discreta 2
Ahora, tambin existe el mtodo Biprobit mediante el cual se estima el modelo con el
fin de no solo corregir el problema de sesgo de seleccin sino ver si las dos elecciones
la de inters y auxiliar estn correlacionadas.
De la misma manera que el mtodo anteriormente descrito, se tienen dos tipos de
ecuaciones: la ecuacin de inters y la de seleccin (auxiliar).


 D   



 D 


Se suponen los trminos de error de la siguiente manera:


    
  0
0<    0<
  1
$C    $C
  7
El modelo se puede estimar finalmente por el mtodo de Mxima Verosimilitud,
utilizando en Stata el comando:
.biprobit
O utilizando tambin el mtodo robusto que corrige la matriz de varianzas y
covarianzas:

.biprobit vardep=var1 var2 var3 (vardep= var1 var3), vce(robust)


Para continuar con el ejemplo anterior, en este caso la especificacin del modelo es la
siguiente:

Y1i = f ( Edad , ln(impuestoalarenta))[1]


Y2i = f ( Edad , ln(ingreso), ln(impuestoalarenta ))[2]
1, pblico
Y1i =
o.w
0,
1, Individuo vot en las elecciones pasadas
Y2i =
o.w
0,
Hay dos ecuaciones, [1] y [2] que representan respectivamente las ecuaciones de
inters y de seleccin como se haba mostrado para el mtodo anterior. En el ejemplo,
se intuye la presencia de un sesgo de seleccin pues slo se puede acceder al plantel
pblico una vez se haya votado, existe pues una relacin entre las variables en este
sentido. El mtodo Biprobit estima dos ecuaciones con el fin pues de ver si estn
correlacionadas, si sus errores estn correlacionados.
Tabla 3. Estimacin por el mtodo Biprobit
Bi va ri at e pr ob it re gr es si on

Nu mb er o f ob s
Wa ld c hi 2( 6)
Pr ob > c hi 2

Lo g li ke li ho od = -8 9. 25 40 28
C oe f.
pr iv at e
lo gi nc
y ea rs
l og pt ax
_ co ns

S td . Er r.

P> |z |

=
=
=

95
9 .5 9
0 .1 43 1

[9 5% Co nf . In te rv al ]

.3 76 20 37
- .0 11 88 84
- .1 06 69 62
- 4. 18 46 94

. 53 06 48 4
. 02 56 77 8
. 66 69 78 2
4 .8 37 81 7

0 .7 1
-0 .4 6
-0 .1 6
-0 .8 6

0. 47 8
0. 64 3
0. 87 3
0. 38 7

-. 66 384 8
- .0 62 215 9
- 1. 41 394 9
- 13 .6 666 4

1 .4 16 25 5
. 03 84 39 1
1 .2 00 55 7
5 .2 97 25 3

lo gi nc
y ea rs
l og pt ax
_ co ns

. 99 82 86
- .0 16 85 61
- 1. 28 87 07
- .5 36 05 73

. 44 03 56 5
. 01 47 83 4
. 57 52 26 6
4 .0 68 50 9

2 .2 7
-1 .1 4
-2 .2 4
-0 .1 3

0. 02 3
0. 25 4
0. 02 5
0. 89 5

.1 35 203 1
- .0 45 830 9
- 2. 41 613 1
- 8. 51 018 8

1 .8 61 36 9
. 01 21 18 8
-. 16 12 83 9
7 .4 38 07 3

/ at hr ho

- .2 76 45 25

. 24 12 09 9

-1 .1 5

0. 25 2

- .7 49 215 3

. 19 63 10 2

r ho

- .2 69 61 86

. 22 36 75 3

- .6 34 680 6

. 19 38 26 7

vo te

Li ke li ho od -r at io te st o f rh o= 0:

c hi 2(1 ) =

1 .3 84 44

Pr ob > ch i2 = 0 .2 39 3

Lo que arroja Stata es que el rho no es significativo pues la prueba del valor p as lo
demuestra, no existe evidencia suficiente de correlacin de ir a votar y la eleccin de
un plan privado en educacin. Por tanto no se demuestra la presencia de sesgo de
seleccin ni la correlacin como problema economtrico dentro del modelo.
6 Comentarios finales
Se debe tener siempre presente que cuando se trabaja con datos microeconmicos
(microeconometra), es decir modelos que involucren elecciones individuales, resultan
ser muy frecuentes los sesgos de seleccin debido a que en la mayora de estos casos

.::UdecomBooks::.

se presenta autoseleccin por parte de los individuos, como se mostr anteriormente


mediante los ejemplos de Stata. A parte de la autoseleccin, se debe ser muy
cuidadoso con la construccin de la muestra ya que si esta se construye de forma
apropiada se pueden evitar problemas de sesgo de seleccin, de lo contrario, este
problema ser siempre una posible crtica a una estimacin de modelos pues arrojar
estimadores sesgados y por tanto los resultados posiblemente no sern concluyentes.
Es importante resaltar que la correccin de sesgos de seleccin se puede realizar tanto
en modelos con variable dependiente contina como en modelos con variable
dependiente discreta. Para el caso de variable dependiente contina vimos que
existen dos mtodos de estimacin; el mtodo de Heckman y el mtodo de Heckman
en dos etapas.
Para el caso de modelos con variable dependiente discreta, existe tanto el mtodo de
estimacin Heckprob, como el mtodo biprobit. El primero, al igual que el mtodo de
Heckman en dos etapas para variables continuas, permite conocer la inversa de ratio
de Mills.
Realizando un anlisis comparativo entre la estimacin realizada mediante MCO y la
realizada mediante Heckman en dos etapas es evidente que la primera estimacin
(MCO) presenta coeficientes ms pequeos que los estimados por el mtodo de
Heckman en dos etapas, adems de varianzas ms grandes. Mediante la
interpretacin y la prueba de significancia del ratio de Mills (Lambda) hallado
mediante Heckman en dos etapas, se puede afirmar que el modelo estimado por MCO
presenta estimadores sesgados, debido a la existencia de un sesgo de seleccin
muestral.
Tambin se debe tener en cuenta que la correccin del sesgo de seleccin no implica
que no puedan existir otros problemas economtricos que pueden llevar a que los
coeficientes estimados no sean insesgados ni consistentes, como por ejemplo la
heterogeneidad no observable de los individuos, la omisin de variables relevantes
correlacionadas con las incluidas en el modelo, la heterogeneidad, o errores de
medicin en las variables independientes. Estos son otros problemas economtricos
fundamentales a tratar a la hora de la estimacin de un modelo, pues pueden
invalidar resultados y las conclusiones obtenidas.

7 Bibilografa

Acock, A. C. (2006) A Gentle Introduction to Stata, Third edition. Stata Press


Adkins L.C y Carter R. (2008). Using Stata for Principles of Econometrics. Wiley.
Baum C. F. (2006) An Introduction to Modern Econometrics Using Stata. Stata
Press
Becker, Gary S. (1964) Human Capital: A theorical and empirical analysis, with
special reference to education. New York.
Blossfeld H-P., Golsch K., Rohwer G. (2007) Event History Analysis with Stata.
Cameron A.C y Trivedi P.K (2009). Microeconomtrics using Stata. Stata Press

Cleves M., Gould W., Gutierrez R., Marchenko Y. (2002) An Introduction to


Survival Analysis using Stata. Thrid edition. Stata Press
Chiswik, Barry (2003) Jacob Mincer, Experience and the distributions of
earnings. Institute for the study of labor (IZA). IDEAS
Gujarati (2010) Econometra. Mxico. Mc Graw Hill
Gould W., Pitblado J., Sribney W. (2006) Maximum likelihood Estimation with
Stata. Stata Press
Hamilton, L.C. (2009). Statistics with STATA 8. Belmont, CA: Duxbury Press
Kohler, U. y Kreuter, F. (2009). Data Analysis Using Stata. College Station, TX:
Stata Press
Long, J. S. (2009) The Workflow of Data Analysis Using Stata. Stata Press.
Mincer, J. (1974) Schooling, experience and earnings, Columbia University
Press.
Mitchell M. (2008) A visual guide to Stata Graphics. Stata Press
Murray, M. (2006) Econometrics: a modern introduction. Ed. Pearson
Prez L. Csar (2006) Problemas resueltos de econometra, Thomson.
Pollock, Ph. H. (2006) A Stata Companion to Political Analysis. Washington, CQ
Press.
Rabe-Hesketh, S. y Everitt, B. (2004). A Handbook of Statistical Analysis Using
STATA, London: Chapman & Hall/CRC Press
Newton J., Cox N. (2003) Seventy-six Stata tips
STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
Wooldridge, J. (2006) Introduccin a la econometra. Un enfoque moderno. Ed.
Thomson

Algunos recursos en Internet para usuarios Stata:

http://www.ats.ucla.edu/stat/stata/

http://econpapers.hhs.se/paper/bocbocoec/531.htm

http://fmwww.bc.edu/ec/res.info.php

http://ideas.repec.org/s/boc/bocins.html

http://ideas.repec.org/s/boc/bocode.html

.::UdecomBooks::.

También podría gustarte