Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Stata 11
Stata 11
Resumen
El objetivo de este documento es introducir al lector en el uso bsico de Stata,
posiblemente el software economtrico ms popular y con las herramientas
predefinidas ms adecuadas de clculo automatizado para la docencia y la
investigacin en economa.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
.::UdecomBooks::.
1 Introduccin
Este documento es el primero de una serie de documentos de carcter acadmico que
se escribirn sobre el uso en econometra del software Stata. Este programa no es
libre y tampoco es gratuito, por lo que es necesario acceder a una licencia para su uso
legal. La empresa que desarrolla y comercializa el software es StataCorp
(www.stata.com). Este programa supera prcticamente todos los test de fiabilidad
(www.stata.com/support/cert/), por esta razn, adems de su rigurosidad y manejo
de dos ambientes de trabajo, es uno de los programas economtricos ms utilizados.
Una de las ventajas ms destacadas del programa es que permite un ambiente de
trabajo tradicional por medio de ventanas (Windows), el cual es muy fcil de utilizar a
travs de un men principal y de una barra de herramientas de donde se despliegan
todas las opciones posibles que tiene predefinidas el software. Por otro lado, tambin
permite trabajar con comandos predefinidos, que se complementa con un potente
lenguaje de programacin. Esta opcin permite utilizar rutinas para ejecutar
programas previamente hechos sin necesidad de empezar de nuevo. Posiblemente,
sta opcin de uso es una de las ventajas ms reconocidas para usar Stata.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. Adems, el documento es una herramienta de apoyo y no sustituye
los manuales de Stata, ni los libros ms rigurosos de econometra.
El objetivo de este documento es introducir al lector en el uso bsico de Stata, uno de
los programas ms populares y rigurosos para hacer econometra. Actualmente los
econometristas pueden facilitar su labor al realizar una buena eleccin del software
con el que se va a trabajar. Algunas de las ventajas de utilizar Stata son que permite
realizar las regresiones de manera sencilla y rpida mediante comandos, adems de
que tiene propiedades particulares como la facilidad de guardar en un archivo todo lo
realizado hasta cierto punto para reanudar con el trabajo despus de cerrado el
programa.
El documento consta de cuatro apartados, el primero de ellos es esta introduccin. En
el segundo apartado se hace una introduccin al programa y a los comandos ms
bsicos. El tercer apartado recoge las nociones bsicas para el procesamiento de
datos. En el cuarto apartado se presentan algunos comentarios generales del uso
bsico del programa. Finalmente, el documento termina con una seccin de la
bibliografa usada y otra complementaria. El documento termina con un anexo sobre
el uso del programa Stattranfer, la econometra no sera lo mismo sin l.
2 Comandos bsicos
Stata es un programa que se instala fcilmente y que tiene una interface muy
amigable. En el Cuadro 1, se puede observar la salida inicial del programa. En la parte
superior de la interfase de salida de Stata vemos el men principal con todas sus
opciones (File, Edit, Data, Graphics, Statistics, User, Windows y Help), as como una
barra de herramientas con once iconos, distribuidos en el siguiente orden (Open,
Save, Print, Log, New viewer, Graph, New do-file editor, Data editor, Data browser,
Clear y Break). En la misma salida se observan cuatro grandes ventanas, (i) Results, (ii)
variables, (iii) Review y (iv) Command.
Cuadro 1. Salida inicial de Stata 11
A continuacin se describe cual es el uso de cada una de las ventanas que se observan
en la pantalla principal del programa:
a. Results
En esta ventana encontramos el logo de Stata, la versin del programa que se est
usando y la memoria que tenemos disponible para cargar los datos y el nmero de
variables. En esta ventana de resultados, como su nombre lo indica, se tendrn todo
tipo de resultados sobre los comandos que se ejecuten; tambin aparecen mensajes
de lo que se est haciendo o lo que est ejecutando el programa, as como mensajes si
cometemos algn tipo de error. Los colores de las palabras nos indican si son
resultados de un comando, si es un comando o si es un error. Esta opcin de los
.::UdecomBooks::.
colores est predefinida pero se puede cambiar. Con click derecho sobre la ventana
podemos copiar, imprimir el texto, o establecer las preferencias para esta ventana.
b. Variables
Esta ventana, que aparece a un lado de la ventana de resultados, muestra las variables
que contiene el archivo que se abri o del fichero que actualmente se tiene en
memoria, tambin nos muestra informacin de las etiquetas de cada una de las
variables; as como la informacin relevante de cada variable (Name, Label, Type y
Format). Puede utilizarse para introducir los nombres de las variables en la ventana de
comandos haciendo click sobre la variable. Igualmente, situndonos en la variable y
haciendo click derecho se puede introducir comentarios a esa variable. Para ver las
notas de un fichero se puede usar el comando .notes list.
c. Review
La ventana de revisin, muestra una lista de los comandos que recientemente se han
ejecutado desde que se abri algn tipo de archivo, sea de datos (*.dta), un do-file
(*.do) o un log (*.log). Desde esta ventana se pueden incluir comandos tecleados con
anterioridad en la ventana command, con hacer click una vez en el mismo. Y haciendo
click dos veces se copia y ejecuta.
d. Command
Esta es la ventana donde se deben escribir los comandos que se desean ejecutar. Se
pueden recuperar comandos escritos anteriormente o posteriormente con la tecla
RePg o AvPg, hasta llegar al comando buscado, o tambin se pueden buscar en la
ventana Review y darle click. Otra ayuda importante en esta ventana es la opcin de
completar automticamente el nombre de una variable tecleada parcialmente con la
tecla Tab.
En general, Stata permite ser usado por medio de ventanas con la opcin del men
principal convencional. Una vez se selecciona una opcin del men, se puede buscar y
seleccionar la opcin de lo que se desea hacer (inmediatamente el programa abre otra
ventana, donde se define la tarea que deseamos que realice el programa).
La otra opcin es por comandos o programacin, que se debe hacer directamente en
la ventana de comandos o creando un do-file. Ej: Se escribe directamente la opcin
use or open.
Muchos de los comandos de Stata se pueden abreviar a las primeras letras. Por
ejemplo: el comando inspect se puede escribir ins, teniendo el mismo resultado.
Es fundamental tener cuidado en el uso de los comandos porque este software es muy
sensible al uso de maysculas y minsculas. Ejemplo: Para Stata no es lo mismo
inspect que INSPECT o que Inspect. El comando correcto es inspect. Todos los
4
.::UdecomBooks::.
Una vez introducido el comando, se abre la ventana Viewer(#1) [Help describe] que
proporciona la informacin que se est solicitando:
Cuadro 2. Ventana de ayuda de Stata
.::UdecomBooks::.
Variable var1.
Variables var1, var2, var3.
Variables que empiezan con hh.
Desde la variable var1 hasta var6.
[=exp]
Esta opcin sirve para expresiones matemticas o lgicas. Especifica el valor asignado
a una variable. Los operadores que pueden incluirse son los siguientes:
Tabla 2. Operadores bsicos de expresiones en Stata
Aritmticos
+
*
/
suma
resta
multiplicacin
divisin
Lgicos
~ no
l o
& y
Relacionales
(variables
numricas y de cadena)
> mayor que
< menor que
>- mayor o igual que
<- menor o igual que
8
^ potencia
+
encadenamiento de
cadenas
== igual que
~= no igual que
Es importante aclarar que las expresiones lgicas generan dos posibles resultados para
Stata, segn las va evaluando, observacin a observacin:
Verdadero=1, si son ciertas para esas observaciones, o bien,
Falsas=0, si no son ciertas para esa observacin.
Otras expresiones que pueden utilizarse son las variables del sistema, que son
variables internas de Stata cuyos nombres empiezan por _. Por ejemplo, dos
variables del sistema que pueden ser tiles son:
_n nmero de la observacin, segn el orden actual del fichero.
_N nmero total de observaciones (coincide con el _n de la ltima observacin)
[if exp]
Las condiciones if se utilizan para restringir el campo de actuacin de un comando a
slo las observaciones que cumplen la condicin especificada. Por ejemplo:
.list var1 var2 if var1>20
.list var1 var2 if var1>20 & var1<30
.list var1 var2 if var1>20 l var1<10
El comando in [range] especifica las observaciones para las que ha de ejecutarse el
comando. Ejemplo:
in 5
in 1/100
in f/100
in 100/200
in -70/-1
in 2300/1
Observacin nmero 5
Las 100 primeras observaciones
Las 100 primeras observaciones
Observaciones desde la 100 hasta la 200
Las 70 ltimas observaciones (-1)
Observaciones desde la 2300 hasta la final (l)
[weight]
Esta opcin se utiliza para indicarle a Stata que tiene que utilizar unas determinadas
ponderaciones al ejecutar el comando. Bsicamente, Stata acepta cuatro tipos de
weights:
fweight: frequency weights, indica el nmero de casos que representa realmente cada
observacin muestral. La variable debe contener enteros positivos.
pweight: sampling weights, indica la inversa de la probabilidad de seleccin muestral
de cada observacin. Han de ser positivos, pero no necesariamente enteros.
.::UdecomBooks::.
10
3 Procesamiento de datos
Despus de descargar los datos a un software amigable como Stata, el econometrista
se enfrenta al procesamiento de los datos, variables y observaciones para realizar su
anlisis economtrico. A continuacin, se describen algunos de los comandos bsicos
para realizar un buen procesamiento de la base de datos.
3.1 Abrir, guardar y salir
a. Abrir archivos de Stata:
Stata permite varias opciones para abrir o leer ficheros de datos. As, si ya se tienen
grabados los datos en formato Stata (*.dta), podemos abrir el archivo mediante el
men Open o directamente con el comando:
.use
Algunas de las posibilidades que permite el programa para usar este comando son:
Si los datos estn en una carpeta especfica entonces se debe utilizar:
.use C:\carlos\2009\
use t12009
O tambin, para obtener el mismo resultado:
.use C:\carlos\2009\t12009.dta
Se debe tener en cuenta que no es preciso indicar el directorio si los datos estn en el
directorio de trabajo actual (el directorio de trabajo lo da Stata en la lnea inferior de
la pantalla). Por defecto, el directorio de trabajo es C:\DATA. En este caso se debera
usar:
.use t12009
Adems, no es preciso sealar tampoco la extensin .data, ya que el programa lo
asume por defecto.
Tambin podemos abrir datos parciales de un archivo:
.use var1 var2 using t12009
Con la opcin anterior slo se abrirn las variables var1 y var2 del archivo t12009.
Adems, si se desea seleccionar las diez primeras observaciones, entonces se debe
indicar:
.use t12009 in 1/10
Las dos anteriores opciones se pueden combinar seleccionando de un archivo de
datos slo algunas variables y algunas observaciones. Cuando se trabaja al mismo
11
.::UdecomBooks::.
tiempo con varias bases de datos, es importante tener cuidado, ya que si se tienen en
la memoria unos datos en los que se han hecho cambios no grabados e se intenta
abrir un archivo de datos nuevo, Stata dar un mensaje de error con el aviso de que
no se han guardado los cambios. Para evitar esto, se debe incluir al final el comando
.clear, de la siguiente forma:
.use t12009, clear
Tambin se puede abrir un archivo de Stata por medio de ventanas: File Open (o
directamente con el icono Open).
b. Abrir archivos en otro formato
Para abrir datos que todava no estn en formato Stata se utilizan los comandos
.insheet, .infile o .infix, dependiendo del formato y disposicin de los datos
.infile
Este comando permite la lectura de archivos sin formato o con formato ASCII
.infix e insheet
Estos comandos sirven para leer datos desde un fichero auxiliar de formato fijo y
hacer lectura recursiva de algn archivo, respectivamente.
c. Guardar
Para gravar un archivo de datos se utiliza el comando:
.save nombre del archivo
Stata graba el nuevo archivo en el directorio de trabajo y le aade automticamente la
extensin .dta. Si lo que se desea es que el programa lo guarde en el directorio de
trabajo predeterminado, Stata lo guardar por defecto siempre en c:\data. Debemos
escribir .save y el nombre del archivo.
Ahora bien, si se tiene el fichero con ese nombre y se quiere guardar una nueva
versin del mismo, con algunas modificaciones, como por ejemplo, nuevas variables
que hemos creado, se aade el comando .replace.
.save, replace
Si se desea grabar en otro directorio distinto de trabajo, se debe especificar:
.save C:\econometria\nombre del archivo
12
d. Salir
Para salir definitivamente del programa, se puede hacer por el men File, dando click
en la X de la esquina superior derecha o utilizando directamente el comando exit. Hay
que tener en cuenta que si se tienen los datos sin grabar, el programa pedir
confirmacin.
3.2 Describir, listar e inspeccionar
a. Describir datos
Para facilitar la explicacin de los comandos a partir de ahora se trabajar con los
datos auto.dta, que vienen predefinidos como (data examples) en Stata. Se abren los
datos:
.sysuse auto.dta
Una vez se tienen cargados los datos se puede empezar a trabajar con ellos. Lo
primero que se hace es una descripcin bsica de la base de datos. El comando que se
usa para describir la base de datos es:
.describe
O simplemente (d). Con esta opcin se puede ver cuntas observaciones y cuntas
variables se tenan cuando se cre el archivo y qu tamao tiene; as como una
descripcin de cada una de las variables con las que se puede trabajar. En el cuadro 3
se muestra la salida en la ventana de resultados de Stata:
Cuadro 3. Resultados del comando .describe
.::UdecomBooks::.
b. Inspeccionar datos
.inspect
Proporciona un resumen bsico del tipo de valores que tiene una variable numrica y
un histograma de: valores positivos, nulos, negativos, enteros y no enteros de la
variable, as como los valores missing que existen. Estos ltimos estn codificados en
Stata como un punto (.) en las variables numricas y un espacio ( ) en las variables de
texto. As, si se desea inspeccionar una sola variable, se deb escribir .inspect nombre
de la variable; pero si queremos inspeccionar todas las variables se escribe
simplemente .inspect o .inspect _all.
La siguiente tabla representa los resultados que se obtienen con este comando al
introducirlo en Stata con los datos de la base auto generada por el programa.
Como se observa en la tabla, Stata arroja un grfico que muestra una estimacin de la
distribucin de los datos de la muestra de la variable seleccionada. El grfico est
comprendido entre los dos valores extremos que alcanza la variable y muestra una
distribucin aproximadamente normal. Junto a esto, el programa muestra una tabla
que indica si la variable toma valores negativos positivos o iguales a cero, adems de
mostrar si presenta algn caso de missing o no.
mpg:
#
#
#
Mileage (mpg)
#
#
#
#
#
#
Number of Observations
Negative
Zero
Positive
#
#
Total
Missing
12
41
Total
74
Integers
74
74
-
74
Nonintegers
-
74
Otros dos comandos que sirven para inspeccionar los datos son:
.edit
Este comando permite editar la base de datos abriendo la ventana de editor de datos,
mientras que el comando .browse permite ver y revisar los datos que se tienen
cargados en Stata.
c. Listar datos
Igualmente, si se quiere obtener un listado de los valores que tienen las observaciones
de una o ms variables, se usa el comando:
.list
14
Si se desea un listado para todas las variables se usa el comando slo, pero si se quiere
hacer un listado solo de los valores de una variable o de algunas, se escriben los
nombres de las variables despus del comando: .list var1 var2.
Se puede filtrar la lista de tres diferentes maneras, tal como lo muestra la siguiente
lista de ejemplos:
.list var1 var2 in 1/5
Para listar las primeras 5 observaciones de las variables indicadas
.list var1 in -5/-1
Para listar las ultimas 5 observaciones de las variables seleccionadas
.list var1 if var2 <0
Para listar todas las observaciones de la variable var1 para las que se cumple que el
valor de var2 es negativo.
Es importante aclarar que el resultado puede ser muy largo; en estos casos, se puede
cortar el resultado usando la letra (q) en la ventana de comandos: automticamente
se cortar la accin que est ejecutando el programa.
Otros dos comandos que permiten comprender los datos con los que se est
trabajando son .count, que permite conocer cul es el tamao de la muestra, y
.codebook, que muestra una descripcin de los datos, algunas estadsticas
descriptivas como la media y una distribucin de los datos por percentiles.
3.3 Seleccionar y eliminar variables
En ocasiones, en la prctica de la econometra, se tienen bases de datos con un gran
nmero de variables. Para evitar que el trabajo sea engorroso por tener cargadas en el
programa variables que no son de inters, se tienen dos opciones bsicas: i).
seleccionar las de inters o, ii) eliminar las que no son de inters de la memoria.
.keep es el comando de la primera opcin, el cual permite seleccionar las variables de
la base de datos con las que se desea trabajar. Este guarda en la memoria las variables
u observaciones indicadas, eliminando las restantes. Algunos ejemplos del uso de este
comando son:
. keep make price
. keep in 1/100
. keep if price>=0
resto.
Por otro lado, el comando drop es el comando de la segunda opcin, el cual permite
borrar de la memoria las variables u observaciones de la base de datos, conservando
las restantes. Algunos ejemplos pueden ser:
15
.::UdecomBooks::.
. drop price
. drop in 1/15
. drop if price<0
Cuando se usa uno de estos comandos, eliminar o seleccionar, Stata comunica que es
lo que ha hecho con las variables o la muestra.
3.4 Cambiar nombres de las variables y hacer etiquetas
Una vez seleccionadas (filtradas) las variables y la muestra de inters, se pueden
cambiar los nombres acortndolos o poniendo nombres ms intuitivos para facilitar
el trabajo con las variables. Tambin se pueden crear etiquetas (label) a cada una de
las variables para que ayuden a identificar qu es en si la variable. A continuacin se
describe una serie de comandos tiles:
a. Cambiar nombre de variables
Para cambiar los nombres predeterminados de las variables por otros que sean ms
cmodos para el usuario, se utiliza el comando:
. rename
Por ejemplo, para cambiar el nombre de la variable price por precio, se introduce:
. rename price precio
16
17
.::UdecomBooks::.
18
c. Renombrar
Cambia el contenido de una variable ya existente.
.replace
As, si se desea que en la variable edad todas las observaciones que tienen una edad
mayor o igual a 65 tomen el valor de 65, entonces se usa el siguiente comando:
.replace edad=65 if edad=65
d. Renombrando variables
Un comando muy til para renombrar algunas variables ya existentes es:
.rename
Este comando puede cambiar los nombres de las variables para que se ajusten a
nuestro inters, hacer ms cortos los nombres o ms familiares.
e. Otros comandos: sort, gsort
Es muy frecuente la necesidad de organizar una base de datos segn una o varias
variables, dando prioridad al orden de la variable que se pone en primer lugar y as
sucesivamente. Por defecto este comando ordena las observaciones de menor a
mayor.
.sort var1
El comando anterior ordena las observaciones de menor a mayor segn var1
.sort var1 var2
El comando anterior ordena las observaciones por la variable 1 y dentro var1, se
ordena de menor a mayor segn la variable 2.
Un comando que permite elegir como se debe ordenar cada variable, y a su vez,
permite cambiar entre descendente o ascendente para cada variable es:
.gsort +var1 var2
Con este comando ordenamos var1 de menor a mayor y var2 de mayor a menor
3.6 Combinacin de bases de datos
a. Comando merge
Este comando sirve para aadir variables a un archivo de datos que tenemos abierto.
Esto es, pegar datos de forma horizontal, o sea, aadir variables a las observaciones
19
.::UdecomBooks::.
existentes. Hay que tener en cuenta que no se requiere que los dos archivos de datos
tengan exactamente las mismas observaciones. Este comando es muy apropiado
cuando se tienen datos de los individuos que participan en una encuesta y se reciben
datos de un segundo modulo de la encuesta. Por ejemplo, la Encuesta Nacional de
Hogares (ENH), Encuesta Continua de Hogares (ECH) y la Gran Encuesta Integrada de
Hogares (GEIH), realizada por el Departamento Administrativo Nacional de
Estadsticas (DANE).
Para poder llevar a cabo con xito esta orden, ambos conjuntos de datos deben estar
ordenados con base a las mismas variables y en el mismo orden. Entonces, este
comando se usa con el siguiente orden. Primero se abre el archivo de datos (.use), en
segundo lugar se ordenan las variables, en este caso se supone que las variables
ordenadas son var1 y var2 (.sort) y en tercer lugar se hace el Merge:
. merge var1 var2 using ECH
Noten que merge crea una variable adicional _merge, esta variable puede tomar tres
valores que nos sirven para revisar si estamos trabajando correctamente con la base
de datos. Esta variable toma los siguientes valores:
.merge==1
merge==2
merge==3
Recuerde que en ocasiones se puede tener una nueva versin de algunas variables
que pueden combinarse con las anteriores con la opcin update replace.
.merge using filename, update replace
f. Comando append
El comando append es muy til para unir archivos de datos. Esto es, pegar datos de
forma vertical en una base de datos. Al contrario de merge con el que se agregan
variables, este comando agrega observaciones.
. append
Este comando aade un fichero de datos con formato Stata al final del archivo que se
tiene abierto. Es una combinacin vertical de bases de datos, aadiendo al final del
archivo que est abierto las observaciones. Para el uso de este comando no se
requiere que los dos ficheros de datos tengan exactamente las mismas variables.
g. Comando joinby
Este comando puede crear diferentes combinaciones entre varias bases de datos. Y
crea un archivo de datos con todas las parejas entre ficheros. Lo primero es abrir el
archivo de datos (.use) y posteriormente
20
21
.::UdecomBooks::.
Una vez hecho esto, se guarda el archivo en formato *.log con el nombre que se
desea. Tambin es posible realizarlo mediante el uso de comandos, tal como se
menciona a continuacin.
. log using nombre del archivo
Por defecto tiene formato *.smcl (Stata Markup Control Language).
Si se desea que el archivo se pueda abrir en un procesador de texto el comando seria:
. log using nombre del archivo.log
Este ltimo tiene formato ASCII, y se puede abrir en el block de notas, como un
archivo de texto *.txt.
Con los comandos log se puede usar entonces dos nuevos comandos.
El primero es: log using carlos.log, append el cual es similar al comando log using,
pues si existe ya otro fichero con el mismo nombre, continua grabando encima del
archivo.
El segundo comando es: log using carlos.log, replace, el cual lo que hace es
reemplazar el archivo ya existente por el nuevo.
Para ver el log file, usamos el comando (. view).
. view carlos.log
Stata tambin permite abrir o convertir el logfile a un formato de texto y poder
abrirlo en cualquier procesador de texto.
. translate carlos.smcl to hw1.txt
Igual resultado se obtiene, con el siguiente comando:
. translate carlos.smcl to hw1.log
Una vez se abre el archivo log en una sesin iniciada en Stata, la grabacin de este
puede ser se puede interrumpir o reanudar temporalmente interrumpida con el
comando log off o reanudada con el comando log on.
Stata permite tambin que se pueden introduzcan comentarios en el log a travs de
lneas que empiezan por *. Por ejemplo:
*INTRODUCCION Y ANALISIS DE DATOS*
******INTRODUCCION Y ANALISIS DE DATOS******
Basta con un asterisco al principio, pero con muchos (*) el comentario resalta ms y
es de ms ayuda para leer fcilmente el log.
22
23
.::UdecomBooks::.
El nico comando que se desconoce del ejemplo anterior es .set more off. Este
comando es til cuando la extensin de los resultados (en la ventana de resultados)
supera una pgina, entonces Stata pausa el proceso y pregunta si se desea continuar
con la opcin more. El comando set more off, nos permite hacer el do file sin pausas.
La opcin contraria es .set more on.
Para ejecutar un archivo do y mostrar los resultados, se utiliza el siguiente comando:
. do carlos.do
Con esto, una vez reiniciado el programa, el archivo le permite al usuario volver a
correr los comandos guardados en el Dofile y ver todos los resultados en la ventana
Results de Stata.
Por el contrario, para ejecutar un archivo do y no mostrar los resultados, se utiliza:
.run carlos.do
El uso real de Stata se apoya normalmente en la construccin y ejecucin de archivos
do file, ms que en la forma interactiva de trabajo. Por eso, la importancia de estos
comandos, log, do y ado. Recordemos que los do files son archivos de comandos,
mientras que los ado son macro archivos de programacin.
c. Archivos ado file:
Un fichero ado file (que se refiere a un authomatic do file), es como un archivo do,
es decir, es un archivo que contiene una serie de lneas de programacin Stata. Sin
embargo, a diferencia de un fichero do, el ado debe que estar archivado en
determinados directorios y se ejecuta de la misma forma que los dems comandos de
Stata. Los archivos ado se pueden buscar con el comando .sysdir, y los encontraremos
en el directorio preestablecido previamente por Stata o por el autor del archivo ado.
Este tipo de archivos se ejecuta igual que cualquier comando de Stata. Hay que tener
en cuenta que si no se ha creado o se est apenas creando, lo primero es guardarlo
en un directorio predefinido que est usando Stata para luego usar la opcin do.
.do nombre del ado
Este comando le dice a Stata que lea el archivo do. Despus este se debe ejecutar
dndole el nombre del ado. Por otra parte, algunos econmetras han escrito
programas ado que hoy en da se pueden encontrar publicados en el Stata Technical
Bulletin, o directamente en la pgina web de Stata en forma de ado files. Como ya se
mencion, estos programas ado se pueden descargar desde Internet de manera
permanente de tal forma que Stata los reconozca como si fueran comandos internos
(predefinidos) del programa. Estos archivos en su mayora vienen acompaados de un
archivo que explica exactamente la sintaxis y el funcionamiento del nuevo comando.
Entre los ado files que pueden descargarse de Internet se encuentran las
actualizaciones oficiales de Stata.
24
Para buscar e instalar ado files sobre, por ejemplo, desigualdad, hacemos:
Help Search Search net resources inequality (=palabra clave)
Esto genera una lista de ados, con una pequea descripcin. Se entra en los que
interesan y, si se desea instalarlos, se siguen las instrucciones (click here to install).
4. Comentarios finales
El econometrista tiene una amplia gama de software entre los que se puede permitir
hacer una eleccin minuciosa de un programa que vaya acorde a las diferentes
necesidades. Stata es una herramienta utilizada alrededor del mundo pues, adems
de la facilidad y rapidez para su uso, presenta otras mltiples ventajas, no solamente
para los estudiantes y principiantes en el manejo de software de este tipo, sino
tambin para usurarios ms experimentados que tienen certeza sobre la superioridad
del programa.
Una vez los usuarios se hayan iniciado en Stata con los elementos bsicos
anteriormente descritos, puede dar paso ahora al manejo completo del programa
haciendo uso de nuevas herramientas que el software proporciona.
5. Bibliografa
.::UdecomBooks::.
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
26
Anexo 1:
Introduccin a Stattransfer
Un excelente complemento para los usuarios de Stata es el software Stattransfer
(www.stattransfer.com) y/o (www.stata.com). Este programa es de gran utilidad para
la conversin de bases de datos de un formato a otro. Por ejemplo, si se tiene acceso
a unos datos en SPSS, Epi-info, SAS, Excel, o datos en otro formato; con Stattransfer se
pueden convertir a archivos de Stata con mucha facilidad.
El programa no slo permite pasar a Stata, sino que convierte los datos que se tengan
en cualquier otro formato, si se desea. Es importante aclarar que Stattransfer no tiene
todos los formatos en los que se puede trabajar una base de datos, pero si tiene una
amplia gama de programas estadsticos y economtricos que son convencionalmente
usados en la docencia y la investigacin econmica.
En el Cuadro 2 se presenta la salida inicial de Stattransfer 9. A continuacin, se hace
una breve descripcin de cmo usar este programa para convertir bases de datos a
diferentes extensiones. El programa tiene un men de opciones que no es necesario
saber usar para convertir una base de datos de una extensin o formato a otra. No se
profundizar en este men dado que presenta opciones avanzadas son opciones para
expertos y la idea es slo introducir al lector en el uso de este programa.
Se puede observar que el programa tiene dos opciones: tipo de datos de entrada
(Input File Type) y tipo de datos de salida (Output File Type), en la primera de ellas se
selecciona la extensin o programa en el que se tiene la base de datos, e
inmediatamente en la parte de abajo se selecciona la ubicacin donde se encuentra el
archivo (se puede hacer con browse o view), as, con el paso anterior, el programa
identifica el archivo y formato o programa en el cual se tienen originalmente los datos.
Ahora bien, el siguiente paso es seleccionar la extensin o programa en el que se
desea tener los datos, esto se hace en la opcin tipo de datos de salida, y, una vez
seleccionado un formato, en la parte inferior elegimos el folder o carpeta donde
queremos guardar la nueva base de datos convertida a la extensin que hemos
seleccionado. Tenga en cuenta que Stattransfer le dar automticamente la misma
ubicacin al nuevo archivo donde se encuentran los datos originales.
Seleccionados el tipo de datos de entrada y el tipo de datos de salida, y sus respectivas
ubicaciones se activar la opcin transfer, con darle click, el programa empezar a
transformar los datos a la nueva extensin. Una vez termina podemos ver el nuevo
archivo creado con la extensin que se ha predefinido; tambin se puede iniciar otro
proceso de conversin con la opcin reset o salir del programa con exit.
27
.::UdecomBooks::.
28
Resumen
Este documento est dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de hacer anlisis de estadsticas descriptivas, tablas y grficos en
Stata.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
.::UdecomBooks::.
1 Introduccin
En esta sesin se mencionarn distintas herramientas que proporciona Stata para
analizar los datos, como un primer paso. Las formas ms utilizadas para esto es
mediante tablas estadsticas y el anlisis grfico.
Para empezar a usar Stata, se har una breve descripcin de las estadsticas
descriptivas y los grficos que ofrece Stata, ya que estos son fundamentales para
hacer un buen anlisis previo de los datos que se tienen antes de la realizacin de las
regresiones economtricas.
El objetivo es acercar a los interesados en la econometra a uno de los pasos
fundamentales de todo anlisis economtrico, en este caso, el procesamiento y
comprensin de los datos con los que se est trabajando. De hecho, antes de realizar
la estimacin de cualquier modelo, el econometrista se enfrenta a descargar los datos
a un software en el cual pueda trabajar. Una vez se han sido cargados los datos en
Stata, el paso siguiente es el procesamiento de los mismos. Este paso es de vital
importancia pues, los investigadores deben tener presente la estructura de datos con
la que estn trabajando a lo largo del desarrollo del ejercicio. Obtener algunas
estadsticas descriptivas de la base de datos es fundamental para analizar fcilmente
el comportamiento de las variables que se usarn en un futuro para realizar las
regresiones. Finalmente, es importante poder hacer grficos y tablas que permiten, en
muchos casos, hacer un anlisis intuitivo del comportamiento de las variables y de los
datos.
Con base en lo anterior, este documento se estructura en cuatro secciones. La primera
de ellas es esta introduccin, donde se presenta la motivacin para iniciar al usuario al
anlisis de datos, siendo esto parte fundamental del trabajo del econometrista. En la
segunda seccin se hace muestra de las estadsticas descriptivas bsicas mediante
tablas que proporciona el software. En la tercera parte, se hace una introduccin al
anlisis grfico como una opcin alternativa para el usuario en la revisin de los datos.
En la cuarta y ltima seccin, se hacen unos breves comentarios finales intentando
introducir al lector al siguiente documento, mostrando tambin la bibliografa que se
utiliz para la construccin del documento.
2 Estadsticas descriptivas
En econometra, despus de obtener los datos y organizarlos es necesario realizar
algunas estadsticas bsicas para familiarizarnos con las variables de la base de datos.
Es por ello que en esta seccin se presentan algunos de los comandos bsicos que
tiene predefinido Stata para realizar estadsticas descriptivas.
Para una mejor explicacin de la realizacin de las estadsticas descriptivas, en esta
sesin se utilizar como ejemplo la base de datos WAGE1.RAW tomada de Wooldridge
(2002).
Obs
Mean
Std. Dev.
Min
Max
wage
educ
exper
tenure
nonwhite
526
526
526
526
526
5.896103
12.56274
17.01711
5.104563
.1026616
3.693086
2.769022
13.57216
7.224462
.3038053
.53
0
1
0
0
24.98
18
51
44
1
female
married
numdep
smsa
northcen
526
526
526
526
526
.4790875
.608365
1.043726
.7224335
.2509506
.500038
.4885804
1.261891
.4482246
.4339728
0
0
0
0
0
1
1
6
1
1
south
west
construc
ndurman
trcommpu
526
526
526
526
526
.3555133
.1692015
.0456274
.1140684
.0437262
.4791242
.3752867
.2088743
.318197
.20468
0
0
0
0
0
1
1
1
1
1
trade
services
profserv
profocc
clerocc
526
526
526
526
526
.2870722
.1007605
.2585551
.3669202
.1673004
.4528262
.3012978
.4382574
.4824233
.3735991
0
0
0
0
0
1
1
1
1
1
servocc
lwage
expersq
tenursq
526
526
526
526
.1406844
1.623268
473.4354
78.15019
.3480267
.5315382
616.0448
199.4347
0
-.6348783
1
0
1
3.218076
2601
1936
Como se observa, este comando permite obtener, por ejemplo, la media que
representa el valor promedio que alcanza determinada variable en la muestra con la
que se trabaja; la desviacin estndar, que representa el valor promedio en que se
desvan las observaciones de la media muestral; el valor mnimo y el valor mximo que
alcanzan las variables dentro de la muestra, y el nmero de observaciones que se
tienen para cada variable de la base de datos.
Para la realizacin de la descripcin estadstica de cada una de las variables por
separado, se debe utilizar el mismo comando anterior pero con la especificacin de la
variable que se desea describir:
.summarize var1
3
.::UdecomBooks::.
1%
5%
10%
25%
50%
75%
90%
95%
99%
Percentiles
4
8
9
12
Smallest
0
0
2
3
12
14
16
17
18
Largest
18
18
18
18
Obs
Sum of Wgt.
Mean
Std. Dev.
Variance
Skewness
Kurtosis
526
526
12.56274
2.769022
7.667485
-.6195741
4.884245
Freq.
Percent
Cum.
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
2
1
1
3
1
6
4
22
17
30
29
198
39
53
21
68
12
19
0.38
0.19
0.19
0.57
0.19
1.14
0.76
4.18
3.23
5.70
5.51
37.64
7.41
10.08
3.99
12.93
2.28
3.61
0.38
0.57
0.76
1.33
1.52
2.66
3.42
7.60
10.84
16.54
22.05
59.70
67.11
77.19
81.18
94.11
96.39
100.00
Total
526
100.00
Este comando permite obtener la frecuencia de los datos. Por defecto, aparecen las
frecuencias absolutas, las porcentuales y las porcentuales acumuladas. Algunas
opciones adicionales para este comando son:
. tabulate var1, plot
. tabulate var1, nolabel
Con la primera opcin se obtienen las frecuencias absolutas junto con un pequeo
grfico de barras que representa dichas frecuencias. Con la segunda opcin, se
obtienen en la tabla los valores de las variables, en lugar de las etiquetas de esos
valores, eso si, solamente cuando se tiene asignada una etiqueta a dichos valores.
Adicionalmente a esto, el comando tabulate arroja tambin tablas de cruce de
variables (tambin llamadas tablas de doble entrada). As por ejemplo, si se desea
cruzar la variable 1 con la variable 2, simplemente se introduce:
.tabulate var1 var2
A continuacin se muestra el uso de este comando haciendo una tabla de cruce entre
la variable aos de educacin y la variable gnero, esta ltima siendo una variable
dummy que toma el valor de 1 si se trata de una mujer y 0 en caso contrario.
.::UdecomBooks::.
=1 if female
0
Total
0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
0
1
1
3
0
4
2
15
8
13
17
85
14
31
12
45
10
13
2
0
0
0
1
2
2
7
9
17
12
113
25
22
9
23
2
6
2
1
1
3
1
6
4
22
17
30
29
198
39
53
21
68
12
19
Total
274
252
526
Por defecto, con este comando aparecen slo las frecuencias absolutas. Sin embargo,
algunas de las opciones que se pueden especificar son:
=1 if female
0
1
32
39
51
41
37.75
32
30.2667
16.125
20.9231
14.3529
16.8118
18.5
17.9032
14.5833
12.8667
14.9
10.6154
34
16
30.5
33.8571
15.7778
10.1765
13.3333
19.1504
12.88
13.6364
11.7778
11.3478
5.5
12.1667
Esta tabla revela entonces el nmero de aos de educacin para los individuos de la
muestra separndolos entre mujeres y hombres media la variable dummy female.
.::UdecomBooks::.
c. Correlaciones
Otro estadstico relativamente importante en econometra es el anlisis de
correlaciones. El comando para realizar correlaciones es:
.correlate var1 var2
Esta opcin es til cuando se tienen dos variables, pero tambin puede utilizarse
cuando se tienen ms de dos variables, de la siguiente manera:
.correlate var1 var2 var3 var4
As, con el comando anterior, se calcula el coeficiente de correlacin de Pearson y
aparecer, como se muestra a continuacin, una matriz de correlaciones. Al igual que
con todos los comandos anteriores, podemos usar filtros para usar slo una parte de
la muestra o usar alguna variable de control.
Tabla 6. Matriz de correlaciones
educ
exper
expersq
female
married
educ
exper
expersq
female
married
1.0000
-0.2995
-0.3313
-0.0850
0.0689
1.0000
0.9610
-0.0416
0.3170
1.0000
-0.0279
0.2173
1.0000
-0.1661
1.0000
Esta tabla ensea todas las correlaciones que hay entre dos de las cinco variables
especificadas: se trata de una matriz diagonal.
d. Algunos tests de comparacin de medias
En ocasiones es necesario hacer una comparacin de medias antes de pasar a hacer la
estimacin del modelo. Utilizando el comando ttest. Este comando se utiliza
introduciendo en la ventana de comandos de Stata lo siguiente:
ttest var1, by(var2)
Con esto, se obtiene un test de comparacin de medias donde se puede contrastar la
hiptesis de que las medias de la variable (var1) son iguales y no dependen de la
variable (var2).
Obs
Mean
0
1
274
252
combined
526
diff
Std. Err.
Std. Dev.
12.78832
12.31746
.1814107
.1557618
3.002882
2.472642
12.43118
12.01069
13.14546
12.62423
12.56274
.1207351
2.769022
12.32555
12.79992
.4708609
.2410361
-.002655
.9443767
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.0513
1.9535
524
con
todas
las
opciones
antes
descritas.
help
.::UdecomBooks::.
.graph combine
Los comandos que permiten imprimir grficos son:
.graph print
.graph printcolor
.graph export
Los comandos que permiten realizar operaciones con los grficos que estn en la
memoria son:
.graph display
.graph dir
.graph rename
.graph copy
.graph drop
a. Diagrama de dispersin (scatter)
Uno de los grficos ms comunes en econometra es el diagrama de dispersin. Con el
comando scatter se pueden representar las observaciones en una nube de puntos.
Con las opciones line se unen las observaciones, y la opcin connected une las
observaciones representadas por los puntos.
.scatter var1 var2
10
20
var1
30
40
2,000
3,000
4,000
5,000
var2
El diagrama anterior muestra entonces la dispersin entre dos variables: var1 y var2.
La opcin anterior muestra cmo se puede hacer un slo grfico; sin embargo
tambin existe la posibilidad de hacer varios grficos.
10
years of education
10
15
20
c. Grficos de barras
sta es una de las opciones ms comunes de grficos que se pueden encontrar para
analizar tanto la evolucin de una variable como su comportamiento. Con esta opcin
se pueden realizar grficos de barras en presentacin vertical (.graph bar) y tambin
horizontal (.graph hbar). Hay que tener cuidado pues el eje Y es la variable numrica y
el eje X es la variable categrica.
11
.::UdecomBooks::.
10
15
20
mean of wage
mean of educ
10
mean of wage
mean of educ
mean of exper
15
20
mean of exper
mean of wage
5
10
9 10 11 12 13 14 15 16 17 18
12
10
20
var1
30
40
2,000
3,000
4,000
5,000
var2
e. Histogramas
Con este comando se pueden hacer histogramas de variables continuas y discretas.
Permite la opcin fweiht y la opcin by. La opcin por defecto sobrepone al
histograma el grfico de una distribucin normal.
.histogram var1
Este comando arroja un grfico como el siguiente:
.02
.04
Density
.06
.08
.1
10
20
30
40
var1
13
.::UdecomBooks::.
10
15
20
25
20
25
20
40
60
Frequency
80 100 120 140 160
10
15
average hourly earnings
14
uno junto al otro: entrando nuevamente en Browse, se buscan cada uno de los
grficos:
Al dar la opcin OK, una vez seleccionados los grficos, Stata abre inmediatamente
una nueva ventana con los tres o cuatro grficos seleccionados ya todos incluidos en
un mismo recuadro, de la siguiente manera:
mean of wage
4
6
kdensity wage
.05
.1
.15
.2
10
15
20
25
Male
Female
-1
.2
log(wage)
1
2
Density
.4
.6
.8
-1
1
log(wage)
10
15
years of education
20
Los grficos que se observan en la Salida de Stata que se realizaron en este ejemplo
son: [1] Es el grfico que muestra la densidad del salario, realizado mediante el
comando twoway kdensity wage; [2] grfico de barras que representa los salarios por
divisin en gnero; [3] es el histograma que muestra una aproximacin a la
15
.::UdecomBooks::.
distribucin del la variable logaritmo del salario; y, por ltimo, [4] es el grfico de
dispersin entre el logaritmo del salario y los aos de educacin del individuo.
4 Comentarios finales
Este documento pretende mostrar al usuario de Stata la amplia gama de posibilidades
que el programa ofrece para hacer un anlisis minucioso de los datos que se tienen
con el fin de dar inicio al trabajo deseado. La revisin de los datos es un primer paso
que no se debe obviar pues hace parte fundamental del trabajo del econometrista.
Es importante variar en el uso de las herramientas para las estadsticas descriptivas,
utilizando mtodos grficos y tablas simultneamente para as tener una mejor visin
de aquellas variables de inters y de la muestra suministrada.
Una vez realizado este segundo paso en el manejo de las bases de datos, el usuario
puede ahora pasar a realizar las regresiones que crea pertinentes para el modelo
encontrado que se ajusta al anlisis que est llevando acabo. El software Stata
permite continuar an ms con las regresiones y las correcciones de los posibles
problemas economtricos hallados en el camino.
5. Bibliografa
16
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
17
.::UdecomBooks::.
Resumen
El objetivo de este documento es introducir al lector en el mbito de la econometra y
del Modelo de Regresin Lineal Simple (MRLS), siguiendo una metodologa bsica
sobre la especificacin, estimacin, contrastes y proyecciones del modelo, y realizando
su aplicacin en el programa economtrico Stata.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
1 Introduccin
Pocas obligaciones si alguna supera en importancia a la que los economistas
profesionales tienen de conocer y comprender las herramientas bsicas de la
econometra para el desarrollo de su profesin. Un deber cuyo cumplimiento importa
cada da ms a un amplio nmero de agentes y participantes del proceso econmico.
Adems, estos agentes precisan disponer de las conclusiones que esta herramienta les
puede proporcionar en estudios empresariales, consultoras e investigaciones. As por
ejemplo, algunos agentes econmicos a los cuales les debera interesar la econometra
son, los empresarios, cuyas decisiones estn esencialmente afectadas por la
informacin que disponen con respecto a la relacin de las variables del entorno
empresarial y general de la economa en la que desarrollan sus actividades. Los
polticos y servidores pblicos cuyas elecciones tienen que guardar coherencia con las
teoras, los datos, las regularidades empricas y hechos estilizados de la economa.
Finalmente, los ciudadanos como consumidores necesitan una herramienta para
analizar su toma de decisiones.
Los economistas jvenes y los que todava estn estudiando sabrn que antes de
tener su grado como profesionales deben pasar por materias de matemticas,
estadsticas y de teora econmica, antes de llegar a la econometra. Y es en esta
ltima donde surge una excelente combinacin de las matemticas, estadsticas y de
teora econmica para alcanzar lo que los economistas podramos llamar la capacidad
de anlisis econmico. Pero sorprende que esta herramienta, considerada como vital
para la formacin de los economistas y de otras disciplinas o profesiones similares, no
cuente en muchos pases en vas de desarrollo con obras que pongan al da a los
usuarios sobre los mtodos que se utilizan hoy y los softwares ms especializado para
interpretar correctamente las realidades econmicas y no pasar el oso, por
quedarse en meras intuiciones o anlisis estadsticos bsicos, o tal vez, por usar un
software desconocido por la comunidad cientfica de la disciplina.
Esa ausencia de un documento que presente los mtodos economtricos y un
software de calidad para el anlisis econmico, se cubre en esta serie de documentos.
De ah que el objetivo de este tercer documento sea introducir al lector en la
econometra y en el modelo de regresin lineal simple usando un software de frontera
como lo es Stata. A este documento lo preceden otros dos: 1. Aprendiendo a usa Stata
y 2. Describiendo y graficando datos en Stata.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. El documento es una herramienta de apoyo y no sustituye los
manuales de Stata, ni a los libros ms rigurosos de econometra.
El documento consta de ocho apartados, el primero de ellos es esta introduccin. En
el segundo apartado se hace una introduccin a la econometra, pasando por su
definicin, algunos conceptos bsicos, los datos y la metodloga de la econometra. En
el tercer apartado se presenta la especificacin del modelo. En el cuarto apartado se
presenta la estimacin del modelo usando el mtodo MCO. En el quinto apartado se
2
.::UdecomBooks::.
Y = a + bX
4
.::UdecomBooks::.
Y = 0 + 1 X +
Donde la variable representa el trmino de error del modelo. Es importante recordar
que en este caso se trata de un modelo que representa una relacin lineal entre la
variable X y la variable Y.
Una vez estimado el modelo, este se escribe de la siguiente manera: Y = 0 + 1 X
donde cada variable o parmetro acompaado de un acento hace referencia a un valor
estimado.
En econometra, la variable dependiente (Y) es llamada tambin variable endgena,
regresando, variable explicada, predicha o de respuesta. De la misma forma, la variable
independiente (X) se le puede tambin llamar variable exgena, regresor, variable
explicativa, predictor o de control.
Ahora bien, en economa buscamos relaciones determinanticas de las variables
econmicas. Lo cual implica que detrs de los datos y las regresiones debe existir un
marco terico o una prueba estadstica de que la relacin entre la variable
dependiente y las independientes no es una mera correlacin, sino que buscamos una
relacin causal, llamada causalidad. La variable X causa a Y. La asociacin de estos dos
conceptos es fuente de numerosos errores de interpretacin que, en ocasiones, han
tenido graves consecuencias en las decisiones que toman los economistas. Por lo
tanto, es importante entender que es cada uno de estos dos conceptos. Segn Gujarati
(2010):
i. Correlacin: Mide la fuerza o el grado de asociacin lineal entre dos variables. Hay
que tener en cuenta que una relacin estadstica, por mas fuerte o sugerente que sea,
nunca podr establecer una conexin causal.
ii. Causalidad: La relacin de causalidad debe provenir de estadsticas externas y, en
mejor trmino, de una u otra teora. Lo que se debe notar es que una relacin
estadstica por si misma no puede, por lgica, implicar causalidad.
No olviden que lo que buscamos en economa (y en econometra) es un efecto causal y
no una mera correlacin. Para aducir causalidad se debe acudir a consideraciones a
priori o tericas. Y si buscamos o estimamos una correlacin que no est mal es
importante aclararlo.
5
Las series de tiempo son muestras que recogen observaciones de un mismo individuo,
empresa, familia o pas a lo largo del tiempo. Son variables que tiene un horizonte
temporal un principio y un fin en el tiempo. Por ejemplo, las ventas de una
determinada empresa a lo largo de varios aos representan una muestra de series de
tiempo, tal como se muestra en la tabla 2:
.::UdecomBooks::.
Por ltimo, los datos de panel son datos de informacin combinada entre cortes
transversales y series temporales. La informacin sobre el PIB para diferentes
provincias en un rango de tiempo son datos de panel:
Tabla 3. Datos de panel
La etapa de estimacin consta de dos pasos que son la obtencin de los datos y la
estimacin de los parmetros del modelo economtrico.
Ms adelante, se deben hacer las respectivas pruebas de hiptesis como mtodo para
contrastar, dentro de las cuales estn las pruebas de significancia tanto individual
como conjunta y la verificacin de los ajustes del modelo. Tambin en esta etapa se
contrasta la existencia de problemas economtricos como multicolinealidad,
heteroscedasticidad, autocorrelacion, omisin de variables relevantes, errores de
medicin y distribucin normal de los errores, entre otros.
Por ltimo, no se debe olvidar hacer las proyecciones, etapa de suma importancia
dentro del estudio. Este paso se refiere a la realizacin de un pronstico o prediccin
acompaado de un comentario sobre la utilizacin del modelo y su importancia en
fines como el control o la poltica econmica.
3. Especificacin del MRLS
La regresin lineal simple, como ya se mencion dentro de los conceptos bsicos de la
econometra, se habla de regresin lineal en el caso en que hay una relacin de
linealidad entre la variable dependiente y las independientes. Los mtodos de
estimacin ms frecuentes son el de Mnimos Cuadrados Ordinarios (MCO) y el de
Mxima Verosimilitud (MV). El mtodo de MCO es el ms comn por ser mucho ms
intuitivo y matemticamente ms sencillo que el de MV. Adems, en el contexto de la
regresin lineal, ambos proporcionan resultados bastante similares.
3.1 Modelo econmico
El modelo, tal como se mencion anteriormente, se trata de una funcin de
dependencia bsica que plantea la teora econmica:
Y = f (X )
Y = a + bX
Donde Y es la variable dependiente, X es la variable independiente o explicativa, a es el
parmetro constante y b es el parmetro dependiente. Esta ecuacin es la ecuacin de
una recta de pendiente b y de ordenada al origen a en un eje cartesiano tradicional.
3.3 Modelo economtrico
Ahora, el modelo matemtico se convierte en modelo economtrico en el momento
en el que se agrega una variable aleatoria al modelo: esta variable es el trmino de
.::UdecomBooks::.
error, o variable estocstica, generalmente representada por una letra griega al final
de la ecuacin, tal como se muestra aqu:
Y = 0 + 1 X +
Donde la variable representa el trmino de error del modelo. Es importante recordar
que en este caso se trata de un modelo que representa una relacin lineal entre la
variable X y la variable Y.
Para la especificacin del modelo, debe existir una teora: se hace referencia a la teora
econmica en esta etapa. Para una mayor claridad, se har mencin al ejemplo del
libro de Wooldridge (2002) en el cual se estima la ecuacin bsica minceriana de
salarios, especificada de la siguiente manera:
lwagei = 0 + 1educi + i
Para la especificacin particular de este modelo, es importante conocer la teora del
capital humano desarrollada por Becker (1964) pues esta relaciona el salario percibido
con variables como la educacin y la experiencia. Esta teora establece como variable
dependiente, el logaritmo del salario del individuo, en funcin del nivel de educacin,
la experiencia, la experiencia al cuadrado, y otras variables que explican el nivel salarial
de los individuos1. Becker enfatiza su teora con el supuesto de que las personas son
racionales y hacen sus elecciones teniendo en cuenta costos y beneficios, y que
adems tienen la posibilidad de elegir si educarse o no y si trabajar o no. Sumado esto
al trabajo de Mincer (1974), qued demostrado que tanto la educacin como la
experiencia estn relacionadas positivamente con el logaritmo del salario. De hecho,
tendera a haber una correlacin positiva entre la escolaridad y las inversiones en la
experiencia laboral, no porque estas sean complementarias sino porque generalmente
individuos que invierten en capital humano, lo hacen simultneamente de las dos
formas (Chiswick, 2003).
La teora econmica se debe usar de manera pertinente en a la hora de la
especificacin del modelo pues es a partir de esta que se proporcionan los argumentos
que sustentan los signos esperados de las variables en el modelo economtrico. Es
adems fundamental basarse en una teora que se ajuste a los datos con los que se va
a trabajar.
Las teoras generalmente surgen de una intuicin proveniente de una regularidad
emprica que es corroborada por las estimaciones economtricas cientficas a lo largo
En este caso se utilizar solamente la primera variable dependiente especificada por la teora debido a
que se est planteando la especificacin de un modelo de regresin lineal simple.
del tiempo. Las hiptesis surgen como base para el planteamiento de un problema o
inquietud que se desea confirmar con experiencia.
4. Estimacin del MRLS
La estimacin se hace por el mtodo de MCO. Este mtodo tiene ciertos supuestos y
propiedades que es pertinente que sean estudiados para una mejor comprensin de la
tcnica que utiliza la econometra.
La estimacin en econometra trata de encontrar un mtodo para hallar una recta que
ajuste de una manera adecuada la nube de puntos definida por todos los pares de
valores muestrales ( xi ; yi ) tal como se muestra en el siguiente grfico:
-1
10
years of education
log(wage)
15
20
Fitted values
.::UdecomBooks::.
2
i
2
= (Yi Yi )
= (Yi 1 2 X i ) 2
El criterio considera que la funcin que mejor se ajusta a los datos es la que minimiza
la varianza del error , lo que es equivalente a minimizar:
n
i =1
i =1
S ( 0 , 1 , 2 ,..., k ) = i 2 = ( yi ( 1 + 2 x1i ) )
Var[ i ] = 2
E[ i j ] = 0 donde i j, es decir que los errores son independientes entre s
E[ i j ] = 0 donde i j
11
(x x )
i
i =1
(x x )
i
t =1
S = (Yt 1 2 X t )2
t =1
( X X )(Yi Y )
=
2 = ni
2
i =1
(Xi X )
i =1
x y n.x. y
i
i =1
n
n.x
1 = Y 2 X
i =1
.::UdecomBooks::.
SS
df
MS
Model
Residual
27.5606288
120.769123
1
524
27.5606288
.230475425
Total
148.329751
525
.28253286
lwage
Coef.
educ
_cons
.0827444
.5837727
Std. Err.
.0075667
.0973358
t
10.94
6.00
Number of obs
F( 1,
524)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
526
119.58
0.0000
0.1858
0.1843
.48008
P>|t|
0.000
0.000
.0678796
.3925563
.0976091
.7749891
La tabla se divide en tres partes: la primera es la que muestra la tabla ANOVA de las
sumatorias de los residuos; la segunda muestra algunos detalles de la estimacin como
el nmero de observaciones y otra informacin que ms adelante se analizar; y, por
ltimo, la tabla con el resultado del estimado, el error estndar, el valor de la prueba
t, el valor p y el intervalo de confianza.
13
lwage
Coef.
educ
_cons
.0827444
.5837727
Std. Err.
.0075667
.0973358
t
10.94
6.00
P>|t|
0.000
0.000
.0678796
.3925563
.0976091
.7749891
y = 0 + 1 x1 + i
y
= 1
x1
14
.::UdecomBooks::.
= 1
( x1 / x1 )100 100
ln( y ) = 0 + 1 ln( x1 ) + i
1
1
y = 1 x
y
x1
y / y
= 1
x1 / x1
En este caso, se puede decir que ante un cambio en 1 porciento en la variable
independiente x1 se esperara que y variara en 1 porciento, ceteris paribus.
En el caso en que el modelo tenga un logaritmo en la variable dependiente solamente
(modelo log-nivel):
ln( y ) = 0 + 1 x1 + i
1
y = 1.x
y
y 1
= 1
x1 y
( y / y )100 = (100)
x1
15
La tabla siguiente resume las interpretaciones de los coeficientes en los distintos tipos
de modelos economtricos:
Modelo
Variable
dependiente
Variable
independiente
Nivel nivel
Nivel log
Log(x)
Log nivel
Log(y)
Log log
Log(y)
Log(x)
Interpretacin de 1
y
= 1
x1
y
= 1
( x1 / x1 )100 100
( y / y )100 = (100)
x1
y / y
= 1
x1 / x1
Para realizar la prueba de hiptesis se debe tener en cuenta el valor del estadstico t o
su valor p asociado. El criterio para rechazar la hiptesis nula es que si el valor p es
menor que un de 0.01, 0.05 o 0.10, se rechaza H0 y el coeficiente ser significativo al
99%, 95% o 90%, respectivamente. Se debe tener en cuenta que la hiptesis se debe
16
.::UdecomBooks::.
17
= y i 2 + i 2 + 2 y i 2 i 2
= yi 2 + i 2
De aqu que:
= 2 2 xi 2 + i 2
La sumatoria
SCR SCE
+
SCT SCT
(Yi Y )2
(Y Y )
i
(Y Y )
2
(Y Y )
=
(Y Y )
i
i
SCE
SCT
El valor del coeficiente se encuentra comprendido entre cero y uno: a medida que el
coeficiente se acerca a cero, el ajuste del modelo es menor, es decir hay menor
nmero de variaciones de la variable dependiente que son explicadas por cambios en
las variables independientes. De la misma manera, a medida que se acerca a uno el
modelo presenta un mejor fit.
18
.::UdecomBooks::.
En la tabla que muestra Stata tras hacer la regresin del modelo lineal simple, se
observa el coeficiente de determinacin ya calculado. En este caso, tiene un valor de
0,1858, nmero suficientemente cercano a cero como para decir que el modelo no
presenta un buen ajuste. Se puede interpretar entonces que el 18,58% de las
variaciones en el salario estn explicadas por variaciones en los aos de educacin del
individuo.
Por ltimo, hay otros contrastes necesarios como el de heteroscedasticidad,
multicolinealidad, autocorrelacin, especificacin, errores de medicin, normalidad de
los errores, variables omitidas, etc., que se realizaran en el modelo de regresin lineal
mltiple que se explicar ms adelante.
6. Proyecciones del MRLS
Tambin se puede usar los valores estimados para encontrar el valor medio y la
proyeccin para el valor esperado de la variable dependiente. Es importante saber
que:
E[ yi | X = xi ] = E[ 0 + 1 xi + ]
E[ yi | X = xi ] = 0 + 1 xi + E[ ]
E[ yi | X = xi ] = 0 + 1 xi
Ahora, hay que tener en cuenta que el valor esperado de la variable dependiente
(prediccin media) dado un determinado valor de X, se refiere al promedio esperado
para Y, mientras que la proyeccin de la variable dependiente dado un determinado
valor de X (prediccin individual) se refiere al valor que se espera de Y y no a su valor
medio.
Para la realizacin de las proyecciones en el software Stata, el comando que se utiliza
es:
.predict yest, xb
Donde yest es el nombre de la variable estimada que ahora aparecer en el archivo de
datos de ltima en el listado de las variables, y xb estipula que se haga una prediccin
lineal.
En la siguiente tabla se muestra la prediccin de la variable Y del ejemplo de los datos
de Wooldridge que se estn usando en este caso, tras la regresin del modelo
planteado anteriormente:
19
20
.::UdecomBooks::.
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
21
Resumen
El objetivo de este documento es introducir al lector al modelo de regresin lineal
mltiple (MRLM), siguiendo una metodologa bsica sobre la especificacin,
estimacin, contrastes y proyecciones del modelo, y realizando su aplicacin en el
programa economtrico Stata.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
.::UdecomBooks::.
1 Introduccin
Generalmente en economa, los fenmenos no son explicados por nicas variables,
pues estos estn determinados por un sinnmero de interacciones de distintas
variables y actores. Rara vez la teora econmica es tan simple como para explicar el
comportamiento de una variable solamente a partir de cambios en otra. Para poder
explicar variaciones en una determinada variable econmica, la economa apela a la
modelizacin para facilitar la comprensin de los acontecimientos: de esto surge el
modelo de regresin lineal mltiple.
En la regresin lineal simple, el valor promedio de una variable dependiente est
determinado como una funcin lineal de una constante y una nica variable
explicativa. Es importante conocer primero los detalles de la regresin simple para
tener una aproximacin a la regresin mltiple. Para esto, se recomienda estudiar
primero el documento que precede a este titulado Introduccin a la Econometra y el
MRLS con Stata.
La regresin lineal mltiple simplemente incrementa el nmero de variables
explicativas. Se trata entonces de un modelo que pretende relacionar una variable
dependiente con un conjunto de variables exgenas. La variable dependiente,
tambin llamada regresando o explicada, se designa generalmente como Y , y las
variables dependientes, regresores o explicativas, se designan generalmente por
X 1 , X 2 ... X k . La variable Y es entonces funcin de k factores explicativos:
Y = f ( x1 ; x2 ...xk )
El nmero de variables dependientes x vara de acuerdo con la teora econmica y la
variable que se desee explicar.
El objetivo de este documento es acercar al lector a la formalizacin de un modelo
economtrico mucho ms utilizado en el amplio mundo de la economa, con el fin de
que se inicie en la labor del econometrista haciendo una aproximacin de las
relaciones entre variables mucho ms acertada.
Este documento va dirigido a todos los estudiantes, profesores e investigadores en
economa deseosos de empezar a usar el programa, o profundizar sus conocimientos
en la herramienta. El documento es una herramienta de apoyo y no sustituye los
manuales de Stata, ni a los libros ms rigurosos de econometra.
2 Especificacin
Como ya se ha mencionado en los anteriores documentos, una parte fundamental
para iniciar en el proceso de regresin de un modelo economtrico es la obtencin y
el anlisis de los datos. Para un efectivo conocimiento de los mismos, se recomienda
realizar una serie de estadsticas descriptivas, utilizando herramientas como tablas y
grficos para as lograr saber frente a que tipo de estructura de datos se enfrenta el
econometrista.
2
y1
x11
y
2
x
Y = .
, X = 12
...
.
x1n
y
n n x 1
1
1
... xk 1
2
2
... xk 2
, = . y = .
... ...
.
.
... xkn n x k
n n x 1
n n x 1
x21
x22
...
x2 n
Donde la variable dependiente es una variable aleatoria que est en funcin de las k
variables independientes y un trmino de error u. El primer subndice de las variables
explicativas representa la posicin de la variable como tal, mientras que el segundo
subndice representa las n observaciones determinadas de la muestra. Esta forma
matricial de escribir el modelo es equivalente a:
Yi = 1 X 1 + 2 X 2 + 3 X 3 + ... + k X k + i
i = 1, 2...n
Y = X +
En el ejemplo de Wooldridge (2002), el modelo de regresin lineal mltiple, teniendo
en cuenta la teora econmica de la ecuacin de salarios de Mincer, se especifica as:
lwagei = 0 + 1educi + 2 exp eri + 3 exp eri 2 + i
i = 1, 2,...526
Donde lwage representa el logaritmo del salario, educ representa los aos de
educacin, exper representa los aos de experiencia del individuo y exper2 los aos de
experiencia al cuadrado que muestra los rendimientos decrecientes a lo largo del
tiempo. La muestra tiene 525 observaciones y se trata de una base de datos de corte
transversal.
2.1 Supuestos del modelo terico
.::UdecomBooks::.
Un primer supuesto sobre el modelo es el que plantea que la variable Y es una variable
aleatoria ya que depende de la variable estocstica y adems debe haber una
relacin lineal entre la variable dependiente Y y las variables explicativas X s.
Otro supuesto para el modelo de regresin lineal mltiple es sobre el trmino de
error. Este supuesto plantea que el residuo es una variable aleatoria con valor
esperado nulo, E ( ) = 0 y matriz de varianzas y covarianzas constante y diagonal. Es
decir que para todo i la variable tiene media cero y varianza no dependiente de i.; la
violacin de este supuesto genera un problema de heteroscedastidad. Adems,
cov(i ; j ) = 0 lo que quiere decir que los errores no estn correlacionados entre s; la
violacin de este supuesto genera un problema de autocorrelacin.
Es importante adems el supuesto segn el cual las variables X1, X2,...Xk son linealmente
independientes y son no estocsticas, es decir que no dependen de un trmino de
error; la violacin de este supuesto genera un problema de multicolinealidad.
3 Estimacin
3.1 Clculo de los coeficientes
Al igual que en el modelo de regresin lineal simple, se utiliza el mtodo de Mnimos
Cuadrados Ordinarios (MCO), el cual estima la recta obteniendo el Mejor Estimados
Lineal Insesgado (MELI) el cual minimiza la suma de los cuadrados de los residuos. El
criterio considera que la funcin que mejor se ajusta a los datos es la que minimiza la
varianza del error u, lo que es equivalente a minimizar:
n
i =1
i =1
= (Y
2
2 X 2i ... k X ki ) 2
T = [ 1 2
1
... n ] 2 = 12 + 2 2 + ... + n 2 = i 2
n
T = (Y X )T (Y X )
= Y T Y 2 T X T Y + X T X
Si el lector conoce las propiedades de la transpuesta de una matriz, debe saber que:
( X )T = T X T y, adems, como T X T es un escalar, entonces es igual a su
transpuesta Y T X
El mtodo de MCO consiste pues, como ya se mencion en el documento previo a
este, en estimar unos coeficientes de tal manera que se minimice i 2 .
Como lo expone Guajarati (2010), de este proceso resultan k ecuaciones simultneas
con k incgnitas, que son las ecuaciones normales de la teora de mnimos cuadrados.
Dichas ecuaciones escritas de forma matricial son:
n
X 2i
X ki
X i
X
...
2i
ki
X 2i
XTX
...
1 1
X 2i
2i
ki 2
=
X ki 2 k X ki
X
X X
ki
1 Y1
... X 2 n Y2
... X kn Yn
1
X 22
X k2
XT
Es decir:
( X T X ) = X T Y
.::UdecomBooks::.
= ( X T X ) 1 ( X T Y )
Se sabe adems que es una matriz de (kx1), ( X T X ) 1 es una matriz de (kxk), X T es
una matriz de (kxn) y Y de (nx1).
El clculo de los estimadores de MCO para el modelo de regresin lineal mltiple es
entonces posible realizarlo manualmente hallando la matriz inversa de ( X T X )
mediante mtodos como el de GaussJordan o el mtodo de cofactores, por ejemplo,
y posteriormente realizando los clculos de multiplicacin de matrices bsicos de un
curso de lgebra matricial.
El mtodo de MCO arroja los estimadores insesgados y de mnima varianza:
1. Insesgamiento: el valor esperado de la estimacin es aproximadamente igual al
valor del parmetro poblacional, es decir:
2. Mnima Varianza: los coeficientes estimados son consistentes, lo cual se
2
2
n
SS
df
MS
Model
Residual
44.5393713
103.79038
3
522
14.8464571
.198832146
Total
148.329751
525
.28253286
lwage
Coef.
educ
exper
expersq
_cons
.0903658
.0410089
-.0007136
.1279975
Std. Err.
.007468
.0051965
.0001158
.1059323
t
12.10
7.89
-6.16
1.21
Number of obs
F( 3,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000
0.000
0.227
=
=
=
=
=
=
526
74.67
0.0000
0.3003
0.2963
.44591
.1050368
.0512175
-.0004861
.3361035
La tabla que muestra Stata con los resultados se compone de tres partes: la tabla
Anova en la parte superior izquierda; detalles del modelo y la base de datos en la parte
superior derecha, y abajo los resultados de la estimacin compaados de los errores
estndar, los estadsticos t asociados, los valores p y los intervalos de confianza.
3.3 Interpretacin de los resultados
La interpretacin de los coeficientes depende siempre de la especificacin del modelo
de regresin lineal mltiple que se tenga. La interpretacin es la misma que la que se
hace en el modelo regresin simple en muchos casos.
En el ejemplo de la ecuacin de salarios minceriana de Wooldridge (2002), se tiene un
modelo del tipo:
Y = 0 + 1 X + 2 X 2 +
X
= 1 + 2 2
X
En este modelo se presenta entonces la presencia de una variable cuadrtica. En este
caso, podramos decir que ante un cambio en 1 unidad en X, Y vara en media en
1 + 22 unidades. Aqu 1 y 2 no tienen interpretacin por separado, simplemente es
posible decir que, dependiendo del signo de 2 , los efectos marginales sern
crecientes ( 2 > 0 ) o decrecientes ( 2 < 0 ) .
En el caso del modelo estimado en el ejemplo de la Tabla 1, es posible interpretar que
1 =9,036 es el cambio porcentual en la variable dependiente W dado un cambio en
una unidad en educi , ceteris paribus.
De la misma forma, 2 = 4,10 es el cambio porcentual en la variable dependiente W
dado un cambio en una unidad en la experiencia laboral del infividuo exp eri , ceteris
paribus. Sin embargo, en este punto es importante mostrar que la variable exp eri 2
7
.::UdecomBooks::.
H 0 : j = 0
H1 = j 0
En el caso en que haya evidencia suficiente para rechazar la hiptesis nula, el
coeficiente es significativo, en cuyo caso se interpreta. Este caso se presenta
cuando se tiene un |t| superior a un t con /2 grados de libertad, rechazando
entonces H0. De igual manera, si se contrasta el valor p asociado al coeficiente y se
rencuentra que este es inferior al valor de significancia , el resultado es el mismo,
rechazando la hiptesis nula. La significancia de los coeficientes depende del nivel de
confianza al que se haya rechazado la hiptesis: 90%, 95% o 99% (*, **, ***). Es
importante tener en cuenta el criterio estadstico segn el cual se debe rechazar la
hiptesis al nivel de significancia ms alto posible, y no rechazar al nivel de
significancia menor posible para poder concluir de una manera ms acertada.
4.2 Pruebas de significancia conjunta y global
Es de suma importancia realizar tambin una prueba de significancia conjunta de los
s denominada prueba Wald, que tiene por hiptesis las siguientes:
H 0 : 0 = 1 = ... = k
H1 : No H 0
SST = Yi Y i
i =1
= Y T Y nY
SSR = T = i 2 = (Yi Yi ) 2
i =1
n
SSE = Yi Y i
i =1
i =1
2
= Y T Y nY
.::UdecomBooks::.
nk
TABLA ANOVA:
FUENTE DE LA
VARIACIN
SUMA DE CUADRADOS
REGRESIN
SR = T = i 2 = (Yi Yi ) 2
ERROR
i =1
i =1
SE = Yi Y i
i =1
TOTAL
ST = Yi Y i
i =1
)
)
GRADOS
DE
LIBERTAD
2
= Y T Y nY
= Y T Y nY
k 1
nk
CUADRADOS
MEDIOS
CMR =
CME =
SR
k
ESTADSTICO
F
CME
CMR
SE
nk
n 1
1,2
n
n
SR = T = i 2 = (Yi Yi )2
i=1
i=1
10
i t / 2;n k 1 aii
Donde aii es el elemento isimo de la diagonal principal de la matriz 2 ( X T X ) 1 .
5 Proyeccin
Un ltimo y muy importante paso en el trabajo del econometrista es el de realizar las
proyecciones de las variables Los valores estimados pueden ser utilizados para
encontrar el valor medio y la proyeccin para el valor esperado de la variable
dependiente.
Al estimar el modelo Y = X y se obtiene el modelo estimado Y = X , se tiene que
el valor Y = X es un estimador lineal insesgado ptimo del pronstico de Y para un
0
Y0 tn k 1 ( / 2) X 0 ( X T X ) 1 X 0T
Donde tn k 1 ( / 2) representa el valor del estadstico t en un nivel de significancia de
/2 con (n-k-1) grados de libertad.
Por otro lado, un intervalo de confianza para la prediccin puntual est dado por:
Y0 tn k 1 ( / 2) 1 + X 0 ( X T X )1 X 0T
Y por tanto, la varianza para la prediccin puntual tiene un valor de
2 ( X 0 ( X T X ) 1 X 0T + 1) . (Prez (2006))
11
.::UdecomBooks::.
La interpretacin de esta nueva variable debe tener en cuenta los valores asociados
para cada observacin de las dems variables del modelo, es decir: para un individuo
con once aos de educacin y dos aos de experiencia, se esperara que, en promedio,
tenga un salario de 1,2 unidades monetarias.
Para obtener los residuos se utiliza la opcin residuals as:
.predict yest, residuals
6 Comentarios finales
12
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
13
.::UdecomBooks::.
http://ideas.repec.org/s/boc/bocode.html
14
Resumen
El objetivo de este documento es introducir al lector en las variables Dummys que se
utilizan en el modelo de regresin lineal mltiple (MRLM), siguiendo una metodologa
bsica, su interpretacin la iteracin y las pruebas de hiptesis, y realizando su
aplicacin en el programa economtrico Stata.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
.::UdecomBooks::.
1 Introduccin
En economa existen numerosos tipos de variables que se utilizan para los modelos
econmicos. Las variables continuas son muy comunes pues hacen referencia a
aquellas variables que pueden tomar cualquier valor, incluyendo nmeros enteros y
decimales. Sin embargo, en el anlisis de regresin las variables no siempre son de este
tipo: existen aquellas que solamente pueden tomar un nmero determinado de
valores especficos o que simplemente son variables discretas cualitativas, tambin
llamadas dicotmicas.
2 Definicin
Las variables Dummy suelen indicar la presencia o ausencia de una cualidad o atributo,
por ejemplo si se trata de un hombre o una mujer, o si un individuo es casado o no.
Caractersticas como estas son muchas veces de suma importancia para los actores
econmicos a la hora de toma una decisin como la de ingresar al mercado laboral o
no, realizar estudios universitarios o no, entre muchas otras. Una manera sencilla de
poder cuantificar estos detalles de un individuo es mediante la asignacin artificial de
valores como 0 y 1 a cada opcin de respuesta, donde 0 indica ausencia de la
caracterstica y 1 indica presencia de la misma. A las variables que pueden tomar uno
de estos dos valores se les llama variables dicotmicas o dummys, y son
generalmente usadas para clasificar categoras mutuamente excluyentes (Guajarti
(2010)). Este tipo de variables tambin es til a la hora querer clasificar una variable
que es continua en diferentes rangos, pues a cada uno se le puede asignar un valor
determinado.
Las variables Dummy pueden ser utilizadas tan fcilmente como las variables continuas
en un modelo de regresin. De hecho, dentro de un mismo modelo puede haber la
presencia de una u otra, o incluso ambas.
Una variable Dummy toma entonces solamente dos valores diferentes, y un
histograma de una variable como esta muestra lo siguiente:
Density
10
15
.2
.4
.6
=1 if married
.8
Como lo muestra el grfico 1, una variable de este tipo toma bien sea el valor 0 o bien
el valor 1. El histograma lo que muestra es qu tantas observaciones toman cada valor.
En este ejemplo, se trata de una variable que toma el valor de 1 si el individuo es
casado y cero en caso contrario: el grfico refleja que dentro de la muestra con la que
se est trabajando, hay un mayor nmero de individuos casados que aquellos que no
estn casados.
2.1 Crear una variable Dummy
Para crear una variable Dummy a partir de una variable continua, se introduce el
comando:
.generate [type] newvar [:lblname] = exp [if] [in]
Por ejemplo, si se desea crear una variable dummy a partir de la variable salario del
individuo que tome el valor de 1 si este es superior a la media es decir, en este caso
5.89, y 0 en caso contrario, se introduce:
.generate wage1 = (wage>5.8)
Una vez creada esta variable, el histograma permite ver qu tantos individuos de la
muestra estn por encima y qu tantos por debajo de la media del salario.
Es importante tener en cuenta la propiedad sobre la creacin de variables dummy: si la
variable que se quiere volver una dummy tiene j nmero de categoras, se deben crear
siempre un j-1 variables dummy, siendo. As, por ejemplo, como lo menciona Pollock
(2006), si se tiene una variable con tres categoras que definen la tendencia poltica:
Demcratas, Republicanos e independientes. Se debe entonces crear tan solo dos
dummys: la primera tomar el valor de 1 cuando el individuo se declare demcrata y 0
en los dems casos; la segunda tomar el valor de 1 cuando el individuo se declare
republicano y 0 en los dems casos. Los independientes ser entonces la variable
omitida tomando el valor de 0 en ambos casos.
.::UdecomBooks::.
i = 1, 2...n
0 si posee la caracterstica
Donde D1i es la variable Dummy que se define como: D1i
en caso contrario
1
El efecto en el modelo causado por la inclusin de esta variable dummy que solamente
altera el valor del intercepto es llamado cambio proporcional. Este efecto se evidencia
al realizar el valor esperado, de la siguiente manera:
i = 1, 2...n
si es hombre
0
Siendo D1i una variable dicotmica tal que: D1i
1 en caso contrario
.::UdecomBooks::.
Una vez hecho esto, se abrir una ventana que mostrar lo siguiente:
Donde se debe elegir los coeficientes asociados a las variables de las que se pretende
hacer la prueba. Esta prueba de hiptesis arroja un estadstico F acompaado de su
valor p asociado que permiten concluir sobre la significancia conjunta.
El comando que es una forma alternativa para realizar esta prueba es:
.test (var1=var2)
El valor p permite entonces saber si se rechaza o no la hipotesis nula y as conocer la
significancia conjunta de los estadisticos.
7
.::UdecomBooks::.
4 Comentarios finales
En econometra, las variables representan generalmente las diferentes decisiones que
los agentes econmicos pueden tomar o simplemente sus caractersticas
representativas. En vista de que las opciones a las que ven enfrentados no son siempre
continuas, las variables dummy son tiles entonces en estos casos para modelar
variables discretas dicotmicas.
5 Bibliografa
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html
.::UdecomBooks::.
Resumen
El objetivo de este documento es introducir al lector en los problemas economtricos
del modelo de regresin lineal, y realizando su aplicacin en el programa economtrico
Stata.
Stata es una marca registrada de StataCorporation. Copyright 19962010 StataCorp LP, 4905 Lakeway
Drive, College Station, TX 77845 USA.Las opiniones contenidas en este documento, los errores u
omisiones son de exclusiva responsabilidad del autor.
1 Introduccin
En econometra, a la hora de realizar la estimacin de un determinado modelo terico,
pueden surgir diferentes tipos de problemas, muchos de los cuales no se pueden
evadir. A la hora de la especificacin del modelo, es posible que el econometrista se
encuentre con dos variables que le proporcionan la misma informacin, o con
variables incluidas adicionales que sobran dentro del modelo o simplemente con
variables olvidadas pero que son necesarias dentro del modelo. A la hora de la
estimacin del modelo, se pueden presentar otro tipo de problemas, como son que las
observaciones no tengan varianzas constantes o que los errores estn correlacionados
entre s. Como estos, existen otros errores o problemas a los que se enfrenta el
econometrista y debe tener presente para realizar un buen desempeo.
Muchas veces existe la posibilidad de que estos sean corregidos, sin embargo, hay
ocasiones en las que simplemente se debe convivir con el problema, y es ah donde se
debe tener en cuenta para la interpretacin de los resultados.
Stata proporciona herramientas tiles y rpidas para la realizacin de grficos cuando
se sospecha la presencia de un problema, y pruebas especficas que determinan con
una mayor certeza si el problema existe dentro del modelo o en los datos, facilitando
las decisiones del econometrista a la hora de la identificacin del mismo.
2 Multicolinealidad
El problema de multicolinealidad surge en la estimacin economtrica en el momento
en que se viola el supuesto segn el cual las variables X 1 , X 2 ,..., X k son linealmente
independientes entre s. Existen cuatro grados de multicolinealidad: moderada, alta,
muy alta y perfecta.
2.1 Multicolinealidad perfecta
La multicolinealidad perfecta se da cuando una variable explicativa es linealmente
dependiente de otra, cosa que provoca que las columnas de la matriz X no sean
independientes entre s y por tanto: no hay rango columna completo, X T X no tiene
rango completo, det( X T X ) = 0 , X T X es una matriz singular, los estimadores son
incalculables.
En el caso de que sea multicolinealidad perfecta, es necesario revisar el modelo y
chequear su definicin y las variables involucradas en el mismo, pues de otra forma no
es posible que sea corregido. El modelo no podr ser estimado pues ni Stata ni ningn
otro programa de regresin lo estimar en presencia de este problema. La solucin
entonces es sencilla, pero implica la realizacin de una nueva especificacin del
modelo.
2.2 Multicolinealidad no perfecta
Los sntomas para la deteccin de multicolinealidad no perfecta en el modelo son:
.::UdecomBooks::.
Una vez identificados estos sntomas en la estimacin del modelo, es importante tener
en cuenta que puede haber multicolinealidad de algn grado, y que, por tanto se debe
corregir pues de lo contrario se estara haciendo inferencia sobre estimadores
sesgados e inconsistentes.
3 Heteroscedasticidad
Los datos de corte transversal suponen un muestreo aleatorio de la poblacin
subyacente. La varianza no constante en los trminos de error es un problema comn
en la econometra. Se conoce como heterocedasticidad y se presenta precisamente
cuando se viola el supuesto segn el cual la matriz de varianzas y covarianzas del
residuo es constante. En efecto, el supuesto implicara que para todo i,
tiene
-2
-2
-1
-1
Residuals
0
Residuals
0
10
20
30
years potential experience
40
50
10
years of education
15
Estos dos grficos muestran la relacin entre los residuos y cada una de las variables
independientes. Es importante hacerlo con cada una para, de manera visual, intentar
tener una idea de la variable que estara generando la presencia de
heteroscedasticidad. Es importante mencionar que las pruebas grficas no evidencian
completamente el problema, simplemente proporcionan una mayor sospecha.
Una vez realizados esto, no se debe olvidar observar tambin el grfico de los errores
en funcin de la variable dependiente. Este se obtiene as:
.twoway (scatter ehat lwage)
.::UdecomBooks::.
20
-2
-1
Residuals
0
-1
1
log(wage)
1
2
Donde SCE1 representa la suma de cuadrados del error de la primera regresin que se
realiz con las observaciones de valores bajos, y SSE2 la suma de cuadrados del error
de la segunda regresin realizada con los valores altos. Este estadstico tiene (n-c-2k)/2
grados de libertad.
En Stata, los comandos para la realizacin de este proceso son hacer la regresin para
las primeras 351 observaciones y guardando la varianza y los grados de libertad:
.regress lwage educ exper expersq in 1/175
.scalar s_small = e(rmse)^2
.scalar df_small = e(dr_r)
Ahora, se realiza la segunda regresin para los ltimos 175 valores guardando
igualmente la varianza y los grados de libertad:
.regress lwage educ exper expersq in 375/526
.scalar s_large = e(rmse)^2
.scalar df_large= e(dr_r)
Una vez hecho esto, se halla el estadstico Goldfeld Quandt y su valor p asociado:
.scalar GQ = s_large/s_small
.scalar crit = invFtail(df_large,df_small,.05)
.scalar pvalue =Ftail(df_large,df_small,G
.scalar list GQ pvalue crit
Los resultados obtenidos en la ventana de Stata son los siguientes:
. scalar list GQ pvalue crit
GQ =
.8194388
pvalue =
.
crit =
.
! !
.::UdecomBooks::.
Una vez obtenido el resultado, mediante el valor p o el test chi cuadrado se puede
rechazar (o no) a hiptesis nula y as concluir sobre la presencia del problema
economtrico.
c) La Prueba White
La prueba White es la prueba ms general comparada con las anteriores. Esta prueba
es parecida a la de Breush Pagan. En efecto, sus hiptesis son:
:
:
Si no se tiene idea alguna sobre la naturaleza de la heteroscedasticidad en lo datos, la
prueba White podra ser un buen comienzo. Los comandos que se deben usar en Stata
son:
.gen educ2 = educ^2
.regress ehat2 educ educ2
.scalar LM = e(N)*e(r2)
.scalar pvalue = chi2tail(2,LM)
.scalar list LM pvalue
Obteniendo como resultado lo siguiente:
. scalar list LM pvalue
LM = .85364976
pvalue = .65257782
Por otro lado, como ya lo sabemos, cuando se estima en Stata el modelo con el
comando .regress y se obtienen los resultados en presencia de heteroscedasticidad,
los coeficientes obtenidos sern insesgados pero las desviaciones estndar estarn mal
calculadas.
Para la correccin de este problema se utiliza el comando que da la opcin de hallar un
estimador robusto de varianzas y covarianzas denominado vce(robust) por sus siglas
en ingls: heteroscedasticity robust variance-covariance estimator.
. regress vardep indepvar1 indepvar2, vce(robust)
Una vez se introduce el comando, Stata arroja de nuevo una estimacin del modelo, en
la cual se obtienen los mismos valores para los coeficientes s que anteriormente
fueron estimados, pero con unos valores diferentes para las desviaciones estndar y
los valores de la prueba t student.
Para el ejemplo de la ecuacin de salarios minceriana, las dos tablas que se obtienen al
hacer las dos estimaciones con el fin de comparar los resultados se muestran a
continuacin:
.regress lwage educ exper expersq, vce(robust)
SS
df
MS
Model
Residual
44.5393713
103.79038
3
522
14.8464571
.198832146
Total
148.329751
525
.28253286
lwage
Coef.
educ
exper
expersq
_cons
.0903658
.0410089
-.0007136
.1279975
Std. Err.
.007468
.0051965
.0001158
.1059323
t
12.10
7.89
-6.16
1.21
Number of obs
F( 3,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000
0.000
0.227
=
=
=
=
=
=
526
74.67
0.0000
0.3003
0.2963
.44591
.1050368
.0512175
-.0004861
.3361035
Number of obs
F( 3,
522)
Prob > F
R-squared
Root MSE
lwage
Coef.
educ
exper
expersq
_cons
.0903658
.0410089
-.0007136
.1279975
Robust
Std. Err.
.0077827
.0050237
.0001098
.1071261
t
11.61
8.16
-6.50
1.19
P>|t|
0.000
0.000
0.000
0.233
=
=
=
=
=
526
71.03
0.0000
0.3003
.44591
.105655
.050878
-.0004979
.3384487
Se evidencia entonces que los valores estimados para los estadsticos son los mismos,
sin embargo la desviacin estndar cambia significativamente.
.::UdecomBooks::.
4 Autocorrelacin
El problema de autocorrelacin de los residuos se da al violarse el supuesto segn el
cual los errores son independientes entre s, es decir la hiptesis que establece que
cov( i ; j ) = 0 . Este problema se presenta cuando se est trabajando con unos datos
de series temporales. En efecto, el problema consiste en que el error del modelo
depende del error del error del periodo previo:
+, -+,. /,
Donde - es un parmetro que describe la dependencia de +, con +,. y /, es un
nuevo error aleatorio.
La autocorrelacin de los errores se puede dar en dos tipos:
-
Prueba de Rachas
Esta prueba asume de entrada que como existe autocorrelacin, entonces no debera
haber errores con los mismos signos seguidos en la autocorrelacin positiva, ni muchos
cambios de signo seguidos en la autocorrelacin negativa. Esto lo revelan los grficos
como se muestra a continuacin:
Grfico 4. Autocorrelacin positiva de
los errores
.::UdecomBooks::.
Los pasos para la realizacin de la prueba Rachas son: como primera medida, se debe
contar el nmero de errores con signo positivo y llamar este valor N+ al igual que se
debe contar el nmero de errores con signo negativo y llamar este valor N- . Una vez
hecho esto, se debe contar el nmero de rachas, es decir el nmero veces en que
cambia el signo de los errores y llamarlo k, para a continuacin calcular:
1
var( k ) =
20 2 0 .
1
02 0.
2 N + N (2 N + N N + N )
( N + N ) 2 ( N + + N 1)
RA =
k E (k )
var(k )
k E (k ) z var(k )
Se debe adems tener en cuenta que si N+ o N- son menores a 20, se emplearn los
valores de la tabla D.6. para los lmites del intervalo.
-
En esta prueba se debe calcular el estadstico Durbin Watson con la siguiente frmula:
n
( )
t
DW =
t 1
t =2
( )(
t k
k = t =k +1
t t k
= t = kn+1
( )
( )
t =1
t =1
Q = n rk 2 ~ a s 2
k =1
rk 2
k =1 n + k
s
Q ' = n( n + 2)
yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + t
yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1
.::UdecomBooks::.
Una vez el modelo est rezagado en un periodo, este se multiplica por a ambos lados
obteniendo:
yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1
Ahora, si se restan ambos modelos se obtiene que:
yt yt 1 = 1 1 + 2 X 2t 2 X 2t 1 + 3 X 3t 3 X 3t 1 + ... + k X kt k X kt 1 + t t 1
(1 ) 1 + 2 ( X 2t X 2t 1 ) + 3 ( X 3t X 3t 1 ) + ... + k ( X kt X kt 1 ) + t t 1
Este nuevo modelo donde el trmino de error ya no tiene autocorrelacin, se expresa
de la siguiente manera:
yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + k +1 X 2t 1 + k + 2 X 3t 1 + ... + k + ( k 1) X kt 1 + yt 1 + t
A partir de este se haya entonces un -9 y con esto se deben realizar las siguientes
transformaciones:
yt * = yt yt 1
X *2t = X 2t X 2t 1
X *3t = X 3t X 3t 1
Las variables que se determinan por fuera del modelo son llamadas variables
exgenas, y aquellas que se determinan dentro del modelo son variables endgenas.
En este sistema de ecuaciones, se est estimando el consumo y las importaciones a
partir de la identidad de la demanda agregada. Sin embargo, se debe tener en cuenta
que para poder ser estimadas, el sistema de ecuaciones debe estar bien se
perfectamente identificada o bien sobreidentificada. Para poder concluir acerca de
esta caracterstica de las ecuaciones, se debe tener en cuenta las siguientes reglas de
decisin:
Sea B el nmero de variables endgenas incluidas dentro de la ecuacin, y sea 1 el
nmero de variables exgenas excluidas de la ecuacin. Tanto B como 1 sern
comparados con el nmero total de variables exgenas o endgenas dentro del
sistema de ecuaciones. La regla de decisin es:
Si 1 C B D 1 entonces la ecuacin est sobreidentificada
Si 1 B D 1 entonces la ecuacin est perfectamente identificada
Si 1 E B D 1 entonces la ecuacin est subidentificada
Una ecuacin subidentificada no permite ser estimada por el mtodo de MCO. Es
importante entonces revisar esta regla a la hora de enfrentarse a un sistema de
ecuaciones simultneas.
5.2 Error de medicin
En general, una muestra se tiene tras la medicin de las variables explicativas. Sin
embargo, esta puede tener errores los cuales convierten los regresores en variables
estocsticas, produciendo un problema economtrico en el modelo que se va a
estimar.
.::UdecomBooks::.
.::UdecomBooks::.
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html
Resumen
El objetivo de este documento es introducir al lector en los modelos de eleccin
discreta estimados por mxima verosimilitud y, a los modelos con variable
dependiente limitada. En primer lugar se presentan los modelos dicotmicos MLP,
Logit y probit. Posteriormente se presentan los modelos de mltiples alternativas
ordenadas y no ordenadas. Para finalmente presentar los modelos censurados y
truncados.
Palabras Clave: Econometra, software economtrico, Stata
Clasificacin JEL: C01, C87.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
.::UdecomBooks::.
1 Introduccin
Los modelos de eleccin binaria corresponden a aquellos modelos de eleccin discreta en
los que el conjunto de eleccin se reduce a slo dos alternativas posibles. Dentro de los
modelos de eleccin discreta, en los que el conjunto de eleccin tiene slo dos alternativas
posibles mutuamente excluyentes, es decir cuando la variable dependiente es una variable
dummy, existen: el modelo lineal de probabilidad (MLP), el modelo Probit, y el modelo
Logit. Una posibilidad para estimar modelos con variable dependiente discreta binaria, es
usar el modelo lineal de probabilidad y estimarlo por MCO. No obstante, esta aproximacin
presenta varios problemas, que se estudiarn ms adelante. Cabe resaltar que algunos de
estos problemas tienen solucin, mientras otros no la tienen, lo que nos lleva a plantear el
uso de modelos que empleen funciones de probabilidad acumulativas, que se ajustan ms a
la realidad que se quiere estudiar. Algunos ejemplos de este tipo de modelos son el Logit,
que emplea una funcin de distribucin logstica, y el Probit, que emplea una funcin de
distribucin normal; ambos modelos se estiman por medio del mtodo de Mxima
Verosimilitud.
Los modelos de eleccin discreta presentan muchas veces algunos problemas
particulares diferentes a aquellos a los que se enfrentan los modelos clsicos de
regresin, aqu se presentarn tambin este tipo de problemas y sus posibles
soluciones.
2 Modelo lineal de probabilidad: MCO
Los modelos de probabilidad lineal se especifican de la siguiente manera:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i
i = 1, 2,..., n
1,
Yi =
0
zi 0
zi < 0
Donde Zi corresponde a una variable latente, es decir una variable que no es observable,
pero para la cual se puede inferir su valor a partir de una variable relacionada (en este caso
la variable relacionada es la variable dummy Yi). Es preciso aclarar que Zi representara, por
ejemplo, el benficio neto para el individuo de participar en el programa (Yi=1): en efecto si el
beneficio de participar es mayor que cero, el individuo toma la caracterstica relacionada
con Yi=1, y cuando el beneficio es inferior a cero aquella relacionada con Yi=0.
Este modelo expresa la variable dicotmica Yi como una funcin lineal de las variables
explicativas. Este tipo de modelos se conocen como modelos de probabilidad lineal, ya que
el valor esperado de la variable dependiente condicionada a las variables independientes,
puede ser interpretada como la probabilidad condicional de que un evento determinado
acontezca dado Xi. Suponiendo que E (i)=0 para que los estimadores sean insesgados, se
obtiene que:
E (Yi | X i ) = 0 + 1 X 1i + 2 X 2i + ... + k X ki
i = 1, 2...n
probabilidad Pi
probabilidad 1-Pi
Por lo tanto, el valor esperado del modelo inicial, puede ser interpretado como la
probabilidad condicional de Yi . Dado que la probabilidad debe estar acotada entre 0 y 1,
entonces la esperanza condicional debe tambin estar restringida entre estos valores, tal y
como sigue: 0 E (Yi / X i ) 1
No obstante, esta aproximacin tiene varios problemas, tales como la no normalidad de los
errores, la heterocedasticidad del trmino de error, los valores generalmente bajos del R2, y
la posibilidad de que los valores estimados de la variable dependiente dicotmica se salgan
del rango 0-1.
A pesar de los muchos inconvenientes que presenta el MPL, su mayor problema radica en
que supone que Pi = E (Yi = 1/ X i ) aumenta linealmente con X, es decir el efecto marginal o
incremental de X permanece constante todo el tiempo. Esto no parece ser realista, en
realidad se esperara que Pi estuviera relacionado de forma no lineal con Xi (GUJARATI
1997). Estos problemas invalidan entonces la estimacin por MCO, por lo que ser
necesario usar un mejor mtodo estadstico de estimacin.
En efecto se necesitan modelos que satisfagan las siguientes condiciones:
-
.::UdecomBooks::.
Una opcin para lograrlo es usar funciones de distribucin acumulativa, como por ejemplo
la distribucin logstica o la normal, que dan lugar a los modelos Logit y Probit.
Para empezar se puede decir que de forma general este tipo de modelos se especifica tal y
como sigue:
Donde F es una funcin que toma valores entre 0 y 1 para todos los reales. Segn las
distintas definiciones de F, se tendrn distintos modelos de eleccin binaria.
3 Modelo Logit: MV
El modelo Logit es un modelo con variable dependiente binaria. Si F ( z ) =
ez
,
1 + ez
e 0 + 1 X1 +...+ X k
1 + e 0 + 1 X1 +...+ X k
Este modelo sigue una distribucin logstica, que permite ver que a medida que Z se
encuentra entre y - la probabilidad de que Yi tome el valor de uno se encuentra dentro
del rango 0-1, y adicionalmente dicha probabilidad no est relacionada linealmente con Xi.
Se estima por el mtodo de Mxima Verosimilitud obteniendo estimadores insesgados y
consistentes.
Stata permite estimar este tipo de modelos de la siguiente manera: el men de
herramientas se selecciona la opcin Statistics para despus elegir Binary outcomes. Una
vez hecho esto, se puede elegir bien sea el modelo Logit o el Probit, u otras opciones que
proporciona el programa.
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
= -20.526953
= -19.650438
=
-19.6485
=
-19.6485
Logistic regression
Log likelihood =
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
-19.6485
Coef.
x1
x2
x3
_cons
-.0047131
.1120338
.8902547
-.8768972
Std. Err.
.0154551
.1242195
.8861582
1.103113
P>|z|
-0.30
0.90
1.00
-0.79
=
=
=
=
30
1.76
0.6244
0.0428
0.760
0.367
0.315
0.427
-.0350045
-.1314319
-.8465835
-3.038959
.0255783
.3554995
2.627093
1.285165
dy/dx
-.001155
.027455
.2183869
Std. Err.
.00379
.0304
.21226
z
-0.30
0.90
1.03
P>|z|
95% C.I.
0.760
0.366
0.304
-.008578
-.032128
-.197634
.006268
.087038
.634408
X
51.1
5.06667
.3
4 Modelo Probit: MV
z
1 2z
( z) =
e
2
.::UdecomBooks::.
Y=F ( z ) = F ( 0 + 1 X 1 + ... + X k ) =
1 2
e d
2
probit 1, 6 log it
Al realizar la estimacin de un modelo Probit, la tabla que arroja Stata es la siguiente:
Tabla 3. Resultados de la estimacin de un modelo Probit
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
=
=
=
=
-20.526953
-19.652544
-19.652082
-19.652082
Probit regression
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
Coef.
x1
x2
x3
_cons
-.0028088
.0686759
.5431961
-.5460755
Std. Err.
.0095977
.0760005
.53932
.6843898
z
-0.29
0.90
1.01
-0.80
P>|z|
0.770
0.366
0.314
0.425
=
=
=
=
30
1.75
0.6259
0.0426
.0160023
.2176341
1.600244
.7953038
En esta tabla aparecen los coeficientes estimados, los errores estndar y los valores
respectivos de las z. A su vez, Stata proporciona la prueba de significancia global del
modelo llamado LR chi2(3) (el nmero 3 corresponde al nmero de variables
independientes) y su respectivo valor p. esto permite concluir pues sobre la
significancia global del modelo. Este test es una prueba de que todas las pendientes
son cero, anlogo a la prueba F usualmente utilizada en los modelos de regresin
lineal.
Como ya se sabe, los coeficientes s estimados solamente permiten contrastar los
signos esperados a priori, sin embargo las interpretaciones se deben realizar con los
efectos marginales. El comando para el clculo de estos es:
.mfx
dy/dx
-.0011028
.0269638
.2135571
Std. Err.
.00377
.0298
.20838
z
-0.29
0.90
1.02
P>|z|
95% C.I.
0.770
0.366
0.305
-.008489
-.03145
-.194869
.006284
.085378
.621983
X
51.1
5.06667
.3
En la tabla se observan los efectos marginales que son ahora interpretables como
usualmente se hace. Tambin muestra los errores estndar, los valores z con su
respectivo valor p y el intervalo de confianza.
Si lo que se desea es calcular los efectos marginales sobre un valor puntual (por
ejemplo 10 o 20) se debe introducir:
.mfx, at (var1=10 var2=20 var3=30)
5 Modelos con mltiples alternativas
Los economistas continuamente hacen regresiones con variables dependientes
discretas buscando analizar principalmente las elecciones de los individuos. Para este
fin, los modelos de eleccin discreta resultan los ms apropiados cuando el objetivo
no es predecir el comportamiento medio de un agregado, sino analizar los factores
determinantes de la probabilidad de que un agente econmico individual elija un
curso de accin dentro de un conjunto, generalmente finito, de opciones posibles.
El agente econmico entonces, puede llegar a enfrentarse a ms de dos alternativas
en su proceso de eleccin, asumiendo el llamado problema multinomial, en donde
la variable dependiente toma un conjunto discreto y finito de valores o categoras. A
estos modelos se les conoce como modelos multinomiales, los cuales se constituyen
en extensiones del Logit y Probit binario en los cuales, dependiendo de si las
alternativas de la variable endgena sean excluyentes o incorporen informacin
ordinal se distinguen entre los modelos condicionales, modelos con datos ordenados y
los modelos con datos no ordenados. Los primeros se dan cuando nacen 2 o ms
decisiones de manera secuencial, los segundos surgen cuando las decisiones de los
individuos pueden ordenarse o jerarquizarse, plantendose la necesidad de que se
cumpla una primera condicin para optar por una segunda. Pero a pesar de que
muchos economistas han optado por los modelos de respuesta ordenada, no siempre
son la mejor opcin, pues muchas veces, no logran recoger adecuadamente la
naturales de un proceso de decisin en el que existen factores que actan en el mismo
sentido sobre la probabilidad de eleccin de las alternativas extremas.
Para especificar correctamente la funcin que ejemplifique mejor la toma de
decisiones de los individuos, se parte de la formulacin de supuestos sobre los
.::UdecomBooks::.
Variables que contienen aspectos especficos del individuo y por tanto, su valor
ser el mismo en todas las alternativas. Este tipo de variables reciben el
nombre de caractersticas, y se las denota por .
Variables que contienen aspectos especficos de las alternativas entre las que
se ha de elegir, y varan tanto entre individuos como entre alternativas. Este
tipo de variables reciben el nombre de atributos a las alternativas y las denota
por .
.::UdecomBooks::.
Los datos se estiman por Mxima verosimilitud, sin embargo mediante este mtodo
no podemos interpretar los coeficientes estimados de forma tradicional como se hace
por el mtodo de MCO. Explcitamente los coeficientes no indicarn el cambio en la
probabilidad. Slo representan la relacin Y y X, que segn el signo que arroje cada
uno, se sabr si es una relacin directa o inversa.
Lo que efectivamente se puede interpretar es la probabilidad de que suceda cada
una de las elecciones, la Odds-ratio que es un ratio de probabilidades que representa
el cociente entre la probabilidad de que suceda un hecho (elegir la opcin 1) frente a
Donde, en el caso de que el valor de la ratio Odds sea: Mayor que 1, la probabilidad (o
utilidad) del individuo i es mayor que del individuo j. Menor que 1, la probabilidad (o
utilidad) del individuo i es menor que el individuo j. E igual a 1, las probabilidades (o
utilidades) del individuo i e j son iguales o indiferentes.
Para realizar la estimacin de un modelo de variable dependiente con mltiples
alternativas se deben seguir los siguientes pasos:
.::UdecomBooks::.
Donde son inobservables que afectan las decisiones de los individuos y no tiene
trmino constante. Un ejemplo para este tipo de modelos es el tiempo que tarda en
llegar al trabajo el individuo i teniendo en cuenta el medio de transporte j que utilice.
Este es un tipo de decisin condicionada que se trabaja en este tipo de modelos.
El modelo Logit condicional se expresa as:
P(Yi = j | X i ) = p j ( X ) =
( X ij )
j = 0,1, 2...J
( X ih )
h=0
Y* = X +
Donde X no contiene constante, contiene k parmetros y el trmino de error se
distribuye de manera normal con media cero y varianza constante igual a uno. Ahora,
se definen
Y = 0 ...
Yi* 1
Y = 1 ... 1 < Yi* 2
Y = j ...
Yi* > j
P (Y = j | X ) = P(Y > j | X ) = 1 ( j X )
En este caso se trata de un Probit Ordenado, si en vez de utilizar (.) se utiliza (.)
sera entonces un Modelo Logit Ordenado.
En Stata, se deben realizar los siguientes pasos para la estimacin de este tipo de
modelos. En la barra de herramientas se selecciona el men Statistics, donde se
desprende lo siguiente:
.::UdecomBooks::.
.01
Density
.02
.03
.04
40
50
60
achiv
70
80
Y = X +u
u | X ~ N (0; 2 )
.001
Density
.002
.003
.004
300
400
500
600
700
800
apt
si Y *i 0
si Y *i > 0
0
1
0
0
Ahora, en una segunda etapa, lo que se hace es calcular la probabilidad de que dentro
de la decisin del individuo potencial efectivamente ocurra el suceso estudiado. En
efecto, se trata de asignar un valor real positivo a la variable Yi una vez que, en la
.::UdecomBooks::.
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html
.::UdecomBooks::.
Resumen
El objetivo de este documento es introducir al lector en la especificacin, estimacin y
contrastes de los modelos con variable dependiente continua Heckman (1979) y con
variable dependiente discreta Heckprob (2005), que corrigen o tienen en cuenta el
problema del sesgo de seleccin muestral.
Palabras Clave: Econometra, software economtrico, Stata
Clasificacin JEL: C01, C87.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
1 Introduccin
El problema de sesgos de seleccin fue introducido en la econometra moderna por el
economista James Heckman, con su trabajo Sample selection bias as a especification
error (1976). Antes de su aporte, este problema no estaba dentro de las
preocupaciones de los economistas, desconociendo a su vez que la correccin del
mismo resulta fundamental para obtener conclusiones acertadas con estimadores
insesgados, consistentes y eficientes sobre las caractersticas de la poblacin o la
muestra en estudio. Actualmente resulta ser uno de los problemas economtricos que
ms se deben tener en cuenta a la hora de la estimacin de un modelo.
Ante la presencia de un sesgo de seleccin, existen mtodos de correccin
dependiendo del tipo de modelo que se presente; si se trata de un modelo de variable
dependiente continua o si por el contrario es un modelo de variable dependiente
discreta. Cuando la variable dependiente es continua el mtodo de correccin ms
usado es el propuesto por Heckman (1979) y el cual se describir a grandes rasgos en
este trabajo. Para la correccin de sesgos de seleccin en modelos con variable
dependiente discreta el mtodo de correccin ms utilizado es el heckprob.
2 Conceptos bsicos sobre sesgos de seleccin
Un sesgo de seleccin surge principalmente de la ausencia de aleatoriedad muestral, o
seleccin muestral no aleatoria. Por lo tanto, la estimacin de modelos estructurales
cuando la muestra usada para la estimacin no es seleccionada de manera aleatoria,
conlleva a resultados y conclusiones que no describen como se esperara las
caractersticas de la poblacin en general, sino tan solo las caractersticas de un
determinado grupo poblacional, sin importar el tamao de la muestra usada.
Originalmente el tema de sesgos de seleccin tan slo fue estudiado para modelos
con variable dependiente continua, pero en la actualidad tambin es posible analizar
el sesgo de seleccin para modelos con variable dependiente discreta.
El sesgo de seleccin puede surgir bsicamente por dos razones. En un primer lugar,
este surge por decisiones del diseo muestral, es decir por las decisiones que tome el
investigador sobre aspectos de la muestra, entre estos esta, por ejemplo, el hecho de
decidir realizar un muestreo estratificado. En segundo lugar, este se puede dar por
decisiones econmicas de autoseleccin, es decir que los individuos pueden, ellos
mismos, autoseleccionarse para pertenecer a determinado grupo. Un ejemplo comn
es la decisin de los individuos de participar o no del mercado laboral de tal forma que
un individuo trabajar si el salario que percibe en el mercado es al menos igual a su
salario de reserva; por tanto la decisin de participar es endgena al modelo, debido a
que pertenecer en este caso al grupo de individuos que reciben un salario no es
aleatorio. El pertenecer o no pertenecer a este grupo de individuos viene determinado
por una decisin anterior de si los individuos quieren y pueden o no participar del
mercado laboral.
.::UdecomBooks::.
Ecuacin de inters
Ecuacin de seleccin
0
0
0
La variable
representa la probabilidad de pertenecer a la muestra: esta variable
tomara el valor de uno si y solo si la variable latente
es mayor a cero lo que
representa que el individuo pertenece a la muestra. Adems, slo se observar
cuando
= 1, es decir siempre que el individuo pertenezca al sector que se est
estudiando (la muestra), se podr observar la variable de la ecuacin de inters.
Teniendo en cuenta tanto la ecuacin de inters como la de seleccin, la ecuacin
observada es:
Si
> 0
De lo anterior se deriva que el valor esperado de la ecuacin observada viene
determinado de la siguiente manera:
|
Cuando
el segundo termino desaparece, por lo que no existira sesgo seleccin y
se podra estimar mediante MCO.
El sesgo de seleccin viene representado por
estimarse de forma consistente tanto como
.
de este mtodo es que no nos permite conocer la inversa del ratio de Mills por lo que
no podremos saber si efectivamente se presentaba un sesgo de seleccin y si este se
corrigi.
En el software Stata, se puede realizar la estimacin directamente mediante el
comando:
.heckman vardep var1 var2, select (vardep var1 var2 var3)
El mtodo de Heckman en dos etapas, como su nombre lo indica, estima el modelo
por MC2E. En la primera etapa se estimara mediante el mtodo de mxima
verosimilitud, un modelo Logit o Probit que busque determinar la probabilidad de
.::UdecomBooks::.
)* : % 0
). : % - 0
Donde % es la inversa del ratio de Mills, coeficiente que arroja Stata en la tabla de
estimacin.
Utilizando el mtodo del valor p en el caso de este ejemplo, es posible rechazar la
hiptesis nula a un 99% de confianza. Esto indica que el coeficiente % es distinto de
cero, por lo que la probabilidad de la decisin de pertenecer al mercado laboral es
significativa, y el modelo 1, presenta problema de sesgo de seleccin. Con la
estimacin del modelo mediante el mtodo de Heckman en dos etapas se ha
corregido el problema de sesgo de seleccin.
Es posible decir que el signo del coeficiente lambda indica, en este caso, que existe
una relacin positiva entre pertenecer al mercado de trabajo y obtener un salario,
pues este es positivo.
Con lo anterior, se puede concluir que el modelo estimado mediante Heckman en dos
Etapas es el apropiado para realizar inferencia estadstica, debido que el modelo
estimado mediante MCO arroja estimadores sesgados.
Stata tambin permite realizar la estimacin mediante un mtodo robusto, que
corrige la matriz de varianzas y covarianzas. Esto se hace con el siguiente comando:
.heckman (vardep var1 var2) select (vardep var1 var2 var3) vce(robust)
En el ejemplo de la estimacin salarial para las mujeres, el modelo a estimar es:
/012
234$ 5 012 6
7 89:* : ;0<<23 :
$=>3<2? 5 234$ :A 012 B
.::UdecomBooks::.
Std. Err.
Numb er of obs
Cens ored obs
Unce nsore d obs
=
=
=
200 0
65 7
134 3
=
=
442.5 4
0.000 0
wage
Co ef.
P>|z |
wa ge
educ ation
age
_cons
.9825 259
.2118 695
.7340 391
.053 8821
.022 0511
1.24 8331
18 .23
9 .61
0 .59
0.00 0
0.00 0
0.55 7
.876 9189
.168 6502
-1.71 2645
1. 08813 3
.2 55088 8
3. 18072 3
se lect
ma rried
chi ldren
educ ation
age
_cons
.4308 575
.4473 249
.0583 645
.0347 211
- 2.467 365
.07 4208
.028 7417
.010 9742
.004 2293
.192 5635
5 .81
15 .56
5 .32
8 .21
-12 .81
0.00 0
0.00 0
0.00 0
0.00 0
0.00 0
.285 4125
.390 9922
.036 8555
.026 4318
-2.84 4782
.5 76302 5
.5 03657 6
.0 79873 5
.0 43010 5
-2. 08994 8
l ambda
4.001 615
.606 5388
6 .60
0.00 0
2.81 2821
5 .1904 1
rho
sigma
l ambda
0.67 284
5 .9473 529
4 .0016 155
.606 5388
mi lls
|
(
1 (
|
El Mtodo Heckprob permite conocer la inversa del ratio de Mills (, por lo que se
puede entonces conocer si efectivamente se presentaba un sesgo de seleccin
muestral y s fue corregido mediante el mtodo de estimacin, o si por el contrario es
mejor interpretar los resultados mediante una estimacin de un Probit o Logit.
Cabe resaltar que en este modelo los trminos de error se comportan de siguiente
manera:
0
0< 0<
1
$C $C
7
Con esto se puede concluir que los errores seguirn una distribucin normal, por esto
la estimacin se puede realizar mediante un modelo estimado por Mxima
Verosimilitud.
El mtodo de estimacin Heckprob, se utiliza en Stata mediante el comando:
.heckprob (vardep var1 var2 var3)
El ejemplo que se mostrar en este caso es la eleccin entre una educacin privada o
no para los hijos. En este caso pues, se est haciendo un anlisis sobre las elecciones
educativas que realizan los individuos, y en particular aquello que determina que una
persona elija un plan pblico versus uno privado. El modelo sera:
.::UdecomBooks::.
Std. Err.
Number of obs
Censored obs
Uncensored obs
=
=
=
95
36
59
Wald chi2(2)
Prob > chi2
=
=
1.04
0.5935
P>|z|
-.1142597
.3516098
-2.780665
.1461717
1.016485
6.905838
-0.78
0.35
-0.40
0.434
0.729
0.687
-.400751
-1.640665
-16.31586
.1722317
2.343884
10.75453
years
loginc
logptax
_cons
-.0167511
.9923024
-1.278783
-.545821
.0147735
.4430009
.5717545
4.070418
-1.13
2.24
-2.24
-0.13
0.257
0.025
0.025
0.893
-.0457067
.1240366
-2.399401
-8.523694
.0122045
1.860568
-.1581647
7.432052
/athrho
-.8663156
1.450028
-0.60
0.550
-3.708318
1.975687
rho
-.6994973
.7405342
-.9987984
.9622689
vote
chi2(1) =
0.27
Nu mb er o f ob s
Wa ld c hi 2( 6)
Pr ob > c hi 2
Lo g li ke li ho od = -8 9. 25 40 28
C oe f.
pr iv at e
lo gi nc
y ea rs
l og pt ax
_ co ns
S td . Er r.
P> |z |
=
=
=
95
9 .5 9
0 .1 43 1
[9 5% Co nf . In te rv al ]
.3 76 20 37
- .0 11 88 84
- .1 06 69 62
- 4. 18 46 94
. 53 06 48 4
. 02 56 77 8
. 66 69 78 2
4 .8 37 81 7
0 .7 1
-0 .4 6
-0 .1 6
-0 .8 6
0. 47 8
0. 64 3
0. 87 3
0. 38 7
-. 66 384 8
- .0 62 215 9
- 1. 41 394 9
- 13 .6 666 4
1 .4 16 25 5
. 03 84 39 1
1 .2 00 55 7
5 .2 97 25 3
lo gi nc
y ea rs
l og pt ax
_ co ns
. 99 82 86
- .0 16 85 61
- 1. 28 87 07
- .5 36 05 73
. 44 03 56 5
. 01 47 83 4
. 57 52 26 6
4 .0 68 50 9
2 .2 7
-1 .1 4
-2 .2 4
-0 .1 3
0. 02 3
0. 25 4
0. 02 5
0. 89 5
.1 35 203 1
- .0 45 830 9
- 2. 41 613 1
- 8. 51 018 8
1 .8 61 36 9
. 01 21 18 8
-. 16 12 83 9
7 .4 38 07 3
/ at hr ho
- .2 76 45 25
. 24 12 09 9
-1 .1 5
0. 25 2
- .7 49 215 3
. 19 63 10 2
r ho
- .2 69 61 86
. 22 36 75 3
- .6 34 680 6
. 19 38 26 7
vo te
Li ke li ho od -r at io te st o f rh o= 0:
c hi 2(1 ) =
1 .3 84 44
Pr ob > ch i2 = 0 .2 39 3
Lo que arroja Stata es que el rho no es significativo pues la prueba del valor p as lo
demuestra, no existe evidencia suficiente de correlacin de ir a votar y la eleccin de
un plan privado en educacin. Por tanto no se demuestra la presencia de sesgo de
seleccin ni la correlacin como problema economtrico dentro del modelo.
6 Comentarios finales
Se debe tener siempre presente que cuando se trabaja con datos microeconmicos
(microeconometra), es decir modelos que involucren elecciones individuales, resultan
ser muy frecuentes los sesgos de seleccin debido a que en la mayora de estos casos
.::UdecomBooks::.
7 Bibilografa
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html
.::UdecomBooks::.