Está en la página 1de 5

Mini Introduccin a Stata

Introduccin
Stata es un programa de clculo estadstico general. Es ampliamente usado en econometra,
bioestadstica, anlisis de encuestas, etc. En esta gua encontrarn lo bsico para empezar a
trabajar con el programa en Econometra.
Cargando los datos
El primer paso para utilizar el programa es cargar la base de datos que deseamos analizar. Stata
tiene su propio formato, pero tambin puede importar datos en otros formatos.
Se puede abrir una base de datos en formato Stata desde el men File/Open, presionando las
teclas Ctrl+O, a travs del cono en la barra (Fig. 1) o mediante la lnea de comandos. En este
ltimo caso el comando para el ejemplo de la Fig. 1 sera:
use "E:\Usuarios\Enrique\Documents\UdelosAndes\Econometria\2012\Tarea1.dta", clear
La opcin clear implica que se borraran los datos que haya en la memoria en ese momento.
Figura 1

Para importar datos desde Excel existen varios caminos. La ms simple es abrir el Editor de Datos
(Fig. 2) y simplemente cortar y pegar los datos desde Excel al Editor. Sin embargo hay que tener
algunas precauciones:
(1) El separador decimal en Stata es el punto (.) por lo que hay que configurar Excel para que
tambin use el punto como separador decimal. La forma de hacer esto vara segn las
versiones; por ejemplo en Excel 10 se encuentra en Archivo/Opciones/Avanzadas/
(2) Los nombres de variables en Stata no aceptan espacios ni caracteres especiales (tildes, ,
etc.) Adems, Stata distingue entre maysculas y minsculas. Al pegar los datos Stata har
los cambios necesarios a los nombres, pero es mas fcil cambiar los nombres es Excel,
antes de pegarlos, por unos ms cmodos de usar.
Figura 2

Adems Stata puede importar datos en formato de texto, por lo cual se puede guardar una hoja de
datos Excel en formato CSV e importarla usando File/Import/ASCII data created by a spreadsheet
se debe tener las mismas precauciones que al copiar y pegar desde Excel.
Finalmente Stata puede abrir datos de una fuente ODBC (Excel, MS-Access y dBase) y XML (Excel,
OpenOffice).
Estadsticas descriptivas
Stata contiene varios comandos tiles para hacer un primer anlisis descriptivo de los datos:
1

describe entrega una descripcin del contenido de la base de datos.
summarize muestra una tabla con la media, desviacin estndar, mximo y mnimo de una
variable.
tabulate hace tablas de frecuencia de una o dos entradas (tablas de contingencia)
list que lista todos los valores de la base de datos
En el siguiente ejemplo se usa una base de datos de resultados del SIMCE 2007 de lenguaje.


1
En Stata los comandos se pueden abreviar, la parte subrayada es la abreviatura.
Ejemplo 1
. describe

Contains data from C:\Users\enrique.saintpierre\Desktop\ejemplo.dta
obs: 3,735
vars: 8 3 Sep 2012 10:43
size: 1,228,815 (88.3% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
idregion byte %8.0g IDREGION
region str49 %49s REGION
comuna str20 %20s COMUNA
nombre str244 %244s NOMBRE ESTABLECIMIENTO
ddcia str2 %9s DEPENDENCIA
ruralidad str6 %9s RURALIDAD
grupo str1 %9s GRUPO SOCIOECONOMICO
prom_len int %8.0g PROMEDIO LENGUAJE
-------------------------------------------------------------------------------
Sorted by:

. ta region ruralidad

| RURALIDAD
REGION | RURAL URBANO | Total
----------------------+----------------------+----------
Regin Arica - Parina | 15 33 | 48
Regin Metropolitana | 151 890 | 1,041
Regin de Antofagasta | 15 83 | 98
Regin de Atacama | 18 51 | 69
Regin de Coquimbo | 143 107 | 250
Regin de Los Lagos | 512 119 | 631
Regin de Magallanes | 10 28 | 38
Regin de Tarapac | 24 29 | 53
Regin de Valparaso | 3 13 | 16
Regin de la Araucan | 509 211 | 720
Regin de los Ros | 206 40 | 246
Regin del Biobo | 372 134 | 506
Regin del Libertador | 4 6 | 10
Regin del Maule | 2 6 | 8
----------------------+----------------------+----------
Total | 1,984 1,750 | 3,734


. sum prom_len

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
prom_len | 2497 247.3805 25.50233 164 331

. ta ruralidad , sum(prom_len )

| Summary of PROMEDIO LENGUAJE
RURALIDAD | Mean Std. Dev. Freq.
------------+------------------------------------
RURAL | 240.48579 23.126329 774
URBANO | 250.47766 25.916173 1723
------------+------------------------------------
Total | 247.38046 25.50233 2497
Regresin lineal
El comando para hacer regresiones en Stata es regress. En el ejemplo siguiente se usa la base de
datos de la demanda por carne de pollo, vista en la clase del 27 de agosto.
Ejemplo 2
. reg q i p1 p2 p3

Source | SS df MS Number of obs = 23
-------------+------------------------------ F( 4, 18) = 73.87
Model | 1127.25905 4 281.814762 Prob > F = 0.0000
Residual | 68.6696865 18 3.81498259 R-squared = 0.9426
-------------+------------------------------ Adj R-squared = 0.9298
Total | 1195.92874 22 54.3603971 Root MSE = 1.9532

------------------------------------------------------------------------------
q | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
i | .0050107 .0048929 1.02 0.319 -.0052688 .0152902
p1 | -.6111738 .1628489 -3.75 0.001 -.9533066 -.2690409
p2 | .1984094 .0637207 3.11 0.006 .0645372 .3322816
p3 | .0695028 .0509872 1.36 0.190 -.0376173 .1766228
_cons | 37.23237 3.717695 10.01 0.000 29.42178 45.04296
------------------------------------------------------------------------------
La tabla de resultados entrega el valor del coeficiente asociado a cada variable y el valor de la
constante (_cons), su error estndar, el estadstico t para

, su probabilidad asociada y el
intervalo de confianza.
Tambin entrega dos tablas adicionales. La de arriba a la izquierda es una tabla ANOVA, en la que
se encuentran las sumas de cuadrados y sus grados de libertad:
Source | SS df MS
-------------+------------------------------
Model | SEC k SEC/k
Residual | SRC n-k-1 SRC/n-k-1 =


-------------+------------------------------
Total | STC n-1 STC/n-1
La tabla de la derecha entrega la cantidad de observaciones utilizadas, el estadstico F global de la
regresin (

), su probabilidad asociada, el R, el R ajustado y (Root MSE, se


puede comprobar en este caso que ).
Existen una serie de comandos llamados de post estimacin. Como su nombre lo indica se ocupan
despus de haber estimado una regresin y sus resultados se refieren siempre al ltimo modelo
estimado. Entre los ms importantes estn predict que permite crear nuevas variables que
contienen el valor predicho de y () y los residuos.
El otro comando importante es test, que permite realizar test de hiptesis lineales.


Ejemplo 3
. predict q_gorro
(option xb assumed; fitted values)

. predict e, res

. sum q_gorro e

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
q_gorro | 23 39.66957 7.158146 28.93402 56.16459
e | 23 9.07e-09 1.766734 -3.264582 3.030532

. test i p3

( 1) i = 0
( 2) p3 = 0

F( 2, 18) = 11.83
Prob > F = 0.0005

. test (i=0) (p3=p2)

( 1) i = 0
( 2) - p2 + p3 = 0

F( 2, 18) = 1.98
Prob > F = 0.1668
Ms informacin
La principal fuente de informacin sobre Stata es el propio help del programa. En l se explican
todas las opciones de cada comando y es recomendable que lo vean para los que hemos revisado
aqu, ya que slo se ha explicado su funcionamiento bsico.
En la biblioteca estn los manuales de Stata, es un conjunto grande de libros donde se explica cada
comando. Adems de la explicacin que est en la ayuda en lnea, se entrega informacin tcnica
del comando (cmo se calcula y como se debe interpretar). Son una buena fuente de informacin,
no solo para usar el programa, sino para aprender estadstica. Les recomiendo que por lo menos
revisen los dos primeros volmenes Getting Started with Stata y Stata Users Guide.
Tambin est en la biblioteca el libro Microeconometrics using Stata. Aunque sus contenidos son
ms avanzados de lo que vemos en el curso, los primeros tres captulos les sern tiles.
Por ltimo Internet est lleno de tutoriales y guas en varios idiomas y para todos los niveles.