Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Stata Intro 2011
Stata Intro 2011
Introduccin a Stata
Marzo de 2011
Contenido
x Organizacin de la parte prctica del curso
x Introduccin a Stata
o Interface
o Sintaxis.
o Comandos bsicos
o Memoria
o Abreviaturas
x Organizacin de un proyecto en archivos DO y LOG
x Gestin de base de datos (dataset)
o Tipo de datos y conversin de tipos
o Importacin y exportacin de datos
Introduccin a Stata
STATA es un sistema que permite la gestin de base de datos y la realizacin
de clculos estadsticos y economtricos. La gran ventaja de STATA es que se
basa en un lenguaje de programacin que respeta una sintaxis. Quienes sepan
principios de programacin podrn asimilar a STATA como un sistema de
programacin de alto nivel con algunos aspectos similares a Pascal, C, o basic.
Existen versiones de STATA para Windows, Linux y Macintosh.
Las fuentes de informacin oficiales para aprender STATA (adems de este
curso) son los manuales originales
x Para una primera aproximacin es suficiente con el Users Guide.
x Para usuarios ms avanzados se requieren los manuales detallados por
comandos.
[by varlist:] comando [varlist] [=exp] [if exp] [in range] [weight] [, opciones]
Si la carga del dataset fue exitosa, veremos que las ventanas Review, Variables
y Stata Results se modificaron.
Sintaxis: [varlist]
El anterior comando puede usarse para obtener la descripcin estadstica de
slo una variable
summarize price
de ms variables
summarize price weight length
de una lista de variables (en este caso todas las variables que estn entre
price y trunk)
summarize price-trunk
de las variables que empiecen con la letra p (en este caso es slo price)
summarize p*
10
11
x Operadores lgicos:
& and
| or
! not (similar a ~)
x Operador jerrquico: el parntesis que determina el orden de aplicacin de
las sentencias condicionales.
Algunos ejemplos ms complejos de sentencias condicionales son los
siguientes:
summarize length if (price > 6000) & (length < 180)
summarize length if (price > 6000 & length < 180) | weight >3400
summarize length if price > 6000 & ( length < 180 | weight >3400 )
summarize length if !(price > 6000) & (length < 180 | weight >3400)
12
13
gsort price
Ordena de manera descendente segn el precio del auto.
gsort +price
Ordena de manera ascendente segn el precio del auto.
14
Sintaxis: [= exp]
Se utiliza generalmente con slo dos comandos: generate y replace.
generate nueva = 0
Este comando permite crear una nueva variable en el dataset. Es requisito
indicar los valores iniciales que va a tener la nueva variable en cada
observacin. En este caso la variable se llama nueva y tiene valor 0 en todas
las observaciones.
Tambin puede crearse una variable nueva incindola con valores surgidos de
una operacin algebraica basada en otras variables. Por ejemplo:
generate price2 = price*2
Este comando crea la variable price2 igual a los valores de price multiplicados
por 2 en cada observacin.
15
Para poder verificar los valores de Price y Price2 puede aplicarse el siguiente
comando:
list price price2
list p*
Tambin puede crearse una variable con valores nulos. El valor nulo en STATA
se indica con el smbolo . (un punto). Por ejemplo:
generate nulo = .
Otro comando que usa [=exp] es replace. Este comando permite reemplazar
valores de una variable ya creada. Por ejemplo:
replace price2 = 0 if price < 6000
Este comando reemplaz por un cero en price2 en aquellas observaciones que
tenan price menor que 6000.
16
17
Sintaxis: [, opciones]
Existen comandos que aceptan opciones adicionales. stas son especificadas
en la sintaxis luego de una coma. Por ejemplo:
summarize price, detail
De esta manera, el comando summarize ahora brinda una descripcin
estadstica distinta que la normal.
Sintaxis: [weight]
Sirve para indicar una variable como ponderador de las observaciones. Esta
parte de la sintaxis se ver en detalle cuando se utilicen datos de la Encuesta
Permanente de Hogares (EPH)
18
19
20
y de ms de una variable
tabstat price length weight, statistics(mean sum count max min range
sd variance cv p10 median)
21
22
23
Abreviaturas
Es interesante aclarar que todos los comandos y variables usados pueden ser
abreviados.
La regla es que la abreviatura puede realizarse siempre que no se confunda con
otro comando.
Existen algunas excepciones a esta regla:
x Los comandos destructivos no se abrevian: drop, clear
x Existe el comando describe que se abrevia con d, a pesar de confundirse
con otros (es un comando muy utilizado).
Ejemplo de abreviatura
tab fore, sum(pri)
24
25
Abreviatura de American Standard Code for Information Interchange. Es un cdigo de 7 bits que sustituye las
letras del alfabeto romano por cifras y otros caracteres informticos.
26
27
Ventajas y desventajas
El editor de textos que incluye Stata tiene la ventaja de poder ejecutar los
archivos DO. Los editores de texto externos facilitan la visualizacin del
cdigo debido a que colorean las sentencias de programacin.
Sugerencia
Se sugiere utilizar la versin trial del editor de textos externo Edit Plus,
debido a que se dispone de las ventajas del cdigo coloreado.
Instrucciones para la instalacin del Edit plus
Primero deben bajarse la sintaxis de STATA (el archivo stata.stx) que es lo
que les permite diferenciar con colores las distintas funciones.
Una vez abierto el edit plus, Tienen que ir a "Tools", despus "preferences",
luego dentro de Files a "Settings y Sintaxis". Poner Add, en el nombre se pone
Stata y en la file extension do;ado Despus en Syntax file s e pone la ruta
donde
guardaron
el
archivo
stata.stx
Por
ejemplo.
C:\Archivos
de
28
Mi primer archivo DO
Utilizando el dataset auto.dta escribiremos nuestro primer archivo DO
mediante el editor de textos. Para ello realizamos las siguientes acciones:
-Copiamos en c:\clase2 el archivo auto.dta. Esta ser nuestra
carpeta de trabajo.
-En Stata command ejecutamos cd c:\clase2, de esta manera Stata
buscar archivos en esa carpeta.
-En el Edit plus escribimos
use auto.dta, clear
describe
summarize price
exit
29
30
31
\log using auto.log, text replace, hace que Stata registre los resultados
en un archivo llamado auto.log de tipo texto (existen otros tipos de
archivos que no usaremos). La opcin replace implica que en cada nueva
corrida del programa los resultados se sobre-escriben. Existe la opcin
append que permite grabar corridas sucesivas de un programa (uso poco
frecuente).
El comando log using resulta en un error si ya existe un LOG en uso. Por
ello debemos cerrar cualquier otro LOG en uso con la opcin log close.
El problema es que log close dar error si no existe un LOG en uso. Para
solucionar esto usamos la palabra capture. Esto permite anular la
detencin del programa ante un error.
Al final del programa cerramos el LOG con log close
Es importante mencionar que lo nico que se registra en el archivo LOG son
los resultados de los comandos que se encuentran entre el log using y el
siguiente log close.
32
Variable1
Variable2
Variable3
Dato 1,1
Dato 2,1
Dato 3,1
Dato 1,2
Dato 2,2
Dato 3,2
..
..
Dato 1,N
..
Dato 2,N
Dato 3,N
33
Tipos de datos
Los tipos de datos que puede almacenar Stata son tres: (i) nmeros, (ii)
palabras y (iii) fechas.
Tipos de datos numricos
Nombre
Tipos de nmeros
Lmite inferior
Lmite superior
Byte
Enteros
-127
+100
Integer
Enteros
-32.767
+32.740
Long
Enteros
-2.147.483.647
+2.147.483.620
Float
Con decimales
-1.70 x 1038
+1.70 x 1036
Double
Con decimales
-8.99 x 10307
+8.99 x 10308
34
Para conocer el tipo de datos de todas las variables que componen el dataset se
utiliza:
describe
Si se quiere saber el tipo de dato de una variable especfica se utiliza:
describe price
Para crear una variable numrica especificando el tiadpo de dato que queremos,
se utiliza:
generate byte cantidad = 0
35
Para crear una variable que contenga palabras se utiliza el siguiente comando:
generate str8 pais =
El lmite mximo es de 244 caracteres para la versin 9 Special Edition. Para la
versin Intercooled es de 80 caracteres.
En este caso, la variable de tipo string ampla la cantidad de caracteres de
acuerdo a los datos que almacena.
replace pais = Argentina
36
Importacin de datos
Una manera sencilla (entre varias) de importar datos desde cualquier origen es
la siguiente:
x Abrir el archivo mediante Excel (normalmente cualquier fuente de datos
podr ser accedida por Excel).
x Guardar el archivo como texto delimitado por tabulaciones (.txt). Atencin
que Excel indica una serie de advertencias respecto a las planillas con
mltiples hojas, dado que slo la hoja activa se almacenar.
x Importar desde Stata utilizando el siguiente comando:
insheet using dataset1.txt
Recordar que previamente debemos haber realizado un clear.
37
38