Está en la página 1de 9

Introducción a Stata

Creación y manejo de información estadísticadv

La pantalla de inicio de Stata muestra cuatro grandes ventanas:


Review: donde aparecen los comandos empleados según el orden de ejecución.
Variables: muestra la lista de variables cargada en la memoria según el orden de creación.
Stata Results: presenta los comandos, resultados y mensajes de error.
Stata Command: ventana en la que se ingresan los comandos.

Otras ventanas importantes son:


Stata Editor: permite navegar y modificar los datos como si fuese una hoja de Excel.
Stata Viewer: permite acceder a información en línea y también a la ayuda del programa.
Stata Graphs: presenta el último gráfico realizado.
Stata Do-file Editor: ventana separada en Windows y funciona como un editor de textos
que permite ejecutar una lista de comandos.
Los comandos pueden ser directamente utilizados desde la barra de menú
desplegable (Grafical User Interface), pueden ser tipeados en la barra de comandos
o, para uso más avanzado, puede agruparse una serie de comandos en un do file.

Un do file es un archivo que guarda extensión .do, el cual sirve para guardar un
programa de comandos de Stata. Para iniciar uno se puede llegar desde la barra de
menú desplegable de la siguiente manera:

Asimismo, se puede utilizar el ícono asociado a un nuevo do file .

Los log files…

Estos archivos de extensión por default .log, son muy útiles al momento de recoger
los resultados y pasarlos a formato Excel o Latex. Cuando el Stata muestra sus
resultados, si no se le ha especificado otra cosa, el programa los muestra solo en
pantalla. Este comando permite que todo lo que se muestre en la ventana de
resultados se guarde en un archivo que luego puede ser fácilmente exportado y
trabajado.

Para obtener ayuda específica de algún comando o tema se pueden utilizar el


comando help, search, findit y hsearch.

El comando help permite buscar sintaxis, opciones y ejemplos de comandos o tipos


de comandos que tiene el Stata. Así, para que este comando sea de utilidad tiene
que conocerse el nombre del comando del cual se requiere la ayuda! Su sintaxis se
presenta a continuación:

help [command_or_topic_name] [, nonew name(viewername) marker(markername)]


El comando search no requiere conocer el nombre del comando pues realiza una
búsqueda por palabra clave. Si además utilizamos net search, el Stata buscará los
paquetes disponibles de comandos para Stata en la web. Algo similar ocurre con el
comando findit, el cual provee la búsqueda más amplia posible y no necesita de la
escritura de las palabras exactas pues permite abreviaciones.

search word [word ...] [, search_options]

findit word [word ...]

Finalmente, el commando hsearch es utilizado para conocer si Stata contiene


determinadas palabras en su ventana de ayuda (si lo contiene dentro del manual de
ayuda que propone para cada comando). Asimismo, genera una lista interactiva, a
modo de indice.

hsearch word(s)

Datos útiles para el trabajo con Stata

Símbolos del Stata:

+ Adición > Mayor que


- Sustracción < Menor que
* Multiplicación >=Mayor o igual que
/ División <=Menor o igual que
^ Potencia ==Igual que
~ Negación (!) != No igual que
& Y | ó

- Dentro de un do file, se puede correr una o más líneas del programa sombreando
alguna parte de la línea o grupo de líneas y presionando Ctrl + D.

- El Stata distingue entre mayúsculas y minúsculas y puede aceptar en nombres de


variables hasta 32 caracteres, pudiendo estos ser A-Z, a-z, 0-9, “_”. Sin embargo,
algunos nombres para variables se encuentran reservados como “in”.
- El nombre del comando se puede abreviar hasta la mínima expresión que no permita
que el Stata lo confunda con otro comando. Lo mismo sucede cuando se llama a una
variable. Asimismo, se puede utilizar el “*” para reemplazar letras o números o buscar
más fácilmente variables que difieran en solo algunas letras.

- Para realizar operaciones matemáticas rápidas podemos utilizar el comando display y


escribir luego de él la operación necesaria. El resultado aparecerá en la línea siguiente
de la pantalla.

- Si un comando ya se ha digitado antes en la barra de comandos, no hay necesidad de


digitarlo nuevamente pues se puede hacer clic en el comando correspondiente en la
ventana Review de Comandos.

- Además Stata presenta una barra de herramientas que permite realizar operaciones
comunes como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular.

Sirve para abrir una base de datos de Stata.

Sirve para grabar en el disco la base de datos que está siendo usada.

Imprime los gráficos o el contenido de la ventana Stata Viewer.

Empieza un log, abre una existente, cierra o suspende la que se esté


usando.

Muestra una ventana Stata Viewer que esté oculta.

Muestra el último gráfico creado.

Abre un Do-File Editor o muestra la ventana del Do-File Editor que esté
oculta (equivale a ctrl+8).

Abre el Stata Editor o muestra la ventana del Stata Editor que esté oculta
(equivale a edit).

Abre el Stata Browser o muestra la ventana del Stata Browser que esté
oculta (equivale a browse).
Le dice al Stata que continúe la ejecución de un comando que ha sido
detenido.

Detiene el Stata (equivale a la tecla q).

- Stata tiene 6 tipos de variables de datos:

float números reales en formato 8,5 (8 cifras enteras, cinco decimales)


double números reales en formato 16,5
byte enteros entre –127 y 100
int enteros entre –32767 y 32740
long enteros entre –3147483647 y 2147483620

- Stata por defecto le asigna formato float a una variable de datos nueva.

str1 cadenas de 1 carácter


str80 cadenas de 80 caracteres

Sintaxis básica:

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight]

Opciones generales:
by (varlist): repite la rutina para distintos valores de una o más variables.

if: Realiza el comando para observaciones que cumplen con determinada condición

in: Realiza el comando para un rango de observaciones en la base de datos.

Weight: Pondera las observaciones de acuerdo a un peso (factor de expansión). Pueden ser:
1. Fweights, o pesos de frecuencia, son pesos que indican el número de veces en que las
observaciones están duplicadas.
2. Pweights, o pesos de muestreo, son pesos que denotan el inverso de la probabilidad de que la
observación se incluya debido al diseño de muestreo. – inverso de la probabilidad de elección.
3. aweights, o pesos analíticos, son pesos que son inversamente proporcional a la varianza de una
observación; es decir, la varianza de la j-ésima observación se supone que es sigma ^ 2/w_j,
donde w_j son los pesos. Por lo general, las observaciones corresponden a las medias y los pesos
son el número de elementos que dieron origen a la media. Stata les cambia la escala interna para
sumar a N, el número de observaciones en los datos. – representa el aporte informativo de cada
observación.
4. Iweights, o pesos de importancia, son pesos que indican la "importancia" de la observación de
algún modo. iweights no tienen una definición estadística formal – pesos cualitativos, son pesos
subjetivos.
1. Crear y guardar bases de datos

 clear: Se usa para limpiar la memoria de los datos que se encuentren actualmente
cargados, inclusive cuando no se hayan guardado

 set mem: fija el tamaño de la memoria (para abrir bases grandes)


set mem 16m

 edit: permite introducir datos y modificar información ya existente a través del editor.
edit [varlist] [if exp] [in range] [,nolabel]

 describe: muestra un resumen del contenido de la base de datos


describe [varlist]

 save: guarda una base de datos


save "c:\mis documentos\base1.dta", replace

2. Cargado de datos, listado de variables y observaciones

 use: abre una base de datos ya existente


Ejemplo: use "c:\mis documentos\base1.dta", clear

 insheet: permite cargar bases de datos de hojas de cálculo (y ASCII (texto) creados por
programas de datos). El usuario le puede especificar al Stata si es que los valores en la
base de datos se encuentran separados por espacios, tabulaciones o comas. Asimismo,
se debe tomar en cuenta que el Stata asumirá que en la primera línea de la hoja de
cálculo se encuentran los nombres de las variables.

Su sintáxis es: insheet [varlist] using filename [, options]

Existe una variante de este comando que permite guardar la base de datos de Stata en
format de hoja de cálculo, conocida como outsheet.

 import excel: Permite importar una base de datos desde el formato de Excel.

import excel [using] filename [, import_excel_options]

 sort: ordena las observaciones de manera ascendente según los valores de una(s)
determinada(s) variable(s). Gsort es un comando más general que el sort.
sort varlist
gsort [+|-] varname [[+|-] varname ...] [,generate (newvar)]

 format: permite especificar el formato de visualización (display format) de una variable


format varlist %fmt
donde %fmt = %9.0g, %9.2f, %10s

 list: permite visualizar los valores de las variables


[by varlist:] list [varlist] [if exp] [in range] [, nolabel]

 codebook: examina cada variable indicando el tipo de variable, el número de


observaciones, el rango numérico en que se encuentran dichas observaciones (si
corresponde), algunos estadísticos descriptivos como la media, la desviación estándar,
los percentiles o ejemplo de la variables si esta es string.

 browse: permite visualizar los valores de las variables a través del editor
browse [varlist] [if exp] [in range] [,nolabel]

3. Creación de variables y su manejo

 generate: crea una nueva variable


generate [type] newvar = exp [if exp] [in range]

Principales funciones matemáticas:


abs(x) - valor absoluto
exp(x) - exponencial
ln(x) - logaritmo natural
log(x) - igual que ln(x)
sqrt(x) - raíz cuadrada

Números aleatorios:
uniform() Genera números aleatorios distribuidos uniformemente entre [0,1]
normden(z) Genera el valor de la densidad normal estándar.
normden(z,s) Genera el valor de la función de densidad normal normden(z,s)= normden(z)/s si s>0
norm(z) Genera el valor de la función normal estándar acumulada

 egen: extensión del comando generate. Puede generar grupos de variables según los
valores de otra variable (usando la opción by).
egen newvar = fcn (varlist) [if exp] [in range] [,options]
donde fcn = (r)sum, (r)mean, (r)max, (r)min

 label: permite etiquetar las variables y sus valores


label variable varname "label" (etiqueta una variable)
label define lblname # "label" [# "label" ...] [, add modify] (define etiquetas para los
valores de una variable)
label values varname lblname(asigna etiquetas a los valores de una variable)
label list (lista las etiquetas existentes)

 replace: cambia el contenido de una variable existente


replace oldvar = exp [if exp] [in range]

 rename: cambia el nombre de una variable existente


rename old_varname new_varname

 recode: permite recodificar los valores de una variable existente


recode varname rule [rule ...] [if exp] [in range]
 drop: elimina variables u observaciones de la base de datos
drop varlist
drop if exp [in range]

 keep: especifica las variables u observaciones que se desean mantener


keep varlist
keep if exp [in range]

 clear: borra todo lo que está en la memoria (es equivalente a reiniciar Stata)

4. Generación de resultados a partir de una base de datos

 summarize: devuelve diversos estadísticos sobre una variable


[by varlist:] summarize [varlist] [weight] [if exp] [in range]

 tabulate: genera frecuencias de una sola variable y tablas cruzadas de dos variables
[by varlist:] tabulate varname [weight] [if exp] [in range] [, nolabel]
[by varlist:] tabulate varname1 varname2 [weight] [if exp] [in range] [, column row
nofreq]
Opciones:
col: muestra los totales por columna
row: muestra los totales por fila
nofreq: se usa con col o row. Muestra los porcentajes respecto del total.

 table: genera tablas de estadísticas


table rowvar [colvar [supercolvar]] [weight] [if exp] [in range] [, contents(clist) by
(superrow_varlist) col row format(%fmt) center]
Opciones:
Contents(clist)
donde clist = [freq, sum, mean, varname, sd, max, min] varname .
row: añade totales por fila
col: añade totales por columna
scol: añade totales para subdivisiones por columna

 ttest: hace un test de igualdad de las medias de una o más variables.


- Si la media es igual a un valor determinado
ttest varname = # [if exp] [in range] [, level(#)]
- Si las medias de dos variabnles son iguales
ttest varname1 = varname2 [if exp] [in range]
- Si las medias de una misma variable son distintas según grupos de observaciones
ttest varname [if exp] [in range], by(groupvar) [level(#)]
Opciones:
level: especifica la probabilidad de para calcular el intervalo de confianza.

 correlate: devuelve la matriz de correlaciones de las variables especificadas


correlate [varlist] [if exp] [in range]
pwcorr [varlist] [if exp] [in range]

 collapse: convierte la información en una base de datos de medias, sumas y medianas


collapse [(stat) varlist [[(stat)] …] [weight] [if exp] [in range] [, by(varlist)]
donde stat = mean, sum, median, sd, max, min
5. Análisis gráfico

 graph: opción para gráficos


[by varlist:] graph [varlist] [weight] [if exp][in range]graph_type common_options sa]
Tipos de gráfico:
twoway Gráfico de dispersión en dos direcciones, por defecto.
histogram Histograma. Opciones: bin(#) especifica el número de intervalos; normal:
ajusta una distribución normal.
Opciones comunes:
c(l) Conecta con línea los valores graficados
c(m) Conecta las bandas de medias usando lineas verticales
s(.) Especifica que no se use conectores.
sa(name) Guarda el gráfico con un nombre determinado
t1title("text") Título principal del gráfico
b1title("text") Título del eje x
b2title("text") Título del eje y
xscale(#[,]#) Escala del eje x
yscale(#[,]#) Escala del eje y

 kdensity: Calcula la función de densidad de Kernel (no paramétrica) de una variable


kdensity varname [weight] [if exp] [in range] [, nograph generate(newvarx newvard)
n(#) at(varx) normal]
Opciones:
at(varx) Utiliza los valores de una variable determinada para estimar la densidad.

También podría gustarte