Está en la página 1de 36

MANEJO DE DATOS CON

STATA
Cristian Camilo Segura García.
Econometría
ccsegurag@ut.edu.co

1
¿Qué es STATA?
⚫ Es un software estadístico que permite la gestión de datos, la estimación y cálculo de una amplia
gama de técnicas estadísticas, y la producción de gráficos de alta calidad.

Tiene 4 tipos de versión.

Small STATA Versión estudiantil de STATA 1200 Observaciones 99 Variables

Intercooled STATA Versión estándar de STATA 2.147’483.647 Observaciones 2.047 Variables


(Stata IC)
STATA/SE Versión especial de STATA para 2.147’483.647 Observaciones 32.767 Variables
manejo de bases de datos
grandes.
STATA/MP Versión especial de STATA 2.147’483.647 Observaciones 32.767 Variables
diseñada para trabajar en equipos
con mas de un procesador o
núcleo.
2
Conociendo el Entorno de STATA

Ventana de
Ventana de Revisión.

variables.

Ventana de Resultados.
Ventana de
propiedades

Ventana de Comandos
3
Barras de STATA
Barra de Nombre.

Barra de Menús
Barra de Herramientas

Barra de nombre: indica la versión de STATA disponible, el nombre y la ruta de la base de datos activa.

Barra de menús: Es el conjunto de diferentes herramientas que tiene STATA para cargar, transformar, modificar,
analizar, graficar y solicitar información y ayuda del programa.

Barra de herramientas: Es el conjunto de íconos de acceso rápido a herramientas fundamentales como son abrir,
guardar, creación de un archivo Log, un archivo .do, abrir el editor, el visor y el administrador de variables.

4
Menú de ayuda de STATA
El menú de ayuda permite:

⚫ Ver el índice de contenidos del programa.


⚫ Buscar información sobre algún tema especial del
programa.
⚫ Obtener ayuda sobre algún comando de STATA.
⚫ Listar y descargar las ultimas actualizaciones de
STATA.
⚫ Instalar programas de STATA escritas por otros
usuarios.
⚫ Acceder a lugares de interés en el sitio web de STATA.
⚫ Descargar paquetes de comandos de STATA.

5
Tipos de archivos y estructura de comandos.
⚫ Antes de iniciar una sesión de trabajo es importante tener Tipos de Archivo. Extensión
en cuenta que STATA opera a través de diferentes tipos Archivos de datos. *.dta
de archivos. Archivos gráficos. *.gph
Bitácoras de salida. *.smel
⚫ De acuerdo a la estructura de los datos, se tiene que llevar Archivos de comandos. *.do
en cuenta lo siguiente. Archivos de programación. *.ado

[prefix :]Command [varlist][=exp][if exp][in range][weight][using filename][, options]


prefix: Permite repetir las ejecuciones de un weight: Indica la variable de ponderación in: Señala el rango de observaciones que
determinado comando o modificar el queremos analizar
input y/o output de la base de datos.
command: Indica el comando del STATA. if: Indica una expresión lógica condicional filename: Señala el nombre del archivo

varlist: Indica la lista de nombres de variables exp: Indica la expresión matemática utilizada options: Señala una o más opciones que
para la condicional. aplican al comando.
Ejemplo: regress depvar [indepvars] [if] [in] [, options]
Comando Variable(s) restricción/rango opciones adicionales.

Ojo: Escribir bien los comandos y variables. STATA hace distintición de mayus y minus.
6
Tipos de variables.
Variable ⚫ STATA es “case sensitive”, es decir, distingue entre
mayúsculas y minúsculas. La variable var1 es diferente a
Var1.
CUANTITATIV
A
CUALITATIVA ⚫ STATA se manejan los datos cuantitativos por diferentes
tipos de variables los cuales se diferencian por el rango0
de los datos o por el tamaño en el número de caracteres
Continua Discreta disponibles.

⚫ El número que aparece después del símbolo % es el


Rango
Tipo de variable Formato
numero máximo de dígitos enteros o ancho que Mínimo Máximo
soporta el formato y el numero a la derecha indica
Byte -127 100 %8,0g
el numero de decimales, posterior se encuentra una
letra. [f] es entero mas cercado, [e] indica notación Int -32,767 32,740 %8,0g
científica, [g] indica decimales.
Long -2.147’483.647 2.147’483.620 %12,0g
⚫ Float significa numéricos. String son variables Float -1,70141E+38 1,70141E+38 %9,0g
alfanuméricas. Doublé -8,9885E+307 8,9885E+307 %10,0g

7
Formato de las variables.
⚫ Hace referencia a la forma como son almacenadas y desplegadas las variables en STATA. Para cambiar el formato
de una variable a través del lenguaje de sintaxis debe tener en cuenta que el formato de toda variable siempre
antecedido por el símbolo “%”.
Inicio de un formato
Variables de cadena Número de caracteres
%20s : % 20 s Variable String

Inicio de un formato
Variables de numérica Dígitos antes del punto decimal.
%10.0gc : % 10. 0 g c Opcional, separados de miles por comas
Dígitos después del punto decimal
Formato general “g”, Notación científica “e”, formato fijo “f”

Si se desea cambia el formato de una variable utilice el comando recast

recast float variable

8
Fundamentos de bases de datos.
⚫ Abrir una base de datos.
El primer paso es cargar una base de datos, para ello depende el formato de la base de datos.
[Esto lo realizaremos con la base de datos “pib_colombia”]

- Las bases de datos de STATA terminan con la extensión .dta. En cambio, las bases de datos tipo Excel, se expresan en .xlsx.

⚫ Importar una base de datos .CSV o .TXT


Uno de los formatos mas comunes en el manejo de información estadística es el formato separado por comas (CSV), para importar una
base de dato se sigue la ruta.

⚫ Importar una base de datos .XLS o .XLSX


Existe dos formas, una forma es copiar la base de Excel y la segunda es el Asistente de Importación de Excel files.

Para importar una base de datos en CSV: Abrimos el STATA, vamos a Archivo, luego vamos a Importar y desde luego, allí aparece si
importamos XLSX o CSV.

Pasar de alfanumérica a numérica.


destring variables, replace dpcomma
Pasar de numérica a alfanumérica
tostring pibpercapita esperanzavida EmisiónCO2, replace

9
Descripción de la base de datos.
⚫ Al haber cargado la base de datos, es necesario conocer mi base de datos. ¿Cómo la conocemos? Vamos a “Datos”
y luego a “Descripción de Datos”. Allí nos aparecerá las opciones de: describir datos en memoria, describir
contenido de datos e inspeccionar variables.

• Creación de Variables.
En su defecto, pueden utilizar comando.
De acuerdo al programa, vamos a Datos, luego a Crear o
*Cargar una base de datos del programa* cambiar datos, y después Crear nueva variable.
sysuse pib_colombia
*Observar los datos. La creación de variables, también se puede realizar con el
browse comando generate. Lo puede abreviar como gen.
*Describir los datos
Ejemplo:
describe [Variables]
*Si se quiere describir todas las variables. generate suma = var1 + var2
describe _all gen resta = var1 - var2
gen multiplicación = var1 * var2

10
Pautas importantes para crear variables.
Tipo de Para la creación de variables con condiciones puede utilizar
Símbolo Descripción
operador la opción de la estructura de comandos [if] [in], estas
Matemático + Adición opciones le permitirán poner restricciones.
- Sustracción
* Multiplicación Ejemplo.
/ División
^ Exponente gen Ricos = 1 if pib_percapita>6000

Lógico ! No Para crear una lista de una variable con ciertas condiciones,
| O tomando ejemplo:
& Y
Relacionales. > Mayor que list Esperanzavida if Esperanzavida>60
< Menor que • Crea una lista para las observaciones mayores a 60
>= Mayor o igual que
<= Menor o igual que list Esperanzavida in 10/20.
== Igual * Crea una lista para las observaciones mayores entre 10
!==; ~= Distinto de y 20.

11
Pautas importantes para crear variables.
Función Ejemplo Descripción
Ln() gen lnpib=ln(pib) Logaritmo Natural

Exp() gen expib = exp(pib) Exponencial

Sqrt() gen y = sqrt(pib) Raíz Cuadrada

Abs() gen x = abs(lnpib) Valor Absoluto

Cos() gen coseno=cos() Coseno

Logit() gen logit = logit(x) Retorna el logaritmo de los odds ratio de x

Runiform() Genera números aleatorios de una distribución uniforme.


gen uniforme = runiform()
[0,1)
Rnormal() Genera números aleatorios de una distribución normal
gen normal = rnormal()
estándar. (0,1)
Rnormal(m,s) Genera números aleatorios de una distribución normal con
gen normal = rnormal(10,2)
media m y desviación estándar s
Int() gen enteros = int(pib) Convierte un dato o variable como entero.

Invnormal(p) Genera una variable como la inversa de la probabilidad de


gen inversa = invnormal(probabilidad)
una distribución normal.
Length(s) g largo = length(nombre) Presenta el número de caracteres de una variable string.
12
Filtros de la base de datos.
⚫ Permiten hallar con una mejor especificidad el contenido de los datos, dependiendo del objetivo del investigador.

Ejemplo de filtros.

browse if pib_percapita > 3000


browse if Esperanzavida > 70

Uso del in
browse pib_percapita in 1/10 (Busqueme pib_percapita entre 1 y 10 oobservaciones)
browse pib_percapita in f/10 (f= FIRST, es decir, búsqueme los datos del primero hasta 10)
browse pib_percapita in 10/l (l= LAST, es decir, búsqueme los datos del 10 hasta el ultimo )

Se puede combinar con que realizar el filtro puede usar los comandos browse, edit, keep, drop y list.
drop elimina las observaciones.
keep conserva observaciones y/o variables.
list presenta variables y/o observaciones en la ventana de resultados.
edit permite visualizar los datos en una hoja de datos y podrá editar y modificar los datos.
browse realiza las mismas opciones de edit pero no se puede modificar.

Es necesario tener en cuenta que en la limpieza de la base de datos, es importante observar la existencia de missing
values. Los missing values, son datos que no tienen observaciones. Se representan en STATA como (.).

13
Administrador de variables.
⚫ Con esta herramienta se puede modificar información de cada variable, principalmente en el cambio de nombre,
etiquetas, tipo de variable, formato, notas y creación de categorías y etiquetas.
Pero no solo esta herramienta es útil. También por medio
de comandos se puede realizar.

- Rename
Este comando permite cambiar el nombre de una variable.

- Label variable
Para ponerle nombre o etiqueta a la variable.

Label var nombrevariable “etiqueta variable”

Se puede usar mejor el administrador de variables.

14
Modificación y transformación de variables.
⚫ Ya se había utilizado comandos como generate, que pueden ayudar a generar variables. Pero es necesario conocer como se
modifica una variable en su formato, tipo de variable, codificación, etc.

Recode
Este comando permite recodificar algún valor de una variable.
recode x (1=2), gen(nx)
recode x1 (1=2), gen(nx1)

Replace
Funciona igual que el comando generate, pero en lugar de crear nuevas variables, reemplaza los valores de variables ya existentes.

Ejemplo:
replace var1 = 1,5 in 1/10

Egen
Extensión de la variable generate. Genera variables que vienen expresadas como ciertas funciones de otras variables.
Se puede combinar con las condicionales if e in.

egen var7 == max(var1 + var2) if dummy==1

15
Combinación de bases de datos.
⚫ Es un problema muy común para el investigador, pero STATA le permite realizar diferentes tipos de fusiones de
bases de datos. Se presentan dos formatos diferentes: la adición horizontal (merge) y vertical (append).

HOMBRES.dta

Adición de variables:
Adición observaciones: EDUCACIÓN.dta
merge
append
Es necesario el
No necesita
identificador. Las bases
identificador.
de datos deben de estar
ordenadas.
MUJERES.dta
Combinación vertical – Append
Este comando agrega filas a la base de datos, las variables deben contener los mismos nombres y deben de estar
ordenadas. Para este caso tenemos la base de datos HOMBRES.dta y vamos a adicionar la base de datos
MUJERES.dta. Por tanto los comandos son:

use hombres, clear. (Es necesario el clear por que permite la limpieza de registros anteriores).
append using MUJERES
16
Combinación de bases de datos.
⚫ Como la base de datos cargada en la memoria RAM ha cambiado es conveniente que el usuario salve la nueva
información con otro nombre así.

save PERSONAS, replace

Combinación horizontal – merge.


El objetivo de este comando es agregar variables (columnas). Toma en cuenta una variable base, en este caso un ID
(Identificador). La base de datos tiene que estar en formato .dta.

Para pegar dos bases de datos (A.dta y B.dta), se deben realizar los siguientes pasos:

1. Ordenar (sort)* la base de datos B de acuerdo a las variables con las que se hará la unión de las bases, es decir de
acuerdo al ID, y guardar.
2. Abrir la base A y ordenarla de acuerdo al paso 1.
3. Usar el comando merge.
4. Guardar la base de datos (save).

* sort es el comando que permite ordenar las variables.

17
Combinación de bases de datos.
⚫ Para verificar si la base tiene un identificador, se recomienda que se verifique por medio del comando isid.

isid id num

Si sale error, es porque el identificador se repite y si va hacer una fusión tendrá inconvenientes. Al realizar el merge, se crea
una variable denominado _merge, que contiene 3 valores.

_merge==1 Las observaciones son originarias del archivo base master.


_merge==2 Las observaciones son originarias del archivo que se piensa unir con la base.
_merge==3 Las observaciones se encuentran en ambos archivos.

Ejemplo
Se tiene la base de datos EDUCACION, que es la base que vamos a unir con la base master. Las variables identificadoras son
“numero y e01”, y salvamos los cambios.

use EDUCACION
sort numero e01
d
save EDUCACION, replace

18
Combinación de bases de datos.
Cargar la base master (PERSONAS), la ordenamos por el mismo criterio anterior.

use PERSONAS
sort numero e01
d
save PERSONAS, replace

d significa que en la nueva base de datos, se ha combinado la información en una única base de datos.

Ahora vamos a PERSONAS, y escribimos el comando


merge numero e01 using EDUCACION

Merge numero e01 using EDUCACION


Comando de pegado Variables identificadoras Indicamos que la base de datos “using” es EDUCACION

La base de datos PERSONAS.dta contiene ahora las variables de la base de datos EDUCACION.dta, creando
automáticamente la variable _merge
19
Creación de programas – Editor de texto.
El usuario puede abrir un editor de texto donde puede
crear programas (archivos “.do” y “.ado” de Stata)
haciendo clic en el icono de la ventana “New Do-file
Editor”.

El usuario puede ejecutar uno o más comandos


simultáneamente, generar (macros) o crear rutinas nuevas
para STATA desde un editor de texto al que se accede
haciendo clic en el icono – New Dofile Editor– .

A través de este editor se pueden crear archivos tipo *.do


y *.ado. Los archivos *.do son conjuntos de comandos y
macros que únicamente se pueden ejecutar cuando el
archivo está activo.

En contraste, los archivos *.ado son rutinas que se


incorporan a STATA permanentemente y pueden ser
ejecutadas desde la el cuadro de comandos o incluso
desde otros archivos *.do y *.ado.

20
Estadísticas Descriptivas en STATA.
Para realizar este tipo de procedimiento, se escribe en la barra de comandos el comando summarize o sum (que es la
abreviatura de summarize). Es utilizado para generar estadísticos descriptivos, proporciona información acerca del
numero de observaciones , la media, desviación estándar, mínimo, máximo, de la variable especificada.

Ejemplo:
sum variable(s)

Si quiere un analisis mas detallado, solo agregue una coma y enseguida detail o det en la parte final del comando.

sum variable(s), det

Para crear una tabla de frecuencias de la variable var1, utilizamos tabulate o tab.
tabulate var1

Si se quiere una tabla de datos de doble entrada, con información cruzada de las variables var1 y var2, usamos esto.
tabulate var1 var2
21
Estadísticas Descriptivas en STATA.
Ahora, si se requiere una tabla de frecuencias de la variable var3 solo para las observaciones que cumplen la
expresión especificada después del if.

tab var3 if var1 + var2 >30 & year!=1991

Si solo se requiere el análisis de un solo estadístico, escribimos el siguiente comando. n # observaciones


mean Media

mean var1 sd Desviación estándar


median Mediana
max Máximo
Los estadísticos mas usados, se encuentran en la tabla derecha.
min Mínimo
p1 Primer percentil
p2 Segundo percentil

p98 Percentil 98
p99 Percentil 99
iqr Rango intercuantil.
22
Estadísticas Descriptivas en STATA.
Intervalos de confianza.
Establece la significancia de una variable y observa si realmente tiene impacto en otras variables en la formulación de
hipótesis. Para ello, se toma en cuenta el comando ci (confidence intervals)

ci pib_percapita

Generar Tablas descriptivas.


Para ello se tomara en cuenta el comando tabstat.
La mejor opción para este caso es que podamos acceder rápidamente al panel de STATA.

Estadísticas > Estadísticas, tablas y test > Tablas > Tabla de estadísticas descriptivas.

23
Graficas en STATA
STATA cuenta con una poderosa herramienta gráfica, permitiendo obtener gráficas de excelente calidad y con varias
opciones de edición de las mismas, es posible realizar gráficas como histogramas, barras, de torta, series de tiempo,
Box plot, dispersión, para datos panel y para otros tipos de análisis como son de supervivencia, multivariado, control
de calidad, etc.

Se puede acceder directamente de los paneles y ventanas o por medio de comandos.

Si lo quieres hacer por medio de ventanas y opciones, vas a la barra de menús y seleccionas la opción gráficos.

Aparecerán varias opciones de gráficos.

24
Graficas en STATA
Plottype description
scatterplot
scatter
line
line plot
connected connected-line plot
scatteri scatter with immediate arguments
area line plot with shading
bar bar plot
dropline spike dropline spike plot dropline plot plot plot
dot dot plot
rarea range plot with area shading
rbar range plot with bars
rspike range plot with spikes
rcap range plot with capped spikes
rcapsym range plot with spikes capped with symbols
rscatter range plot with markers
rline range plot with lines
rconnected range plot with lines and markers
pcspike paired-coordinate plot with spikes
pccapsym paired-coordinate plot with spikes capped with symbols
pcarrow paired-coordinate plot with arrows
pcbarrow paired-coordinate plot with arrows having two heads
pcscatter paired-coordinate plot with markers
25
Graficas en STATA
pci pcspike with immediate arguments

pcarrowi pcarrow with immediate arguments

tsline time-series plot


tsrline time-series range plot

mband median-band line plot

mspline spline line plot


lowess LOWESS line plot
lfit linear prediction plot
qfit quadratic prediction plot
fpfit fractional polynomial plot
lfitci linear prediction plot with CIs
qfitci quadratic prediction plot with CIs
fpfitci fractional polynomial plot with CIs
function line plot of of function
histogram histogram plot

kdensity kernel density plot

lpoly local polynomial smooth plot

lpolyci local polynomial smooth plot with CIs


26
Graficas en STATA
Otros tipos de graficas.
graph matrix Matrices de de gráficos Para grabar un gráfico, se usa el comando
graph save graph.gph y el nombre del
graph bar Gráficos de de barras – vertical
archivo, recuerde que la extensión de los
gráficos de Stata es .gph. Si lo queremos
graph hbar Gráficos de de barras – horizontal
llamar de nuevo usamos graph use graph.gph

graph dot Gráficos de de medias

graph box Gráficos de de cajas

graph pie Gráficos de de tortas

Ejemplos
graph twoway connected var1 var3
graph twoway scatter var3 var1 var4
graph box var5 if dummy = =1
graph pie var3 var1 in 1/30

27
Ejemplos de graficas en STATA
Histogramas (histogram var1) Histogramas con curva normal (histogram var1, normal)

Grafico torta (Gráficos > Grafico de torta) Grafica de Caja (Gráficos > Grafica de caja)

28
Ejemplos de graficas en STATA
Graficas Twoway (Vamos a hacerlo manualmente en Stata o por comandos)
Graficos > Graficos doble entrada > Crear
Todos los comando para graficar empiezan por graph, pero esto es opcional dependiendo el tipo de grafico solo se pone la opción
TWOWAY.

29
Ejemplos de graficas en STATA
Ejemplos de Twoway

Grafica de dispersión Grafica de Linea

Es necesario tener en cuenta el comando twoway y cierta notación.

twoway (tipo de grafico variable dependiente variable independiente)

Para combinar dos graficos, guardamos los graficos en formato .gph, y después se usa graph combine.

graph combine dirgrap1.gph dirgrap2.gph


30
Ejemplos de graficas en STATA
Grafico de Barras
Se usa el comando graph bar.
graph bar var1

Otra forma de realizarlo de manera mas efectiva, es usando la barra de menús de Stata en la sección graficos.

Graficos ponderados.
Se usa el comando de STATA weight.
twoway scatter var1 var2 [aweith = propval100], msymbol(oh)

Generando funciones
Vamos a graficos, luego a graficos doble entrada. Seguidamente seleccionamos en crear, y en graficas avanzadas, seleccionamos
función. Escribimos la función en la sección de escritura y listo.

31
Ejemplos de graficas en STATA
Otros graficos.

Kdensity: Explica la densidad de la distribución


kdensity var1

Qnorm: Explica la normalidad por medio de una grafica Q-Q plot y se compara con la normal.
qnorm var1
Quantile: Explica los cuantiles de una variable.
quantile var1

Pnorm: Explica la normalidad por medio de una grafica P – P plot.


pnorm var1

32
Regresión Lineal en STATA
STATA tiene una gran versatilidad a la hora de estimar modelos de regresión lineal.

Principal objetivo de la regresión lineal.

- Explicar el comportamiento de uno o mas fenómenos (variables dependientes) a partir de un conjunto de regresores (o variables
independientes) que, en la mayoría de los casos, han sido identificados por la teoría como los factores que explican el fenómeno
que se esta estudiando.

Aprendiendo a estimar un modelo de regresión lineal en STATA.

Para este caso, es necesario tener a la mano la base de datos “pib_colombia” ubicada en el Classroom. Descárguenlo y a partir de
ello vamos a hacer ciertas aplicaciones.

La teoría económica establece una relación entre PIBpercapita, Esperanza de vida y Emisión de CO2.

Para entonces se debe seguir los siguientes pasos.

33
Regresión Lineal en STATA
Abra el STATA, cargue la base y cuando ya tenga cargada la base, abra un do file.*

Cuando tenga cargada la base de datos, ejecute un sumario de estadísticas (sum) para describir las variables. En estas encontrara: Nº
de observaciones, Media, Desviación Estándar, Valor mínimo y valor máximo. Si quiere un analisis estadístico mas detallado,
solo escriba summarize, detail o si le da pereza escribir todo eso, entonces escriba sum, det.

Luego, se hace la estimación del modelo lineal. Para este caso, haremos la regresión de las variables PIBpercapita y Esperanza de
vida. Tenga en cuenta que el PIB percapita en este caso, esta medido en dólares y la esperanza de vida, esta medida en años.

reg PIBpercapita Esperanzavida

Tenga en cuenta que primero va la variable dependiente y después la variable independiente.

Luego, ejecuta el comando predict res, residuals para predecir los residuales del modelo.

Quedaría por tanto de la siguiente forma.

* Usted en primera medida sabe que al abrir el do file, debe ejecutar el comando clear y después pegar la dirección importada de Excel o el dta. De STATA. 34
Regresión Lineal en STATA
Se puede observar por tanto que:

• Por un aumento de la Esperanza de vida de un Colombiano


en un año, el PIBpercapita va a aumentar 249,73 dólares en
promedio.

• Se puede observar que el modelo se acopla en un 89,37% a


los datos.
Fuente: Elaboración propia.

Para realizar la grafica de dispersión, se escribe el siguiente comando.


twoway (scatter PIBpercapita Esperanzavida)

Automáticamente, el programa hará un grafico de dispersión de los datos, y observara como es su debido comportamiento.

Si en este caso planea hacer la línea de regresión para predicciones, agregamos lo siguiente.

twoway (scatter PIBpercapita Esperanzavida) (lfit PIBpercapita Esperanzavida)

Para hacer las predicciones del PIBpercapita promedio, es ejecuta el siguiente comando.

predict PPIBPC, xb

35
Regresión Lineal en STATA

Grafica de dispersión sin predicción o línea de regresión. Grafica de dispersión con predicción o línea de regresión.

36

También podría gustarte