Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso Paquete Stata
Curso Paquete Stata
CIENCIAS HUMANAS
Y SOCIALES
Contenido
I.
II.
INTRODUCCIN .................................................................................................. 2
EL AMBIENTE DE TRABAJO DE STATA......................................................... 3
Descripcin del ambiente de trabajo.............................................................................. 4
Descripcin de las ventanas ........................................................................................... 5
Descripcin de la barra de herramientas........................................................................ 6
Ayuda del sistema.......................................................................................................... 6
Sintaxis de las rdenes de Stata ..................................................................................... 7
III.
IV.
V.
VI.
1 / 33
I.
INTRODUCCIN
Stata es una aplicacin desarrollada para realizar anlisis estadsticos sobre muestras
aleatorias de poblaciones. Hay quien seala una fuerte especializacin en problemas
asociados con la econometra.
Nota:
En general, bajo el programa Stata trabajaremos mediante lenguaje de
programacin, y conviene recordar que es case-sensitive, es decir, diferencia
entre letras maysculas y minsculas
Genero = genero
2 / 33
II.
Este entorno puede ser configurado (hasta cierto punto) para adaptarlo a nuestras
necesidades.
3 / 33
Review
Variables
Command
Result
La ubicacin de estas ventanas es la siguiente:
4 / 33
Result
Variable
Review
Nota:
En la esquina inferior izquierda de la pantalla aparece el directorio de trabajo;
para cambiar de directorio basta con escribir el comando cd seguido del nuevo
directorio, exactamente igual a como se trabajaba en la consola de MS Windows.
Ejemplo:
cd d:\datos\enuesta
5 / 33
Para solicitar ayuda sobre un tema, por ejemplo regresin, slo tenemos que escribir la
orden help seguida de la palabra clave. Automticamente se abre el visor de ayuda
mostrando un completsimo informe, incluso con ejemplos y temas relacionados.
Ejemplo
help probit
6 / 33
Cualquier orden en Stata (con muy pocas excepciones) posee la siguiente sintaxis:
[prefix :] command [varlist] [=exp] [if] [in] [weight] [using filename] [, options]
7 / 33
Pero la mayora de las veces vamos a utilizar la siguiente forma, mucho ms simplificada:
[]
if
seguida de una expresin lgica indica que slo los datos que verifiquen
dicha condicin sern incluidos en el anlisis
in
weight
options
Ejemplos:
8 / 33
III.
display _N
Para conocer la naturaleza de los datos contenidos en el dataset se utiliza la instruccin
describe
9 / 33
Ejemplo:
Tipos de datos
La columna denominada storage type indica el formato de almacenamiento, es decir, el
nmero de bytes y, por tanto, la precisin de la variable.
Tipo
menor valor
byte
int
long
-127
100
-32,767
32,74
-2,147,483,647
2,147,483,620
1.70141173319*10^38 1.70141173319*10^36
8.9884656743*10^307 8.9884656743*10^307
float
double
Precision
float
double
mayor valor
1
2
4
+/-10^-36
+/-10^-323
3.795x10^-8
1.414x10^-16
10 / 33
11 / 33
copy-past
12 / 33
Escribiramos:
infile obs sexo carrera edad nota horast riesgo trabajo using "C:\creditos.dat" , clear
Nota
Est disponible el programa Stat/Transfer para realizar la traduccin de bases
de datos entre distintos formatos, como por ejemplo SPSS, SAS, Stata, MSExcel, , etc.
Ejemplo:
Para ordenar el dataset en funcin a una serie de variables se utiliza el comando sort
sort by iden
sort by hogar iden
13 / 33
La instruccin Merge
Merge se utiliza para aadir variables, pero no observaciones. Los ficheros de datos
deben de tener una variable de identificacin y, adems, deben de estar ordenados por
dicha variable.
Ejemplo:
Data1
Data2
14 / 33
Ejecutamos la orden
use data1
merge obs using data2
y obtenemos:
La instruccin Append
Se utiliza para aadir observaciones. La sintaxis de este comando es mucho ms
sencilla.
Dataset 1
Dataset 2
15 / 33
As, para combinar estas dos bases de datos, utilizamos los siguientes comandos:
use data1
append using data2
Si deseamos construir una nueva base de datos que condense la informacin original,
podemos utilizar el comando collapse
Ejemplo
Supongamos que tenemos una base de datos de hogares y en cada hogar se ha realizado
un muestreo de personas. Deseamos construir una base de datos donde la unidad
muestral sea el hogar, con una variable edad que represente la edad media de las
personas que viven en dicho hogar.
16 / 33
Resumen
17 / 33
IV.
Una vez cargada la base de datos que deseamos analizar es muy comn modificarla,
creando nuevas variables o bien transformado las existentes.
Bsicamente existen tres formas de crear y modificar las variables contenidas en la base
de datos:
a) Generar nuevas variables en funcin a expresiones matemticas ya existentes.
b) Reemplazar algunos o todos los valores de una variable en funcin a una regla.
c) Agrupar los valores en intervalos prefijados, es decir recodificar.
Nota
Si la variable a crear ya existe, el sistema dar un mensaje de error, pues este comando no
permite cambiar o alterar los valores de una variable ya existente. Si lo que deseamos es
alterar los valores, entonces deberemos utilizar el comando replace , que tiene la misma
sintaxis que generate
18 / 33
Funciones aritmticas
+
*
/
^
Funciones matemticas
abs(x)
acos(x) arcocoseno de x;
-1 < x < 1
asin(x) arcoseno de x;
-1 < x < 1
atan(x) arcotangente de x
ceil(x) retorna el entero mas pequeo mayor que x; n-1<x<=n
comb(n,k) numero de combinaciones posibles de n elementos tomados de k en k
cos(x) coseno de x
exp(x) exponencial de x, la function inversea es ln(x)
int(x) retorna el enetero de truncar x; int(1.2) = 1, and int(-1.2) = -1
ln(x) logaritmo en base e
log10(x) logaritmo en base 10
logit(x) logit de x, logit(x) = ln(x/(1-x))
max(x1,x2,...,xn) retorna el maximo de x1, x2, ..., xn
min(x1,x2,...,xn) retorna el minimo de x1, x2, ..., xn
mod(x,y) retorna el modulo de x respecto de y, mod(x,y) = x - y*int(x/y)
sin(x) seno de x
sqrt(x) raiz cuadrada de x
sum(x) suma acumulada de x
tan(x) tangente de x
Nota
Todas las funciones trigonomtricas estn en radianes.
19 / 33
b) El comando egen
El comando egen es una extensin del comando generate . El comando egen genera
variables en funcin de valores de otras variables; por ejemplo:
Genera una variable que contiene la desviacin estndar de la edad en cada gnero.
c) Recodificacin de variables
Para recodificar variables, tanto continuas como discretas, se puede utilizar el comando
recode .
Algunos ejemplos
20 / 33
Nota
Es indispensable que el dataset est correctamente ordenado
gen dtempk=temp-temp[_n-k]
21 / 33
V.
En general, todo anlisis estadstico, por complejo que sea, empieza por un completo
anlisis descriptivo. A continuacin presentamos los comandos ms utilizados.
Ejemplo:
codebook salini
Ejemplo:
sumamarize salini salario educ
22 / 33
tabulate clima
23 / 33
table sexo minora , cont ( mean salario) col row format (%9.1f)
24 / 33
Combinando los comandos y ajustando los formatos podemos crear tablas de resumen
realmente atractivas:
Ejemplo:
table region , cont (mean pib_cap sd pic_cap count pib_cap) format (%8,2f)
25 / 33
VI.
26 / 33
Contraste de homocedasticidad
estat hettest
Contraste de multicolinealidad
estat vif
Nota:
Contraste RSET
estat ovtest
una variable
Ejemplo:
27 / 33
Por ejemplo:
Ejemplo:
28 / 33
Este comando puede ser combinado con el procedimiento stepwise para conseguir el
mejor conjunto de variables regresoras:
estat class
predict yhat, p
predict lfor, xb
mfx
29 / 33
lsens
0.00
Sensitivity/Specificity
0.25
0.50
0.75
1.00
Lroc
0.00
0.25
0.50
Probability cutoff
Sensitivity
0.75
1.00
Specificity
30 / 33
Grficos
clear
display
cd
exit
help
cd
save
use
hbar
scatter
set
memory
dir
Histogramas
Diagramas de dispersin
Estadsticos descriptivos
codebook
hist
summarize
table
tabulate
Resumen de variables
Histograma
Estadsticos muestrales
Tablas de doble entrada
Tablas de 1 y 2 dimensiones con
estadsticos resumen
collapse
encode
anova
correlate
oneway
ranksum
tabulate
describe
destring
drop
by varlist
encode
format
generate
infile
input
label
list
merge
move
log using
log close
order
recode
rename
replace
set
sort /gsort
table
ttest
Anlisis de varianza
Correlacin
Anlisis de varianza
Test de Wilcoxon
crosstables (incl. tests de homogeneidad,
gamma, exact r*c test )
Tablas de estadsticos resumen
Contraste de medias
Modelos de regresin
clogit
Regresin logstica condicional
logit
Regresin logstica
logistic
Regresin logstica
Poisson
Regresin de Poisson
predict
prediction + indicator of fit
regress
Regresin lineal
Variable dummy:
xi: comando i . variable
31 / 33
32 / 33