Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Osvaldo Nina
INESAD
Julio 2013
Contenido
1. INTRODUCCIÓN ..................................................................................................................... 1
2. PRELIMINARES ..................................................................................................................... 2
2.1. Elementos básicos ....................................................................................................... 2
2.2. Lectura de datos .......................................................................................................... 4
2.3. Descripción de datos ................................................................................................... 7
2.4. Archivo de salida de resultados ..................................................................................11
2.5. Lectura de comandos desde un archivo......................................................................12
3. MANEJO DE DATOS ..............................................................................................................14
3.1. Sintaxis básica de los comandos ................................................................................14
3.2. Creación o modificación de datos ...............................................................................18
3.3. Comandos más utilizados para el análisis descriptivo .................................................26
1. INTRODUCCIÓN
El objetivo del manual es realizar una introducción básica al STATA, que es un programa
completo e integrado de estadística para investigadores de diferentes disciplinas, desde
bioestadísticos hasta investigadores sociales y económicos. Los diferentes tipos de análisis
integrados a STATA están documentados y soportados teóricamente por numerosos documentos,
publicaciones y revistas, proporcionando todo lo necesario para el análisis de datos, gestión de
datos y gráficos. En general, STATA combina velocidad con un fácil uso, una biblioteca de pre-
programas analíticos, capacidad para el manejo de datos, y las programación tanto como se
necesario.
STATA mantiene un muy buen web-site con abundante información sobre el producto, para
usuarios iniciados y avanzados. El mismo está en:
http://www.stata.com
STATA dispone de una serie de tutoriales on-line. En el menú principal de comandos, haga clic
en Help para ver una lista de opciones tutoriales disponibles. Se recomienda altamente trabajar
con estos tutoriales.
El programa es sensible a mayúsculas y minúsculas para las variables. Es más, los comandos
deben ser escritos en minúsculas
1
2. PRELIMINARES
En esta sección, se describe los elementos esenciales del programa, los aspectos relacionados a la
lectura de datos y el manejo de archivos de salida y lectura desde un archivo.
2.1. Elementos básicos
El programa presenta cuatro ventanas para trabajar, como se puede apreciar en la Figura1, que
son:
1. Results: presenta los resultados de cada orden;
2. Command: ventana donde se escriben los comandos;
3. Review: ventana donde se acumula los comandos utilizados, los cuales pueden ser
reenviados a la ventana Comand haciendo clic sobre ellos;
4. Variables: muestra el listado de variables de la base de datos;
El programa STATA incluye una carpeta integrada para obtener ayuda, haga click en Help y
obtendrá varias opciones de búsqueda, entre ellas tenemos:
− Search: para introducir una palabra clave
− Stata command: para introducir el nombre de un comando del STATA
Para terminar la sesión, cierre el programa haciendo clic en el botón superior derecho, como
cualquier otro programa de Windows.
2
Con la finalidad de agrupar y mantener ordena su computadora, se puede crear una carpeta donde
podrá almacenar toda la información y los archivos de STATA de su proyecto de investigación.
3
2.2. Lectura de datos
La estructura básica de datos en STATA es una tabla, en donde cada columna representa a una
variable y cada fila a una observación. Si bien existen numerosos formas de incorporar datos a
STATA, describiremos la más usual: importación de datos desde una planilla cálculo tipo
EXCEL.
En el directorio f:\cc, que estamos utilizando como carpeta de trabajo, se debe almacenar el
archivo EXCEL con información de interés. En nuestro ejemplo, tenemos información de Bolivia
a nivel municipal en el archivo Bolivia.xlsx. Las variables cubren las siguientes dimensiones:
geográfica, climática y socio-económica. El archivo tiene 12 variables con 311 observaciones, de
acuerdo a la siguiente descripción.
Variables Nombre
Departamento departamento
Municipio municipio
2
Extensión del Municipio en Km area
Temperatura temp
Precipitación Pluvial rain
Altitud altitude
Pendiente slope
Población – Censo 2001 pob2001
Población Rural – Censo 2001 rural2001
Necesidades Básica Insatisfechas – Censo 2001 nbi2001
Índice de Desarrollo Humano idh2001
Esperanza de Vida – Censo 2001 espvida2001
4
Como se puede observar en la Figura 4, los nombres de las variables se encuentran en la primera
fila y las observaciones en las restantes, de modo cada columna corresponde a una variable.
STATA no puede importar planillas de cálculo directamente, por lo que hay que hacer una
pequeña conversión.
Primero, hay que abrir el archivo conteniendo los datos en EXCEL y proceder a grabarlo en
formato ASCII (con extensión .txt), que contiene las variables delimitados por tabulaciones. El
nuevo archivo se llama Bolivia.txt y se encuentra en el directorio:
f:\cc\Bolivia.txt
Segundo, debemos abrir el STATA para leer los datos y re-direccionar a la carpeta de trabajo (cd
f:\cc), luego debe seguir los siguientes pasos
1. En el menú de comando principal haga clic en File
2. Seguidamente haga clic en Import,
3. Luego haga clic en la opción ASCII data created by a spreadsheet
4. Aparecerá una ventana, donde debe escribir la ubicación del archivo texto:
F:\CC\Bolivia.txt
5. Luego haga clic en OK
6. Las variables aparecerán en la ventada de Variables
Otra alternativa es utilizar la ventana de Command, donde debe escribir el siguiente comando:
5
Una vez realizado la lectura, podemos revisar la información de la base de datos. En el menú
principal, haga clic en el icono de Data Editor (Browse), ver Figura 6.
Una vez verificado que la información importada está completa, procedemos a guardar la
información en formato de STATA (.dta).
File/Save
Tras cual (luego de elegir un nombre “bolivia” para el archivo) los datos son guardados en
formato STATA y no es necesario volver a realizar la conversión desde EXCEL al comienzo de
una nueva sesión. Para iniciar nuevamente la sesión con los datos en formato STATA, luego de
abrir STATA, en el menú principal, haga clic
File/Open
6
Otra alternativa es utilizar la ventana Command. Escribir el nombre del archivo donde
almacenará la información de acuerdo al siguiente comando:
save "F:\CC\bolivia.dta"
o (cuando está en la carpeta de trabajo)
save bolivia
Para la lectura de un archivo con una base de datos en formato STATA, se debe escribir en la
ventana de Command el siguiente comando:
El programa STATA mantiene los datos en memoria. Si se ha estado trabajando en una base y se
quiere trabajar sobre otra, es necesario removerla de la memoria. Los comandos importantes para
una buena administración son: clear y set memory
clear
Si la base es grande, es necesario incrementar la cantidad de memoria disponible para una sesión
de STATA. Esto es necesario si se sabe de antemano que la base es grande o si cuando se intenta
leer la base se obtiene el siguiente mensaje:
set memory
El comando set mem (abreviado) amplia la memoria lo que sea necesario. El límite lo da el
computador. Por ejemplo, para ampliar la memoria a 100 megas, se debe escribir:
7
Figura 7. String versus Numeric
Por otro lado, una vez que se leen lo datos, pueden ver las características de la base de datos y las
variables que se seleccionan (si no se seleccionan variables, se muestran todas las variables de la
base de datos que se encuentre en usos). Los comandos más utilizados son: describe, list,
codebook, summarize y tabulate.
describe
8
list
El comando list muestra los valores de las variables seleccionadas en todas las observaciones o
en rango de observaciones.
list // muestra los valores de todas las variables en todas las observaciones
list in 1/5 // muestra los valores de todas la variables en las primeras cinco observaciones
list area //muestra los valores de la variable área en todas las observaciones
list area temp in 1/15 //muestra los valores de las variables área y temperatura en las primeras
quince observaciones
codebook
El comando codebook informa sobre las variables: estadísticas descriptivas, etiquetas, detalle de
los valores missing, etc. Si no se especifican variables, codebook despliega estas estadísticas para
todas las variables de la base de datos.
9
Figura 10. Estadísticas de las variables departamento y área
summarize
sum // despliega estadísticas descriptivas básicas para todas las variables de la base de datos
sum area temp // despliega estadísticas básicas para el área y la temperatura
10
tabulate
El comando tabulate despliega la tabla de frecuencia de una o dos variables. Tiene distintas
opciones tales como porcentajes por fila, columna y celda. Además, otros estadísticos, como Chi-
cuadrado.
Previamente al inicio del análisis de datos, procedemos a guardar los resultados en formato
ASCII.
File/Log/Begin
Luego de elegir un nombre (“output” para el archivo en formato smcl), los resultados serán
guardados en formato ASCII a medida que vaya realizando el análisis de la base de datos. Para
cerrar la sesión de trabajo, en el menú principal, haga clic
File/Log/Close
Los resultados estarán guardados en el archivo “output.smcl”, que puede abierto con un
procesador de textos común.
11
Otra alternativa es utilizar la ventana Command. Escribir el nombre del archivo donde
almacenará los resultados de acuerdo al siguiente comando:
log close
File/Save As
Luego de elegir un nombre “sesion1” para el archivo, podrá escribir los comandos a ejecutarse
para el análisis de la base de datos, que será guardado en formato .do del STATA, véase Figura
13.
12
Los comandos a ejecutar en el archivo sesion1.do son:
*Introducción al STATA
* Sesion1.do
clear // borra los datos en memoria
set mem 100m // amplia la memoria
insheet using Bolivia.txt // leer base de datos en formato ASCII
log using output, replace // iniciar sesión para almacenar resultados en archivo smcl
des departamento area // descripción de las variables departamento y área
list area temp in 1/15 // muestra los valores de las variables área y temperatura
codebook departamento area //despliega estadísticas de las variables departamento y área
sum area temp //despliega estadísticas básicas para el área y la temperatura
tab departamento //despliega tabla de frecuencia para la variable departamento
log close // cierra sesión para almacenar resultados en archivo smcl
save bolivia, replace // guarda base de datos en formato .dta de STATA
Para ejecutar el archivo sesion1.do, utilizar la ventana Command. Escribir el nombre del archivo
que desea ejecutar de acuerdo al siguiente comando:
do "F:\CC\sesion1.do"
o (cuando está en la carpeta de trabajo)
do sesion1
13
3. MANEJO DE DATOS
El mejor uso de los comandos depende del conocimiento de la estructura de una instrucción en
STATA, que es:
[by varlist]: comando [varlist] [=exp] [if exp] [in range] [weight], [options]
La información disponible del archivo bolivia.dta, que fue generado en la sección anterior, será
utilizado para ilustrar el uso de los comandos.
14
comando [varlist]
sum area temp altitude rural2001 // despliega las estadísticas descriptivas del área, temperatura
altitud y población rural
El by varlist se aplica el comando específico por valores de determinada variable. Para poder
aplicar la opción by los datos siempre deben estar ordenados por la variable de corte
seleccionada. El comando utilizado para ordenar datos es sort.
sort departamento // ordena los datos por los valores de la variable departamento
by departamento: sum temp // despliega las estadísticas descriptivas de la variable temperatura
por departamento
---------------------------------------------------------------------------------------
-> departamento = Beni
---------------------------------------------------------------------------------------
-> departamento = Chuquisaca
---------------------------------------------------------------------------------------
-> departamento = Cochabamba
---------------------------------------------------------------------------------------
-> departamento = La Paz
---------------------------------------------------------------------------------------
15
-> departamento = Oruro
---------------------------------------------------------------------------------------
-> departamento = Pando
---------------------------------------------------------------------------------------
-> departamento = Potosí
--------------------------------------------------------------------------------------
-> departamento = Santa Cruz
--------------------------------------------------------------------------------------
-> departamento = Tarija
Se aplica el comando if si se cumple una condición específica. Para poder definir una expresión
que involucre valores de variables, se utilizan los siguientes símbolos:
⋅ < (menor)
⋅ <= (menor o igual)
⋅ > (mayor)
⋅ >= (mayor o igual)
⋅ == (igual)
⋅ & (y)
⋅ | (o)
⋅ != (diferente de)
16
Vamos a determinar la temperatura promedio en función a la altura.
sort altitude // ordena los datos por los valores de la variable altitud
sum temp in 1/10 // despliega las estadísticas descriptivas de la variable temperatura de los 10
municipios con menor altitud
sum temp in 302/311 // despliega las estadísticas descriptivas de la variable temperatura de los
10 municipios con mayor altitud
17
comando [varlist] [=exp]
[=exp] especifica el valor asignado a una variable. Generalmente se usa con los comandos
generate y replace.
[weight] indica el ponderador asignado a cada observación, hay distintos ponderadores (ver help
weights)
[options] especifica las opciones después de una coma. Las opciones también admiten
abreviaciones y dependiendo del comando se tendrá un set de opciones diferentes. Para ver la
sintaxis y las opciones admitidas por un comando (así como para tener información acerca de
qué es lo que hace exactamente del comando) se puede utilizar la ayuda de STATA (help
comando)
La opción detail de sum produce estadísticos adicionales, incluyendo la asimetría, curtosis, los
cuatro valores más pequeños y más grandes, y varios percentiles.
sum temp, detail // despliega las estadísticas descriptivas de la temperatura de los municipios
con otros estadísticos adicionales
temp
-------------------------------------------------------------
Percentiles Smallest
1% 4.65601 3.82818
5% 6.29268 4.29106
10% 7.13093 4.3467 Obs 311
25% 8.33835 4.65601 Sum of Wgt. 311
18
sum
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
departamento | 0
municipio | 0
area | 311 3413.428 6908.347 12.24069 70962.87
temp | 311 15.16249 6.934345 3.82818 26.4684
rain | 311 81.73835 53.86671 5.758824 337.7436
-------------+--------------------------------------------------------
altitude | 311 2500.825 1485.253 142.716 4589.8
slope | 311 40.59374 32.56744 0 96.44317
pob2001 | 311 26605.55 92819.59 221 1135526
rural2001 | 311 .8132849 .2826554 .0007 1
nbi2001 | 311 84.27705 17.92908 19.07955 100
-------------+--------------------------------------------------------
idh2001 | 311 .5480803 .0793745 .3106447 .7408361
espvida2001 | 311 60.43313 5.031016 40.34542 70.24457
sort y gsort
El comando sort ordena la base de datos por una o varias variables, dando prioridad al orden de
la variable que se pone en primer lugar, segundo, etc.. Por defecto, sort ordena las observaciones
de menor a mayor
sort altitude
sort altitude temp
El comando gsort permite elegir cómo se debe ordenar cada variable, pudiendo cambiar entre
descendente (signo +) o ascendente (signo -) para cada variable
+--------------------+
| altitude temp |
|--------------------|
1. | 4589.8 4.3467 |
2. | 4475.81 4.67189 |
3. | 4398.38 6.46022 |
4. | 4389.91 5.85101 |
5. | 4384.41 5.00167 |
+--------------------+
19
generate
El comando generate admite todas las expresiones de if más todos los operadores matemáticos
sencillos: suma, resta, multiplicación, división, elevado a, etc.
Para generar nuevas variables: pobrural (población rural), poburbana (población urbana),
pobtotal (población total) y densidad, los comandos son:
gen pobrural=rural2001*pob2001
gen poburbana= (1-rural2001)*pob2001
gen pobtotal=pobrural + poburbana
gen densidad=pobtotal/area
Para observar los valores de las nuevas variables en las cinco primeras observaciones, se debe
escribir el siguiente comando:
+-------------------------------------------+
| pobrural poburb~a pobtotal densidad |
|-------------------------------------------|
1. | 2094.009 3832.991 5927 .5908391 |
2. | 740 0 740 .2019498 |
3. | 1018 0 1018 .4929233 |
4. | 1933.824 3518.176 5452 .6296514 |
5. | 7348.675 33095.32 40444 6.221823 |
+-------------------------------------------+
Para generar el número de una observación en la base de datos pero previo ordenamiento por una
variable de referencia (tener en cuenta que es a partir del momento que se ejecuta el comando y
no en el orden original)
sort pobtotal
gen id=_n
+---------------+
| id pobtotal |
|---------------|
1. | 1 221 |
2. | 2 267 |
3. | 3 353 |
4. | 4 387 |
5. | 5 390 |
|---------------|
6. | 6 509 |
7. | 7 616 |
8. | 8 716 |
9. | 9 740 |
10. | 10 815 |
+---------------+
20
Para generar una variable con grupos de igual tamaño se puede usar la función group. Es
aconsejable primero ordenar la base por una variable de referencia antes de crear los grupos, ya
que este comando asigna 1 al primer grupo, 2 al siguiente grupo y así sucesivamente.
sort pobtotal
gen gpob=group(50) // se ha generado 50 grupos de igual tamaño
+----------------------+
| id gpob pobtotal |
|----------------------|
1. | 1 1 221 |
2. | 2 1 267 |
3. | 3 1 353 |
4. | 4 1 387 |
5. | 5 1 390 |
|----------------------|
6. | 6 1 509 |
7. | 7 1 616 |
8. | 8 2 716 |
9. | 9 2 740 |
10. | 10 2 815 |
+----------------------+
Para generar la suma acumulada de la población total por municipio (va sumando reglón por
reglón):
gen totpob=sum(pobtotal)
Para observar los valores de las nuevas variables en las diez primeras observaciones, se debe
escribir el siguiente comando:
+-------------------------------+
| id gpob pobtotal totpob |
|-------------------------------|
1. | 1 1 221 221 |
2. | 2 1 267 488 |
3. | 3 1 353 841 |
4. | 4 1 387 1228 |
5. | 5 1 390 1618 |
|-------------------------------|
6. | 6 1 509 2127 |
7. | 7 1 616 2743 |
8. | 8 2 716 3459 |
9. | 9 2 740 4199 |
10. | 10 2 815 5014 |
+-------------------------------+
Para observar los valores de las nuevas variables en las diez ultimas observaciones, se debe
escribir el siguiente comando:
21
list id gpob pobtotal totpob in 302/311
+---------------------------------+
| id gpob pobtotal totpob |
|---------------------------------|
302. | 302 49 104206 4331472 |
303. | 303 49 117100 4448572 |
304. | 304 49 145057 4593629 |
305. | 305 50 153457 4747086 |
306. | 306 50 215660 4962746 |
|---------------------------------|
307. | 307 50 215778 5178524 |
308. | 308 50 517024 5695548 |
309. | 309 50 649958 6345506 |
310. | 310 50 793293 7138799 |
311. | 311 50 1135526 8274325 |
+---------------------------------+
Para generar variables binarias o dummy hay distintas opciones para crearlas:
Crea una variables binaria que es igual a 1 si departamento= “La Paz” (entre comillas por la
variables es string) y cero en otro caso.
Otra alternativa
gen lapaz2=0
replace lapaz2=1 if departamento== “La Paz”
Para observar los valores de las nuevas variables en las diez primeras observaciones, se debe
escribir el siguiente comando:
sort rural2001
list departamento lapaz1 lapaz2 in 1/10
+------------------------------+
departam~o lapaz1 lapaz2
------------------------------
1. Cochabamba 0 0
2. La Paz 1 1
3. La Paz 1 1
4. Cochabamba 0 0
5. Santa Cruz 0 0
------------------------------
6. Santa Cruz 0 0
7. Santa Cruz 0 0
8. Beni 0 0
9. Oruro 0 0
10. Pando 0 0
+------------------------------+
22
En cualquiera de estos dos casos se debe tener cuidado si hay missing values, puesto que se
estaría asignando un cero a algo que en realidad es un missing.
Otras expresiones
egen
Es un comando muy útil para crear variables. El comando egen (o extended generate) se utiliza
cuando se quiere generar variables que requieren operadores matemáticos complejos: suma de
una variable (no renglón a renglón sino el total), máximo, mínimo, número de casos, media,
mediana, etc.
Para observar los valores de las nuevas variables en las diez ultimas observaciones ordenadas por
la variable pobtotal, se debe escribir los siguientes comandos:
sort pobtotal
list pobtotal totpob spobtotal in 302/311
+-------------------------------+
| pobtotal totpob spobto~l |
|-------------------------------|
302. | 104206 4331472 8274325 |
303. | 117100 4448572 8274325 |
304. | 145057 4593629 8274325 |
305. | 153457 4747086 8274325 |
306. | 215660 4962746 8274325 |
|-------------------------------|
307. | 215778 5178524 8274325 |
308. | 517024 5695548 8274325 |
309. | 649958 6345506 8274325 |
310. | 793293 7138799 8274325 |
311. | 1135526 8274325 8274325 |
+-------------------------------+
23
Para observar los valores de las nuevas variables por departamento, se debe escribir los siguientes
comandos:
sort departamento
list departamento temp mtemp nmunic in 15/24
+------------------------------------------+
| departam~o temp mtemp nmunic |
|------------------------------------------|
15. | Beni 24.975 25.75087 19 |
16. | Beni 26.4684 25.75087 19 |
17. | Beni 26.4038 25.75087 19 |
18. | Beni 25.0893 25.75087 19 |
19. | Beni 26.0853 25.75087 19 |
|------------------------------------------|
20. | Chuquisaca 15.6975 17.00425 28 |
21. | Chuquisaca 17.1584 17.00425 28 |
22. | Chuquisaca 19.2151 17.00425 28 |
23. | Chuquisaca 23.0664 17.00425 28 |
24. | Chuquisaca 18.2704 17.00425 28 |
+------------------------------------------+
replace
El comando replace permite cambiar una variable existente. Es más, con variables string es
necesario utilizar el comando replace
gen depto=0
replace depto=1 if departamento== “La Paz”
replace depto=2 if departamento== “Oruro”
replace depto=3 if departamento== “Potosí”
replace depto=4 if departamento== “Chuquisaca”
replace depto=5 if departamento== “Cochabamba”
replace depto=6 if departamento== “Tarija”
replace depto=7 if departamento== “Santa Cruz”
replace depto=8 if departamento== “Beni”
replace depto=9 if departamento== “Pando”
label
El comando label var se utiliza para asignarle una etiqueta, por ejemplo para ponerle una
etiqueta a la variable depto, procedemos de la siguiente forma:
24
El comando label define se utiliza para definir una lista de asociaciones de números enteros y
texto llamadas “value labels” (leyendas de valores):
El comando label values se utiliza para anexar una leyenda de valores a una variable:
label values depto depto // primero se introduce el nombre de la variable y luego de la lista
Para observar los valores de las nueva variable depto, se debe escribir el siguiente comando:
tab depto
Departament |
o | Freq. Percent Cum.
------------+-----------------------------------
La Paz | 75 24.12 24.12
Oruro | 34 10.93 35.05
Potosí | 38 12.22 47.27
Chuquisaca | 28 9.00 56.27
Cochabamba | 44 14.15 70.42
Tarija | 11 3.54 73.95
Santa Cruz | 47 15.11 89.07
Beni | 19 6.11 95.18
Pando | 15 4.82 100.00
------------+-----------------------------------
Total | 311 100.00
rename
keep y drop
25
3.3. Comandos más utilizados para el análisis descriptivo
El análisis descriptivo se lo realiza con dos o más variables. Además, de la variable depto vamos
a generar dos nuevas variables:
⋅ altura, que dividirá a los municipios en tres categorías: Alta, Media y Baja
⋅ region, que dividirá a los municipios en dos regiones: Urbana y Rural
gen altura=0
replace altura=1 if altitude <=1000
replace altura=2 if altitude >1000 & altitude <=3000
replace altura=3 if altitude>3000
label define altura 1 “Baja” 2 “Media” 3 “Alta”
label values altura altura
gen region=0
replace region=1 if rural2001>0.50
label define region 0 “Urbana” 1 “Rural”
label values region region
Los comandos más utilizados para el análisis descriptivo son: tabulate y table
tabulate
El comando tabulate despliega la tabla de frecuencia de una o dos variables. Tiene distintas
opciones tales como porcentajes por fila, columna y celda.
Departament |
o | Freq. Percent Cum.
------------+-----------------------------------
La Paz | 75 24.12 24.12
Oruro | 34 10.93 35.05
Potosí | 38 12.22 47.27
Chuquisaca | 28 9.00 56.27
Cochabamba | 44 14.15 70.42
Tarija | 11 3.54 73.95
Santa Cruz | 47 15.11 89.07
Beni | 19 6.11 95.18
Pando | 15 4.82 100.00
------------+-----------------------------------
Total | 311 100.00
tab region
26
tab altura
Departamen | region
to | Urbana Rural | Total
-----------+----------------------+----------
La Paz | 3 72 | 75
Oruro | 3 31 | 34
Potosí | 5 33 | 38
Chuquisaca | 1 27 | 28
Cochabamba | 6 38 | 44
Tarija | 4 7 | 11
Santa Cruz | 16 31 | 47
Beni | 10 9 | 19
Pando | 1 14 | 15
-----------+----------------------+----------
Total | 49 262 | 311
Departamen | altura
to | Baja Media Alta | Total
-----------+---------------------------------+----------
La Paz | 3 16 56 | 75
Oruro | 0 0 34 | 34
Potosí | 0 1 37 | 38
Chuquisaca | 1 22 5 | 28
Cochabamba | 3 21 20 | 44
Tarija | 3 6 2 | 11
Santa Cruz | 34 13 0 | 47
Beni | 19 0 0 | 19
Pando | 15 0 0 | 15
-----------+---------------------------------+----------
Total | 78 79 154 | 311
| altura
region | Baja Media Alta | Total
-----------+---------------------------------+----------
Urbana | 29 6 14 | 49
Rural | 49 73 140 | 262
-----------+---------------------------------+----------
Total | 78 79 154 | 311
27
Para conocer la composición en porcentaje por fila:
tab depto altura, row
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
Departamen | altura
to | Baja Media Alta | Total
-----------+---------------------------------+----------
La Paz | 3 16 56 | 75
| 4.00 21.33 74.67 | 100.00
-----------+---------------------------------+----------
Oruro | 0 0 34 | 34
| 0.00 0.00 100.00 | 100.00
-----------+---------------------------------+----------
Potosí | 0 1 37 | 38
| 0.00 2.63 97.37 | 100.00
-----------+---------------------------------+----------
Chuquisaca | 1 22 5 | 28
| 3.57 78.57 17.86 | 100.00
-----------+---------------------------------+----------
Cochabamba | 3 21 20 | 44
| 6.82 47.73 45.45 | 100.00
-----------+---------------------------------+----------
Tarija | 3 6 2 | 11
| 27.27 54.55 18.18 | 100.00
-----------+---------------------------------+----------
Santa Cruz | 34 13 0 | 47
| 72.34 27.66 0.00 | 100.00
-----------+---------------------------------+----------
Beni | 19 0 0 | 19
| 100.00 0.00 0.00 | 100.00
-----------+---------------------------------+----------
Pando | 15 0 0 | 15
| 100.00 0.00 0.00 | 100.00
-----------+---------------------------------+----------
Total | 78 79 154 | 311
| 25.08 25.40 49.52 | 100.00
| altura
region | Baja Media Alta | Total
-----------+---------------------------------+----------
Urbana | 37.18 7.59 9.09 | 15.76
Rural | 62.82 92.41 90.91 | 84.24
-----------+---------------------------------+----------
Total | 100.00 100.00 100.00 | 100.00
28
Para conocer la frecuencia y porcentaje por celda:
+-----------------+
| Key |
|-----------------|
| frequency |
| cell percentage |
+-----------------+
| altura
region | Baja Media Alta | Total
-----------+---------------------------------+----------
Urbana | 29 6 14 | 49
| 9.32 1.93 4.50 | 15.76
-----------+---------------------------------+----------
Rural | 49 73 140 | 262
| 15.76 23.47 45.02 | 84.24
-----------+---------------------------------+----------
Total | 78 79 154 | 311
| 25.08 25.40 49.52 | 100.00
El comando tab conjuntamente con gen puede crear una variable binaria para cada valor que se
encuentra en la variable depto, poniéndoles el nombre de depto1, depto2,…, depto9 (o el nombre
que se elija, pero siempre asignará valores correlativos a la variables binarias generales).
Para observar los valores de las nuevas variables en las quince primeras observaciones, se debe
escribir el siguiente comando:
list depto depto1 depto2 depto3 depto4 depto5 depto6 depto7 depto8 depto9 in 1/15
+-----------------------------------------------------------------------------------------+
| depto depto1 depto2 depto3 depto4 depto5 depto6 depto7 depto8 depto9 |
|-----------------------------------------------------------------------------------------|
1. | Oruro 0 1 0 0 0 0 0 0 0 |
2. | La Paz 1 0 0 0 0 0 0 0 0 |
3. | Oruro 0 1 0 0 0 0 0 0 0 |
4. | Oruro 0 1 0 0 0 0 0 0 0 |
5. | Oruro 0 1 0 0 0 0 0 0 0 |
|-----------------------------------------------------------------------------------------|
6. | Pando 0 0 0 0 0 0 0 0 1 |
7. | Oruro 0 1 0 0 0 0 0 0 0 |
8. | Potosí 0 0 1 0 0 0 0 0 0 |
9. | Pando 0 0 0 0 0 0 0 0 1 |
10. | Potosí 0 0 1 0 0 0 0 0 0 |
|-----------------------------------------------------------------------------------------|
11. | Oruro 0 1 0 0 0 0 0 0 0 |
12. | Oruro 0 1 0 0 0 0 0 0 0 |
13. | Pando 0 0 0 0 0 0 0 0 1 |
14. | Oruro 0 1 0 0 0 0 0 0 0 |
15. | Pando 0 0 0 0 0 0 0 0 1 |
+-----------------------------------------------------------------------------------------+
29
table
El comando table se puede crear tablas estadísticas controlando el contenido de cada casilla. Por
ejemplo, podemos calcular una tabla de doble entrada y situar en cada celda el estadístico
solicitado.
freq frequency
mean varname mean of varname
sd varname standard deviation
sum varname sum
count varname count of nonmissing observations
n varname same as count
max varname maximum
min varname minimum
median varname median
p1 varname 1st percentile
p2 varname 2nd percentile
... 3rd-49th percentile
p50 varname 50th percentile (median)
... 51st-97th percentile
p98 varname 98th percentile
p99 varname 99th percentile
iqr varname interquartile range
El comando table puede replicar los estadísticos del comando sum: número de observaciones,
media, desvió estándar, mínimo y máximo de la variables temp. Además, los números tienen un
formato (help format).
table depto, contents (n temp mean temp sd temp min temp max temp) format ( %8.2f)
-----------------------------------------------------------------------
Departamen |
to | N(temp) mean(temp) sd(temp) min(temp) max(temp)
-----------+-----------------------------------------------------------
La Paz | 75 10.71 5.24 4.67 25.33
Oruro | 34 7.52 1.40 3.83 9.51
Potosí | 38 10.04 2.85 4.35 16.82
Chuquisaca | 28 17.00 2.57 13.25 23.07
Cochabamba | 44 14.87 3.93 7.13 25.18
Tarija | 11 18.10 3.92 10.58 23.30
Santa Cruz | 47 22.76 2.60 16.90 25.79
Beni | 19 25.75 0.51 24.94 26.47
Pando | 15 25.77 0.62 24.67 26.41
-----------------------------------------------------------------------
30
El análisis descriptivo requiere una tabla de doble entrada, esto puede obtenerse de esta manera:
table depto region altura, c(mean temp) format ( %8.2f) // c es equivalente a contents
---------------------------------------------------------------
| altura and region
Departamen | ---- Baja ---- ---- Media --- ---- Alta ----
to | Urbana Rural Urbana Rural Urbana Rural
-----------+---------------------------------------------------
La Paz | 24.44 17.54 8.85 7.98
Oruro | 7.24 7.55
Potosí | 16.82 9.62 9.89
Chuquisaca | 23.07 16.30 17.53 13.72
Cochabamba | 24.25 16.41 16.55 8.84 12.22
Tarija | 22.61 16.27 18.12 12.19
Santa Cruz | 24.37 24.09 19.55 18.92
Beni | 25.80 25.70
Pando | 24.96 25.83
---------------------------------------------------------------
31