Manuals Tata

INTRODUCCION GENERAL AL
Aplicaciones con la Encuesta Nacional de Hogares
DOCUMENTO DE TRABAJO DEL

CURSO TALLER
“INDICADORES SOCIALES SOBRE
LAS CONDICIONES DE VIDA Y POBREZA EN EL PERU”
Elaborado por:
Ing. Romy E. Rodríguez Ravines
Noviembre, 2000
Introducción al Stata -1-

INTRODUCCION GENERAL AL
Aplicaciones con la Encuesta Nacional de Hogares
Stata es un software que permite manipular y analizar datos usando métodos estadísticos. Es un
paquete integrado con el que se pueden realizar Estadísticas Básicas, Modelos de Regresión Lineal,
Modelos con Variables Binarias, Análisis de datos tipo panel y de Series de Tiempo, Estadística No
Paramétrica, Análisis Multivariado, Simulaciones, etc.
 Para ingresar al Stata basta con dar clic sobre el icono:

 Las ventanas que aparecen por defecto son :
Review
Aquí se visualizan los comandos que se
ejecutaron durante la sesión
Variables
Aquí se visualizan las variables, y sus
respectivas etiquetas, de la base de datos
activa.
Results
Aquí se visualizan los resultados de los
procesos realizados
Command
Aquí se digitan los comandos que se
ejecutarán
 Además se pueden abrir las ventanas Help y Do-File
Help Do-File
Aquí se visualiza la ayuda del Stata. En ella Es una ventana similar a un editor de texto,
se encuentra la sintaxis de cada comando así en ella se digitan los programas (do-files)
como la explicación detallada de los del Stata. Desde aquí se pueden ejecutar
resultados obtenidos con cada opción. programas enteros o sólo algunos comandos

ABRIR Y GUARDAR ARCHIVOS
 Para ABRIR archivos de datos se puede usar el Menú: File\Open...., o escribir el comando use
Los archivos de datos del Stata tienen extensión .dta.
USE
use d:\panel\panel_1.dta Abre el archivo “panel_1.dta”
use d:\panel\panel_1.dta, clear Abre el archivo “panel_1.dta” aun si se encuentra
en la memoria activa y tiene cambios respecto a la
versión guardada
 Para GUARDAR archivos de datos se puede usar el Menú: File\Save...., o File\Save as....,o
escribir el comando save
SAVE
save d:\panel\panel_2.dta Guarda datos con el nombre “panel_2.dta”
save d:\panel\panel_1.dta, replace Reemplaza el archivo “panel_1.dta” con los datos de
la base de datos activa.
 Para IMPORTAR archivos de datos de otros formatos , se recomienda utilizar el Stat/Transfer

(ver anexo 01)
 Para GUARDAR los RESULTADOS en un archivo de texto se puede usar el comando Log using
LOG USING
log using d:\panel\resulta_1.txt Crea el archivo “resulta_1.txt” y graba los resultados
en formato texto.
log using d:\panel\resulta_1.txt, replace Reemplaza el contendido del archivo “resulta_1.txt”

con los nuevos resultados
log using d:\panel\resulta_1.txt, append Adiciona los nuevos resultados al final del archivo
“resulta_1.txt”
CONTENIDO DEL ARCHIVO DE DATOS
 Para obtener una DESCRIPCIÓN DE LAS VARIABLES contenidas en el archivo de datos, se utiliza
el comando Describe.
DESCRIBE
describe Muestra el formato y etiqueta de las variables
de la base de datos
d Es el modo abreviado de describe
d mieperho Muestra el formato y etiqueta de la variable
“mieperho”

. describe
Contains data from d:\panel\panel_1.dta

obs: 9,333
vars: 10 24 Oct 2000 11:29
size: 457,317 (50.9% of memory free)
-------------------------------------------------------------------------------
1. caseid str9 %9s identificación del hogar 1998
2. mieperho float %9.0g numero de miembros
3. percepho float %9.0g numero de perceptores
4. inghogtr float %9.0g ingreso total trimetral
5. gashogtr float %9.0g gasto total trimestral
6. pobreza float %9.0g pobreza pobreza
7. facpan float %9.0g factor
8. year float %9.0g año
9. nrocaso float %9.0g nrocaso identificacion del hogar
10. filtro float %9.0g filtro filtro
-------------------------------------------------------------------------------
Sorted by:
 Para obtener los ESTADÍSTICOS DESCRIPTIVOS BÁSICOS (media, desviación estándar, mínimo y
máximo) de las variables contenidas en el archivo de datos, se utiliza el comando Summarize.
SUMMARIZE
summarize Muestra el número de casos, media, desviación
estándar, mínimo y máximo
sum Es el modo abreviado de summarize
sum mieperho, detail Además de los estadísticos por defecto, muestra
percentiles, kurtosis, Skewness de la variable
“mieperho”
. summarize
Variable | Obs Mean Std. Dev. Min Max

---------+-----------------------------------------------------
caseid | 0
mieperho | 9321 4.892501 2.291154 1 17
percepho | 9321 2.102886 1.184047 0 12
inghogtr | 9321 3790.891 4733.62 10 95752
gashogtr | 9321 3513.513 3456.631 114 91608
pobreza | 9321 2.522369 .7234267 1 3
facpan | 9333 1750.985 1394.398 128.8532 8945.154
year | 9333 1998 .8165403 1997 1999
nrocaso | 9333 1556 898.1164 1 3111
filtro | 9321 1 0 1 1
. sum mieperho, detail
numero de miembros
-------------------------------------------------------------
Percentiles Smallest
1% 1 1
5% 1 1
10% 2 1 Obs 9321
25% 3 1 Sum of Wgt. 9321
50% 5 Mean 4.892501

Largest Std. Dev. 2.291154
75% 6 16
90% 8 16 Variance 5.249387
95% 9 16 Skewness .6552366
99% 12 17 Kurtosis 3.754976

 Para obtener los un HISTOGRAMA E INFORMACIÓN ADICIONAL (cantidad de valores negativos,
cero o positivos, cantidad de valores perdidos, cantidad de valores enteros)de las variables
contenidas en el archivo de datos, se utiliza el comando Inspect.
INSPECT
inspect mieperho Muestra un histograma pequeño e información sobre
las observaciones de la variable “mieperho”
. inspect mieperho
mieperho: numero de miembros Number of Observations

----------------------------- Non-
Total Integers Integers
| # Negative - - -
| # # Zero - - -
| # # Positive 9321 9321 -
| # # ----- ----- -----
| # # Total 9321 9321 -
| # # # . . Missing 12
+---------------------- -----
1 17 9333
(17 unique values)
FRECUENCIAS, PORCENTAJES, CRUCE DE VARIABLES
 Las FRECUENCIAS de una variable se obtienen con el comando Tabulate.
TABULATE
tabulate mieperho Muestra las frecuencias de “mieperho”
tab mieperho Es la forma abreviada de tabulate
tab pobreza, generate (pob99) Muestra las frecuencias de “pobreza” y crea 3
variables dicotómicas con los valores de “pobreza”
. tabulate mieperho
numero de |
miembros | Freq. Percent Cum.
------------+-----------------------------------
1 | 468 5.02 5.02
2 | 888 9.53 14.55
3 | 1310 14.05 28.60
4 | 1665 17.86 46.46
5 | 1645 17.65 64.11
6 | 1281 13.74 77.86
7 | 902 9.68 87.53
8 | 561 6.02 93.55
9 | 286 3.07 96.62
10 | 154 1.65 98.27
11 | 67 0.72 98.99
12 | 52 0.56 99.55
13 | 21 0.23 99.77
14 | 12 0.13 99.90
15 | 5 0.05 99.96
16 | 3 0.03 99.99
17 | 1 0.01 100.00
------------+-----------------------------------
Total | 9321 100.00

 Los CRUCES DE DOS VARIABLES también se obtienen con el comando Tabulate.
TABULATE
tabulate year pobreza Muestra el número de casos del cruce de las variables
“year” y pobreza”
tabulate year pobreza, row Muestra el número de casos y el porcentaje horizontal

del cruce de las variables “year” y “pobreza”
. tab year pobreza
| pobreza
año | pobre ext pobre no pobre | Total
-----------+---------------------------------+----------
1997 | 429 635 2035 | 3099
1998 | 444 640 2027 | 3111
1999 | 403 625 2083 | 3111
-----------+---------------------------------+----------
Total | 1276 1900 6145 | 9321
. tab year pobreza,row
| pobreza
-----------+---------------------------------+----------
1997 | 429 635 2035 | 3099
| 13.84 20.49 65.67 | 100.00
-----------+---------------------------------+----------
1998 | 444 640 2027 | 3111
| 14.27 20.57 65.16 | 100.00
-----------+---------------------------------+----------
1999 | 403 625 2083 | 3111
| 12.95 20.09 66.96 | 100.00
-----------+---------------------------------+----------
Total | 1276 1900 6145 | 9321
| 13.69 20.38 65.93 | 100.00
 Los ESTADÍSTICOS de una variable cuantitativa RESPECTO A LAS CATEGORÍAS de otra variable,
se obtienen combinando el comando tabulate y sum.
TABULATE, SUM
tabulate year, sum(mieperho) Muestra la media, desviación estándar y el número de
casos de la variable “mieperho” en cada categoría de
la variable “year”
tabulate pobreza (if year==1999), sum mieperho Muestra la media, desviación estándar y el número de
casos de la variable “mieperho” en cada categoría de
la variable “pobreza”, cuando “year “ es igual a 1999.
. tab year, sum(mieperho)
| Summary of numero de miembros

año | Mean Std. Dev. Freq.
------------+------------------------------------
1997 | 4.9286867 2.2961247 3099
1998 | 4.9125683 2.2910576 3111
1999 | 4.836387 2.2859645 3111
------------+------------------------------------
Total | 4.8925008 2.2911541 9321

. tab pobreza if (year==1999), sum (mieperho)
| Summary of numero de miembros

pobreza | Mean Std. Dev. Freq.
------------+------------------------------------
pobre ext | 6.325062 2.3491381 403
pobre | 5.7184 2.3439907 625
no pobre | 4.2837254 2.0311359 2083
------------+------------------------------------
Total | 4.836387 2.2859645 3111
 Los ESTADÍSTICOS de una variable cuantitativa RESPECTO AL CRUCE DE DOS VARIABLES, se

obtienen combinando el comando tabulate y sum.
TABULATE, SUM
tabulate year pobreza, sum(mieperho) Muestra la media, desviación estándar y el número de
casos de la variable “mieperho” en cada categoría del
cruce de las variables “year” y “pobreza”
tabulate year pobreza, sum(mieperho) means Muestra la sólo la media de la variable “mieperho” en
cada categoría del cruce de las variables “year” y
“pobreza”
. tab year pobreza, sum(mieperho)
Means, Standard Deviations and Frequencies of numero de miembros
| pobreza
-----------+---------------------------------+----------
1997 | 6.5431235 5.5732283 4.3872236 | 4.9286867
| 2.3672474 2.2081527 2.0876643 | 2.2961247
| 429 635 2035 | 3099
-----------+---------------------------------+----------
1998 | 6.204955 5.6859375 4.3852985 | 4.9125683
| 2.3112001 2.3649347 2.0717726 | 2.2910576
| 444 640 2027 | 3111
-----------+---------------------------------+----------
1999 | 6.325062 5.7184 4.2837254 | 4.836387
| 2.3491381 2.3439907 2.0311359 | 2.2859645
| 403 625 2083 | 3111
-----------+---------------------------------+----------
Total | 6.3565831 5.6589474 4.3515053 | 4.8925008
| 2.3445815 2.3063205 2.063634 | 2.2911541
| 1276 1900 6145 | 9321
. tab year pobreza, sum(mieperho) means
Means of numero de miembros
| pobreza
-----------+---------------------------------+----------
1997 | 6.5431235 5.5732283 4.3872236 | 4.9286867
1998 | 6.204955 5.6859375 4.3852985 | 4.9125683
1999 | 6.325062 5.7184 4.2837254 | 4.836387
-----------+---------------------------------+----------
Total | 6.3565831 5.6589474 4.3515053 | 4.8925008

 Para REPETIR una tabla para diferentes VALORES DE UNA VARIABLE, se combinan los comandos
sort , by y tabulate. Antes de hacer un cálculo repetido, se debe ordenar la base de datos.
SORT
sort year Ordena los datos en función de la variable “year”
BY, TABULATE
by year: tabulate(pobreza) Presenta las frecuencias de la variable “pobreza” en
forma indepediente para cada valor de la variable
“year”
. sort year
. by year: tab pobreza
-> year= 1997

pobreza | Freq. Percent Cum.
--------------+-----------------------------------
pobre extremo | 429 13.84 13.84
pobre | 635 20.49 34.33
no pobre | 2035 65.67 100.00
--------------+-----------------------------------
Total | 3099 100.00
-> year= 1998

--------------+-----------------------------------
pobre extremo | 444 14.27 14.27
pobre | 640 20.57 34.84
no pobre | 2027 65.16 100.00
--------------+-----------------------------------
Total | 3111 100.00
-> year= 1999

--------------+-----------------------------------
pobre extremo | 403 12.95 12.95
pobre | 625 20.09 33.04
no pobre | 2083 66.96 100.00
--------------+-----------------------------------
Total | 3111 100.00
TABLAS
 El comando TABLE calcula y muestra tablas con estadísticos, tiene más estadísticos que
tabulate.
TABLE
table year Presenta el conteo de casos por cada valor de la
variable “year”
table year, row Presenta el conteo de casos por cada valor de la
variable “year” y el total (suma de casos) de las filas
table year pobreza, row col Presenta el conteo de casos del cruce de las variables
“year” (en filas) y “”pobreza” (en columnas), así
como los totales de filas y columnas
table year pobreza, row col c(mean mieperho) Presenta el promedio de miembros de los hogares
pertenecientes a cada categoría del cruce de las
variables “year” (en filas) y “”pobreza” (en
columnas), así como los totales de filas y columnas

. table year
----------+-----------
año | Freq.
----------+-----------
1997 | 3,111
1998 | 3,111
1999 | 3,111
----------+-----------
. table year, row
----------+-----------
año | Freq.
----------+-----------
1997 | 3,111
1998 | 3,111
1999 | 3,111
|
Total | 9,333
----------+-----------
. table year pobreza, row col
----------+-----------------------------------------------------------
| pobreza
año | pobre extremo pobre no pobre Total
----------+-----------------------------------------------------------
1997 | 429 635 2,035 3,099
1998 | 444 640 2,027 3,111
1999 | 403 625 2,083 3,111
|
Total | 1,276 1,900 6,145 9,321
----------+-----------------------------------------------------------
. table year pobreza, row col c(mean mieperho)
----------+-----------------------------------------------------------
| pobreza
año | pobre extremo pobre no pobre Total
----------+-----------------------------------------------------------
1997 | 6.543124 5.573228 4.387224 4.928687
1998 | 6.204955 5.685937 4.385298 4.912568
1999 | 6.325062 5.7184 4.283725 4.836387
|
Total | 6.356583 5.658947 4.351505 4.892501
----------+-----------------------------------------------------------
CALCULO DE VARIABLES
 Para CREAR VARIABLES NUEVAS en el archivos de datos se utiliza el comando generate.
GENERATE
generate inghogm=inghogtr/3 Crea la variable “inghogm” que resulta de dividir la
variable “inghogtr” entre 3.
gen pobre=1 if(pobreza==1 | pobreza ==2) Crea la variable “pobre” que toma valor 1 si la
variable “pobreza” tiene valor 1 o valor 2.

gen pobregas = (pobre==1) Crea la variable dummy “pobregas” que toma valor 1
cuando la variable “pobre” es igual a 1 , y es 0 en los
otros casos
Operadores matemáticos y lógicos
+ suma sqrt() raiz cuadrada > mayor que

- resta exp() exponencial >= mayor o igual que
/ division sqrt() raiz cuadrada < menor que
* multiplicacion ~ not <= menor o igual que
^ potencia & y == igual
ln() logaritmo natural | o ~= != diferente
Exp() exponencial
CASOS ILUSTRATIVOS
1. Variable numérica – Operadores Matemáticos:

Ingreso mensual per cápita = Ingreso total trimestral dividido entre 3 y el número de miembros del
hogar
gen ingmpc=(inghog1d/(miperho*3))
2. Número de orden
_n es el nombre reservado para el número de orden de la observación
gen id=_n
3. Variable rezagada:
Por ejemplo, el número de orden de la observación anterior.
gen lagid=id[_n-1]
4. Variable dummy:
Si el hogar tiene más de 5 miembros la variable toma valor 1
gen mas5=(mieperho>=5)
5. Variable tipo carácter:

En este caso se debe especificar que la variable es de tipo carácter, además deseñalar su longitud, en
el ejemplo es str2.
gen str2 texto="si"
 Para REEMPLAZAR VARIABLES EXISTENTES en el archivos de datos se utiliza el comando replace.
REPLACE
replace inghogm=inghogtr/3 Reemplaza los valores de la variable “inghogm” que
se encuentra en la base de datos.
replace pobre=1 if(pobreza==1 | pobreza ==2) Reemplaza la variable “pobre” que se encuentra en
la base de datos
 Para GENERAR VARIABLES como funciones de otras variables se utiliza el comando extended
generate (egen).
EGEN
egen meanmie=mean(mieperho), by (estrato) Crea la variable “meanmie” que contiene el número
de miembros promedio del estrato al que pertece el
hogar.
Introducción al Stata - 10 -
ANÁLISIS DE DATOS DE ENCUESTAS
Una de las ventajas que ofrece el Stata para el análisis de Encuestas como la ENAHO, con Diseño
muestral complejo, es que permite calcular los estimadores teniendo en cuenta el diseño muestral de la
misma (diferente al muestreo simple al azar). Además, Stata proporciona estadísticos con los cuales se
puede evaluar la confiabilidad del resultado en forma simultánea a su estimación. De esta manera el
usuario está en la capacidad de interpretar y utilizar adecuadamente cada estimación proveniente de la
encuesta.
Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas por
muestreo son:
Ponderación: En las encuestas por muestreo, las observaciones son seleccionadas mediante un
proceso aleatorio, donde cada observación puede tener una probabilidad de selección
diferente. La ponderación (o peso) de una observación (hogar, por ejemplo) es igual a la
inversa de la probabilidad de pertenecer a la muestra. Es usual que luego del trabajo de campo
se realicen ajustes sobre esta ponderación, debido, por ejemplo, al efecto de la “No-
Respuesta”. Un peso wj de una observación j significa que la observación j representa a wj
elementos de la población. Si no se toman en cuenta las ponderaciones, las estimaciones que se
obtengan estarán sesgadas.
Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados, es decir las
observaciones son muestreadas en grupos o “clusters”, por ejemplo, provincias dentro de
departamentos, distritos dentro de provincias y finalmente viviendas dentro de los distritos
seleccionados, que son el objetivo final del muestreo. Todas las observaciones de un mismo
cluster no son independientes entre si, si no se toma en cuenta este hecho, los errores
estándar que se obtengan serán menores a los verdaderos.
Estratos: En algunos casos, también se emplea el muestreo estratificado, donde diferentes

grupos de observaciones o estratos, son muestreados en forma independiente. Al igual que el
caso anterior, si no se toma en cuenta este hecho, se obtendrán sub estimaciones de los
errores estándar verdaderos.
Stata permite incorporar el DISEÑO MUESTRAL (ponderaciones, conglomerados y estratos) antes de

ejecutar las estimaciones. Es decir, Stata utiliza las fórmulas de estimación de estadísticos propias de
cada tipo de muestreo. Todos los comandos para el análisis de datos provenientes de encuestas
comienzan con las letras svy
Especificación del Diseño Muestral: SVYSET
 En el caso de la Enaho es necesario especificar las variables que contienen las ponderaciones, los
conglomerados y los estratos, antes de obtener cualquier estimación.
SVYSET
svyset pweight fachog Indica que las poderaciones se encuentran en la
variable “fachog”
svyset psu conglome Indica que los conglomerados están identificados en
la variable “conglome”
svyset strata estrato Indica que los estratos están determinados por la
variable “estrato”
svydes Permite visualizar los parámetros especificados con
los comandos anteriores.
. svydes
pweight: fachog
Strata: estrato
PSU: conglome
#Obs per PSU
Strata ----------------------------
estrato #PSUs #Obs min mean max
-------- -------- -------- -------- -------- --------
1 447 1197 1 2.7 6
2 182 555 1 3.0 6
3 158 466 1 2.9 5
4 24 197 3 8.2 12
5 126 1102 1 8.7 12
-------- -------- -------- -------- -------- --------
5 937 3517 1 3.8 12
Estimación de Promedios: SVYMEAN
 Se utiliza para calcular promedio de variables cuantitativas

 Por defecto presenta el promedio estimado, el error estándar, el intervalo de 95% de confianza
y el efecto de diseño de esta estimación
 Se pueden utilizar las opciones if y by.
SVYMEAN
svymean mieperho percepho Estima del promedio de las variables “mieperho” y
“percepho”
svymean mieperho percepho if(pobreza==3) Estima el promedio de las variables “mieperho” y
“percepho” pero sólo para los “Hogares Pobres
extremos”, es decir, cuando la variable “pobreza”
toma valor 1
svymean mieperho, by(pobreza) Estima del promedio de “mieperho” para cada
categoría de la variable “pobreza”
svymean mieperho, by (estrato) ci obs Estima del promedio de “mieperho” para cada
categoría de la variable “estrato” y además obtiene
el intervalo de confianza y el número de
observaciones que intervino en cada cálculo.
. svymean mieperho percepho
Survey mean estimation
pweight: fachog Number of obs = 3517
Strata: estrato Number of strata = 5
PSU: conglome Number of PSUs = 937
Population size = 5447315.2
------------------------------------------------------------------------------
Mean | Estimate Std. Err. [95% Conf. Interval] Deff
---------+--------------------------------------------------------------------
mieperho | 4.701369 .0515334 4.600234 4.802504 1.850805
percepho | 2.133357 .0278439 2.078713 2.188001 2.027123
------------------------------------------------------------------------------
. svymean mieperho percepho if (pobreza==1)

------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
mieperho | 6.218288 .1345391 5.952636 6.48394 1.372599
percepho | 1.778855 .0542254 1.671785 1.885925 1.349203
------------------------------------------------------------------------------
. svymean mieperho, by(pobreza)

------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Deff
---------------+--------------------------------------------------------------
mieperho |
pobre_ex | 6.218288 .1344376 5.954452 6.482124 1.295869
pobre_no | 5.762882 .1166482 5.533959 5.991806 1.607006
no_pobre | 4.175034 .0527947 4.071424 4.278644 1.768177
------------------------------------------------------------------------------
. svymean mieperho, by (estrato) ci obs
pweight: facpob Number of obs = 3517

Population size = 25609840
------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Obs
---------------+--------------------------------------------------------------
mieperho |
ciudades | 5.532252 .1061104 5.324009 5.740494 1197
grandes_ | 5.48604 .1581069 5.175754 5.796327 555
resto_ur | 5.57818 .20831 5.169369 5.986991 466
rural | 5.336074 .1832503 4.976443 5.695705 197
resto_ru | 6.336794 .107257 6.1263 6.547287 1102
------------------------------------------------------------------------------
Estimación de Proporciones: SVYPROP
 Presenta el número de observaciones, la proporción estimada y el error estándar de esta

estimación de los casos de la muestra respecto a las categorías de una variable dada
 Se pueden utilizar las opciones if y by.
SVYPROP
svyprop pobreza Estimación de las proporciones de cada categoría de
la variable “pobreza”
svyprop pobreza if (urru5==1) Estima la proporción de hogares en cada categoría de
la variable “pobreza” del área urbana, es decir,
cuando “urru5” toma el valor de 1
svyprop pobreza, by (urru5) Estima la proporción de hogares en cada categoría de
la variable “pobreza”, en forma independiente para
cada categoría de la variable “urru5”
. svyprop pobreza
------------------------------------------------------------------------------
------------------------------------------------------------------------------
Survey proportions estimation
pobreza _Obs _EstProp _StdErr

pobre ext 408 0.109451 0.008538
pobre no 698 0.190635 0.009204
no pobre 2411 0.699914 0.012876
. svyprop pobreza if (urru5==1)
------------------------------------------------------------------------------
------------------------------------------------------------------------------

pobre ext 66 0.028563 0.004478
pobre no 425 0.180470 0.011389
no pobre 1727 0.790967 0.012836
. svyprop pobreza, by (urru5)
------------------------------------------------------------------------------
------------------------------------------------------------------------------
-> urru5=1

pobre ext 66 0.041273 0.006935
pobre no 425 0.229791 0.015217
no pobre 1727 0.728937 0.017098
-> urru5=2

pobre ext 342 0.340749 0.024639
pobre no 273 0.241040 0.017036
no pobre 684 0.418211 0.026914
Cruce de dos variables : SVYTAB
 Produce una tabla de dos entradas con la proporción de la muestra que pertenece a cada celda
(cruce da variables), respecto al total de la muestra.
 Para modificar el contenido de la tabla se deben especificar los estadísticos después de una
coma
 En caso de que se desee estimar las proporciones respecto a filas o columnas, basta con indicar
row o column después de la coma.
 Se puede utilizar la opción if
SVYTAB
svytab estrato pobreza Estimación de las proporciones de cada categoría de
la variable “pobreza”
svytab,se ci deff Luego de la coma se especifican los estadísticos que
se mostrarán en la celda de la tabla
svytab, row Especifica que la proporción se estima en forma
independiente para cada fila
svytab pobreza estrato if (urru5==1) Presenta la proporciones del cruce de “pobreza” con
estrato” en los hogares donde “urru5” toma valor 1,
es decir, el área urbana.
. svytab estrato pobreza

----------+---------------------------------------
| pobreza
estrato | pobre ex pobre no no pobre Total
----------+---------------------------------------
ciudades | .0089 .0766 .3997 .4853
grandes | .0028 .0214 .0789 .103
resto ur | .0078 .0252 .061 .0939
rural | .0051 .0065 .0258 .0374
resto ru | .0849 .061 .1345 .2804
|
Total | .1095 .1906 .6999 1
----------+---------------------------------------
Key: cell proportions
Pearson:
Uncorrected chi2(8) = 624.9913
Design-based F(6.75,6288.86) = 45.3989 P = 0.0000
. svytab,se ci deff

----------+-----------------------------------------------------------
| pobreza
----------+-----------------------------------------------------------
ciudades | .0089 .0766 .3997 .4853
| (.002) (.0071) (.0123) (.0123)
| [.0058,.0138] [.0637,.0917] [.3758,.4242] [.4612,.5094]
| 1.552 2.512 2.232 2.13
|
grandes | .0028 .0214 .0789 .103
| (.0011) (.003) (.0062) (.0075)
| [.0013,.0059] [.0162,.0281] [.0676,.0919] [.0892,.1187]
| 1.468 1.498 1.846 2.148
|
resto ur | .0078 .0252 .061 .0939
| (.0022) (.0032) (.0055) (.0066)
| [.0045,.0134] [.0195,.0324] [.051,.0727] [.0817,.1078]
| 2.134 1.511 1.855 1.814
|
rural | .0051 .0065 .0258 .0374
| (.0017) (.0017) (.0033) (.0048)
| [.0026,.0099] [.0039,.0108] [.02,.0332] [.029,.0482]
| 2.065 1.537 1.571 2.293
|
resto ru | .0849 .061 .1345 .2804
| (.0081) (.0055) (.0096) (.0121)
| [.0703,.1021] [.0511,.0727] [.1168,.1544] [.2572,.3048]
| 2.946 1.839 2.761 2.568
|
Total | .1095 .1906 .6999 1
| (.0085) (.0092) (.0129)
| [.0938,.1274] [.1732,.2094] [.6741,.7246]
| 2.629 1.931 2.775
----------+-----------------------------------------------------------
(standard errors of cell proportions)
[95% confidence intervals for cell proportions]
deff for variances of cell proportions
Pearson:
Design-based F(6.75,6288.86) = 45.3989 P = 0.0000
. svytab, row

----------+---------------------------------------
| pobreza
----------+---------------------------------------
ciudades | .0184 .1578 .8238 1
grandes | .0268 .2073 .766 1
resto ur | .0828 .2682 .649 1
rural | .136 .1746 .6894 1
resto ru | .3027 .2175 .4798 1
|
Total | .1095 .1906 .6999 1
----------+---------------------------------------
Key: row proportions
Pearson:
Design-based F(6.75,6288.86) = 45.3989 P = 0.0000
. svytab pobreza estrato if (urru5==1)

----------+---------------------------------------
| estrato
pobreza | ciudades grandes resto ur Total
----------+---------------------------------------
pobre ex | .0191 .007 .0152 .0413
pobre no | .1485 .0381 .0432 .2298
no pobre | .5423 .1058 .0808 .7289
|
Total | .7099 .1509 .1392 1
----------+---------------------------------------
Pearson:
Design-based F(3.73,2924.65) = 6.8934 P = 0.0000
Regresión Lineal: SVYREG
 Produce la estimación de un modelo de regresión lineal con variable dependiente cuantitativa.

 Por defecto, el comando svyreg muestra el valor estimado, el error estándar, el intervalo de 95%
de confianza y el efecto del diseño de cada uno de los coeficientes de regresión
 Se pueden utilizar las opciones if y by
SVYREG
svyreg gashpcmd ingpcmd Estima un modelo de regresión lineal donde la
variable dependiente es “gashpcmd” y las variables
independientes son la constante e “ingpcmd”
svyreg gashpcmd inghpcmd mieperho percepho Estima un modelo de regresión lineal con variable
independiente “gashpcm” y variables independientes
constante, “inghpcmd”, “mieperho” y “percepho”
svyreg gashpcmd inghpcmd mieperho percepho Estima un modelo de regresión lineal con variable
if(urru5==1) independiente “gashpcm” y variables independientes
constante, “inghpcmd”, “mieperho” y “percepho”,
sólo para los hogares del área urbana, es decir
cuando “urru5=1”
svyreg, deft Presenta el efecto del diseño en la estimación de los
coeficientes del último modelo estimado.
. svyreg gashpcmd inghpcmd
Survey linear regression

F( 1, 932) = 93.06
Prob > F = 0.0000
R-squared = 0.6351
------------------------------------------------------------------------------
gashpcmd | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
inghpcmd | .5477234 .0567772 9.647 0.000 .4362973 .6591494
_cons | 129.8751 19.40622 6.692 0.000 91.79019 167.9601
------------------------------------------------------------------------------.
. svyreg gashpcmd inghpcmd mieperho percepho

F( 3, 930) = 200.76
Prob > F = 0.0000
R-squared = 0.6462
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
inghpcmd | .5291295 .0591047 8.952 0.000 .4131357 .6451233
mieperho | -24.50919 4.868813 -5.034 0.000 -34.0643 -14.95409
percepho | .4952724 8.55173 0.058 0.954 -16.28761 17.27815
_cons | 252.06 30.04137 8.390 0.000 193.1034 311.0165
------------------------------------------------------------------------------
. svyreg gashpcmd inghpcmd mieperho percepho if(urru5==1)

F( 3, 782) = 113.05
Prob > F = 0.0000
R-squared = 0.6284
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
inghpcmd | .5079982 .0622407 8.162 0.000 .3858202 .6301763
mieperho | -32.30924 7.252264 -4.455 0.000 -46.5454 -18.07309
percepho | -1.644796 11.44614 -0.144 0.886 -24.11351 20.82392
_cons | 327.8976 41.54285 7.893 0.000 246.3492 409.446
------------------------------------------------------------------------------
. svyreg, deft

F( 3, 782) = 113.05
Prob > F = 0.0000
R-squared = 0.6284
------------------------------------------------------------------------------
gashpcmd | Coef. Std. Err. Deft
---------+--------------------------------------------------------------------
inghpcmd | .5079982 .0622407 1.450901
mieperho | -32.30924 7.252264 1.441563
percepho | -1.644796 11.44614 1.577359
_cons | 327.8976 41.54285 1.350717
------------------------------------------------------------------------------
INDICADORES DE POBREZA
 Stata tiene un comando llamado POVDECO que permite obtener de manera sencilla y rápida los tres índices
de pobreza de Foster, Greer y Thorbecke (FGT).
POVDECO
povdeco gashpcmd, varpl (lp) Estimación de los índices FGT en función de la
variable “gashpcmd”, comparándola con la variable
“lp”. En otras palabras, “lp” es la variable que
contiene el valor de la Linea de Pobreza y
“gashpcmd” (gasto per cápita mensual deflactado) es
la variable que mide el bienestar del individuo.
povdeco gashpcmd [w=facpob], varpl (lp) Estima los índices FGT al igual que el comando
anterior , pero considera los datos ponderados por la
variable “facpob”
. povdeco gashpcmd ,varpl(lp)
Total number of observations = 3517

Weighted total no. of observations = 3517
Number of observations poor = 1106
Weighted no. of obs poor = 1106
Mean of gashpcmd amongst the poor = 103.453
Mean of poverty gaps (poverty line - gashpcmd) amongst the poor = 39.439
Foster-Greer-Thorbecke poverty indices, FGT(a)
----------+-----------------------------------
All obs | a=0 a=1 a=2
----------+-----------------------------------
| 0.31447 0.08917 0.03560
----------+-----------------------------------
FGT(0): headcount ratio (proportion poor)
FGT(1): average normalised poverty gap
FGT(2): average squared normalised poverty gap
. povdeco gashpcmd [w=facpob],varpl(lp)

(analytic weights assumed)
Total number of observations = 3517

Weighted total no. of observations = 25609840
Number of observations poor = 1106
Weighted no. of obs poor = 9691885.4
Mean of gashpcmd amongst the poor = 104.126
Mean of poverty gaps (poverty line - gashpcmd) amongst the poor = 41.176
Foster-Greer-Thorbecke poverty indices, FGT(a)
----------+-----------------------------------
All obs | a=0 a=1 a=2
----------+-----------------------------------
| 0.37844 0.11064 0.04501
----------+-----------------------------------
FGT(0): headcount ratio (proportion poor)
FGT(1): average normalised poverty gap
FGT(2): average squared normalised poverty gap
 Para obtener la estimación de los errores estándar e intervalos de confianza de los índices FGT, se utiliza el
comando SEPOV
SEPOV
sepov gashpcmd, p(lp) Estimación de los índices FGT en función de la
variable “gashpcmd”, comparándola con la variable
“lp”. “lp” es la variable que contiene el valor de la
Linea de Pobreza y “gashpcmd” (gasto per cápita
mensual deflactado) es la variable que mide el
bienestar del individuo.
sepov gashpcmd, p(lp) by (urru5) Estimación de los índices FGT, al igual que en el caso
anterior, para cada categoría de la variable “urru5”
sepov gashpcmd if(dominio==8), p(lp) Estimación de los índices FGT, al igual que en el caso
anterior, pero solo para los hogares de Lima
Metropolitana, es decir, cuando “dominio” toma
valor 8
. sepov gashpcmd, p(lp)
Poverty measures for the variable gashpcmd: gasto total percapita mensual

------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
p0 | .3784438 .01526 .3484958 .4083918 3.480784
p1 | .110638 .0059543 .0989527 .1223234 3.803857
p2 | .0450111 .0030714 .0389834 .0510388 3.497021
------------------------------------------------------------------------------
. sepov gashpcmd, p(lp) by (urru5)

------------------------------------------------------------------------------
Mean Subpop. | Estimate Std. Err. [95% Conf. Interval] Deff
---------------+--------------------------------------------------------------
p0 |
urru5==1 | .2710635 .0170977 .2375091 .3046179 3.404233
urru5==2 | .5817891 .0269143 .5289695 .6346087 3.617433
---------------+--------------------------------------------------------------
p1 |
urru5==1 | .0699288 .00581 .0585266 .0813309 3.649904
urru5==2 | .1877289 .0120189 .1641417 .2113161 3.861992
---------------+--------------------------------------------------------------
p2 |
urru5==1 | .0261702 .0028045 .0206663 .0316741 3.432668
urru5==2 | .08069 .0066224 .0676935 .0936865 3.434097
------------------------------------------------------------------------------
. sepov gashpcmd if(dominio==8), p(lp)

------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
p0 | .2188493 .0279441 .1638314 .2738673 3.201988
p1 | .0519495 .0085316 .0351521 .0687469 3.561933
p2 | .0170236 .0033825 .0103639 .0236832 3.637884
------------------------------------------------------------------------------
ANEXO O1: IMPORTACION DE ARCHIVOS A STATA
Stat/Transfer1 es un software que permite guardar archivos en diversos formatos, haciendo

fácil el paso de datos entre softwares estadísticos, bases de datos y hojas de cálculo.
 Para ingresar al Stat/Transfer basta con dar un clic sobre el icono:
 Inmediatamente aparecerá un ventana con 4 listas desplegables donde se debe seleccionar la

siguiente información:
1. Input File Type: Es el formato original en el que se encuentran los datos
2. File Specification: Es la ruta y nombre del archivo de datos que se importará
3. Output File Type: Es el formato nuevo en el que se guardará el archivo
4. File Specification: Es la ruta y nombre del archivo que se creará
 Luego de completar los campos, dar clic en Transfer y el software iniciará la importación.
Por ejemplo, para importar el archivo de datos ‘Probit99.sav’ del formato Spss al Stata 6.0 la ventana
debe tener la siguiente apariencia:
1
Ver http://www.stattransfer.com/
Bibliografía
 Stata Corporation: “Stata Statistical Software, release 5: User’s Guide”. United State of
America, 1997
 Web: http://www.stata.com/
 Web: http://www.stattransfer.com/

Manuals Tata

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manuals Tata

Cargado por

Copyright:

Formatos disponibles

INTRODUCCION GENERAL AL

Aplicaciones con la Encuesta Nacional de Hogares

DOCUMENTO DE TRABAJO DEL

Introducción al Stata -1-

 Para ingresar al Stata basta con dar clic sobre el icono:

 Además se pueden abrir las ventanas Help y Do-File

Introducción al Stata -2-

Los archivos de datos del Stata tienen extensión .dta.

 Para IMPORTAR archivos de datos de otros formatos , se recomienda utilizar el Stat/Transfer

log using d:\panel\resulta_1.txt, replace Reemplaza el contendido del archivo “resulta_1.txt”

CONTENIDO DEL ARCHIVO DE DATOS

Introducción al Stata -3-

Contains data from d:\panel\panel_1.dta

Variable | Obs Mean Std. Dev. Min Max

. sum mieperho, detail

50% 5 Mean 4.892501

Introducción al Stata -4-

mieperho: numero de miembros Number of Observations

FRECUENCIAS, PORCENTAJES, CRUCE DE VARIABLES

 Las FRECUENCIAS de una variable se obtienen con el comando Tabulate.

Introducción al Stata -5-

tabulate year pobreza, row Muestra el número de casos y el porcentaje horizontal

. tab year pobreza

. tab year pobreza,row

. tab year, sum(mieperho)

| Summary of numero de miembros

Introducción al Stata -6-

| Summary of numero de miembros

 Los ESTADÍSTICOS de una variable cuantitativa RESPECTO AL CRUCE DE DOS VARIABLES, se

. tab year pobreza, sum(mieperho)

Means, Standard Deviations and Frequencies of numero de miembros

. tab year pobreza, sum(mieperho) means

Means of numero de miembros

Introducción al Stata -7-

. by year: tab pobreza

-> year= 1997

-> year= 1998

-> year= 1999

Introducción al Stata -8-

. table year, row

. table year pobreza, row col

. table year pobreza, row col c(mean mieperho)

 Para CREAR VARIABLES NUEVAS en el archivos de datos se utiliza el comando generate.

Introducción al Stata -9-

Operadores matemáticos y lógicos

+ suma sqrt() raiz cuadrada > mayor que

1. Variable numérica – Operadores Matemáticos:

5. Variable tipo carácter:

gen str2 texto="si"

 Para REEMPLAZAR VARIABLES EXISTENTES en el archivos de datos se utiliza el comando replace.

Estratos: En algunos casos, también se emplea el muestreo estratificado, donde diferentes

Stata permite incorporar el DISEÑO MUESTRAL (ponderaciones, conglomerados y estratos) antes de

Especificación del Diseño Muestral: SVYSET

Estimación de Promedios: SVYMEAN

 Se utiliza para calcular promedio de variables cuantitativas

. svymean mieperho percepho

Survey mean estimation

pweight: fachog Number of obs = 3517

. svymean mieperho percepho if (pobreza==1)

Survey mean estimation

pweight: fachog Number of obs = 408

. svymean mieperho, by(pobreza)

Survey mean estimation

pweight: fachog Number of obs = 3517