Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Stata2 Var
Stata2 Var
STATA – Variables
• Tipos de variables y missings
• explorar y validar codebook | tabulate | summarize | inspect | compare
• Crear y modificar variables
• Crear gen | egen | replace | rename
• Funciones _n | inlist() | inrange() | total() | rowtotal()
• Etiquetar label var | label define | label values | label list
• Comandos y funciones
• variables categóricas decode | encode | recode
• variables textuales split | tostring | destring
• funciones textuales concat() | substr() | real()
• percentiles pctile | xtile
Tipos de variables y missings
• Según los valores que pueden contener, las variables se clasifican en:
• Núméricas [en negro]:
• Continuos: int/long/float/double
• Categóricos: int
• Binarios: byte
• Textuales [en rojo]: str#
• Existen números disfrazados de textos [en azul], son variables numéricas con
etiquetas
• Según el tipo de variable, Stata indica los valores faltantes (missings) como:
• Números un punto -> .
• Textos vacío -> “”
2
Explorar y validar variables
• Describe en resumen el contenido de variables
codebook [varlist] [if] [in] [, options]
4
Ejemplos - tipos y vacíos
• Ejemplo 1a – Cree las siguientes variables:
[type] =exp
• ejem1 str4 vacío
• ejem2 byte vacío
• ejem3 float log del ingreso por hora en ocupación principal
• ejem4 double log del ingreso por hora en ocupación principal
Note la diferencia de precisión (número de decimales) entre las variables ejem3 y ejem4
• Cambie la variable numérica por defecto a double (permanentemente)
• ejem5 1 si trabaja más de 40 horas en su ocupación principal 0 de otro modo
7
Etiquetas de variable y de valores
• Asocia una etiqueta a la variable
label variable varname ["label"]
• Asocia etiquetas a los valores de una variable
label define lblname # "label" [# "label" ...]
label values varlist lblname
• Definir las etiquetas no basta (define), no olvidar asignarlas (values)
• Para listar todas las etiquetas en memoria: label list o borrar alguna: label drop lblname
• Transforma variable numérica/categórica en una nueva variable categórica según las reglas
que uno establezca
• Prestar atención al manejo de los missings
recode varlist (erule) [(erule) ...] [if] [in] [, generate(newvar)]
recode ej1 (min/0=0 “a”) (1=1 “b”) (2 3=2 “c”) (4/max=3 “d”), g(ej2)
9
Comandos para variables textuales
• Parte una variable textual (strvar) en varias variables textuales nuevas
• destring: Transforma las variables textuales que contienen solo números en variables numéricas
• gen(ejem): Las nuevas variables se llamaran ejem1 ejem2 ejem3 …
• parse(-): El caracter - (guión) marca donde separar los textos
split strvar [if] [in] [, generate() parse() destring] split id, gen(id_) parse(-) destring
• Crea una variable que muestra el percentil al que pertenece cada observación de acuerdo
a la distribución de otra variable
• nq(5): newvar guarda el quintil al cual pertenece cada observación, los indica con números: 1 2 3 4 5
xtile newvar = exp [if] [in] [weight] [, nquantiles()]
xtile quintos=ing1, nq(5)
• nq(n): n define el número de quantiles, por defecto n es igual a 2
• =exp: donde indicamos la variable continua sobre la cual se calculan los percentiles
12
Ejercicio 1 – Curva de Lorenz
Use datos3.dta y cree las siguientes variables:
• acu_ing Distribución acumulada de los ingresos mensuales desde
el individuo con menos ingresos al individuo con más
ingresos
• acu_pob Distribución acumulada de la población desde el individuo
con menos ingresos al individuo con más ingresos
• acu_ing_s Distribución acumulada de los ingresos mensuales desde el
individuo con menos ingresos al individuo con más
ingresos por sector
• acu_pob_s Distribución acumulada de la población desde el individuo
con menos ingresos al individuo con más ingresos por
sector
13
Ejercicio 2 – Variables categóricas
A partir de datos1.dta cree las variables categóricas mujsec e interval
• No olvide etiquetar las variables que cree
• Solo presente las variables que se piden
interval Etiqueta
1 <3 Si el ingreso por hora en ocupación principal es menor a S/ 3
2 3-7 Si el ingreso por hora en ocupación principal está entre S/ 3 - 7
3 >7 Si el ingreso por hora en ocupación principal es mayor a S/ 7
14
Ejercicio 3 – Variables textuales
A partir de datos2.dta, haga las transformaciones que considere
convenientes de tal modo que solo queden las siguientes variables en
la base de datos:
15
Ejercicio 4 – Variables
Cargue las variables id, ing, horas y ocup_sec de datos3.dta y responda:
grupo Identificador de estrato. Igual al primer dígito del código de actividad económica.
Meses de antigüedad de la empresa. Por ejemplo, la antigüedad de una empresa que
meses
inició actividades en agosto (mes 8) del 2012 sería 53 meses.
1 si la organización jurídica de la empresa es sociedad anónima, sociedad anónima
sociedad cerrada o sociedad comercial; 0 de otro modo (d.o.m.).
agrupada 1 si la empresa fue parte de un grupo económico el 2016; 0 d.o.m.
trabajan Número de trabajadores y prestadores de servicio de la empresa.
Tasa de crecimiento anual de las ventas netas. Por ejemplo, crecimiento = 5 significa que
crecimiento
las ventas netas crecieron en 5% anual, en promedio, entre el 2014 y el 2016.
Estimación de las ventas netas del 2016 si se hubiera usado el 100% de la capacidad
potencial instalada. Asuma que no hay rendimientos decrecientes (aplique regla de tres simple).
distrito 1 si la empresa está ubicada en Miraflores, San Isidro o Santiago de Surco; 0 d.o.m.
(2.5 puntos) Ejercicio basado en 2017-1
A partir de base0.dta, cree las variables (en una línea excepto orden y pesos):
aleatorio Números aleatorios bajo la distribución de probabilidad de su preferencia
Para cada subpoblación definida por grupo, contiene números correlativos ascendentes
orden contando desde la observación con menor valor aleatorio a la observación con mayor
valor aleatorio dentro de cada subpoblación. El conteo reinicia para cada subpoblación.
Guarda el tamaño de muestra de cada estrato. grupo contiene el identificador de
nmuestra estrato. El tamaño de muestra es 16, 20 y 24 para los grupos 1, 2 y 3 respectivamente.
1 si la observación pertenece a la muestra; 0 de lo contrario. Una empresa pertenece a
muestra
la muestra si el valor en orden es menor o igual al tamaño de muestra de su estrato.
npoblacion Para cada grupo, guarda el número de empresas que pertenecen al grupo.
Inversa de la probabilidad de elección. Trate a los no elegidos como si fueran otra
pesos muestra. Por ejemplo, si se elige una muestra de 20 empresas de una población de 80
empresas, el peso es 80/20 para las 20 elegidas y 80/60 para las 60 no elegidas.
(1 punto) Ejercicio basado en 2016-1
A partir de 3_datos.dta que contiene variables del módulo de empleo
de la ENAHO 2015, cree/renombre las siguientes variables:
• horas Horas a la semana destinadas a la ocupación principal (p513t)
• ingm Ingreso laboral mensual por ocupación principal (d524a1-d536)
• ingh Ingreso laboral por hora en ocupación principal
Las variables de ingreso están anualizadas. Asuma 13 semanas por
trimestre. No olvide etiquetar las 3 variables. Quédese solo con las
observaciones que: pertenecen a la PEA ocupada, han trabajado al
menos una hora a la semana, y su ingreso mensual es positivo.
(3.75 puntos) Ejercicio basado en 2018-0
A partir de base0.dta, cree (o renombre) las siguientes variables:
• (.25) enfermo 1 si está enfermo, 0 si no está enfermo (p4022)
• (.25) edad Edad en años cumplidos (p208a)
• (.25) gaspc Gasto anual per cápita en soles 2007 (gashog2d y mieperho)
• (1.5) demora Horas que toma llegar al establecimiento de salud (p407g1, p407g2, p407g3)
(días , horas , minutos)
• (1.5) notros 0 si toda su familia está sana, 1 si solo un familiar está enfermo, 2 si dos o más
familiares están enfermos
NOTAS: (gaspc) Asuma que el gasto del hogar se reparte por igual entre los miembros del
hogar. (demora) Asuma que el día tiene 24 horas. Los individuos que no se enfermaron o que
no fueron a atenderse a un establecimiento de salud, no les corresponde reportar el tiempo de
demora. Para ellos asuma que el tiempo de demora es igual al promedio de demora en su
conglomerado. (notros) Defina familiares como aquellos con los que el individuo comparte
hogar. Si el individuo está enfermo, cuando cuenta el número de familiares enfermos, no se
cuenta a sí mismo.
(5.5 puntos) Ejercicio basado en 2017-2
(1) Fusione las bases Vivienda-2016.dta, Miembros-2016 y Sumaria-2016.dta. Guarde la base como
Peru16.dta y quédese con aquellas personas que están en las 3 bases.
(4.5) Obtenga las siguientes variables:
• (.5) pobre_mod 1=pobre moderada, 0=pobre extrema, .=de otro modo (pobreza)
• (.5) mujer_hh 1=jefe de hogar es mujer, 0=de otro modo (p203 p207)
• (.5) edad_hh Edad del jefe de hogar (p203 p208a)
• (1) dep_ratio Ratio entre (num) número de personas en el hogar menores a 15 o mayores a 65 años;
(den) número de personas en el hogar entre 15-65 años
• (.25) agua Dummy si la persona tiene acceso a agua de red pública (p110)
• (.25) saneamiento Dummy si la persona tiene acceso a SS.HH. de red pública (p111a)
• (.25) electricidad Dummy si la persona tiene acceso a electricidad (p1121)
• (.25) cellular Dummy si la persona tiene cellular (p1142)
• (1) sj, j=0,1,2,3,4 Dummy si la persona tiene acceso a “j” servicios de manera simultánea entre agua,
saneamiento, elec y celular.
NOTA: Si la variable termina en “_hh”, debe imputar (asignar) el valor del jefe del hogar a todos los
miembros del hogar.
(5 puntos) Ejercicio basado en 2016-2
1. (.5) Cree una base de datos con un 301 observaciones.
2. (1) Cree la variable emds (Efecto Mínimo Detectable Estandarizado) que va de 0
hasta 0.3 con un step de 0.001 (301 valores distintos)
3. (1.5) Cree la variable potencia que depende de emds:
• El comando es
• graph twoway (lfit yi xi) (scatter yi xi)
• Analice: ¿cómo son las correlaciones?
• ¿Cómo son los scatter plots?
• Sabiendo que la correlación es una medida lineal, ¿cómo puede explicar los scatter
plots?
• Su respuesta aquí:
• https://forms.gle/w3p3bYfWPJJWdsXaA