Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
1 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
2 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Las técnicas de estimación en áreas pequeñas (Rao & Molina, 2015) permiten condensar
en un solo mapa cientos de estimaciones de ciudades, municipios, comunas, provincias
y departamentos. Por ejemplo, la presentación de las estimaciones de pobreza a nivel
geográ�co no sólo surge como una e�caz herramienta de comunicación, sino que
además amplia el espectro de la audiencia objetivo en la medida en que los mapas
facilitan la interpretación de las relaciones espaciales. Estos nuevos instrumentos para
la toma de decisiones de política pública pueden permitir una mejor comprensión de la
pobreza en los países de América Latina y el Caribe para establecer zonas de atención
prioritaria, focalización geográ�ca del gasto público, mejora de las coberturas de
programas sociales, entre otras medidas de superación de la pobreza.
4 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
En la primera etapa se hace necesario que el manejo de los datos censales se realice de
forma óptima y expedita. En general, obtener tabulados censales utilizando R es posible,
aunque la velocidad de procesamiento decrece a medida que el número de
observaciones crece. Sin embargo, Redatam está precisamente pensado para solventar
este tipo de problemas; puesto que su velocidad de procesamiento con grandes
volúmenes de información es óptima. Por tanto, es una buena idea integrar ambas
soluciones computacionales en un solo ambiente de programación. Las restantes
etapas se llevarán a cabo utilizando únicamente el software estadístico R, que permite
ejecutar modelos estadísticos complejos de estimación y predicción (Molina, 2018).
LA LIBRERÍA REDATAM EN R
Para ejempli�car el uso de esta librería y cómo se convierte en una solución plausible en
la primera etapa del desarrollo de un sistema de estimaciones desagregadas, se utilizará
el conjunto de datos correspondiente al Undécimo Censo Nacional de Población y
Séptimo de Vivienda del 2010 de Panamá, ejecutado por el Instituto Nacional de
Estadística y Censo (INEC), de la Contraloría General de la República de Panamá. Este
conjunto de microdatos contiene la información censal en diferentes archivos de
entidades y está disponible en el formato Redatam. En primer lugar es necesario cargar
las librerías necesarias en R para realizar la lectura, uso y manejo de datos en formato
5 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Redatam en el software R.
library(Rcpp)
library(RcppProgress)
library(redatam)
library(dplyr)
library(tidyverse)
library(magrittr)
Para leer el conjunto de datos, se utiliza la función redatam.open, la cual depende del
diccionario censal, el cual es un archivo con extensión *.dicX y que se encuentra en la
carpeta correspondiente. De esta forma, se crea un objeto dentro de R que relaciona el
diccionario con los microdatos de la base de datos censal.
redatam.entities(PAN)
6 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Como es claro para los usuarios habituales de Redatam, a cada entidad en la jerarquía
del censo le corresponden algunas variables en la base de datos. Las variables censales
de cada entidad pueden ser veri�cadas mediante la función redatam.variables. En el
caso de las provincias, existen dos variables asociadas a esta entidad, mientras que en
el caso de las personas, existen 71 variables asociadas.
redatam.variables(PAN, "PROVIN")
redatam.variables(PAN, "PERSONA")
7 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
"P28JOTRIN" "P28AINGR"
## [55] "P29HIJOS" "P30VIVOS" "P31HU12M" "P32VU12M"
"INGRPER" "RP14GRADO"
## [61] "RP17TRAB" "RP23OCUP" "RP25ACTI" "RP26TRAB"
"RPROVDIST" "RP10NACI"
## [67] "RP11VIVE" "RP12VIVIA" "AAPROB" "RINGRPER"
"EDADQUIN"
Nótese que, al utilizar esta función se mezclan dos tipos de lenguajes de programación:
por una parte, el de R y por otra el de Redatam. En su última versión, la función en
cuestión tiene dos argumentos principales. El primero, que hace referencia al objeto que
relacionó el diccionario con la base de datos desde R, y el segundo, que contiene la
sintaxis del procesamiento en Redatam. Se da por sentado que el usuario conoce la
programación de este software y sabe que la sintaxis proporciona resultados válidos.
Este segundo argumento debe ir entre comillas dobles. Por ejemplo, la siguiente sintaxis
crea un objeto llamado Tabla1, el cual proporciona el conteo del número de personas por
sexo, con la variable PERSONA.P02SEXO y provincia, con la variable
PROVIN.PROVNOMB.
8 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
head(Tabla1)
## PROVNOMB1_value PROVNOMB1_label P02SEXO2_value
P02SEXO2_label value
9 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Para esta sálida es necesario notar la presencia del su�jo _value, que corresponde al
valor alfanumérico con el cual se codi�có la variable en la base censal, y la del su�jo
_label, que corresponde al nombre de la etiqueta asociado a dicho valor.
Por otro lado, con la sentencia by es posible generar una tabla con mayor cantidad de
desagregaciones. Por ejemplo, la siguiente tabla muestra el número de individuos por
provincia PROVIN.PROVNOMB, según edad quinquenal PERSONA.EDADQUIN para cada
categoría de trabajo PERSONA.RP17TRAB.
head(Tabla2)
10 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
## RP17TRAB3_value RP17TRAB3_label
value
## 1 1110 Ocupado, trabajó la semana de referencia
198
## 2 1211 Desocupado, trabajó antes, buscó trabajo 7
## 3 1212 Desocupado, trabajó antes, espera noticias
4
## 4 1213 Desocupado, trabajó antes, se cansó de
buscar trabajo 1
## 5 1214 Desocupado, trabajó antes, ya consiguió
trabajo 1
## 6 1221 Desocupado, nunca trabajó, buscó trabajo
1
Los nombres de las columnas y los valores que contienen se pueden rescatar con los
comandos names y unique en el ambiente de R.
names(Tabla2)
unique(Tabla2$EDADQUIN2_label)
11 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
head(Tabla3)
12 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
EDADQUIN2_value
## 1 BOCAS DEL TORO BOCAS DEL TORO 0 0
## 2 BOCAS DEL TORO BOCAS DEL TORO 0 1
## 3 BOCAS DEL TORO BOCAS DEL TORO 0 2
## 4 BOCAS DEL TORO BOCAS DEL TORO 0 2
## 5 BOCAS DEL TORO BOCAS DEL TORO 0 2
## 6 BOCAS DEL TORO BOCAS DEL TORO 0 2
13 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Para descartar los totales y observar los conteos sobre las desagregaciones de interés
únicamente, se pueden �ltrar los resultados con las columnas _mask o _label. Es
importante notar que al nombre de cada columna resultante en la consulta le sigue un
número que corresponde al orden en el cuál fueron ingresadas las variables.
head(Tabla4)
14 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
## RP17TRAB2_label value
## 1 Ocupado, trabajó la semana de referencia
32838
## 2 Ocupado, trabajador ocasional
220
## 3 Desocupado, trabajó antes, buscó trabajo
1237
## 4 Desocupado, trabajó antes, espera noticias
513
## 5 Desocupado, trabajó antes, se cansó de buscar trabajo
501
## 6 Desocupado, trabajó antes, ya consiguió trabajo
425
De dicha tabla es posible identi�car mediante _label aquellas etiquetas _value que
corresponden a ocupados y desocupados. Con esta información se pueden generar
nuevas variables que permitan identi�car a la población ocupada y desocupada
mediante variables dicotómicas que harán referencia a estas categorías. En particular,
una persona estará clasi�cada como ocupada si en la codi�cación de la base de datos
original, el valor de la variable RP17TRAB2 es 1110 o 1120. De la misma manera, si la
esta variable toma valores entre 1211 y 1224, la persona se clasi�ca como desocupado.
Con estas nuevas columnas es posible reagrupar este conjunto de datos para obtener
conteos únicos de los individuos en cada categoría. Además, por conveniencia, se
15 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
head(Tabla5)
Note que al ser columnas disjuntas, las variables ocupados y desocupados no podrían
tomar el valor 1 de manera simultanea. Esto es posible comprobarlo en la siguiente
sintaxis, la cual deberá arrojar una �la vacía.
16 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Tabla5 %>%
�lter(ocupados == 1, desocupados == 1)
head(Tabla6)
Nótese que el nombre de las columnas creadas obedece a una lógica de procesamiento
bastante sencilla: el primer dígito corresponde a 1 si está ocupado y el segundo dígito a
1 si está desocupado. De esta forma, ocupados0_0 es el equivalente a inactivos (porque
no está ocupado y no está desocupado), ocupados0_1 es el equivalente de desocupado
(porque no está ocupado, pero sí está desocupado), mientras que ocupados1_0 es el
17 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
head(Consulta)
## provin tasa_desocupacion
## 1 BOCAS DEL TORO 0.023404772
## 2 CHIRIQUÍ 0.104178776
## 3 COCLÉ 0.057066212
## 4 COLÓN 0.064263650
## 5 COMARCA EMBERÁ 0.002153709
## 6 COMARCA KUNA YALA 0.006252270
CONCLUSIONES
18 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
BIBLIOGRAFÍA
19 de 20 05/05/2022, 13:01
Manejo básico de Redatam usando R para la estimación de estadísticas... https://www.cepal.org/es/enfoques/manejo-basico-redatam-usando-r-la-...
Andrés Gutiérrez
Regional Advisor on Social Statistics andres.gutierrez@cepal.org
Diego Lemus
Consultor, CEPAL d�emusp@gmail.com
Felipe Molina
Consultor, CEPAL statisticsfelipe.molina.de@gmail.com
20 de 20 05/05/2022, 13:01