Documentos de Académico
Documentos de Profesional
Documentos de Cultura
propuestas de investigación
cuantitativa
Elaborado por: Alejandro Granda Sandoval
4. Empleo de bases de datos relacionadas a desarrollo social y productivo
Pese a ello, no pocas veces las bases de datos ofrecen algunas limitaciones que,
si bien corresponden al ámbito técnico u operativo, pueden llegar a repercutir en
los resultados incluidos en una investigación. De acuerdo a ello, se presentan a
continuación algunas recomendaciones al emplear bases de datos considerando
tanto las características muestrales, la posibilidad de emparejar fuentes de
información, etc.
En ese sentido, es importante considerar que todas las encuestas que levantan
un indicador, no necesariamente tienen inferencia sobre el mismo. Puede que la
encuesta económica citada en el párrafo anterior, incluya un levantamiento de
información de empresas localizadas en las regiones que acumulan la mayor
proporción de ventas en el país. Es claro que el muestreo potencialmente omite
la información de empresas expuestas a escenarios menos competitivos,
incluso, podrían ser efectivamente empresas con menores ventas 1, menores
utilidades y por ende, menores posibilidades de invertir en innovación.
3 Pese a ello, debido a que los técnicos cuentan con la información del marco poblacional, es
posible realizar un ejercicio sencillo de simulaciones de muestreo para evaluar este supuesto.
4 Las encuestas prevén estos problemas a través de la micro o macro edición. Por lo general,
antes del levantamiento de información se determina un umbral de tasa de no respuesta
razonable, de tal manera que si la información faltante supera el mismo, se evalúa si las
omisiones sigue un patrón aleatorio o son fuentes potenciales de sesgo.
7
A su vez, es importante anotar que dentro de cada subgrupo todo hogar tiene la misma probabilidad
de ser elegido.
Dado que el diseño muestral no responde a una selección aleatoria simple, las
varianzas estimadas tampoco pueden inferir directamente sobre la población a
menos que realicemos un ajuste de las mismas. Este punto es de vital
Para conocer qué tipo de ajustes se deben realizar al estimar el error muestral,
debemos considerar si el diseño muestral fue estratificado y realizado en más de
una etapa. Por ejemplo, en el caso peruano, las dos encuestas con mayor
cobertura a nivel nacional (ENAHO y ENDES) son resultado de un diseño
muestral estratificado que implica en una primera etapa elegir aleatoriamente
algunos conglomerados para seleccionar dentro de los mismos las viviendas a
ser encuestadas. En este caso, si bien la elección es realizada al azar la
probabilidad de selección se encuentra en proporción al tamaño poblacional del
conglomerado.
8 Si bien es muy poco usual que los resultados de un indicador se reporten en intervalos fuera
de los ámbitos académicos, dentro de ellos es un tema crucial. Aunque es una práctica habitual
que decir que, por ejemplo, "la tasa de pobreza es del 22,7 por ciento," sería más exacto decir
que al 95 por ciento de confianza la tasa de pobreza se encuentra entre 21,0 por ciento y 24,4
por ciento.
Es muy común que los investigadores comparen bases de datos con el objetivo
de añadir información de períodos anteriores. En casos en que los sujetos de
estudio (individuos, hogares, distritos, regiones, empresas, sectores, etc) son
los mismos9, la nueva base de datos agregada es considerada un panel de
datos. En el caso en que los datos agregados no correspondan a los mismos
sujetos (individuos, empresas u hogares diferentes a lo largo del tiempo), la base
obtenido será una base de datos agregada o pooled.
9 Por lo normal, las encuestas que emplean datos de panel mantienen protocolos bastante claros
para casos en los que el hogar cambio de residencia o la empresa cambio de rubro.
10 Debido a las ventajas de los modelos de panel para el tratamiento de los no observables
invariantes en el tiempo, muchos investigadores muestran interés en emparejar bases de datos
en lugar de solamente agregar información pasada.
Por otro lado, en algunos casos la inclusión de una consulta adicional puede
cambiar conceptualmente un indicador. Por ejemplo, agregar un concepto
adicional como el consumo de calzado en el cálculo del gasto de los hogares
puede cambiar las cifras de pobreza y desigualdad, haciendo no comparables
algunos indicadores de condiciones de vida a través del tiempo. En este caso,
Por último, es importante recordar que tanto en el caso del pooled como en el
caso de emplear datos de panel, la distancia entre los períodos reportados no
puede ser demasiado amplia debido a que dichas distancias pueden esconder
importantes variaciones de factores no observables. Por ejemplo, en el caso de
la evaluación de impacto de un programa de subsidios sociales en la
productividad agrícola, si bien los censos permiten identificar a todos los
beneficiarios, la distancia entre ambos censos es crucial. Si el segundo censo
disponible fue tomado luego de 20 años, es casi imposible atribuir los resultados
en productividad agrícola al programa. Esto último se debe a que paralelamente
al subsidio, otros factores no observables determinantes de productividad
pudieron variar.
11
Lo cual asegura la estandarización de protocolos al relevar la información.
En cuarto lugar, dado que ambas bases de datos no son parte de un esfuerzo
integrado, es probable que los diseños muestrales de ambas difieran. Debido a
ello, las varianzas estimadas no necesariamente comparten los mismos niveles
de confianza. Esta limitación debe ser estudiada y reportada en la investigación
debido a sus implicancias en la inferencia de los resultados.
Otra alternativa usual para el caso en que se trabaja con bases de datos que no
cuenten con códigos de emparejamiento, pasa por emplear un nivel más
agregado de información. Esto es, si bien no es posible emparejar directamente
a los individuos, el emparejamiento se puede realizar a nivel de distritos.
Del mismo modo, si la encuesta no cuenta con inferencia a nivel distrital, es muy
probable que algunos distritos se encuentren faltantes en alguna de las bases
de datos, lo cual afectará potencialmente la representatividad de toda encuesta.
Pese a ello, algunos autores emplean este tipo de emparejamiento bajo el
supuesto que, dado el diseño muestral de la encuesta, los errores de inferencia
podrían ser aleatorios, algo que efectivamente no se demuestra.