Está en la página 1de 13

Guía para la elaboración de

propuestas de investigación
cuantitativa
Elaborado por: Alejandro Granda Sandoval
4. Empleo de bases de datos relacionadas a desarrollo social y productivo

Si bien las ciencias sociales emplean tanto variables de naturaleza cuantitativa


como cualitativa, algunas ramas como la economía, plantean problemas de
investigación que incluyen datos agregados (macroeconomía) o datos
desagregados a nivel de individuos, hogares, centros poblados, etc.
(microeconomía).

Recientemente algunos enfoques vienen empleando mixturas de ambas


dimensiones, esto es, se incluyen fundamentos microeconómicos en problemas
de investigaciones macroeconómicas, o variables contextuales o georeferencias
en modelos microeconómicos. En gran medida, la disponibilidad y calidad de la
información han sido determinantes para el desarrollo de trabajos empíricos en
estos campos.

Pese a ello, no pocas veces las bases de datos ofrecen algunas limitaciones que,
si bien corresponden al ámbito técnico u operativo, pueden llegar a repercutir en
los resultados incluidos en una investigación. De acuerdo a ello, se presentan a
continuación algunas recomendaciones al emplear bases de datos considerando
tanto las características muestrales, la posibilidad de emparejar fuentes de
información, etc.

4.1 Empleo adecuado del diseño muestral

En muchos casos los investigadores pueden tener claridad en lo buscan y


cuentan a su vez con estrategias de investigación bastante coherentes con el
problema planteado y la formulación de una hipótesis. Pese a ello, no siempre
sus estrategias son coherentes con la disponibilidad y la calidad de datos. Esto
sucede con mayor frecuencia en los casos en que el investigador se plantea
emplear información de una nueva encuesta o una base de datos aún no
consistenciada.

© COPYRIGHT CIES 2016 1


Es importante tomar en cuenta que, debido a que en el caso latinoamericano
muchas de las bases de datos disponibles corresponden a levantamientos de
información novedosa, las muestras iniciales por lo general presentan sesgos.

Por ejemplo, puede que un investigador se encuentre interesado en estudiar los


factores que limitan a algunas empresas a invertir en innovación. Para este
emprendimiento, el investigador se plantea trabajar con la encuesta económica
aplicada a empresas de todos los sectores económicos.

Es muy común en Latinoamérica que, debido a la limitación de recursos, las


encuestas dirigidas a empresas por lo general busquen replicar bien algunos
indicadores importantes, como es el caso del nivel de ventas.

En ese sentido, es importante considerar que todas las encuestas que levantan
un indicador, no necesariamente tienen inferencia sobre el mismo. Puede que la
encuesta económica citada en el párrafo anterior, incluya un levantamiento de
información de empresas localizadas en las regiones que acumulan la mayor
proporción de ventas en el país. Es claro que el muestreo potencialmente omite
la información de empresas expuestas a escenarios menos competitivos,
incluso, podrían ser efectivamente empresas con menores ventas 1, menores
utilidades y por ende, menores posibilidades de invertir en innovación.

Debido a lo anterior, la muestra seleccionada se encontraría sesgada en relación


a la variable de inversión en innovación. El investigador que piense estimar el
número de empresas no innovadoras puede subestimar su resultado dado que

1 Para demostrar el argumento de insesgamiento, deberíamos demostrar que las empresas


omitidas del marco poblacional cuentan con promedios de ventas similares a las empresas
localizadas en las regiones que acumulan la mayor proporción de ventas.

© COPYRIGHT CIES 2016 2


buena parte de las mismas se encuentran localizadas en regiones que no fueron
parte del marco población del que se extrajo la muestra seleccionada.

El problema de sesgo e inconsistencia en los resultados surgirá en la medida en


que la omisión de información no sea aleatoria, esto es, si la población no
incluida presenta valores promedio2 (de la variable de interés) diferentes a los
que muestra el grupo incluido en la muestra (extraído de un marco poblacional
truncado). Justamente este es el supuesto que emplean algunos diseños para el
truncamiento de la información3, sin embargo, son pocas las veces en que se
demuestra la insesgadez de indicadores como los de inversión de pequeñas y
micro empresas.

Paralelamente, existen casos en los que el mismo diseño del levantamiento de


información genera este truncamiento de la muestra. Este es el caso común de
las encuestas de condiciones de vida para la medición de características
demográficas o las encuestas de Hogares. Dichas encuestas entrevistan
solamente a personas con hogar, esto es, truncan la información de indigentes
que no cuentan con una vivienda.

En estos casos, es imprescindible que el investigador sea consciente de las


limitaciones del muestreo realizado, en particular esto implica estar al corriente
del marco poblacional empleado y la definición de unidad muestral. Ambos datos
por lo general son reportados en la ficha técnica que acompaña la encuesta.

2 Es cierto que se genera un sesgo en varianza, el cual repercutirá en la estimación de intervalos


de confianza y en la consistencia de los test de hipótesis. Pese a ello, en esta sección se prioriza
el problema de sesgo en momentos centrales (media y mediana). Los sesgos de varianza son
discutidos en la sección de ajuste de varianza de acuerdo al diseño muestral.

3 Pese a ello, debido a que los técnicos cuentan con la información del marco poblacional, es
posible realizar un ejercicio sencillo de simulaciones de muestreo para evaluar este supuesto.

© COPYRIGHT CIES 2016 3


Por su parte, es importante recordar que en algunas encuestas la tasa de
rechazo podría generar suspicacias sobre la consistencia de los resultados. Ello
debido a que la tasa de no respuesta podría concentrarse en una parte específica
de la población encuestada (las personas con mayores recursos)4.

Por lo general, este tipo de limitaciones pueden ser superadas delimitando el


problema de investigación a las unidades que efectivamente forman parte del
marco poblacional. Al igual que en otros casos, es importante indicar las
limitaciones del diseño muestral, esto da cuenta de la rigurosidad del trabajo
realizado por el investigador, indicando que es consciente del potencial sesgo en
los resultados.

Este problema será mayor en la medida en que el investigador se plantee un


análisis intertemporal, dado que las variaciones entre períodos podrían
explicarse por cambios en el diseño muestral en lugar de cambios en la variable
de interés a nivel poblacional. Por ejemplo, una mejora en el diseño muestral de
las encuestas de innovación en períodos recientes podrían mostrar niveles de
inversión en innovación mucho mayores a los reportados en la primera encuesta
truncada.

En estos casos, una alternativa es contar con ponderaciones que permitan la


comparación entre ambos períodos5, sin embargo, para ser estrictos este

4 Las encuestas prevén estos problemas a través de la micro o macro edición. Por lo general,
antes del levantamiento de información se determina un umbral de tasa de no respuesta
razonable, de tal manera que si la información faltante supera el mismo, se evalúa si las
omisiones sigue un patrón aleatorio o son fuentes potenciales de sesgo.

5 Es importante aclarar que, en la práctica, la muestra que considera un marco poblacional


sesgado realiza un sobremuestreo de las empresas con mayor propensión a innovar. En ese
sentido, los ponderadores podrían reducir los pesos de las empresas que forman parte del
espacio sobremuestreado (empresas con mayor propensión a innovar), facilitando la
comparación de bases de datos.

© COPYRIGHT CIES 2016 4


método no permite recuperar la información truncada por lo que el empleo de un
corte transversal puede ser mucho más consistente y eficiente6.

4.2 Empleo de ponderadores y ajuste de varianza de acuerdo al


diseño muestral

Como se mencionó en la sección anterior, las buenas propiedades de una


muestra dependerán de la aleatoriedad en la elección de las unidades a ser
muestreadas. Si la información capturada por una encuesta no fue tomada al
azar, entonces las estimaciones resultantes se encontrarán potencialmente
sesgadas, desconociéndose además la dirección del sesgo.

En términos sencillos, un indicador sería representativo a nivel nacional si


proviene de un diseño muestral aleatorio simple, esto garantiza que todos los
habitantes del país tenga la misma probabilidad de ser elegido para la entrevista.
Pese a ello, en la práctica este tipo de diseños son complejos de poner en
práctica en el caso de muestras grandes.

Muy a menudo resulta rentable generar deliberadamente sobremuestreos de


algunos grupos poblacionales pequeños (por ejemplo, centros poblados con
poca población y de difícil acceso) y al mismo tiempo submuestreos de grupos
poblacionales grandes y homogéneos (centros poblados de mayor densidad
poblacional). Ciertamente, a diferencia del muestreo aleatorio simple, los
hogares de dos subgrupos distintos tendrán una probabilidad diferente de ser
elegidos7, sin embargo, dichas probabilidades son conocidas.

6 Si en el problema de estudio las determinantes del modelo no muestran una variabilidad


importante en el tiempo, es muy probable que el empleo de un corte transversal sea la alternativa
más eficiente.

7
A su vez, es importante anotar que dentro de cada subgrupo todo hogar tiene la misma probabilidad
de ser elegido.

© COPYRIGHT CIES 2016 5


Estos cambios en el diseño muestral deben ser considerados por el investigador
debido a los potenciales sesgos que se generan al incluir en la muestra una
proporción mayor de un determinado subgrupo (sobremuestreo). Por ejemplo,
en el caso de las encuestas de condiciones de vida, el sobremuestreo podría
concentrarse en la población más alejada que a su vez es la más vulnerable.
Debido a ello, un promedio simple de la variable de ingresos del hogar que no
haga diferencias entre el grupo sobremuestreado y el resto de la muestra, será
un indicador sesgado debido a que reportará niveles de ingreso por debajo del
que se observaría en un muestreo aleatorio simple. Efectivamente, el promedio
simple de ingresos del hogar en un diseño que incluye sobremuestreos, no es
un indicador representativo de la población.

De acuerdo con lo anterior, todas las estimaciones o análisis descriptivos que


empleen la muestra antes descrita, deberán incorporar los pesos asignados,
llamados también ponderadores. Caso contrario, no se puede asegurar que la
muestra infiera adecuadamente sobre la población de estudio (marco población).
En ese sentido, un hogar extraído del sub grupo submuestreado, tendrá un
ponderador mayor al mostrado por un hogar del subgrupo sobremuestreado.

Es importante tomar en cuenta que, los ponderadores representan los pesos de


la unidad muestreada, esto es, un ponderador de 170 indicará que un
determinado hogar representa esa cuantía de hogares. Ahora, en el caso en que
el investigador tenga el interés de mostrar estadísticas descriptivas a nivel de
individuos a partir de una base de datos con información a nivel de hogares,
bastará con multiplicar el ponderador del hogar por el número de miembros del
hogar.

Dado que el diseño muestral no responde a una selección aleatoria simple, las
varianzas estimadas tampoco pueden inferir directamente sobre la población a
menos que realicemos un ajuste de las mismas. Este punto es de vital

© COPYRIGHT CIES 2016 6


importancia dado que todos los indicadores extraídos de una muestra incluyen
errores muestrales, por lo que deben ser reportados en intervalos de confianza8.

Para conocer qué tipo de ajustes se deben realizar al estimar el error muestral,
debemos considerar si el diseño muestral fue estratificado y realizado en más de
una etapa. Por ejemplo, en el caso peruano, las dos encuestas con mayor
cobertura a nivel nacional (ENAHO y ENDES) son resultado de un diseño
muestral estratificado que implica en una primera etapa elegir aleatoriamente
algunos conglomerados para seleccionar dentro de los mismos las viviendas a
ser encuestadas. En este caso, si bien la elección es realizada al azar la
probabilidad de selección se encuentra en proporción al tamaño poblacional del
conglomerado.

La razón para hacer el muestreo por conglomerados, en lugar de un muestreo


aleatorio simple, se debe a que es mucho más barato realizar entrevistas a varias
viviendas en un área pequeña, que buscar viviendas diseminadas en un área
potencialmente grande. Pese a ello, el uso de muestreo por conglomerados, si
bien no genera promedios sesgados en los indicadores (ingreso per cápita, nivel
de escolaridad, nivel de desigualdad en ingresos, etc.), trae consigo una menor
confiabilidad de los resultados. Ello se debe a que al seleccionar las viviendas
es posible que se incluyan dos hogares pobres y dos hogares ricos, por lo cual
los errores estándar terminan siendo mayores.

Diferentes programas estadísticos permiten realizar este ajuste por diseño


muestral conjuntamente al ajuste de sobre y submuestreo. Este proceso es
conocido en la jerga estadística como “setear” la base de datos e idealmente se

8 Si bien es muy poco usual que los resultados de un indicador se reporten en intervalos fuera
de los ámbitos académicos, dentro de ellos es un tema crucial. Aunque es una práctica habitual
que decir que, por ejemplo, "la tasa de pobreza es del 22,7 por ciento," sería más exacto decir
que al 95 por ciento de confianza la tasa de pobreza se encuentra entre 21,0 por ciento y 24,4
por ciento.

© COPYRIGHT CIES 2016 7


realiza al inicio. Luego de este procedimiento, podremos generar resultados en
intervalos de confianza que infieren sobre la población total.

4.3 Emparejamiento de bases de datos a través del tiempo

Es muy común que los investigadores comparen bases de datos con el objetivo
de añadir información de períodos anteriores. En casos en que los sujetos de
estudio (individuos, hogares, distritos, regiones, empresas, sectores, etc) son
los mismos9, la nueva base de datos agregada es considerada un panel de
datos. En el caso en que los datos agregados no correspondan a los mismos
sujetos (individuos, empresas u hogares diferentes a lo largo del tiempo), la base
obtenido será una base de datos agregada o pooled.

Si bien en esta sección no realizaremos un análisis de la consistencia de las


regresiones empleadas en ambos métodos, es importante aclarar que en ambos
casos es posible alcanzar versiones consistentes y eficientes bajo ciertos
supuestos. Dichos supuestos se basan en presunciones sobre componentes no
observables (habilidades blandas de empresarios, características culturales de
los distritos, habilidades no cognitivas de los trabajadores, etc)10.

Sin embargo, incluso en el caso en que todos los factores no observables


relevantes se encuentren debidamente controlados, un problema usual que
enfrenta el investigador es el cambio en los diseños de muestreo en el tiempo
y/o cambios en el cuestionario aplicado.

9 Por lo normal, las encuestas que emplean datos de panel mantienen protocolos bastante claros
para casos en los que el hogar cambio de residencia o la empresa cambio de rubro.

10 Debido a las ventajas de los modelos de panel para el tratamiento de los no observables
invariantes en el tiempo, muchos investigadores muestran interés en emparejar bases de datos
en lugar de solamente agregar información pasada.

© COPYRIGHT CIES 2016 8


En el primer caso, asumamos dos períodos disponibles de una encuesta a
empresas que no ha sido diseñada como un panel de datos. Supongamos que
dicha encuesta cuenta con inferencia a nivel de rubros de los diferentes sectores
económicos. De acuerdo a ello, el investigador agrega la información a nivel de
rubros empresariales y puede generar de esa manera un panel de datos de los
mismos. Sin embargo, puede que entre ambos años los diseños muestrales
hayan variado, esto es, puede que el error muestral sea diferente en ambas
encuestas con lo cual en estricto este panel no cuenta con un margen de error
conocido. Debido a ello, el investigador no puede brindar buenas estimaciones
de los intervalos de confianza, aunque los momentos centrales podrán ser
estimados de manera consistente. Es decir, podemos estimar los parámetros de
las determinantes de la productividad empresarial, sin embargo, no será posible
realizar adecuadamente alguna inferencia sobre los mismos, dado que los
errores muestrales del panel de datos son desconocidos.

En el segundo caso, es usual que los cuestionarios vayan cambiando en el


tiempo y a consecuencia de ello, cambie también la manera en que los datos son
reportados. Por un lado, puede que una misma pregunta se incluya ahora con
mayores detalles consultados. Por ejemplo, no sólo se consulta a la empresa si
invirtió en I+D, sino que se consulta sobre el monto invertido de manera
colaborativa, el monto invertido en terceros y el monto invertido a nivel interno
en la empresa. La información monetaria reportada en detalle tiende a ser mayor
a la que es reportada a nivel agregado, esto es, a mayor detalle de consulta los
montos reportados tienden a ser mayores. Algo similar sucede al cambiar la
frecuencia de reporte de gastos, esto es, los gastos anualizados reportados
semanalmente son mayores a los gastos reportados de manera anual.

Por otro lado, en algunos casos la inclusión de una consulta adicional puede
cambiar conceptualmente un indicador. Por ejemplo, agregar un concepto
adicional como el consumo de calzado en el cálculo del gasto de los hogares
puede cambiar las cifras de pobreza y desigualdad, haciendo no comparables
algunos indicadores de condiciones de vida a través del tiempo. En este caso,

© COPYRIGHT CIES 2016 9


es posible generar una comparabilidad artificial al estimar un gasto potencial por
hogar en el año en el que no se capturó dicha información.

Por último, es importante recordar que tanto en el caso del pooled como en el
caso de emplear datos de panel, la distancia entre los períodos reportados no
puede ser demasiado amplia debido a que dichas distancias pueden esconder
importantes variaciones de factores no observables. Por ejemplo, en el caso de
la evaluación de impacto de un programa de subsidios sociales en la
productividad agrícola, si bien los censos permiten identificar a todos los
beneficiarios, la distancia entre ambos censos es crucial. Si el segundo censo
disponible fue tomado luego de 20 años, es casi imposible atribuir los resultados
en productividad agrícola al programa. Esto último se debe a que paralelamente
al subsidio, otros factores no observables determinantes de productividad
pudieron variar.

4.4 Emparejamiento de bases de datos transversales

Usualmente, el emparejamiento de datos se realiza entre módulos de una misma


encuesta. Es decir, dos bases de datos con similares errores muestrales, similar
diseño e idénticas guías de entrevista11 en las que se reportan dos tipos
diferentes de información (por ejemplo, educación y salud), tan sólo requieren de
un identificar para unirse. En algunas bases de datos dicho indicador se
encuentra bastante identificado, mientras que en otros casos, debe ser
construido a partir de la información conocida a partir del tipo de muestreo. En
ese sentido, dado que la fila de información corresponde a una determinada
persona, que habita en un determinado hogar, de una determinada vivienda
localizada en un determinado conglomerado, bastará con generar un indicador
de identificación que acumule el código del conglomerado, la vivienda, el hogar
y el código de persona.

11
Lo cual asegura la estandarización de protocolos al relevar la información.

© COPYRIGHT CIES 2016 10


El proceso de emparejamiento es relativamente sencillo en el caso de contar con
identificadores exclusivos para cada unidad de análisis, sin embargo, no todas
las encuestas cuentan con una variable que permita identificar de manera
transversal a los individuos, hogares, distritos o empresas de manera directa.
Esto pasa con mayor frecuencia al intentar emparejar bases de datos
provenientes de diferentes encuestas.

En el caso de no contar con un indicador que permita identificar a la unidad de


análisis, algunos investigadores emplean un puntaje de emparejamiento de
acuerdo a las características más relevantes de la unidad. En ese sentido, si bien
ambas bases de datos han colectado información de diferentes empresas, el
especialista buscará generar una “submuestra” que incluya empresas que sean
similares en ciertas características relevantes.

En este punto convienen señalar cuatro importantes limitaciones del proceso. En


primer lugar, si bien existen diferentes maneras de realizar el emparejamiento,
el algoritmo que se emplea (y que determina qué empresas son similares a otras)
depende de las características incluidas en la ecuación de emparejamiento. De
acuerdo a ello, ambas bases de datos deben incluir las características
consideradas en la ecuación de emparejamiento (por ejemplo, en el caso de
empresas, el número de trabajadores, rubro, capital físico, etc).

En segundo lugar, el emparejamiento por puntaje requiere que las variables


requeridas en la ecuación sean observables. Por ejemplo, en el caso de dos
bases de datos de microempresas, el investigador podrá emparejar empresas
en función de características observables como el número de trabajadores, sin
embargo, no le será posible indicar si otras características efectivamente fueron
emparejadas, tales como las habilidades blandas de microempresarios.

En tercer lugar, dado que el emparejamiento reúne unidades similares de


acuerdo a un puntaje, el mismo proceso excluye a las unidades que no pudieron

© COPYRIGHT CIES 2016 11


ser emparejadas. Esta exclusión puede afectar de manera importante la
representatividad de la encuesta a nivel agregado e incluso la inferencia de la
misma. Debido a ello, se recomienda la revisión de diferencias en media y
varianza antes y después del proceso de emparejamiento.

En cuarto lugar, dado que ambas bases de datos no son parte de un esfuerzo
integrado, es probable que los diseños muestrales de ambas difieran. Debido a
ello, las varianzas estimadas no necesariamente comparten los mismos niveles
de confianza. Esta limitación debe ser estudiada y reportada en la investigación
debido a sus implicancias en la inferencia de los resultados.

Otra alternativa usual para el caso en que se trabaja con bases de datos que no
cuenten con códigos de emparejamiento, pasa por emplear un nivel más
agregado de información. Esto es, si bien no es posible emparejar directamente
a los individuos, el emparejamiento se puede realizar a nivel de distritos.

Efectivamente este proceso será válido en el caso en que ambas encuestas


cuenten con representatividad a nivel distrital. En caso contrario, el especialista
podría emparejar distritos con información que efectivamente no refleja las reales
condiciones de vida. En particular, dado que los datos no son representativos a
nivel de distrito, cualquier levantamiento de información paralela con las misma
características de diseño muestral, hubiese dado resultados potencialmente
diferentes a los observados inicialmente.

Del mismo modo, si la encuesta no cuenta con inferencia a nivel distrital, es muy
probable que algunos distritos se encuentren faltantes en alguna de las bases
de datos, lo cual afectará potencialmente la representatividad de toda encuesta.
Pese a ello, algunos autores emplean este tipo de emparejamiento bajo el
supuesto que, dado el diseño muestral de la encuesta, los errores de inferencia
podrían ser aleatorios, algo que efectivamente no se demuestra.

© COPYRIGHT CIES 2016 12

También podría gustarte