Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Ciencias
Departamento de Estadística
SIMPOSIO DE ESTADÍSTICA
SAN ANDRÉS, 2000
1. EL PLAN MUESTRAL
Tres son los componentes que pueden ser considerados como partes fundamentales
de lo que constituye un plan muestral para un estudio o encuesta. Ellos son las
definiciones básicas, los estimadores a utilizar y el propiamente llamado diseño
muestral o procedimiento de selección aleatoria. Las definiciones básicas
indispensables en la conformación del plan muestral son el UNIVERSO de estudio,
las VARIABLES de interés y los PARÁMETROS a estimar. Estas definiciones, así
como la información, los recursos y el tiempo disponible son los condicionantes del
plan. La estrategia muestral se construye luego, sobre la base de los condicionantes
particulares del estudio, mediante la combinación de estimadores y diseños
muestrales a utilizar. Finalmente, el resultado de un proyecto de muestra para
encuesta se plasma en el informe o propuesta técnica de plan muestral. Estos son
los temas a considerar en los próximos cinco numerales.
El marco de muestreo es el dispositivo que permite identificar y ubicar los sujetos que
toman parte en los diferentes procesos de selección al azar. En muchos estudios,
una gran parte de los recursos se invierten en la construcción, la corrección y la
complementación de los marcos. De hecho el marco constituye el primer instrumento
indispensable de todo plan muestral y muchos investigadores ven recortadas sus
aspiraciones por la ausencia de un marco muestral adecuado. En algunos casos la
imposibilidad de financiar la construcción o consecución del marco muestral conduce
a la renuncia del método estadístico de encuesta como metodología de investigación.
En tales casos se hacen estudios no probabilísticos sin posibilidad de inferencia
estadística y que son tomados como estudios de caso o sondeos sin pretensiones de
generalización. En muchos casos no se dispone de un marco de elementos pero si
se dispone del marco de conglomerados o conjuntos de elementos. Por ejemplo no
se dispone del marco de alumnos de octavo grado escolar, pero si se dispone del
listado en el que es posible identificar y ubicar cada uno de los colegios de la ciudad.
En estos casos se aplica un diseño de conglomerados o en varias etapas.
Los totales son la suma sobre el universo de la variable en estudio. Se notará en este
1 si k Ud
caso la variable ydk en forma tal que el parámetro de interés se convierte
0 si k Ucd
en el total Nd t yd U
ydk . Ejemplos de este total son:
R
ty
U
yk
. Ejemplo cuando las dos variables son de tipo cuantitativo son:
tz
U
zk
Muchas veces la razón de interés es el cociente entre dos frecuencias, por ejemplo:
La proporción de personas que favorecerán con su voto a un candidato
sobre el conjunto de quienes piensan participar en la consulta. Es
entonces el cociente entre la cantidad de quienes apoyan al candidato
sobre la cantidad de quienes tienen intención de participar en la
elección. En este caso se exige casi siempre que los pertenecientes al
grupo de favorecedores del candidato sea subconjunto del grupo con
intención de voto.
La proporción de hogares que prefieren una determinada marca en el
conjunto de los hogares consumidores de un determinado producto. Es
decir el cociente de la cantidad de los que han consumido la marca en
el último mes sobre la cantidad de hogares consumidores de ese
producto. Particularmente sea el ejemplo de la proporción de hogares
que vieron un determinado programa de T.V en el conjunto de hogares
que vieron T.V en ese horario.
La denominada tasa de analfabetismo expresada como el cociente de
la cantidad de personas mayores de trece años que no saben leer y
escribir sobre la cantidad de personas mayores de trece años. En forma
similar se definen tasas de fecundidad, natalidad, migración, desempleo
y muchas más.
y
tyd 0 si k U
Y con y U dk d
N z
promedios de dominio se trata de la razón
Ud dk
d y si k U
U dk k d
0 si k Ud
zdk
1 si k Ud
En ocasiones se busca información sobre parámetros diferentes a totales y razones.
Es el caso de estimar los coeficientes de un modelo de regresión, los percentiles de
una distribución, o la covarianza entre variables. De acuerdo con la teoría muestral el
mecanismo utilizado para estimar cualquier parámetro consiste en expresarlo como
función de totales.
Aunque existen varias metodologías para alcanzar algún nivel de conocimiento sobre
características de una población, se trata en este texto de un único método y es el
basado en modelos de probabilidad y conocido generalmente como métodos de
inferencia estadística y llamado por los especialistas con el nombre de muestreo
estadístico. El muestreo parte de las definiciones básicas de universo de estudio,
variables de interés y parámetros a investigar y utiliza conceptos propios de la
estadística, los cuales se presentan a continuación.
Para ilustrar lo que debe y lo que no debe ser en el sentido de hacer corresponder
las probabilidades conocidas y las realmente aplicadas sea el ejemplo en el que se
planea un estudio acerca de las preferencias entre los consumidores de detergente.
El muestrista establece que al llegar a un hogar se debe seleccionar una única
persona, la ama de casa debe tener probabilidad de selección igual a 0.5 y los
demás adultos deben tener cada uno de ellos igual probabilidad de selección. A cada
TABLA DE SELECCIÓN
Entreviste la persona número ___ dependiendo del número aleatorio obtenido
Si el número aleatorio
Cantidad de personas Seleccione la persona
obtenido está en el
adultas en el hogar número
intervalo
Una Cualquiera 0
Dos De 0.002 a 0.998 1
De 0.002 a 0.500 1
Tres
De 0.502 a 0.998 2
De 0.002 a 0.332 1
Cuatro De 0.334 a 0.666 2
De 0.666 a 0998 3
De 0.002 a 0.250 1
De 0.252 a 0.500 2
Cinco
De 0.502 a 0.750 3
De 0.752 a 0.998 4
etc.
Pero si el instructivo señala que la entrevista se aplica a quien abra la puerta, o a una
de las personas presentes en el hogar, entonces la probabilidad de selección no es
conocida, infringiendo así el punto dos. Si luego del enlistamiento se vuelve a la
oficina y se realiza una selección sistemática no se consigue la correspondencia
entre la probabilidad preestablecida y la realmente aplicada. La correspondencia
entre las probabilidades explicitadas y las aplicadas mediante la forma de selección,
se evidencia en las fórmulas matemáticas aplicadas luego de la selección de la
muestra a fin de obtener los valores poblacionales que se buscan con el estudio.
Cuando se cumple la correspondencia entre lo planteado y lo realizado las fórmulas
aplicadas son las correctas, cuando esta correspondencia no existe, las fórmulas
aplicadas no son correctas y los errores pueden ser inmensos, errores en términos
de las dos principales medidas de calidad el insesgamiento y la varianza.
Una vez obtenidos los valores muestrales y 1, y2, ... , yns se deben expandir en forma
tal que conduzcan al valor que será tomado como posible valor poblacional.
yk
caso el estimador está dado por la fórmula tˆy m m ak . yk donde la suma
k
sobre m significa la suma sobre los elementos de la muestra. π k simboliza la
probabilidad de inclusión del k-ésimo elemento, y k es el valor medido para ese mismo
elemento. En este caso el factor de expansión ak es el inverso de la probabilidad de
inclusión πk.
El MCR-estimador, llamado así por las siglas de Muestreo Sin Reposición, utiliza las
probabilidades de selección de los elementos para construir el factor de expansión.
1 yk
El MCR estimador está dado por tˆy m m ak . yk . En esta fórmula m es el
m pk
tamaño de la muestra pk es la probabilidad de selección del k-ésimo elemento, y k su
valor observado y el factor de expansión es el promedio de los inversos de las
probabilidades de selección.
Los dos estimadores conducen a resultados diferentes para una misma muestra pero
son en principio de calidad comparable en términos de insesgamiento y varianza
como se verá más adelante. La diferencia de utilización de estos dos estimadores
radica en la relativa facilidad o dificultad de establecer las probabilidades de inclusión
o de selección de los objetos a escoger. En general para los diseños de muestreo o
maneras de selección sin reposición las probabilidades de inclusión son fáciles de
determinar y de ahí la utilización del π-estimador. En diseños con reposición las
Para entender los conceptos de calidad de un estimador hay que tener presente que
cada muestra que se obtenga arrojará, al aplicar la fórmula de estimación, un
1
Modelo univariado, heterocedástico sin intercepto
1
cada muestra es igual a
N y la probabilidad de inclusión de cada elemento es
n
n
constante e igual a . En este caso se tienen diez muestras posibles y al utilizar el
N
π-estimador se obtienen las siguientes estimaciones:
Elementos Probabilidad Valores Total estimado
Muestra
seleccionados de la muestra observados tˆy
1 u1 u2 u3 1/10 25 48 70 238.33
2 u1 u2 u4 1/10 25 48 18 151.67
3 u1 u2 u5 1/10 25 48 44 195.00
4 u1 u3 u4 1/10 25 70 18 183.33
5 u1 u3 u5 1/10 25 70 44 231.67
6 u1 u4 u5 1/10 25 18 44 145.00
7 u2 u3 u4 1/10 48 70 18 226.67
8 u2 u3 u5 1/10 48 70 44 270.00
9 u2 u4 u5 1/10 48 18 44 183.33
10 u3 u4 u5 1/10 70 18 44 220.00
10
La esperanza dada por p(m).tˆ
m ]1
ym = 205. Valor que no por coincidencia es igual al
debe servir para estimar la varianza del estimador, que en el primer caso es igual a
1403 y en el segundo es igual a 136.4.
N2
Vˆ tˆy
n 1
Para el π-estimador
n
1 yk ym 2
N n 1 m
2 2
x N2
Vˆ tˆyr U .
n 1 y
Para el r-estimador .1 .
N n 1
y m .xk
m k
xm n xm
Vˆ tˆy
52
3
3 1
1
5 3 1
25 29 2 18 29 2 44 29 2 603.3 para el π-estimador y
3 1 29
2 2 2 2 2
Vˆ tˆyr . .1 .
8 5 29 29
25 .5 18 .5 44 .8 199.0
6 3 5 3 1 6 6 6
100. Vˆ tˆy
por Vˆ tˆy o un poco más práctico el c.v.e. dado por . En el ejemplo y
tˆy
para los dos estimadores dados los intervalos de confianza y sus respectivos c.v.e
son:
π-estimador r-estimador
Estimación Intervalo c.v.e Estimación Intervalo c.v.e
Muestra Vˆ tˆy IC tˆy % Vˆ tˆy IC tˆy %
1 1687.7 157.8 - 318.9 17.2 90.0 193.3 – 230.4 4.5
2 821.1 95.5 - 207.8 18.9 81.3 164.3 – 199.7 5.0
3 503.3 151.0 - 239.0 11.5 35.1 191.9 – 215.1 2.9
4 2654.4 87.4 - 289.3 27.4 256.7 174.1 – 236.9 7.8
5 1701.1 150.8 - 312.5 17.8 28.92 211.9 – 232.9 2.4
6 603.3 96.9 - 193.1 16.9 199.0 165.7 – 221.0 7.3
7 2271.1 133.3 - 320.1 21.0 195.6 174.1 – 228.9 6.9
8 653.3 219.9 - 320.1 9.5 67.9 199.8 – 232.2 3.8
9 884.4 125.0 - 241.6 16.2 123.3 169.5 –213.1 5.8
10 2253.3 127.0 - 313.0 21.6 180.7 184.8 – 237.6 6.4
Nótese que para el caso del π-estimador las muestras seis y ocho, el respectivo
intervalo de confianza no cubre al parámetro, es decir no contiene el valor 205. Como
son ocho de las diez muestras las que cumplen que el IC cubre al parámetro se dice
que el π-estimador en este caso tiene una cobertura del 80%. En el caso del r-
estimador sucede lo mismo pero con las muestras número dos y cinco, lo que
conduce a igual cobertura.
E (tˆy ) t y
Se utiliza el término sesgo relativo para denominar a: Br tˆy entonces,
V (tˆy )
Valor absoluto
0 0.05 0.1 0.3 0.5 1 1.5 2 2.8
del sesgo relativo
Confiabilidad 0.95 0.949 0.948 0.94 0.92 0.83 0.63 0.48 0.20
203.85 205
igual a 0.098 .
136.4
estimador la varianza fue igual a 1403, para el r-estimador la varianza fue menos de
su décima parte (136.4). Aunque la confiabilidad sea buena, el tamaño o la amplitud
de los intervalos de confianza puede ser tan alta que hace inútil la información
entregada al usuario. Señalar por ejemplo que un candidato para las próximas
elecciones tiene hoy día un porcentaje de favoritismo entre el cero y el cien por
ciento, más que una tontería es una caricatura que pretende reflejar lo que sucede
en algunos resultados de encuesta. El instituto oficial de estadística de Canadá
establece entre sus normas que cifras con un c.v.e. superior al 15% no pueden ser
entregadas al público. Para el caso del favoritismo por un candidato, en el que el
estimador puntual es 20%, el c.v.e. del 15% significa que el real favoritismo por el
candidato está cubierto (con 95% de probabilidad) por el intervalo (20 ± 6)% 2. Es
decir el intervalo de confianza es de 14% a 26% lo cual no constituye precisamente
una ganancia de conocimiento. Pero estimaciones con c.v.e del 10% tampoco son de
muy buena calidad. En general se puede decir que los intervalos de confianza que
conducen a resultados útiles tiene c.v.e inferiores al 3%, pero entre el 3% y el 6%
todavía se pueden tomar decisiones. Valores del c.v.e superiores al 6% conducen a
obtener una idea general del fenómeno en estudio pero puede suceder que la
información con nivel tan bajo de precisión se pueda adquirir por métodos mas
baratos a la encuesta.
En el ejemplo dado y por el tamaño tan pequeño del universo se presenta una muy
amplia variabilidad entre los c.v.e de las diferentes muestras, y sin embargo la
diferencia entre los dos estimadores es abismal a favor del r-estimador. En general,
los universos son mucho mayores y la variabilidad entre los c.v.e no es tan grande,
pero naturalmente existe variabilidad.
analizan los métodos utilizados y no los resultados obtenidos. Puede suceder que
dos investigadores estimen la producción total a obtener. El investigador A estima el
total en 425000 toneladas (c.v.e = 2.3%), el investigador B estima 580000 toneladas
(c.v.e = 7.4%). Luego de recogida la cosecha la producción obtenida fue de 467.520
toneladas. Un estudio de calidad de la encuesta revisa las fuentes de sesgo y de
varianza y no se basa en la distancia entre el valor estimado y el valor real obtenido.
Bien podría ser que los métodos del investigador A tengan sesgos tan altos que
invaliden sus resultados a pesar de la varianza pequeña que presentan. En el caso
del ejemplo dado con el pequeño universo de tamaño cinco es evidente que el r-
estimador aunque levemente sesgado es mucho mejor que el π-estimador, sin
embargo si un investigador A utiliza el π-estimador y obtiene la muestra número tres
su estimación es 195 (c.v.e = 11.5%) mientras que el investigador B con el r-
estimador y la muestra número seis estima el total en 193.3 (c.v.e = 7.3%)
DISEÑO BERNOULLI. En este diseño se fija un valor entre cero y uno denominado
por la letra π. Para cada elemento k del universo se realiza un evento aleatorio k de
distribución uniforme entre cero y uno y se decide si k < π entonces elemento k
será incluido en la muestra, de lo contrario no.
1
VBER (tˆy ) 1U yk .
E ns
escoger el valor π tal que, .
N
1
extracción todos tienen probabilidad de selección igual a , en la segunda los que
N
1
restan tienen probabilidad de selección igual a . se presentan aquí dos
N 1
algoritmos para seleccionar muestra MAS.
n
con lo que las tres fórmulas de trabajo son:
N
N
tˆy . m yk
n
N .( N n) 2 1
VMAS (tˆy ) .U yk yU
2
.S yU con
2
S yU y
n N 1
1
yU .U yk
N
N .( N n) 2 1 1
VˆMAS (tˆy ) . m yk ym . m yk
2
.S ym con
2
S ym y ym
n n 1 n
n.a
aleatorio cuando para N c el residuo c < a es diferente de cero. Diseño
r
aplicado con frecuencia en las últimas etapas de los diseños multietápicos, por su
versatilidad y las posibilidades de control y supervisión tiene como inconvenientes,
primero que si r es igual a uno, no se cuenta con un estimador insesgado de la
varianza del estimador y segundo que si existe un orden sistemático en el mismo
sentido en que se está seleccionando la muestra la varianza del estimador crece
considerablemente. Estas razones recomiendan evitar a este diseño para la
unidades primarias de muestreo, como se verá más adelante.
r
igual a . Las fórmulas de trabajo en este diseño son:
a
a
tˆy . m yk
r
a.(a r ) 2 1 1
VSIS (tˆy ) .Ua ti ta .Ua ti
2
.StUa con
2
StUa y ta
r a 1 a
2
y
VPPT tˆ U pk k t y
1
la forma lo que quiere decir que si para todo k se
m pk
yk y
ty es decir que pk t la varianza del estimador sería igual a
k
cumple que
pk y
xk
selección son iguales a pk .
tx
Ejemplo del método Acumulativo total para selección de tres elementos mediante
diseño PPT.
Intervalos de
k xk pk Acumulado
selección
1 15 0.075 0.075 0.0001 a 0.0750
2 50 0.250 0.325 0.0751 a 0.3250
3 60 0.300 0.625 0.3251 a 0.6250
4 20 0.100 0.725 0.6251 a 0.7250
5 35 0.175 0.900 0.7251 a 0.9000
6 15 0.075 0.975 0.9001 a 0.9750
7 5 0.025 1 0.9751 a 0.9999
que este diseño utiliza información auxiliar. El mayor inconveniente de este diseño lo
constituye el manejo operativo de los elementos que salen en la muestra más de una
vez, por cuanto se trata de un diseño con reposición.
n. yk
este caso se trata que k con lo que se llegaría a una varianza nula del
ty
n.xk
y y se fija k . El problema principal radica entonces en encontrar un método
tx
de selección de elementos tal que la probabilidad final de inclusión sea igual a la
dada de antemano. Son conocidos los métodos de Sunter, Brewer, Madow y otros,
todos ellos muy complicados y con algunos defectos. Son muchos los trabajos que
se siguen realizando tratando de encontrar métodos fáciles que cumplan los
requisitos de este diseño. El π-estimador del total está dado por:
y y t
tˆy m k m k m x . yk m ak . yk
k n.xk n.xk
tx
Las fórmulas de la varianza del estimador y del estimador de la varianza del
estimador se omiten por cuanto son muy complicadas.
El diseño π.P.T tiene similitud con el diseño P.P.T, sin embargo hay aspectos
cruciales que diferencian estos dos diseños. El primero es el carácter con reposición
del PPT y sin reposición del π.P.T. El segundo aspecto de diferencia es que en el
La comparación entre estos dos diseños, posible puesto que ambos parten del
supuesto de utilizar información auxiliar, establece que el PPT es menos eficiente
que el π.P.T, es decir que sus estimadores tienen una mayor varianza pero eso lo
compensan con simplicidad. Planteado desde la perspectiva contraria se puede
entonces afirmar que se puede preferir el diseño π.P.T sobre el P.P.T porque produce
mejores resultados pero se tiene que pagar un costo alto en complicaciones de
escritorio por el manejo de procedimientos y fórmulas de trabajo.
Para este diseño se denomina con t yi Ui yk al total del i-ésimo conglomerado.
El algoritmo de selección corresponde al diseño que se haya planteado, Fan-Muller
si es MAS, acumulativo total si es un diseño PPT de conglomerados. En principio no
tiene mayor diferencia con el diseño de elementos, la diferencia radica en que en
este caso la selección es de conglomerados y no de elementos. Así por ejemplo para
un estudio entre alumnos de octavo y noveno grado escolar se puede planear la
selección, por ejemplo PPT, de cursos.
Las fórmulas de trabajo son prácticamente las mismas que las encontradas para los
diseños de elementos, la diferencia radica en que se utilizarán los totales t yi en lugar
de los yk. Así por ejemplo cuando se trata de un diseño Muestreo Aleatorio Simple de
Conglomerados (MASC) la estimación se hace mediante:
N
tˆy I . mI t yi donde NI es el total de conglomerados en el universo y n I la
nI
cantidad de conglomerados en la muestra. Su varianza y el estimador de la varianza
son:
N I .( N I nI ) 2
VMASC (tˆy ) .StiU I con
2
StiU
1
NI 1
.U t yi tU I 2
y
nI I I
1
tU I .U t yi
NI I
N .( N I nI ) 2
. mI t yi tmI
1
VˆMASC (tˆy ) I .Stim con
2
Stim
2
y
nI nI 1
1
tmI . mI t yi
nI
2
t
VPPTC tˆ
1
mI
U
pI i . yi t y
pIi
Nótese que en este último caso se evidencia que la varianza del estimador será
menor, es decir el diseño será más eficiente en la medida que la probabilidad de
selección del conglomerado sea proporcional al total del mismo y no propiamente
proporcional a la cantidad de elementos del mismo.
Se dirá que se cumple el principio de invarianza cuando en el caso de que una UPM
sea seleccionada varias veces (en diseños con reposición, por ejemplo PPT) el
diseño aplicado a su interior sea siempre el mismo y con iguales parámetros. Así por
ejemplo si una determinada UPM de tamaño 450 fue seleccionada tres veces y a su
interior se aplicará un diseño MAS de parámetro n = 25, entonces se deberán
generar tres muestras independientes de tamaño 25 de 450, entonces algunos
elementos pueden aparecer más de una vez y hasta tres veces en la muestra final.
Queda entonces claro que los diseños al interior de cada UPM no necesariamente
deben ser los mismos. Este aspecto genera flexibilidad y le permite al muestrista
ajustar el diseño a las características particulares de las UPMs consideradas.
1 mI ˆ 1 mI N i mI
1 Ni
tˆy . t yi . mi
yk m . . yk m ak . yk
mI i 1 mI i 1 ni i 1
i
mI ni
Para el caso del ejemplo anterior del diseño PPT-MAS la varianza está dada por la
suma de la varianza entre UPMs y varianza dentro de UPMs de la siguiente manera:
N i .( N i ni ) 2
2
1 t 1 V
VPPT MAS (tˆy ) .U pIi . i t .U i donde Vi .S yU i
mI I
pIi mI I
pIi ni
2
1 1 tˆi
fórmula VˆPPT di (tˆy ) .
mI mI 1 m I pIi
ˆ
t que no requiere la estimación de la
varianza en la segunda etapa. Este aspecto se cumple sólo para diseño PPT en la
primera etapa y contrasta de gran manera con la multiplicidad de cálculos necesarios
para estimar la varianza en diseños sin reposición en la primera etapa. Por esta
razón se ha generalizado el uso del diseño PPT para selección de unidades
primarias de muestreo.
El diseño en tres etapas puede ser visto como un diseño en dos etapas en el que el
diseño aplicado en la segunda etapa es a su vez un diseño en dos etapas. En tal
caso se tiene un diseño para escoger unidades primarias de Muestreo (UPM’s), al
inte-rior de las UPM’s seleccionadas se construye el marco de Unidades Secundarias
de Muestreo (USM’s), se aplica, en cada caso un diseño d i y en la USM’s
seleccionadas se construye el marco de elementos. Se aplica finalmente un diseño
diq y se observan los elementos escogidos. Sea por ejemplo el caso de un estudio
sobre gastos en salud entre desempleados en una ciudad. Las UPM’s pueden ser las
secciones cartográficas del mapa DANE de la ciudad. En cada una de las secciones
escogidas se establece el marco de manzanas, se seleccionan mediante diseño di
algunas de ellas, dentro de las manzanas seleccionadas se levanta mediante censo
el marco de desempleados. Con la lista que permite identificar y ubicar, personal o
telefónicamente, a cada desempleado se aplica un último diseño diq para aplicar la
entrevista a alguno de ellos. Si en este ejemplo se utilizara un diseño PPT-PPT-MAS,
la estimación del total de dinero gastado en salud por los desempleados de la ciudad
estaría dado por:
1 tˆi 1 1 1 tˆ 1 1 1 1 N
tˆy
mI
pIi
mI
pIi
. .m iq . . . iq . miq yk
n
mi pIIi mI pIi mi pIIi
mI mI mI mi
iq
i
1 1 1 1 N iq
mI mi miq
. . . .
mI pIi mi pIIi niq
. yk m ak . yk y puesto que en la primera etapa
semejantes y que por lo tanto el gasto en salud puede ser muy parecido entre ellos,
entonces no tiene sentido entrevistar a muchos desempleados por manzana.
El estimador del total será entonces la suma de las estimaciones de los estratos,
cada cual obtenido con su respectivo diseño, y puesto que la selección de muestra
es independiente en los estratos la varianza de la suma es igual a la suma de las
varianzas, tanto para la varianza del estimador como para la estimación de la
varianza del estimador.
Una razón también poderosa para crear estratos es la forma de acceso a las
unidades o elementos de la muestra. En este caso los estratos se crean de acuerdo
al grado de dificultad o de facilidad de acceso. Los estratos más fáciles tendrán
operativos normales mientras que para los estratos de acceso difícil se deberán
diseñar operativos especiales y costosos.
El diseño estratificado sigue siendo objeto de estudio, puesto que son muchas las
preguntas que todavía no tienen respuesta, por ejemplo la asignación de muestra o
cantidad de elementos por estrato cuando el diseño a su interior no es MAS, el
establecimiento de la frontera entre estratos cuando hay diferencia de diseños entre
estratos fronterizos o la cantidad óptima de estratos cuando la estratificación puede
ser manejada por el muestrista.
La estrategia para conformar el plan muestral tiene como meta conseguir la mejor
estimación, o las mejores estimaciones, en términos de sesgo y de varianza,
consumiendo para ello la menor cantidad posible de recursos y sujeto a un
cronograma establecido. Son muchos los elementos con los que cuenta el muestrista
para tratar de conseguir el objetivo y desde el punto de vista matemático es
imposible formular un modelo que tenga en cuenta la multiplicidad de factores y
circunstancias que entran en juego al tratar de establecer un plan muestral.
En el proceso de selección de las muestras los sesgos son producidos por defectos
graves en los marcos muestrales, tales como subcobertura, sobrecobertura y
repetición.
Los errores en el proceso de medición están ligados tanto a los procedimientos como
a los instrumentos utilizados. Los procedimientos se invalidan cuando se pierde la
independencia y cuando se genera autocorrelación. Estos defectos apuntan
directamente a la generación de sesgo. Sucede por ejemplo debido al cansancio del
observador o del objeto observado, el agotamiento del instrumento de medida, por
ejemplo cuando se utilizan filtros, al efecto de memoria de los objetos medidos, a la
ambigüedad del dato observado, por ejemplo en preguntas mal diseñadas. Es papel
del estadístico no sólo vigilar que estos errores no se cometan sino estar despierto a
detectar toda fuente de variación que se introduce en el proceso de medición y evitar
que se generen variaciones sistemáticas.
Para la elección del diseño muestral se debe partir en primer lugar de la información
disponible o posible de conseguir. Cuando se carece de toda información, cuando la
información disponible es ninguna, no se puede elaborar un plan muestral. El trabajo
comienza entonces por la consecución de un marco muestral sin defectos de
subcobertura, sobrecobertura y repetición. Los recursos destinados a una
investigación pueden invertirse en la obtención de información auxiliar a utilizar en el
diseño o en el estimador. Como principios generales para determinar el diseño más
apropiado se pueden sugerir los siguientes:
3. Los diseños de probabilidad proporcional son mucho más eficientes que los
diseños no proporcionales.
4. Los diseños con tamaño fijo de muestra fijo son más eficientes que los
diseños de tamaño aleatorio de muestra.
5. La varianza asociada a un diseño multietápico aumenta a medida que
aumenta la cantidad de etapas.
6. Un diseño proporcional de UPM’s o de conglomerados es mucho más
eficiente que un diseño no proporcional de UPM’s.
7. En un diseño proporcional de UPM’s o de conglomerados la proporcionalidad
de las probabilidades debe ser a los totales de las UPM’s o de los
conglomerados.
8. La varianza del estimador asociada a un diseño multietápico tiene su mayor
peso en la componente de varianza entre las UPM’s y decrece hasta el
punto de que la varianza entre elementos puede llegar a ser despreciable.
9. En diseño en dos etapas es estadísticamente preferible, más UPM’s y menos
elementos por UPM que a la inversa. Esto, sin embargo esto implica un
aumento en los costos. Este principio se puede generalizar a diseños en
varias etapas.
10. En un diseño en dos etapas o de conglomerados la varianza del estimador
crece a medida que aumenta la correlación intraclásica, es decir la
semejanza desde el punto de vista de la variable en estudio, de los
elementos. Este principio se deja generalizar para el diseño multietápico.
11. Mediante una adecuada estratificación se puede asignar el diseño más
apropiado a las circunstancias particulares de grupos de unidades o de
elementos.
12. La tarea de estimar la varianza de los estimadores puede determinar el diseño
a utilizar. El método de Medias Muestras Balanceadas necesita muchos
estratos y dos UPM’s por estrato, el método de Jackknife es difícilmente
aplicable para diseños estratificados de UPM’s.
La decisión entre un π-estimador o un MCR estimador del total depende del tipo de
diseño que se esté aplicando. Si se trata de un diseño con reposición y como se
~ tˆy
a conocer que el estimador de razón ys ˆ
a .y
m k k
aunque sesgado es de
N a m k
Sin embargo se debe tener cuidado con la magnitud del sesgo. Se ha llegado a
acotado por B Rˆ
r
2
E ( Rˆ ) R V (tˆz )
t z2 .
V ( Rˆ )
se tiene que cumplir que V tˆz t z2 , lo que, aunque no es una gran exigencia, debe
ser tenido en cuenta.
N .( N n) 2
muestra de tamaño n de N tiene la varianza VMAS (tˆy ) .S yU . En este
n
n
no
con no
CV yU
2
.
1 no 2
n
no 1 ( yk yU ).( zk zU ) .
con no 2 CV yU CV zU 2. U
2 2
1 no ( N 1). yU .zU
1 si Uk d 1 si Uk e
En el caso particular en el que
yk zk Ud Ue
0 si Uk d 0 si Uk e
1 N Pe Pd N N
no . . con Pd d e Pe
N 1 Pd .Pe
2
N N
N
Cuando el tamaño del universo es tan grande que el cociente se vuelve muy
N 1
cercano a uno, el comportamiento de no para α = 2.5% oscila entre 100 y los varios
miles dependiendo de la configuración de Pe y Pd como lo muestra la siguiente tabla.
Nd
Tamaño de muestra para estimar la razón mediante M.A.S con CV Rˆ 2,5%
Ne
Pe
Pd 1 0,90 0,85 0,80 0,70 0,60 0,50 0,40 0,30 0,25 0,20
0,05 30400 30222 30118 30000 29714 29333 28800 28000 26667 25600 24000
0,10 14400 14222 14118 14000 13714 13333 12800 12000 10667 9600 8000
0,15 9067 8889 8784 8667 8381 8000 7467 6667 5333 4267 2667
0,20 6400 6222 6118 6000 5714 5333 4800 4000 2667 1600
0,25 4800 4622 4518 4400 4114 3733 3200 2400 1067
0,30 3733 3556 3451 3333 3048 2667 2133 1333
0,35 2971 2794 2689 2571 2286 1905 1371 571
0,40 2400 2222 2118 2000 1714 1333 800
0,45 1956 1778 1673 1556 1270 889 356
0,50 1600 1422 1318 1200 914 533
0,55 1309 1131 1027 909 623 242
0,60 1067 889 784 667 381
0,65 862 684 579 462 176
0,70 686 508 403 286
0,75 533 356 251 133
0,80 400 222 118
0,85 282 105
0,90 178
0,95 84
1
muestra se reducen exactamente en una cuarta parte puesto que el factor pasa
2
1 1
de ser 1600 a ser 400 .
0.025 0.05
Nd P
0.4 d entonces Pe = 0.28 y así se llega a que en MAS se necesita un
Ne Pe
tamaño de muestra de 3429 personas para conseguir que el intervalo de confianza
sea de la forma (40 2)% (2 = 2 x 2.5 % de 40%). Si para similares condiciones, el
2 x CV x 40
intervalo deseado fuera de la forma (40 1)%, se tendría que 1 % con lo
100
de esta manera se llega a que si para un diseño cualquiera d con estimador tˆy
Vd (tˆy )
y así Vd (tˆy ) 2 .E 2 tˆy es decir deff ( d , tˆy ).VMAS (tˆy ) 2 .E 2 tˆy
E tˆy
deff .no
n
con lo que 1 con no como se ha definido en los casos anteriores.
1 .deff .no
N
Nótese que tanto en el caso de la determinación del tamaño de muestra para un
diseño MAS como en el caso general en que se utiliza el coeficiente deff, se hace
necesario disponer de información acerca del coeficiente de variación CV de la o las
variables en estudio. Si no se cuenta con esta información, aún en forma aproximada
es imposible abordar la discusión acerca del tamaño de muestra. En casos de
completo desconocimiento sobre estos aspectos se suele recabar esta información a
partir de una muestra piloto.
La situación se hace más difícil pero también más frecuente cuando no se dispone
de un marco muestral de elementos y se debe acudir a los diseños multietápicos. En
este caso es prácticamente imposible acercarse a un estimativo del coeficiente deff.
Nótese que para poder establecer este factor se debe disponer de la información
censal de las variables en estudio. De otra parte, cuando se tiene una muestra con
un diseño particular di diferente al MAS no se puede intentar una estimación del deff.
Para poderlo hacer, se necesitaría de al menos dos muestras, una MAS y otra di. En
diseños multietápicos se suele comenzar con un diseño proporcional, entonces el
deff no sólo depende de la combinación de diseños en las diferentes etapas sino
también y en gran medida de la escogencia de los valores pi
unidades grandes implica un alto costo y poco aprovechamiento muestral del listado
conseguido.
proporcionalidad, sobre todo de las primeras etapas, cuya varianza tanto pesa en la
varianza final.
De esta manera se generan tablas en las que un mismo valor de tamaño muestral se
consigue con diferentes configuraciones. En un ejemplo sencillo se pueden
entrevistar 400 hogares seleccionando 40 manzanas y 10 hogares por manzana,
pero también con 25 manzanas y 16 hogares por manzana, ó 10 manzanas y
cuarenta hogares por manzana bajo el supuesto de que todas las manzanas son de
tamaño tan grande. Desde la perspectiva de la varianza del estimador la mejor
configuración es aquella que tiene la mayor cantidad de UPM’s y la menor de
elementos al interior de cada UPM. Sin embargo los costos y tiempos de
enlistamiento son completamente diferentes. Se llega entonces al último aspecto a
tener en cuenta en la simulación: La operatividad y los costos. No necesariamente
una muestra más grande implica mayores costos. Los costos crecen en función de
los procesos de construcción de los marcos en las unidades posteriores.
Dentro del proceso de diseño del plan muestral se debe tener especial atención a los
costos y recursos asociados a la operatividad, es decir a la identificación correcta de
unidades de estudio o de variables de interés. Este aspecto está ligado a la definición
ANEXOS
Definiciones utilizadas conceptual y operativamente.
Cuestionario a aplicar
Manual de recolección, crítica y mínima respuesta aceptable
Especificaciones de consistencia
Especificaciones de imputación
Como pasos a seguir para el diseño del cuestionario se sugiere el siguiente plan de
acción:
1. Prepare un documento donde se enuncien claramente los
objetivos, las necesidades de información y el plan de análisis.
conviene analizar con detenimiento los siguientes aspectos que atañen con quienes
deben responder las preguntas.
Sea de una u otra manera como se realiza la prueba del cuestionario, ella puede
aplicarse a todo o a una parte del cuestionario, pero es recomendable utilizar todo el
cuestionario, aun cuando algunas de las preguntas hayan sido adaptadas de otras
investigaciones. Puede ser conveniente probar dos o más versiones de una misma
pregunta o versiones en las que se varía el orden de las preguntas en la estructura
del cuestionario.
hay un problema, pero no brinda la solución “correcta”. Por ejemplo, si con frecuencia
una pregunta no es respondida durante la prueba, posiblemente haya un problema
en su redacción. A menos que los entrevistadores u observadores identifiquen la
pregunta no respondida, los diseñadores del cuestionario no tendrán la suficiente
información para replantear la pregunta en una forma que facilite su respuesta.
La cantidad de tiempo necesario para realizar una prueba varía en función de varios
factores, entre los cuales cabe mencionar:
Ejemplo 1.
Cuáles son las razones principales por las que usted decidió escogió esta empresa
de aviación?
1.__________________________________________________________________
2.__________________________________________________________________
3.__________________________________________________________________
Ejemplo 2.
___________________________________________________________________
___________________________________________________________________
___________________________________________________________________
Ejemplo 3.
Con las preguntas cerradas se puede obtener una respuesta sin que exista
conocimiento u opinión al respecto, se puede llegar a una exagerada simplificación
de algún aspecto, y se puede forzar una respuesta de modo artificial. Pero de otro
lado son fáciles de responder, codificar, procesar y analizar.
Entre las preguntas cerradas destacan dos tipos especiales, las de selección
excluyente y las de selección múltiple. En la primera, el entrevistado sólo puede
tomar una alternativa, por ejemplo:
3. LA CRITICA Y LA IMPUTACIÓN
Para estudiar la integridad de los datos se plantean dos tipos diferentes de crítica
denominados generalmente como crítica interna y macro-crítica. La crítica interna es
el proceso de determinar las inconsistencias, las ausencias importantes, e
incorrecciones internas y el proceso encaminado a su corrección. La macro-crítica
coteja los datos de la encuesta con otros conjuntos de datos (Encuestas anteriores,
registros administrativos, versiones anteriores de la misma investigación) a fin de
asegurar la comparabilidad. La crítica estadística es el proceso que implica la
aplicación de ciertas reglas al conjunto de datos. Si un registro no cumple con alguna
de las reglas establecidas debe ser señalado para ser corregido o cambiado.
La magnitud de los recursos, el tiempo y los costos de este proceso de principio a fin
puede llegar a ser muy alto.
En cualquier caso se debe estar seguro que la inversión de los recursos valen la
pena. De una parte se debe estar seguro que no se trata de institucionalizar un
operativo de crítica costoso, que consume mucho tiempo pero que tan sólo
encontrará alguno pocos datos “equivocados” y con un impacto insignificante sobre
los resultados finales de la encuesta. De otra parte, por el contrario, no se trata
tampoco de correr el riesgo de entregar resultados poco confiables como producto de
un diseño muy grueso de crítica, útil sólo para encontrar los mayores errores. A fin
de diseñar una estrategia de crítica que responda a las necesidades y las
restricciones de recursos se deben responder preguntas como :
Deben considerarse con igual criterio todos los registros ?, Hay registros más
importantes que otros ?
Tienen todas las variables igual importancia ?
Estas preguntas son muy fácil de formular pero no siempre de responder. La
respuesta acerca de la cantidad de datos “equivocados” depende en gran medida de
qué tan bien diseñado está el cuestionario, qué grado de escolaridad o de
conocimiento sobre el tema tienen los respondientes, qué tan bien entrenados están
los entrevistadores, qué tan eficientes son los procesos de supervisión y control.
Con relación a la importancia que tienen los registros se debe señalar que no
siempre ellos tienen la misma importancia. Tratándose por ejemplo de una encuesta
a empresarios sobre las condiciones laborales de sus empleados, la importancia de
una empresa con diez mil empleados es evidente sobre una empresa con cuatro
empleados. Mientras que para la empresa grande es necesario realizar un proceso
completo de crítica, conducente a una revisión y corrección completa, para la
segunda la crítica puede ser reducida a enviar un mensaje de advertencia sin que
implique corrección alguna. Este tipo de crítica conocido como crítica selectiva es
muy utilizado en encuestas de tipo económico y de empresas.
El diseño de una estrategia de crítica está relacionada también con las posibilidades
de corrección de la información. Una de las consecuencias de realizar crítica a
cuestionarios de una encuesta es el relacionado con la posibilidad de regresar a una
fuente a verificar o corregir uno o varios datos. En las encuestas de hogares parece
muy difícil hace revisitas por segunda o tercera vez a fin de verificar alguna
información sobretodo si se trata de una encuesta larga, pesada o con aspectos muy
sensibles. En las encuestas económicas, por el contrario, dada la importancia que
para los resultados finales tiene cada fuente es necesario y frecuente volver a la
fuente a realizar revisiones de la información entregada.
La crítica estadística es un proceso que tiene lugar durante las etapas de recolección
y procesamiento de información.
La crítica de oficina: Los formularios una vez completos son enviados o entregados
por los supervisores a una oficina en la que se lleva a cabo el proceso de
alistamiento previo al operativo de oficina. Dicho alistamiento consiste entre otras
actividades, en la codificación, la colocación de etiquetas, la construcción de
paquetes, el registro de formularios completos, incompletos, etc. dentro de este
proceso se realiza generalmente un proceso adicional de crítica, en el que por
ejemplo se revisan los identificadores, los códigos, los criterios mínimos para
considerar un formulario “completo”, etc. La magnitud de la crítica a realizar en este
momento depende del presupuesto disponible y de las posibilidades que tiene el
grupo de oficina de corregir los errores encontrados. En esta etapa es todavía
posible intentar, como última oportunidad, un nuevo contacto con la fuente a fin de
corregir algún dato. Una vez los cuestionarios son enviados a grabación las
correcciones se realizarán (en la mayoría de los casos) por medios automáticos.
Durante la captura: La crítica puede ser realizada durante la captura de datos bien
por los grabadores o por el mismo programa de grabación. Puesto que se trata de la
etapa durante la cual los datos del cuestionario son convertidos en un archivo
magnético o una base de datos, resulta económico aprovechar la oportunidad para
aplicar ciertas reglas de crítica que dejarán los datos suficientemente ‘depurados’
para continuar en forma eficiente con los siguientes pasos del procesamiento.
Otro principio incluido en el proceso de crítica señala que durante las diferentes
etapas de crítica, una regla de crítica no puede contradecir reglas de crítica de otras
etapas. Por ejemplo una relación lógica aplicada por los entrevistadores durante la
crítica manual no puede ser controvertida por la crítica automática durante la etapa
de procesamiento. Igualmente el grado de rigurosidad en la crítica de una etapa
deberá ser al menos tan riguroso como en las etapas anteriores.
escribir cortas notas o palabras claves al borde del cuestionario, acerca de las
respuestas señaladas por el encuestado. La razón de proceder de esta manera es
que ellos o bien no conocen bien los códigos, o no creen conveniente comenzar a
buscarlos en su manual de campo en medio de la entrevista. La crítica de campo le
permitirá al encuestador poner en limpio la codificación de esas notas, que olvidará
muy pronto, y entregar un cuestionario limpio y sin notas al margen. En la oficina las
notas aclaratorias al margen del cuestionario pueden ayudar al proceso de crítica.
Pero nunca más allá, por cuanto esas notas no llegarán a ser grabadas.
El resultado de la crítica de campo puede ser muy diverso. En primer lugar se puede
originar una corrección en el lugar por cuanto la acción de corregir era obvia. De otra
parte se puede volver a la fuente que se tiene cerca tanto en tiempo como en
espacio y recoger de ella la información correcta o faltante. Finalmente, si ninguna de
las dos alternativas anteriores es posible, la crítica de campo deja la respuesta en
blanco para que sea marcada para imputación en un proceso posterior.
Las razones para realizar la crítica automática son corregir los datos faltantes,
detectar los datos erróneos, encontrar inconsistencias y eventualmente señalar los
llamados “outliers” o datos extraños. La crítica automática es la última oportunidad de
“corregir” datos antes de iniciar el proceso de producción de cuadros de salida. El
objetivo de la crítica automática es la de aplicar y verificar el cumplimiento de las
reglas de crítica que no fueron verificadas anteriormente, así como la aplicación de
reglas muy complejas y que abarcan en forma simultánea un amplio espectro del
cuestionario.
La crítica de validación puede establecer que son valores aceptables el uno y el dos.
En algunos casos la no respuesta también puede ser aceptable, es decir los valores
válidos serían 1, 2 y 3. Obviamente si las dos respuestas, el 1 y el 2, están marcadas
sobre el formulario la respuesta es claramente inválida y debe ser criticada, es decir
se debe decidir qué hacer en ese caso.
En el caso por ejemplo en el que se tienen dos campos para colocar el dígito
correspondiente al mes, el valor inválido 8 blanco, puede ser inmediatamente
corregido a 08. Así mismo, pequeños errores de ortografía pueden conducir al
nombre correcto de la compañía en cuestión.
En otros casos se utiliza un valor especial, por ejemplo el “9” para indicar que un
valor no válido fue respondido. La razón de utilizar el 8 y el 9 para estos efectos
radica en que generalmente ellos no pertenecen a los rangos aceptados. Sin
embargo la aplicación de este procedimiento a valores cuantitativos como el ingreso,
la cantidad de empleados, etc, puede conducir a grandes catástrofes.
Otra aplicación de este tipo de crítica verifica la relación ‘lógica’ entre dos o más
respuestas de un mismo cuestionario. Una persona menor de diez años no puede
responder estado civil diferente de soltero, o una mujer muy joven no puede
responder que ha tenido más de determinada cantidad de hijos vivos.
La crítica de consistencia en principio identifica datos que no cumplen las reglas y los
señala para ser reemplazados por datos de individuos similares. Este método se
conoce como imputación probabilística. Durante el proceso de crítica lo único a tener
en cuenta es definir los registros que en caso de fallas, serán objeto de imputación
determinística y los que son objeto de imputación probabilística.
3.1.3 Macrocrítica
Esta forma de crítica se utiliza para detectar valores de variables o cuestionarios que
parecen diferentes a valores o resultados de encuestas anteriores y que tienen la
apariencia de estar incorrectos. Este tipo de situaciones pueden no ser detectadas a
través de la crítica de consistencia por cuanto se trata de valores que no violan las
reglas. Un ejemplo de este tipo de casos se tiene cuando los ingresos netos son muy
altos, en relación a los ingresos brutos para un subsector económico en o una región
geográfica en particular.
Se puede afirmar que así como la crítica de validación observa una única variable, la
crítica de consistencia examina un cuestionario, la macro-crítica estudia el conjunto
completo de datos, para lo cual se vale de datos históricos, datos de la misma
encuesta en meses o años anteriores, o encuestas sobre el mismo tema.
Las decisiones a tomar en los casos que la macro-crítica detecte errores, van desde
el intento de hacer un nuevo contacto con la fuente, en los casos en los que el
impacto en la información es muy importante, pasando por la necesidad de realizar
ajustes a los factores de expansión, hasta la señalización de variables para ser
imputadas.
ESPECIFICACIONES DE VALIDACIÓN
Encuesta : Escritas por:
Fecha: Hora: 17:00 Pág. 1 de 1
ESPECIFICACIONES DE CONSISTENCIA
Parece natural que la “mejor” (mejor entre comillas) solución ante datos faltantes o
incorrectos es el retornar a la fuente primaria para resolver y realizar la depuración.
Esta solución es muchas veces imposible, cara, e impráctica, pero además el
respondiente puede no conocer la respuesta o no desea suministrarla. Con
frecuencia el problema en los datos se detecta una vez se han realizado múltiples
pasos en el procesamiento y es sencillamente muy tarde para detener el proceso y
volver a la fuente. Y por supuesto siempre se debe estar atento acerca de la cantidad
de molestias que se pueden recargar a un entrevistado.
Los dos primeros pasos pertenecen a la crítica propiamente dicha, el último es lo que
se denomina imputación. Naturalmente se debe tener cuidado que en este último
paso no se vuelva a cometer un error que la crítica tendría que volver a detectar. Un
dato imputado no pasará de nuevo por el proceso de crítica, por tal razón la
imputación debe conducir a datos correctos y consistentes. Es por esta razón que el
proceso de imputación al tener en cuenta las reglas de crítica puede llegar a ser un
procedimiento por lo demás bastante complejo. El siguiente ejemplo ilustra el nivel de
complejidad que se puede alcanzar: Considere las tres preguntas de selección:
Que significa que si en la pregunta dos, se contestó que la persona era menor de
quince años la encuesta debe terminar y no debe haber respuesta para la pregunta
tres.
Se dice que un caso de no respuesta es total cuando ha sido respondida una muy
pequeña parte del cuestionario o casi nada de él. La razón puede estar en que el
respondiente después de la segunda o tercera respuesta decide no colaborar más y
no responde el resto de preguntas. Sin embargo este caso debería haber sido
detectado en la crítica de oficina, o a más tardar en el proceso de crítica de
validación. Si el cuestionario tiene muy poca información la imputación será muy
difícil de realizar. En estos casos vale la pena examinar la cantidad y el tipo de
cuestionarios en similar situación para medir el impacto y así establecer si vale la
pena invertir en desarrollar un costoso proceso de imputación. Si la cantidad de
casos en esta situación es relativamente pequeño y además se puede asumir que
se trata de un subgrupo aleatorio de individuos será entonces más eficiente y simple
descartar esos casos y proceder a ajustar los factores de expansión. Una situación
diferente se presenta cuando es evidente que la no respuesta total responde a un
Se dice que un dato específico es inconsistente o inválido cuando infringe una ley de
crítica de consistencia o de validación, entonces se marca para imputación y debe
ser imputado. Así por ejemplo si un menor de quince años tiene estado civil casado y
se determina que el dato errado es el estado civil, entonces se marca esta variable
para imputación.
Una pregunta obvia a esta altura es por qué se debe imputar, por qué no dejar los
datos faltantes, inválidos o inconsistentes como están y proceder a trabajar con el
resto de la información correcta. También se podría marcar todos los datos faltantes
e incorrectos con un código especial que signifique dato no disponible. Además una
base de datos a la que se le ha realizado una gran cantidad de imputación puede
dar la impresión de que se trata de una base de “datos cocinados” y si además la
imputación no ha sido correctamente dirigida se puede llegar de hecho a una base
completamente falsa.
La imputación por substitución se puede realizar cuando se cuenta con una base de
datos externa en la que se encuentran los mismos individuos de la encuesta y a la
cual se pueda recurrir cada vez que se tiene un dato faltante o erróneo. La base
externa de datos puede ser un archivo de registros administrativos, una base de
datos de una encuesta anterior en el tiempo. Este método es muy común para
encuestas continuas, por ejemplo mensuales, en las que se indaga sobre el mismo
tópico siempre.
Sea por ejemplo el caso de una encuesta de empleo en hogares en la que durante
seis meses se llega a un mismo hogar a realizar la encuesta. En un mes determinado
y para una persona del hogar la respuesta a la cantidad de horas trabajadas la
semana anterior está sin responder y por lo tanto marcada para imputación. Esta
cantidad de horas puede ser obtenida de la cantidad de horas trabajadas reportadas
el mes anterior por el mismo individuo, máxime si además reporta que no ha
cambiado de empleo; entonces se procede a copiar de la base antigua a la nueva
base.
Una primera versión de este método puede ser la imputación de acuerdo al promedio
actual. Sea por ejemplo que se extraña el dato sobre el monto del arriendo pagado
en una vivienda. Se calcula entonces el arriendo promedio de las viviendas del
mismo sector y similar tamaño y se asigna este valor promedio al dato por imputar.
En forma similar se puede imputar de acuerdo a la razón existente. Sea por ejemplo
el caso de una encuesta económica en la que se extraña el dato de retención en la
fuente por pagos en salarios, sin embargo se tiene el dato de valor de la nómina se
conoce el subgrupo económico en que se clasifica la empresa, entonces se puede
calcular la relación entre retención y valor de la nómina para las industrias de ese
subgrupo y aplicar esa razón al dato de nomina de la empresa con el dato por
imputar.
Otra manera de hacer imputación es a partir de la estimación de la tendencia.
Suponga en el caso anterior que se cuenta con registros históricos que permiten a
partir de los datos completos de la encuesta determinar la tendencia del monto de la
Con este tipo de imputación no se respetan las distribuciones y las relaciones entre
variables, la magnitud del sesgo es incierta pero se puede aplicar cuando los datos a
imputar son muy pocos y los otros procedimientos de imputación no arrojan
resultados satisfactorios.
La idea básica del paquete caliente es que para cada registro del conjunto de los
receptores se encuentre un donante muy similar en el otro conjunto a fin de que el
dato faltante pueda ser reemplazado por el mismo valor que tiene el donante para
esa variable.
Casi siempre sucede que al menos unos pocos receptores no encuentren un donante
idóneo. De hecho sería extraño que en una encuesta compleja un único
procedimiento de imputación fuera suficiente para completar toda la depuración. Para
los casos sin donante se debe entonces especificar otro método de imputación, el
cual se incluye dentro del paquete caliente a fin de tener respuestas completas, por
ejemplo la imputación en frío.
Para ilustrar este método, aplicado en el censo de los Estados Unidos, sea por
ejemplo la pregunta sobre el hábito de fumar, la cual tiene tres posibles respuestas:
Grupo de edad
2
15 a 24
3
25 a 44
4
45 ó más
Sexo
1
Masculino
2
Femenino
y el 21-avo dato corresponde a una mujer del grupo dos de edad y que es no
fumadora, el dato de la cuarta fila (3) será actualizado por 2 (no ha fumado nunca).
La matriz se ira actualizando consecutivamente a medida que vayan apareciendo
datos correctos.
Si dos registros consecutivos tienen el mismo valor para imputar y tienen las mismas
características de similitud tendrán el mismo donante. Esto puede ser
particularmente peligroso si se considera que los datos errados tienden a estar juntos
por cuanto provienen de una misma región, se deben al pobre trabajo de un
supervisor o simplemente son los últimos datos de la encuesta, los cuales se
recogieron cuando ya el equipo de supervisores y controladores debió ser trasladado
a otra investigación. Como se mencionó anteriormente la reiterada utilización de un
mismo donante puede generar fuertes sesgos en los estimativos del estudio.
En las encuestas con muchas variables y muchos casos para imputar la cantidad de
matrices de imputación puede ser relativamente alta, lo mismo que el espacio en
memoria del computador. El investigador debe cuidar que sus recursos de hardware
resistan el proceso que se propone iniciar.
Cada matriz de imputación debe inicializarse utilizando valores ad-hoc a fin de evitar
que los primeros registros sean imputados con blanco.
En los dos casos anteriores la decisión acerca de las variables de similitud es muy
importante, y ellas deben estar muy relacionadas con la variable a imputar. Es
conveniente evitar la utilización de un campo numérico como variable de similitud,
para evitar el crecimiento desbordado de la matriz de imputación. Normalmente se
codifican las variables numéricas previamente a su utilización como variables de
similitud, de esta manera la matriz vuelve a tamaños normales y la probabilidad de
encontrar una similitud, que con valores continuos era muy pequeña se vuelve
relativamente grande.
Para las encuestas en las que predominan las variables de tipo cuantitativo no son
aplicables los procedimientos anteriores, por cuanto no es posible definir estas
variables como variables de similitud, de otra parte la categorización de todas las
variables es bastante dispendiosa amen de que sin un estudio detenido no es fácil
establecer por adelantado, rangos de valor útiles y apropiados. La solución es
entonces no buscar el dato que tiene exactamente el mismo valor pero si aquel que
más se le aproxima y que además pertenece a una clase similar en otra variable
importante, por ejemplo el mismo grupo de código industrial. El problema de este
procedimiento radica en establecer lo que se puede denominar la distancia para
determinar cercanía o lejanía, con los subsecuentes problemas derivados de las
unidades de medida que se utilizan en las diferentes variables.
En estos casos se presenta con mucha frecuencia que una vez realizada la
imputación se vuelven a presentar problemas de crítica. Los programas intentan con
el primer donante y revisan si de esta manera se cumplen las reglas de crítica, si no
es el caso se trata con el segundo donante y así sucesivamente hasta llegar a un
punto en el que la imputación no infringe las reglas de crítica o se considera que la
imputación por paquete caliente no es aplicable.
Respecto a la varianza es común tratar a los datos imputados como datos correctos
provenientes de los informantes y aplicar las fórmulas tradicionales de estimación de
la varianza del estimador, este procedimiento conlleva a serías subestimaciones de
la varianza, especialmente si la cantidad de imputaciones es alta.
Bibliografía
Biermer. P.P., Groves. R.M., Lyberg. L.E., Mathiowetz. N., Sudman. S., (1991).
Measurement errors in surveys. John Wiley, New York.
Brick, J.M., Broene, P., James. P., Severynse. J. (1997). A USER’S guide to
WesVarPC. Westat, Inc. Maryland.
Couper, M.P. , Groves, R.M. (1992). The role of the interviewer in survey
participation. Survey Methodology V.18 pp 163-277.
Cox. B., Binder. D., Chinnappa. B.N., Christianson. A., Colledge. M., Kott. P. (1195).
Business Survey Methods John Wiley, New York.
Dey, A., Srivastava, A.K. (1987). A sampling procedure with inclusion probabilities
proportional to size. Survey Methodology V 13 pp 85-92.
Dillman. D. (1978). Mail and Telephone surveys. John Wiley, New York.
Gower, A.R. (1194). Questionnaire Design for Business Surveys. Survey Methodology
V. 20 pp 125-136.
Gray, G.B., Platek, R. (1976). Analysis of design effects and variance components in
multi-stage sample surveys. V. 2 pp 1-30.
Groves. R.M. (1989). Survey errors and survey costs. John Wiley, New Tork.
Groves, R.M., Biemer, P., Lyberg,. L., Massey. J.T., Nicholls II. W., Waksberg. J.,
(1988). Telephone survey methodology. John Wiley, New York
Särndal, C-E., Swensson, B., Wretman, J. (1992). Model Assisted Survey Sampling.
Springer Verlag, New York.
Särndal, C-E. (1996). Efficient Estimators with simple variance in unequal probability
Sampling. JASA. V. 91 pp 1289-1300
Shao, J., Dongsheng, T. (1995). The Jackknife and Bootstrap. Springer Verlag, New
York.
Skinner. C.J., Holt. D., Smuth. T.M.F. (1989). Analysis of Complex Surveys. John
Wiley , New York.