Sample Survey Theory and Methods

Traducido del inglés al español - www.onlinedoctranslator.
com
Nº de catálogo 12-001-X
ISSN 1492-0921
Metodología de la encuesta
Teoría y métodos de la encuesta por muestreo:

Direcciones pasadas, presentes y futuras
por JNK Rao y Wayne A. Fuller
Fecha de lanzamiento: 21 de diciembre de 2017

Cómo obtener más información
Para obtener información sobre este producto o la amplia gama de servicios y datos disponibles de Statistics Canada, visite nuestro sitio web,
www.statcan.gc.ca.
También puede contactarnos por
correo electrónico aSTATCAN.infostats-infostats.STATCAN@canada.ca
teléfono,de lunes a viernes de 8:30 am a 4:30 pm, en los siguientes números gratuitos:
• Servicio de Información Estadística 1-800-263-1136
• Dispositivo nacional de telecomunicaciones para personas con discapacidad auditiva 1-800-363-7629
• línea de fax 1-877-287-4369
Programa de servicios de depósito
• Línea de consultas 1-800-635-7943

• línea de fax 1-800-565-7757
Normas de servicio al público Símbolos de tabla estándar

Statistics Canada se compromete a servir a sus clientes de manera Los siguientes símbolos se utilizan en las publicaciones de
rápida, confiable y cortés. Con este fin, Statistics Canada ha Statistics Canada:
desarrollado estándares de servicio que sus empleados observan.
. no disponible para ningún período de referencia
Para obtener una copia de estos estándares de servicio,
.. no disponible para un período de referencia
comuníquese sin cargo con Statistics Canada al 1-800-263-1136. Los
... específico no aplicable
estándares de servicio también se publican enwww.statcan.gc.caen
0 cero verdadero o un valor redondeado a cero
"Contáctenos" > "Normas de servicio al público.”
0s valor redondeado a 0 (cero) donde hay una distinción significativa
entre el cero verdadero y el valor que fue redondeado
pag
preliminarmente
nota de agradecimiento r
revisado
Canadá debe el éxito de su sistema estadístico a una asociación X suprimida para cumplir con los requisitos de confidencialidad de la
de larga data entre Statistics Canada, los ciudadanos de Canadá, Ley de estadísticas utilizar con precaución
sus empresas, gobiernos y otras instituciones. No se podría mi
producir información estadística precisa y oportuna sin su F demasiado poco fiable para ser publicado
continua cooperación y buena voluntad. * significativamente diferente de la categoría de referencia (p < 0,05)
Publicado por autorización del Ministro responsable de Estadísticas de Canadá
© Ministro de Industria, 2017
Reservados todos los derechos. El uso de esta publicación está regido por la Oficina de Estadísticas de Canadá.Acuerdo de licencia abierta.
Unversión HTMLtambién está disponible.
Esta publicación está disponible en francés.

Metodología de la encuesta, diciembre de 2017 145
vol. 43, núm. 2, págs. 145-160
Estadísticas de Canadá, Nº de catálogo 12-001-X
Teoría y métodos de la encuesta por muestreo:

Direcciones pasadas, presentes y futuras
JNK Rao y Wayne A. Fuller1
Abstracto
Discutimos los desarrollos en la teoría y los métodos de encuestas por muestreo que cubren los últimos 100 años. El artículo
histórico de 1934 de Neymar sentó las bases teóricas para el enfoque de muestreo probabilístico para la inferencia a partir de
muestras de encuestas. Los libros clásicos de muestreo de Cochran, Deming, Hansen, Hurwitz y Madow, Sukhatme y Yates, que
aparecieron a principios de la década de 1950, ampliaron y elaboraron la teoría del muestreo probabilístico, enfatizando la falta de
sesgo, las características libres del modelo y los diseños que minimizan la varianza para un número fijo. costo. Durante el período
1960-1970, los fundamentos teóricos de la inferencia a partir de datos de encuestas recibieron atención, y el enfoque dependiente
del modelo generó una discusión considerable. La introducción de software estadístico de propósito general condujo al uso de
dicho software con datos de encuestas, lo que condujo al diseño de métodos específicos para datos de encuestas complejas. Al
mismo tiempo, los métodos de ponderación, como la estimación de regresión y la calibración, se volvieron prácticos y la
consistencia del diseño reemplazó la falta de sesgo como requisito para los estimadores estándar. Un poco más tarde, los métodos
de remuestreo intensivos en computadora también se volvieron prácticos para muestras de encuestas a gran escala. La potencia
informática mejorada condujo a una imputación más sofisticada de los datos faltantes, el uso de más datos auxiliares, algún
tratamiento de los errores de medición en la estimación y procedimientos de estimación más complejos. Un uso notable de los
modelos fue el uso ampliado de la estimación de área pequeña. Las direcciones futuras en la investigación y los métodos estarán
influenciadas por los presupuestos, las tasas de respuesta, la puntualidad, los dispositivos de recopilación de datos mejorados y la
disponibilidad de datos auxiliares, algunos de los cuales provendrán de "Big Data".
Palabras clave:Recopilación de datos; Historia del muestreo de encuestas; Muestreo de probabilidad; inferencia de la encuesta.
1. Introducción
Este documento fue preparado por invitación del Dr. Danny Pfeffermann, presidente de la Asociación
Internacional de Estadísticos de Encuestas de 2015, quien proporcionó el ambicioso título. El documento fue
presentado en las reuniones del Instituto Internacional de Estadística en Río de Janeiro, Brasil en 2015.
El título define un área demasiado grande para que la abordemos en un solo artículo. Además, hay una serie de artículos
de revisión que abordan los temas del título, incluidos Kish (1995), Bellhouse (2000), Rao (2005), Bethlehem (2009), Brick
(2011), Groves (2011) y Brewer. (2013). Nuestra discusión se basa en esos documentos, pero no pretendemos ser completos.
Realizamos una breve valoración de los tres temas y proyectamos una serie de situaciones actuales hacia el futuro. Nuestro
objetivo es estimular más debates, especialmente sobre las direcciones futuras. Más allá de la discusión de las controversias
relacionadas con el muestreo intencional, nos concentraremos en el muestreo basado en la probabilidad. Debido a que el
muestreo de encuestas es un campo aplicado, se abordarán algunos de los problemas encontrados y los métodos empleados
en la práctica. Nuestra discusión es más relevante para muestras grandes de uso general, las encuestas donde tenemos más
experiencia. Asimismo, nuestro conocimiento de aplicaciones se concentra en Canadá y Estados Unidos.
El documento está organizado de la siguiente manera. La Sección 2 presenta las primeras contribuciones históricas de 1920-1960.
Los problemas inferenciales se tratan en la Sección 3. El documento concluye con una discusión sobre el futuro en la Sección 4.
1. JNK Rao es Profesor de Investigación Distinguido, Universidad de Carleton, Ottawa, Canadá, K15-5B6. Correo electrónico: jrao@math.carleton.ca ; Wayne A. Fuller es
profesor emérito distinguido de la Universidad Estatal de Iowa, Ames, IA, EE. UU. 50011. Correo electrónico: waf@iastate.edu.
146 Rao y Fuller: Teoría y métodos de encuestas por muestreo: Direcciones pasadas, presentes y futuras
2 Contribuciones históricas tempranas: 1920-1960

Kiaer (1897) es quizás el primero en promover el muestreo (o lo que entonces se llamaba el método representativo) sobre
la enumeración completa (censo), aunque la referencia más antigua se remonta al año 1000 a. En el método representativo,
el objetivo es que la muestra refleje la población finita principal y esto puede lograrse mediante un muestreo equilibrado
sobre totales auxiliares conocidos, mediante una selección intencionada o mediante un muestreo aleatorio que conduzca a
probabilidades de inclusión iguales. En la década de 1920, el método representativo se usaba ampliamente. El Instituto
Internacional de Estadística (ISI) desempeñó un papel vital al crear un comité de expertos para informar sobre este método.
La contribución de Bowley (1926) al informe ISI incluye su trabajo fundamental sobre muestreo aleatorio estratificado con
asignación proporcional, que conduce a probabilidades de inclusión iguales. Bowley (1936) afirma que la “primera aplicación
de este principio” de inferir la población de la muestra fue el estudio de 1912 en Reading. Bowley especificó el procedimiento
de muestreo para ese estudio como una muestra sistemática de una lista de casas. Bowley llamó al procedimiento
sistemático un "método puro de muestreo" y afirmó: "Este es literalmente el método de muestreo estratificado". Bowley da
una serie de ejemplos en los que se utilizó el muestreo sistemático después de 1912. Bowley (1936) enfatizó la importancia de
un marco completo y de probabilidades iguales de selección. Pero fue Neyman (1934) quien sentó las bases del muestreo
probabilístico (o enfoque basado en el diseño). Demostró que el muestreo aleatorio estratificado es preferible al muestreo
equilibrado (representativo) como se usaba entonces. También introdujo el concepto de eficiencia y asignación óptima de la
muestra, ahora llamada asignación de Neyman, que minimiza el tamaño total de la muestra para una precisión específica
relajando la condición de Bowley de probabilidades de inclusión iguales. De hecho, Tchuprow (1923) derivó la asignación de
Neyman diez años antes, en un artículo descubierto después de que apareciera el artículo de Neyman. Neyman (1934)
también mostró que para muestras lo suficientemente grandes se pueden obtener intervalos de confianza en la media
poblacional de una variable de interés tales que la frecuencia de errores en la declaración de confianza en muestreo repetido
no exceda el límite prescrito de antemano, “cualquiera que sea el propiedades desconocidas de la población”. En los últimos
años, el muestreo balanceado, defendido originalmente por Gini y Galvani, se ha perfeccionado para incorporar las buenas
características tanto del muestreo probabilístico como del muestreo balanceado sobre totales auxiliares conocidos (Deville y
Tillé, 2004). El nuevo método de muestreo equilibrado se utiliza ahora en Europa, especialmente en Francia, para seleccionar
muestras para encuestas de establecimientos. Un segundo método de selección controlada por probabilidad es el muestreo
de rechazo, introducido por Hájek (1964) como un método para controlar el tamaño de la muestra en el muestreo de Poisson.
Fuller (2009a) amplió el procedimiento para restringir las muestras aceptables al conjunto donde las estimaciones de las
medias de las variables auxiliares están cerca de la media de la población.
La década de 1930 fue testigo de un rápido crecimiento en la demanda de información socioeconómica, y las
ventajas del muestreo probabilístico en términos de mayor alcance, costo reducido y mayor velocidad en relación con
los censos pronto se reconocieron en todo el mundo. Esto condujo a un aumento en el número y tipo de encuestas
basadas en el muestreo probabilístico y que cubren grandes poblaciones. El muestreo probabilístico de Neymar (o
enfoque basado en el diseño) fue aceptado casi universalmente y se convirtió en una herramienta estándar para la
investigación empírica en ciencias sociales y estadísticas oficiales. También se reconoció que la precisión de un
estimador está determinada en gran medida por el tamaño de la muestra y no por la fracción de muestreo. La década
de 1940 vio una serie de estudios sobre las propiedades del muestreo sistemático para diferentes poblaciones. Véase
Madow y Madow (1944), Cochran (1946) y Yates (1948). Cochran (1977,

claro por qué sólo son posibles los estimadores de varianza basados en modelos. Véase también Bellhouse (1988). En el desarrollo temprano
de la teoría del muestreo, el enfoque estaba en estimar los totales y las medias y los errores de muestreo asociados. Los errores ajenos al
muestreo, como la falta de respuesta, los errores de cobertura y los errores de medición, se ignoraron en gran medida en la investigación
teórica.
Ahora enumeramos algunos desarrollos teóricos posteriores a Neymar importantes en el enfoque basado en el
diseño. Mahalanobis usó diseños de muestreo de etapas múltiples para encuestas de cultivos en la India ya en 1937.
Su artículo clásico de 1944 (Mahalanobis, 1944) formuló rigurosamente funciones de costo y varianza para el diseño
eficiente de encuestas. Jugó un papel decisivo en la creación de la Encuesta nacional por muestreo de la India, la
encuesta continua de múltiples temas más grande con personal de tiempo completo que utiliza entrevistas
personales para encuestas socioeconómicas y mediciones físicas para encuestas de cultivos. Sukhatme, quien estudió
con Neyman, también realizó contribuciones pioneras en el diseño y análisis de encuestas agrícolas a gran escala en
la India, utilizando muestreo estratificado de etapas múltiples. Libros de texto clásicos sobre muestreo de Cochran
(1953), Deming (1950), Hansen, Hurwitz y Madow (1953),
Los estadísticos de encuestas de la Oficina del Censo de EE. UU., bajo el liderazgo de Morris Hansen, hicieron
contribuciones fundamentales a la teoría y metodología de las encuestas por muestreo durante el período 1940-1960. Este
período se considera la era dorada de la Oficina del Censo. Hansen y Hurwitz (1943) desarrollaron la teoría básica del
muestreo por conglomerados estratificado en dos etapas con un conglomerado (o unidad primaria de muestreo) dentro de
cada estrato extraído con probabilidad proporcional al tamaño (PPS) y luego submuestreado a una tasa para asegurar una
muestra autoponderada ( probabilidades globales iguales de selección). La selección de probabilidad desigual de
conglomerados puede conducir a una reducción significativa de la varianza al controlar la variabilidad que surge de tamaños
de conglomerados desiguales. Otra gran contribución de los EE.UU. Oficina del Censo es el uso de muestreo de rotación con
reemplazo parcial de hogares para manejar la carga de respuesta en encuestas repetidas a lo largo del tiempo, como la
Encuesta de Población Actual de EE. UU. mensual para medir las tasas de desempleo. Hansen, Hurwitz, Nisselson y Steinberg
(1955) desarrollaron estimadores compuestos simples pero eficientes bajo muestreo rotativo. El muestreo de rotación y la
estimación compuesta se utilizan ampliamente en estudios continuos a gran escala.
Antes de la década de 1950, el enfoque principal era estimar los totales y las medias de la población. Woodruff (1952) de
la Oficina del Censo de EE. UU. desarrolló un enfoque unificado para construir intervalos de confianza para cuantiles (en
particular, la mediana), aplicable a diseños de muestreo generales. El procedimiento sigue siendo una piedra angular para la
estimación de cuantiles (Francisco y Fuller, 1991).
Después de la consolidación de la teoría básica del muestreo basado en el diseño, Hansen, Hurwitz, Marks y Mauldin
(1951) y otros prestaron atención a los errores de medición o respuesta en los datos de las encuestas. Bajo modelos de error
de medición aditivos con suposiciones de modelo mínimas sobre las respuestas observadas tratadas como variables
aleatorias, la varianza total de un estimador se puede descomponer en varianza de muestreo, varianza de respuesta simple y
varianza de respuesta correlacionada (CRV) debido a los entrevistadores.
Mahalanobis (1946) había desarrollado el método de interpenetración de submuestras para evaluar tanto los errores del
muestreo como los del entrevistador. Al asignar las submuestras al azar a los entrevistadores, se puede estimar tanto la
varianza total como el componente del entrevistador. El componente del entrevistador puede dominar la varianza total
cuando el número de entrevistadores es pequeño. Para eliminar el componente CRV debido a los entrevistadores, se
introdujo la autoenumeración por correo en el censo de EE. UU. de 1960.

La falta de respuesta en las encuestas también se abordó en el desarrollo temprano del muestreo de encuestas. Hansen y
Hurwitz (1946) propusieron un muestreo de dos fases en el que la muestra se contacta por correo en la primera fase y una
submuestra de los que no responden se somete a una entrevista personal, asumiendo una respuesta completa o una falta de
respuesta insignificante en la segunda fase. Este método se utilizó recientemente en Canadá cuando el censo obligatorio de muestra
de formulario largo fue reemplazado por una Encuesta Nacional de Hogares voluntaria. Después del cambio de gobierno en 2015, el
Primer Ministro de Canadá restableció el censo de formulario largo. Se mantiene el muestreo en dos fases, pero en menor medida. El
método de muestreo de dos fases de Hansen-Hurwitz también se ha utilizado en otras encuestas, incluida la Encuesta sobre la
comunidad estadounidense.
También se prestó atención a las inferencias para subpoblaciones no planificadas (llamadas dominios), como grupos de edad y
sexo dentro de un estado. Hartley (1959) y Durbin (1958) desarrollaron una teoría unificada para la estimación del dominio aplicable a
los diseños generales y, sin embargo, solo requieren las fórmulas existentes para los totales y las medias de la población.
La mayor parte de la teoría del muestreo de encuestas en el período inicial fue desarrollada por estadísticos oficiales, mientras que los
investigadores académicos, especialmente en los EE. UU., prestaron poca atención al muestreo de encuestas. Una excepción fue la Universidad
Estatal de Iowa, donde el profesorado desempeñó un papel de liderazgo desde las primeras etapas bajo el liderazgo de Cochran, Jessen y
Hartley. Otra institución que hace una contribución temprana a la práctica y la investigación de encuestas es el Centro de Investigación de
Encuestas de la Universidad de Michigan, establecido en 1947, con Leslie Kish como uno de sus primeros miembros.
En la década de 1950, se propusieron marcos teóricos formales para la inferencia basada en el diseño sobre totales y
medias al considerar los datos de muestra como un conjunto de etiquetas de muestra junto con las variables de interés
asociadas. Horvitz y Thompson (1952) derivaron el conocido estimador con peso inversamente proporcional a la probabilidad
de inclusión. Narain (1951) también propuso este estimador. Godambe (1955) desarrolló una clase general de estimadores
lineales dejando que el peso de la muestra de una unidad dependiera de la etiqueta, así como de las etiquetas de las otras
unidades de la muestra. Luego mostró que el mejor estimador lineal insesgado no existe en esta clase general, incluso bajo
un muestreo aleatorio simple.
3 Cuestiones inferenciales: 1950 -
3.1 Fundamentos teóricos

Se hicieron intentos para integrar la teoría de la encuesta por muestreo con la inferencia estadística convencional a
través de la función de probabilidad. Godambe (1966) mostró que la función de verosimilitud de los datos de la muestra
completa, incluidas las etiquetas, considerando el vector de valores desconocidos de la población como parámetro, no
proporciona información sobre los valores no muestreados y, por lo tanto, sobre el total o la media de la población. Esta
característica no informativa de la función de probabilidad se debe a la inclusión de etiquetas en los datos que hacen que la
muestra sea única. Una ruta alternativa basada en el diseño ignora algunos aspectos de los datos de la muestra para hacer
que la muestra no sea única y así llegar a funciones de probabilidad informativas (Hartley y Rao, 1968; Royall, 1968). Este
enfoque de probabilidad no paramétrica es similar al enfoque de probabilidad empírica (EL) actualmente popular en la
inferencia estadística convencional (Owen, 1988). El enfoque EL se ha aplicado a problemas de muestreo en los últimos años
para estimar no solo totales y medias sino también parámetros más complejos. Entonces, los esfuerzos de integración con
las estadísticas principales fueron parcialmente exitosos.

El enfoque dependiente del modelo proporciona una ruta alternativa para la inferencia a partir de datos de encuestas. El enfoque
requiere que la estructura de la población obedezca un modelo de superpoblación específico. La distribución inducida por el modelo
asumido proporciona la base para las inferencias (Brewer, 1963 y Royall, 1970). Tales inferencias condicionales (condicionales a la
muestra) pueden ser atractivas. Sin embargo, los estimadores resultantes pueden tener un diseño inconsistente y, como tal, pueden
tener un desempeño deficiente en muestras grandes bajo una especificación incorrecta del modelo (Hansen, Madow y Tepping,
1983).
Un enfoque híbrido, llamado enfoque asistido por modelos, intenta combinar las características deseables de los métodos basados en el diseño y dependientes del modelo, véase Cassel, Särndal y Wretman (1976). El
enfoque generalmente incluye el uso de datos externos a los datos recopilados, llamados datos auxiliares. Los procedimientos que utilizan datos auxiliares incluyen estimación de regresión, estimación de razón y rastrillado,
métodos con estimadores lineales en la variable de interés. Los estimadores que utilizan información auxiliar, particularmente la regresión, fueron reconocidos muy pronto como estimadores poderosos (Cochran, 1953). El
poder de cómputo hizo que la estimación de regresión fuera práctica en la década de 1970, pero para que sea aceptable en encuestas a gran escala, los pesos de regresión deben ser no negativos. Una definición temprana
de pesos no negativos es Huang y Fuller (1978). Deville y Särndal (1992) dieron un método general para construir ponderaciones para estimadores consistentes en el diseño. Los métodos asistidos por modelos incluyen solo
estimadores consistentes con el diseño del total que también son imparciales con el modelo bajo un modelo de trabajo. Este enfoque es útil para muestras grandes y conduce a inferencias basadas en el diseño válidas en
muestras grandes, independientemente de la validez del modelo de trabajo. Sin embargo, la eficiencia de los estimadores depende del grado en que el modelo de trabajo se aproxime a la verdadera estructura de la
población. La forma más popular de estimadores asistidos por modelos se conoce como estimadores de regresión generalizados (GREG) y se implementan en paquetes de software de encuestas. Los métodos asistidos por
modelos incluyen solo estimadores consistentes con el diseño del total que también son imparciales con el modelo bajo un modelo de trabajo. Este enfoque es útil para muestras grandes y conduce a inferencias basadas en
el diseño válidas en muestras grandes, independientemente de la validez del modelo de trabajo. Sin embargo, la eficiencia de los estimadores depende del grado en que el modelo de trabajo se aproxime a la verdadera
estructura de la población. La forma más popular de estimadores asistidos por modelos se conoce como estimadores de regresión generalizados (GREG) y se implementan en paquetes de software de encuestas. Los
métodos asistidos por modelos incluyen solo estimadores consistentes con el diseño del total que también son imparciales con el modelo bajo un modelo de trabajo. Este enfoque es útil para muestras grandes y conduce a
inferencias basadas en el diseño válidas en muestras grandes, independientemente de la validez del modelo de trabajo. Sin embargo, la eficiencia de los estimadores depende del grado en que el modelo de trabajo se
aproxime a la verdadera estructura de la población. La forma más popular de estimadores asistidos por modelos se conoce como estimadores de regresión generalizados (GREG) y se implementan en paquetes de software
de encuestas. la eficiencia de los estimadores depende del grado en que el modelo de trabajo se aproxima a la verdadera estructura de la población. La forma más popular de estimadores asistidos por modelos se conoce como estimadores de regresión gen
Los resultados teóricos para el muestreo basado en probabilidad enfatizan los dos primeros momentos de las
estadísticas muestrales. Los teoremas del límite central se han utilizado para justificar los intervalos de confianza basados
en la normalidad. Uno de los primeros teoremas del límite central para muestras aleatorias simples es el de Madow (1948).
Hájek (1960) dio un teorema del límite central para el muestreo aleatorio simple y un teorema para el muestreo de rechazo
en Hájek (1964). Bickel y Freedman (1984) dieron un teorema del límite central para el muestreo aleatorio estratificado. La
literatura reciente considera tanto secuencias de poblaciones finitas fijas como secuencias de poblaciones finitas que son
muestras de una superpoblación (Fuller, 2009b; Sección 1.3.2).
La estimación de la varianza era muy costosa, casi prohibitiva, en las décadas de 1930 y 1940, y sigue siendo costosa en la
actualidad. La replicación se adoptó como un método eficiente de estimación de la varianza desde el principio. Como
señalamos, Mahalanobis (1939, 1946) introdujo una forma de replicación temprana, que él denominó muestras
"interpenetrantes" y "grupos aleatorios" por autores posteriores. El método de grupos aleatorios basados en medias
muestras fue utilizado por la Oficina del Censo de los Estados Unidos en las décadas de 1950 y 1960. McCarthy (1966, 1969)
desarrolló y describió la estimación de varianza balanceada de media muestra. Véase también Kish y Frankel (1970). Wolter
(2007) contiene una extensa discusión sobre las medias muestras balanceadas. Véase también Dippo, Fay y Morgenstein
(1984), Kish y Frankel (1974), Krewski y Rao (1981) y Rao y Shao (1999). Jackknife y bootstrap son las versiones actuales de los
primeros procedimientos de replicación. Wolter (2007, capítulo 4) atribuye a Durbin (1959) el primer uso de la navaja en la
estimación de poblaciones finitas. El uso del bootstrap en el entorno clásico data de Efron (1979), pero la aplicación a
muestras de probabilidad desigual y poblaciones finitas no es inmediata. Entre la gran cantidad de artículos sobre jackknife y
bootstrap para muestras de encuestas se encuentran McCarthy

y Snowden (1985), una de las primeras versiones de muestreo con reemplazo, y Rao y Wu (1988), un bootstrap modificado
basado en el “reajuste de escala” para muestras de encuestas. Sitter (1992) discutió varios temas, incluidas sugerencias para
obtener tamaños de muestra enteros. Antal y Tillé (2011) proporcionaron métodos de arranque apropiados para una amplia
gama de diseños, incluido el muestreo de Poisson. Beaumont y Patak (2012) dieron procedimientos generales de arranque.
3.2 Uso analítico de datos de encuestas
Como hemos señalado, los primeros trabajos sobre el muestreo probabilístico enfatizaron los totales y las medias, y se desarrollaron muchos procedimientos de estimación para las estadísticas
oficiales. Sin embargo, desde el principio, los científicos sociales utilizaron muestras de encuestas para responder preguntas sobre temas con relevancia más allá de la población finita muestreada.
Deming y Stephan (1940) y Deming (1953) consideraron explícitamente la diferencia entre el uso "enumerativo" y "analítico" de los datos de encuestas y censos, véase también Hartley (1959). Las
estimaciones analíticas a veces se denominan estimaciones para una superpoblación. Los primeros analistas a menudo trataban los datos de la muestra de la encuesta como una muestra aleatoria
simple y elaboraban estimaciones sobre esa base. El potencial de sesgo que surge al ignorar el diseño condujo a la teoría de la estimación para las estimaciones analíticas. Un componente está
compuesto por pruebas del efecto de las ponderaciones en las estimaciones, consulte DuMouchel y Duncan (1983), Fuller (1984) y Korn y Graubard (1995). Un segundo componente ha sido el
desarrollo de la teoría basada en el diseño para estadísticas complicadas. Ver Fuller (1975), Rao y Scott (1981, 1984) y Binder y Roberts (2003). El tercer enfoque integra el diseño de muestreo en el
modelo (Skinner, 1994 y Pfeffermann y Sverchkov, 1999). Varios paquetes de computadora (SAS, SUDAAN, R, STATA) ahora están disponibles para estadísticas basadas en probabilidad y errores
estándar. Muchos de los algoritmos datan del trabajo de la Universidad Estatal de Iowa (Hidiroglou, Fuller y Hickman, 1976). Un segundo componente ha sido el desarrollo de la teoría basada en el
diseño para estadísticas complicadas. Ver Fuller (1975), Rao y Scott (1981, 1984) y Binder y Roberts (2003). El tercer enfoque integra el diseño de muestreo en el modelo (Skinner, 1994 y Pfeffermann y
Sverchkov, 1999). Varios paquetes de computadora (SAS, SUDAAN, R, STATA) ahora están disponibles para estadísticas basadas en probabilidad y errores estándar. Muchos de los algoritmos datan del
trabajo de la Universidad Estatal de Iowa (Hidiroglou, Fuller y Hickman, 1976). Un segundo componente ha sido el desarrollo de la teoría basada en el diseño para estadísticas complicadas. Ver Fuller
(1975), Rao y Scott (1981, 1984) y Binder y Roberts (2003). El tercer enfoque integra el diseño de muestreo en el modelo (Skinner, 1994 y Pfeffermann y Sverchkov, 1999). Varios paquetes de
computadora (SAS, SUDAAN, R, STATA) ahora están disponibles para estadísticas basadas en probabilidad y errores estándar. Muchos de los algoritmos datan del trabajo de la Universidad Estatal de
Iowa (Hidiroglou, Fuller y Hickman, 1976).
3.3 Datos faltantes

Casi todas las muestras (y experimentos) tienen datos faltantes o incorrectos. Los datos que faltan en el muestreo de la encuesta
se colocan en dos categorías; unit-missing y item-missing, donde, como su nombre lo indica, una unidad faltante significa que faltan
todos los elementos en el registro de respuesta. Un indicador de la importancia de los datos faltantes en la investigación de
encuestas es el conjunto de monografías editado por Madow, Nisselson y Olkin (1983). Un método para manejar los datos faltantes es
reportar la naturaleza y el número de elementos faltantes y tabular los elementos restantes. Esto era común en los primeros años,
pero la suposición implícita de intercambiabilidad en dicho procedimiento a menudo no era razonable. Un método temprano para
corregir la falta de respuesta de la unidad era usar un encuestado sustituto, a menudo entrevistando a alguien "cercano" al que no
respondía. Una modificación común en la etapa de análisis fue, y sigue siendo, estratificación de puestos. (Deming, 1953; Thomsen,
1973; Kalton, 1983 y Jagers, 1986). En la literatura de datos faltantes, los estratos posteriores a menudo se denominan células. Los
estimadores de regresión son extensiones directas de los estimadores de celda y son un método importante para corregir los datos
faltantes (Fuller y An, 1998). Los métodos de ponderación para la falta de respuesta de la unidad de manejo se revisan en Brick y
Montaquila (2009).
A lo largo del tiempo, se han utilizado varias formas de imputación para la falta de respuesta, con la imputación realizada por empleados
antes del uso de computadoras. Una de las primeras imputaciones formales basadas en modelos y computarizadas fue el procedimiento de
imputación hot deck utilizado por la Oficina del Censo de EE. UU. en la Encuesta de Población Actual de 1947, véase

la descripción en Andridge y Little (2009). El poder de cómputo mejorado y los avances teóricos (Little, 1982;
Kalton y Kish, 1984; Rubin, 1974, 1976, 1987; Little y Rubin, 1987; Kim y Fuller, 2004) han hecho de la imputación
una parte estándar de la estimación para muestras de encuestas y un área activa de investigación. Los libros
recientes son Kim y Shao (2013) y Little y Rubin (2014).
3.4 Estimación de área pequeña
El mayor uso de modelos para estimaciones de dominio pequeño es el resultado de la combinación de dos factores. El primero es
la demanda de estimaciones para dominios pequeños (por ejemplo, áreas geográficas) en la formulación de políticas, la asignación de
fondos y la planificación regional. El segundo son los grandes errores estándar de muchos de los estimadores de dominio basados
en el diseño. Schaible (1996) y Purcell y Kish (1979) dieron ejemplos tempranos de estimación en áreas pequeñas; véase también
González (1973) y Steinberg (1979). La Oficina del Censo de EE. UU. utilizó métodos basados en modelos para la estimación de áreas
pequeñas desde 1947 (Hansen et al., 1953; Vol. I, páginas 483-486). Más recientemente, se han vuelto importantes los modelos mixtos
lineales que involucran efectos tanto fijos como aleatorios. Los primeros usos de modelos mixtos para la estimación de áreas
pequeñas son Fay y Herriot (1979) y Battese, Harter y Fuller (1988). Algunos conjuntos de estimaciones de áreas pequeñas se pueden
ver como una reasignación de las estimaciones de dominio, conservando la estimación coherente con el diseño directo del total
general. Los métodos bayesianos, en particular el bayesiano jerárquico, se utilizan cada vez más debido a la capacidad de manejar
modelos complejos; ver Rao y Molina (2015, Capítulo 10). Sobre la base de la creciente demanda, ha habido un gran aumento en la
literatura y el campo ahora cuenta con reuniones periódicas y un libro (Rao, 2003) con una segunda edición reciente (Rao y Molina,
2015).
3.5 Práctica de la encuesta
Los temas de diseño y estimación de muestras que hemos discutido son partes críticas de una operación de encuesta, pero
representan una pequeña fracción del total. La calidad del producto final está determinada por los materiales del marco, el
instrumento de recolección, la recolección de datos, la edición, el procesamiento y la presentación de los resultados. Muchas fuentes
de error son difíciles de medir, pero quienes diseñan las encuestas realizan estimaciones de costos implícitas cuando asignan
recursos a diferentes partes de la operación de la encuesta. Groves y Lyberg (2010) es una revisión de los intentos de enumerar los
componentes de la calidad de las encuestas y reunirlos bajo un mismo paraguas. Le dan crédito a Deming (1944) por una descripción
temprana de las fuentes de error en las encuestas por muestreo y describen las contribuciones de Dalenius (1974), Anderson, Kasper
y Frankel (1979), Groves (1989), Biemer y Lyerg (2003), entre otros. Groves y Herringa (2006) propusieron herramientas para controlar
activamente los errores y costos de las encuestas que pueden conducir a diseños receptivos para las encuestas de hogares. En
particular, los datos para (medidas relacionadas con el proceso de recopilación de datos de encuestas) se pueden utilizar para
monitorear el trabajo de campo, tomar decisiones de intervención durante la recopilación de datos y tratar errores de medición, falta
de respuesta y errores de cobertura (Kreuter, 2013).
4 El futuro
Podemos proyectar una serie de situaciones actuales hacia el futuro. Los presupuestos serán ajustados y las solicitudes
de productos aumentarán. Habrá demanda de pronósticos y de un mejor acceso por parte de los usuarios. Habrá solicitudes
para que las estadísticas se produzcan más rápidamente y, naturalmente, sin comprometer la calidad. Habrá presión para
que las estimaciones de diferentes fuentes coincidan.

Esperamos que la computación más rápida influya en todos los aspectos del campo. Se desarrollarán algoritmos de imputación y
edición más complejos. Se acortará el tiempo desde la recopilación hasta la publicación. Se realizarán análisis más complejos sobre
los datos de la encuesta. Se mejorarán los procedimientos de vinculación de registros. Los datos estarán disponibles en diferentes
formas. Las bases de datos de búsqueda donde el usuario proporciona consultas serán más comunes. Se incrementará el uso de
datos auxiliares de todo tipo, y en particular datos administrativos. Los datos administrativos se utilizarán tanto como datos auxiliares
como estimaciones directas de determinadas partidas. Citro (2014) ofrece ejemplos de elementos en los que se pueden utilizar datos
administrativos para reemplazar las respuestas a las preguntas de un cuestionario. Los usos de datos auxiliares donde el cotejo con
los datos recopilados es imperfecto serán un área de investigación.
Los métodos modernos de comunicación y las redes sociales han generado grandes cantidades de datos, muchos de ellos
generados a corto plazo y con un propósito mal identificado. El término "Big Data" no está bien definido, pero la mayoría estaría de
acuerdo en que los datos de las redes sociales son parte de Big Data. El informe AAPOR sobre Big Data (2015) es un excelente análisis
del potencial y los desafíos asociados con Big Data. Tam y Clarke (2015) y Pfeffermann (2015) discuten los temas desde la perspectiva
de una organización estadística gubernamental. Como parte de la sociedad moderna, las redes sociales son de interés para los
científicos sociales por derecho propio. Por lo tanto, se producen y se producirán índices y resúmenes de estos datos. Un ejemplo es
el índice de pérdida de empleo en las redes sociales de la Universidad de Michigan. El muestreo tiene un papel importante que
desempeñar en la creación de productos a partir de estos datos.
Un desafío es transformar algunos tipos de Big Data en una forma útil como datos auxiliares. Un ejemplo es el uso de Porter, Holan, Wikle
y Cressie (2014) de las tendencias de Google de las palabras en español como covariables funcionales para estimar las proporciones estatales
de personas que hablan español utilizando las estimaciones de la Encuesta sobre la Comunidad Estadounidense como variables dependientes
en modelos de área pequeña.
Una de las ventajas citadas a menudo de las muestras en relación con los censos es el costo. La estructura de costes ha cambiado
con el aumento de la potencia informática y parece destinada a seguir cambiando. En los Estados Unidos, la Base de Datos Nacional
de Cobertura Terrestre es un censo de la cobertura terrestre (Han, Yang, Di y Mueller, 2012). Se espera que los procedimientos de
clasificación mejoren, de modo que aumente el uso de tales datos como datos auxiliares. Las agencias de recopilación de datos
invertirán más en la construcción de archivos de datos auxiliares mejorados a nivel de población, de modo que algunos datos que
ahora se recopilan a nivel de muestra se recopilarán a nivel de población. Los mismos tipos de desarrollo de datos continuarán para
las estadísticas de población y empresas.
Necesariamente, nuestra discusión tiene poco sobre la colección. La forma en que los procedimientos de
recopilación de datos se han modificado con la tecnología cambiante es quizás más obvia que el vínculo entre la
tecnología y la teoría. Para los enlaces a la teoría, véase Bellhouse (2000). La recopilación de datos asistida por
computadora es el estándar en evolución. Se espera que aumente el uso de la tecnología de geolocalización. Es
seguro pronosticar el aumento del uso de sensores remotos y dispositivos de recolección de datos remotos. Por
ejemplo, sería fácil incorporar datos físicos recopilados por algo como Apple Watch o Fitbit en un estudio de salud.
Actualmente se utilizan dispositivos de seguimiento más grandes y menos atractivos en las encuestas de actividad
física (van Remoortel, Giavedoni, Raste, Burtin, Louvaris, Gimeno-Santos, Langer, Glendenning, Hopkinson, Vogiatzis,
Peterson, Wilson, Mann, Rabinovich, Puhan,
La experiencia reciente es que la recopilación de datos de entrevistas telefónicas y personales se está volviendo cada vez más
difícil. Los encuestados se enfrentan a actividades ampliadas de recopilación de datos organizados. El omnipresente cuestionario
sobre la satisfacción de todo, desde los servicios médicos hasta la pasta de dientes, sin duda debe tener un impacto

disposición del individuo a responder. Parece razonable pronosticar una mayor dificultad para obtener cooperación para los
métodos tradicionales de recopilación de datos. Asociado con esa tendencia se incrementará el estudio de la naturaleza de
los que no responden y de la falta de respuesta. Asimismo, se realizarán esfuerzos para adaptar la recopilación de datos a los
métodos cambiantes de comunicación.
Las muestras no probabilísticas han formado parte de la actividad de las encuestas durante el período posterior a Neymar. En
particular, el muestreo por cuotas se usa comúnmente en la investigación de mercados y otras áreas por razones de costos (Sudman,
1966; 1976). Moser y Stuart (1953) y Stephan y McCarthy (1958) hicieron las primeras comparaciones entre el muestreo por cuotas y el
muestreo probabilístico. Cochran (1977, página 136) dice: “Parece probable que el método de cuotas produzca muestras sesgadas en
características tales como ingresos, educación y ocupación, aunque a menudo concuerda con las muestras probabilísticas en
cuestiones de opinión y actitud”. El uso de procedimientos como la estratificación posterior y la estimación de regresión en muestras
no probabilísticas ha continuado al mismo ritmo que el uso en muestras probabilísticas. La naturaleza cambiante de la comunicación
humana ofrece oportunidades tanto para procedimientos basados en modelos como basados en probabilidades. Debido a las
estructuras de costos, los nuevos métodos, como los procedimientos basados en la web, a menudo se utilizarán primero en
entornos no probabilísticos y para fines no gubernamentales.
A medida que mejoren los procedimientos de comparación y aumente la demanda de datos detallados, los procedimientos de limitación
de la divulgación y la investigación asociada recibirán una mayor atención.
El muestreo de encuestas es una disciplina de aplicación que funciona en el mundo social, geográfico, cultural y
tecnológico actual. Pronosticar cómo nuestro campo se verá afectado por los cambios sociales y culturales, incluso a corto
plazo, es un desafío. El hecho de que uno deba asumir que casi toda su actividad pública y gran parte de su actividad privada
tiene potencial para ser registrada, ¿conducirá a una actitud más relajada al responder a las preguntas? ¿Los dispositivos de
monitoreo mejorados harán que los encuestados estén más dispuestos a permitir que se monitoreen sus actividades físicas?
¿O todo el monitoreo incidental conducirá a una reacción en contra de la recopilación organizada de datos? ¿La mayor
disponibilidad de resultados basados en los datos recopilados tendrá un efecto positivo o negativo en los esfuerzos de
recopilación de datos? ¿Cuál es el impacto de las distintas Redes Sociales?
Esta discusión deja en claro que factores externos a nuestra disciplina determinarán nuestras actividades futuras. Se nos pedirá
que nos adaptemos en la recopilación de datos, el procesamiento de datos y la presentación y difusión de datos.
Agradecimientos
Agradecemos a Graham Kalton por los comentarios y sugerencias que condujeron a mejoras en el borrador
original. Agradecemos a los cuatro disertantes, Graham Kalton, Sharon Lohr, Danny Pfeffermann y Chris Skinner, por
sus suplementos sobre la historia, observaciones perspicaces sobre el presente y comentarios sobre el futuro del
muestreo de encuestas. Elegimos no preparar una dúplica porque encontramos mucho que apreciar y poca base para
el desacuerdo.
Referencias
Grupo de trabajo de Big Data de AAPOR (2015).Informe AAPOR sobre Big Data. https://www.aapor.org/
AAPOR_Main/media/MainSiteFiles/images/BigDataTaskForceReport_FINAL_2_12_15_b.pdf.

Anderson, R., Kasper, J. y Frankel, M. (1979).Error Total de la Encuesta: Aplicaciones para Mejorar la Salud
Encuestas. San Francisco, CA: Jossey-Bass.
Andridge, RH y Little, RJ (2009). El uso de pesos muestrales en la imputación hot deck.Diario de

estadísticas oficiales,25, 21-36.
Antal, E. y Tillé, Y. (2011). Un método de arranque directo para diseños de muestreo complejos a partir de un número finito
población.Revista de la Asociación Estadounidense de Estadística,106, 534-543.
Battese, GE, Harter, RM y Fuller, WA (1988). Un modelo de componente de error para la predicción del condado
áreas de cultivo utilizando datos de encuestas y satélites.Revista de la Asociación Estadounidense de Estadística,83, 28-36.
Beaumont, J.-F. y Patak, Z. (2012). Sobre el bootstrap generalizado para encuestas por muestreo con especial
atención al muestreo de Poisson.Revista Estadística Internacional/Revue Internationale de Statistique,80,
127-148.
Bellhouse, RD (1988). Muestreo sistemático. Enmanual de estadísticas, (Eds., PR Kreshnaiah y

CR Rao), Elsevier, 6, 125-145.
Campanario, RD (2000). Teoría del muestreo de encuestas a lo largo del siglo XX y su relación con la informática
tecnología.Metodología de la encuesta,26, 1, 11-20. Papel disponible enhttp://www.statcan.gc.ca/pub/12-001-x/
2000001/article/5174-eng.pdf .
Belén, J. (2009). El auge del muestreo por encuestas. Documento de debate (09015), Estadísticas de los Países Bajos, The
La Haya.
Bickel, PJ y Freedman, DA (1984). Normalidad asintótica y bootstrap en muestreo estratificado.El

Anales de estadísticas, 12, 470-482.
Biemer, PP y Lyberg, L. (2003).Introducción a la calidad de la encuesta. Nueva York: John Wiley & Sons, Inc.
Binder, DA y Roberts, GA (2003). Métodos basados en diseño y basados en modelos para estimar modelos
parámetros EnAnálisis de los datos de la encuesta, (Eds., RL Chambers y CJ Skinner), Wiley, Chichester, Reino Unido, 29-48.
Bowley, AL (1926). Medida de la precisión alcanzada en el muestreo.Boletín de la Internacional

Instituto de Estadística, 22(1), 1-62.
Bowley, AL (1936). La aplicación del muestreo a problemas económicos y sociológicos.Diario de la

Asociación Estadounidense de Estadística, 31, 474-480.
Cervecero, KRW (1963). Estimación de razones y poblaciones finitas: algunos resultados deducibles de la
suposición de un proceso estocástico subyacente.revista australiana de estadística,5, 93-105.
Cervecero, KRW (2013). Tres controversias en la historia del muestreo de encuestas.Metodología de la encuesta, 39, 2,
249-262. Papel disponible enhttp://www.statcan.gc.ca/pub/12-001-x/2013002/article/11883-eng.pdf .
Ladrillo, MJ (2011). El futuro del muestreo de encuestas.Opinión Pública Trimestral,75, 872-888.
Brick, MJ y Montaquila, JM (2009). No respuesta y pesos. Enmanual de estadísticas,(Eds.,

D. Pfeffermann y CR Rao), Elsevier, Ámsterdam, 29A, 163-185.

Cassel, CM, Särndal, C.-E. y Wretman, JH (1976). Algunos resultados sobre la estimación de diferencias generalizadas
y estimación de regresión generalizada para poblaciones finitas.Biometrika, 63, 615-620.
Citro, CF (2014). Desde múltiples modos para encuestas hasta múltiples fuentes de datos para estimaciones.Encuesta
Metodología,40, 2, 137-161. Papel disponible enhttp://www.statcan.gc.ca/pub/12-001-x/
Cochran, WG (1953).Técnicas de muestreo.Nueva York: John Wiley & Sons, Inc.
Cochran, WG (1977).Técnicas de muestreo, 3rdEdición.Nueva York: John Wiley & Sons, Inc.
Dalenius, T. (1974). Fines y medios del diseño total de encuestas. Informe en “Errores en Encuestas”, Estocolmo
Universidad.
Deming, E. (1944). Sobre los errores en las encuestas.Revista Sociológica Americana, 9, 359-369.
Deming, E. (1950).Algo de teoría del muestreo. Nueva York: John Wiley & Sons, Inc.
Deming, NOSOTROS (1953). Sobre un mecanismo de probabilidad para lograr un equilibrio económico entre la resultante
error de no respuesta y el sesgo de no respuesta.Revista de la Asociación Estadounidense de Estadística,48,
743-772.
Deming, WE y Stephan, FF (1940). En un ajuste por mínimos cuadrados de una tabla de frecuencia muestreada cuando
se conocen los totales marginales esperados.Anales de estadística matemática,11, 4, 427-444.
Deville, J.-C. y Särndal, C.-E. (1992). Estimadores de calibración en el muestreo de encuestas.Diario de la

asociación estadística americana,376-382.
Deville, J.-C. y Tillé, Y. (2004). Muestreo balanceado eficiente: El método del cubo.Biometrika, 91, 893-912.
Dippo, CS, Fay, RE y Morgenstein, DH (1984). Cálculo de varianzas de muestras complejas con
replicar pesos.Actas de la Asociación Estadounidense de Estadística, Sección sobre Métodos de Investigación de
Encuestas,489-494.
DuMouchel, WH y Duncan, GJ (1983). Uso de ponderaciones de encuestas de muestra en análisis de regresión múltiple
de muestras estratificadas.Revista de la Asociación Estadounidense de Estadística,78, 535-543.
Durbin, J. (1958). Teoría de muestreo para estimaciones basadas en menos individuos que el número seleccionado.
Boletín del Instituto Internacional de Estadística,36, 113-119.
Durbin, J. (1959). Una nota sobre la aplicación del método de reducción de sesgos de Quenouille a la estimación de
proporcionesbiometrika,46, 477-480.
Efrón, B. (1979). Métodos Bootstrap: otra mirada a la navaja.Anales de Estadística,7, 1-26.
Fay, RE y Herriot, RA (1979). Estimaciones de ingresos para plazas pequeñas. Una aplicación de James-Stein
procedimientos a los datos del censo.Revista de la Asociación Estadounidense de Estadística,74, 366, 269-277.
Francisco, CA y Fuller, WA (1991). Estimación de cuantiles con datos de encuestas.Anales de estadísticas, 19,
454-469.

Fuller, WA (1975). Encuesta muestral de análisis de regresión.Sankhya, Serie C,37, 117-132.
Fuller, WA (1984). Mínimos cuadrados y análisis relacionados para diseños de encuestas complejas.Metodología de la encuesta,
10, 1, 97-118. Papel disponible enhttp://www.statcan.gc.ca/pub/12-001-x/1984001/article/14352-eng.pdf .
Fuller, WA (2009a). Algunas propiedades de diseño de un procedimiento de muestreo por rechazo.Biometrika, 96, 1-12.
Fuller, WA (2009b).Estadísticas de muestreo. Nueva York: John Wiley & Sons, Inc.
Fuller, WA y An, AB (1998). Ajustes de regresión por falta de respuesta.Revista de la Sociedad India de
Estadísticas Agrícolas, 51, 331-342.
Godambe, vicepresidente (1955). Una teoría unificada de muestreo de poblaciones finitas.Diario de la Estadística Real
Sociedad, Serie B,17, 269-278.
Godambe, vicepresidente (1966). Un nuevo enfoque para el muestreo de poblaciones finitas.Diario de la Estadística Real
Sociedad, Serie B,28, 310-328.
González, ME (1973). Uso y evaluación de estimaciones sintéticas.Actas de las Estadísticas Sociales

Sección de la Asociación Estadounidense de Estadística, 33-36.
Arboledas, RM (1989).Errores de encuesta y costos de encuesta.Nueva York: John Wiley & Sons, Inc.
Arboledas, RM (2011). Tres eras de la investigación por encuestas.Opinión Pública Trimestral, 73, 861-871.
Groves, RM y Heeringa, SG (2006). Diseños receptivos para encuestas de hogares: peajes para
controlar los errores y costos de las encuestas.Revista de la Royal Statistical Society, Serie A,169, 439-457.
Groves, RM y Lyberg, L. (2010). Error total de la encuesta: Pasado, presente y futuro.Opinión Pública Trimestral,
74, 849-879.
Hájek, J. (1960). Distribuciones limitantes en el muestreo aleatorio simple de una población finita.Publicaciones
del Instituto de Matemáticas de la Academia Húngara,5, 361-374.
Hájek, J. (1964). Teoría asintótica del muestreo de rechazo con probabilidades variables de un número finito
población.Anales de estadística matemática,35, 1491-1523.
Han, W., Yang, Z., Di, L. y Mueller, R. (2012). CropScape: una aplicación basada en un servicio web para explorar
y difundir productos de datos de tierras de cultivo geoespaciales contiguos de EE. UU. para apoyar la toma de decisiones.
Informática y Electrónica en la Agricultura, 84, 111-123.
Hansen, MH y Hurwitz, WN (1943). Sobre la teoría del muestreo de poblaciones finitas.Anales de

estadística matemática,14, 333-362.
Hansen, MH y Hurwitz, WN (1946). El problema de la falta de respuesta en las encuestas por muestreo.Diario de la
asociación estadística americana,41, 517-529.
Hansen, MH, Hurwitz, WN y Madow, WG (1953).Métodos y teoría de la encuesta por muestreo,vols. yo y

II, Nueva York: John Wiley & Sons, Inc.
Hansen, MH, Madow, WG y Tepping, BJ (1983). Una evaluación de modelos dependientes y de probabilidad
inferencias de muestreo en encuestas por muestreo.Revista de la Asociación Estadounidense de Estadística,78, 776-793.

Hansen, MH, Hurwitz, WN, Marks, ES y Mauldin, WP (1951). Errores de respuesta en encuestas.Diario
de la Asociación Estadounidense de Estadística,46, 147-190.
Hansen, MH, Hurwitz, WN, Nisselson, H. y Steinberg, J. (1955). El rediseño del censo actual
encuesta de población.Revista de la Asociación Estadounidense de Estadística,50, 701-719.
Hartley, HO (1959). Estudios analíticos de datos de encuestas. En Volumen en Honor a Corrado Gini, Instituto di
Statistica, Roma, 1-32.
Hartley, HO y Rao, JNK (1968). Una nueva teoría de estimación para encuestas por muestreo.biometrika,55, 547-
557.
Hidiroglou, MA, Fuller, WA y Hickman, RD (1976).SUPER CARPALaboratorio Estadistico, Encuesta

Sección, Universidad Estatal de Iowa, Ames, IA.
Horvitz, DG y Thompson, DJ (1952). Una generalización del muestreo sin reemplazo de un finito
universo.Revista de la Asociación Estadounidense de Estadística,47, 663-685.
Huang, ET y Fuller, WA (1978). Estimación de regresión no negativa para datos de encuestas por muestreo.
Actas de la Sección de Estadísticas Sociales, Asociación Estadounidense de Estadística, 300-305.
Jager, P. (1986). Post-estratificación contra sesgo en el muestreo.Revista Estadística Internacional/Revue

Internacional de Estadística, 54, 159-167.
Kalton, G. (1983).Compensación de los datos faltantes de la encuesta.Centro de Investigación de Encuestas, Universidad de

Míchigan, Ann Arbor, Míchigan.
Kalton, G. y Kish, L. (1984). Algunos métodos eficientes de imputación aleatoria.Comunicaciones en Estadística,

A13, 1919-1939.
Kiaer, A. (1897). El método representativo de las encuestas estadísticas (traducción al inglés de 1976 del original
noruego), Oslo, Oficina Central de Estadísticas de Noruega.
Kim, JK y Fuller, WA (2004). Imputación fraccional hot deck.Biometrika, 91, 559-578.
Kim, JK y Shao, J. (2013).Métodos estadísticos para el manejo de datos incompletos. CRC Press, Boca Ratón,
FLORIDA.
Kish, L. (1995). Las guerras de los cien años del muestreo de encuestas.Estadísticas en Transición, 2, 813-830.
Kish, L. y Frankel, MR (1970). Repeticiones balanceadas para errores estándar.Diario de la

Kish, L. y Frankel, MR (1974). Inferencia a partir de muestras complejas (con discusión).Diario de la Real
Sociedad de Estadística, Serie B, 36, 1-37.
Korn, EL y Graubard, BI (1995). Análisis de grandes encuestas de salud: Contabilización del muestreo
diseñosRevista de la Royal Statistical Society, Serie A,158, 263-295.
Kreuter, F. (2013).Mejorando Encuestas con Paradata.Hoboken: Wiley.

Krewski, D. y Rao, JNK (1981). Inferencia a partir de muestras estratificadas: Propiedades de la linealización,
jackknife y métodos equilibrados de replicación repetida.Anales de estadísticas, 9, 1010-1019.
Poco, RJA (1982). Modelos de falta de respuesta en encuestas por muestreo.Diario de la Estadística Americana
Asociación, 77, 237-250.
Little, RJA y Rubin, DB (1987, 2014).Análisis estadístico con datos perdidos. Nueva York: John Wiley
& Sons, Inc., (Segunda edición 2014).
Madow, WG (1948). Sobre la distribución limitante de estimaciones basadas en muestras de universos finitos.
Anales de estadística matemática,19, 535-545.
Madow, WG y Madow, LH (1944). Sobre la teoría del muestreo sistemático, I.los Anales de
Estadística Matemática, 15, 1-24.
Madow, WG, Nisselson, H. y Olkin, I. (Eds.) (1983).Datos incompletos en encuestas por muestreo, 1, 2, 3, Nuevo
York: Prensa Académica.
Mahalanobis, PC (1939). Una encuesta por muestreo de la superficie cultivada con yute en Bengala.Sankhya,4, 511-531.
Mahalanobis, PC (1944). En encuestas por muestreo a gran escala.Transacciones filosóficas de la Royal Society
de Londres, Serie B,231, 329-451.
Mahalanobis, PC (1946). Experimentos recientes en muestreo estadístico en el Instituto de Estadística de la India.

Diario de la Sociedad Real de Estadística,109, 325-378.
McCarthy, PJ (1966). Replicación: Un enfoque para el análisis de datos de encuestas complejas.Vital y

Estadísticas de Salud,Serie 2, No. 14, Centro Nacional de Estadísticas de Salud, Servicio de Salud Pública,
Washington DC.
McCarthy, PJ (1969). Pseudoreplicación: Evaluación adicional y aplicación de la media muestra balanceada

técnica.Estadísticas Vitales y de Salud,Serie 2, No. 31, Centro Nacional de Estadísticas de Salud, Servicio de
Salud Pública, Washington, DC.
McCarthy, PJ (1969). Pseudoreplicación: Medias muestras.Revista Estadística Internacional/Revue

Internacional de Estadística, 37, 239-264.
McCarthy, PJ y Snowden, LB (1985). El muestreo bootstrap y de población finita.Salud Vital

Estadísticas, 2-95,Publicación del Servicio de Salud Pública, 85-1369, Imprenta del Gobierno de EE. UU.,
Washington, DC
Narain, RD (1951). Sobre muestreo sin reemplazo con probabilidades variables.diario del indio
Sociedad de Estadísticas Agrarias, 3, 169-174.
Neyman, J. (1934). Sobre los dos aspectos diferentes del método representativo: El método de estratificación
muestreo y el método de selección intencional.Diario de la Sociedad Real de Estadística,97, 558-625.
Owen, AB (1988). Intervalos de confianza de la razón de verosimilitud empírica para un único funcional.biometrika,75,
237-249.
Pfeffermann, D. (2015). Aspectos metodológicos y desafíos en la producción de estadísticas oficiales.

Revista de estadísticas y metodología de encuestas, 3, 425-483.

Pfeffermann, D. y Sverchkov, M. (1999). Estimación paramétrica y semiparamétrica de modelos de regresión

ajustado a los datos de la encuesta.Sankhya, Serie B,61, 166-186.
Porter, AT, Holan, SH, Wikle, CK y Cressie, N. (2014). Modelo espacial de Fay-Herriot para áreas pequeñas
estimación con covariables funcionales.estadísticas espaciales,10, 27-42.
Purcell, N. y Kish, L. (1979). Estimación para dominios pequeños.Biometría, 35, 365-384.
Rao, JNK (2003).Estimación de área pequeña.Hoboken: Wiley.
Rao, JNK (2005). Interacción entre la teoría y la práctica de encuestas por muestreo: una evaluación.Encuesta
Metodología, 31, 2, 117-138. Papel disponible enhttp://www.statcan.gc.ca/pub/12-001-x/
Rao, JNK y Molina, I. (2015).Estimación de área pequeña: segunda edición.Hoboken: Wiley.
Rao, JNK y Scott, AJ (1981). El análisis de datos categóricos de encuestas de muestras complejas: Chi-
Pruebas al cuadrado de bondad de ajuste e independencia en tablas de doble entrada.Revista de la Asociación Estadounidense de
Estadística,76, 221-230.
Rao, JNK y Scott, AJ (1984). Sobre pruebas chi-cuadrado para tablas de contingencia multipunto con celda
proporciones estimadas a partir de datos de encuestas.Anales de Estadística,12, 46-60.
Rao, JNK y Shao, J. (1999). Replicación repetida balanceada modificada para datos de encuestas complejas.
biometrika,86, 403-415.
Rao, JNK y Wu, CFJ (1988). Inferencia de remuestreo con datos de encuestas complejas.Diario de la
Royall, RM (1968). Un viejo enfoque para el muestreo de población finita.Diario de la Estadística Americana
Asociación, 63, 1269-1279.
Royall, RM (1970). Sobre la teoría del muestreo de población finita bajo ciertos modelos de regresión lineal.
biometrika,57, 377-387.
Rubín, DB (1974). Caracterización de la estimación de parámetros en problemas de datos incompletos.Diario de

la Asociación Estadounidense de Estadística, 69, 467-474.
Rubín, DB (1976). Inferencia y datos perdidos.biometrika,63, 581-590.
Rubín, DB (1987).Multiples imputaciones por la falta de respuesta en las encuestas.Nueva York: John Wiley & Sons, Inc.
Schaible, WL (Ed.) (1996).Estimadores indirectos en programas federales de EE. UU.Nueva York: Springer.
Niñera, RR (1992). Un procedimiento de remuestreo para datos de encuestas complejas.Diario de la Estadística Americana
Asociación,87, 755-765.
Skinner, CJ (1994). Ejemplos de modelos y pesos. EnActas de la Sección de Métodos de Investigación de Encuestas,
Asociación Estadounidense de Estadística, 133-142.

Steinberg, J. (Ed.) (1979).Estimaciones sintéticas para áreas pequeñas: documentos de talleres estadísticos y
Discusión.NIDA Research Monograph No. 24. Imprenta del Gobierno de EE. UU., Washington, DC, EE.
UU.
Stephan, F. y McCarthy, PJ (1958).Muestra de opiniones. Nueva York: John Wiley & Sons, Inc.
Sudman, S. (1966). Muestreo probabilístico con cuotas.Revista de la Asociación Estadounidense de Estadística, 61,
749-791.
Sudman, S. (1976).Muestreo aplicado.Nueva York: Prensa Académica.
Sukhatme, PV (1954).Teoría del Muestreo de Encuestas con Aplicaciones. Prensa del Colegio Estatal de Iowa, Ames.
Tam, S.-M. y Clarke, F. (2015). Big data, estadísticas oficiales y algunas iniciativas del Australian Bureau
de Estadística.Revista Estadística Internacional/Revue Internationale de Statistique, 83, 436-448.
Tchuprow, AA (1923). Sobre la expectativa matemática de los momentos de las distribuciones de frecuencia en la
caso de observaciones correlacionadas.Metron, 2, 461-493, 646-683.
Thomsen, I. (1973). Una nota sobre la eficiencia de la ponderación de los medios de subclase para reducir los efectos de la no
respuesta al analizar los datos de la encuesta.Estadísticas Tidskrift, 11, 278-283.
van Remoortel, H., Giavedoni, S., Raste, Y., Burtin, C., Louvaris, Z., Gimeno-Santos, E., Langer, D.,
Glendenning, A., Hopkinson, NS, Vogiatzis, I., Peterson, BT, Wilson, F., Mann, B., Rabinovich, R., Puhan, MA,
Troosters, T. y el consorcio PROactive (2012). Validez de los monitores de actividad en salud y enfermedades
crónicas: una revisión sistemática.Revista internacional de nutrición conductual y actividad física, 9.
Wolter, KM (2007).Introducción a la estimación de la varianza.Nueva York: Springer-Verlag.
Woodruff, RS (1952). Intervalos de confianza para medianas y otras medidas de posición.Diario de la

Yates, F. (1948). Muestreo sistemático.Transacción Filosófica de la Royal Society de Londres, Serie A,

A241, 345-377.
Yates, F. (1949).Métodos de muestreo para censos y encuestas. Grifo, Londres.

Sample Survey Theory and Methods

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sample Survey Theory and Methods

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Teoría y métodos de la encuesta por muestreo:

por JNK Rao y Wayne A. Fuller

Fecha de lanzamiento: 21 de diciembre de 2017

También puede contactarnos por

correo electrónico aSTATCAN.infostats-infostats.STATCAN@canada.ca

Programa de servicios de depósito

• Línea de consultas 1-800-635-7943

Normas de servicio al público Símbolos de tabla estándar

Publicado por autorización del Ministro responsable de Estadísticas de Canadá

© Ministro de Industria, 2017

Unversión HTMLtambién está disponible.

Esta publicación está disponible en francés.

Teoría y métodos de la encuesta por muestreo:

JNK Rao y Wayne A. Fuller1

experiencia. Asimismo, nuestro conocimiento de aplicaciones se concentra en Canadá y Estados Unidos.

2 Contribuciones históricas tempranas: 1920-1960

Estadísticas de Canadá, Nº de catálogo 12-001-X

muestra autoponderada ( probabilidades globales iguales de selección). La selección de probabilidad desigual de

estimación compuesta se utilizan ampliamente en estudios continuos a gran escala.

estimación de cuantiles (Francisco y Fuller, 1991).

varianza de respuesta correlacionada (CRV) debido a los entrevistadores.

introdujo la autoenumeración por correo en el censo de EE. UU. de 1960.

Estadísticas de Canadá, Nº de catálogo 12-001-X

un muestreo aleatorio simple.

3 Cuestiones inferenciales: 1950 -

3.1 Fundamentos teóricos

las estadísticas principales fueron parcialmente exitosos.

Estadísticas de Canadá, Nº de catálogo 12-001-X

muestras de una superpoblación (Fuller, 2009b; Sección 1.3.2).

bootstrap para muestras de encuestas se encuentran McCarthy

Estadísticas de Canadá, Nº de catálogo 12-001-X

3.2 Uso analítico de datos de encuestas

Iowa (Hidiroglou, Fuller y Hickman, 1976).

3.3 Datos faltantes

Estadísticas de Canadá, Nº de catálogo 12-001-X

3.4 Estimación de área pequeña

3.5 Práctica de la encuesta

de respuesta y errores de cobertura (Kreuter, 2013).

que las estimaciones de diferentes fuentes coincidan.

Estadísticas de Canadá, Nº de catálogo 12-001-X

los datos recopilados es imperfecto serán un área de investigación.

desempeñar en la creación de productos a partir de estos datos.

en modelos de área pequeña.

las estadísticas de población y empresas.

Estadísticas de Canadá, Nº de catálogo 12-001-X

métodos cambiantes de comunicación.

entornos no probabilísticos y para fines no gubernamentales.

de la divulgación y la investigación asociada recibirán una mayor atención.

recopilación de datos? ¿Cuál es el impacto de las distintas Redes Sociales?

Estadísticas de Canadá, Nº de catálogo 12-001-X

Andridge, RH y Little, RJ (2009). El uso de pesos muestrales en la imputación hot deck.Diario de

Bellhouse, RD (1988). Muestreo sistemático. Enmanual de estadísticas, (Eds., PR Kreshnaiah y

Bickel, PJ y Freedman, DA (1984). Normalidad asintótica y bootstrap en muestreo estratificado.El

Bowley, AL (1926). Medida de la precisión alcanzada en el muestreo.Boletín de la Internacional

Bowley, AL (1936). La aplicación del muestreo a problemas económicos y sociológicos.Diario de la

Ladrillo, MJ (2011). El futuro del muestreo de encuestas.Opinión Pública Trimestral,75, 872-888.

Brick, MJ y Montaquila, JM (2009). No respuesta y pesos. Enmanual de estadísticas,(Eds.,

Estadísticas de Canadá, Nº de catálogo 12-001-X

Cochran, WG (1953).Técnicas de muestreo.Nueva York: John Wiley & Sons, Inc.

Deville, J.-C. y Särndal, C.-E. (1992). Estimadores de calibración en el muestreo de encuestas.Diario de la

Efrón, B. (1979). Métodos Bootstrap: otra mirada a la navaja.Anales de Estadística,7, 1-26.

Estadísticas de Canadá, Nº de catálogo 12-001-X