Está en la página 1de 456

ELEMENTOS

DE MUESTREO

SCHEAFFER MENDENHALL OTT


Grupo Editorial Iberoamérica
ELEMENTOS
DE MUESTREO
RICHARD L. SCHEAFFER
University of Florida

WILLIAM MENDENHALL

LYMAN OIT
Merrell Research Center

Traductores:

Dr. GILBERTO RENDÓN SÁNCHEZ Dr. JOSÉ GÓMEZ


AGUILAR
Colegio de Postgraduados
Centro de Estadística y Cálculo - Sección de Muestreo
Chapingo, México

Revisor Técnico y Consultor Editorial:

M. en C. SERGIO VARGAS GALINDO


Instituto Tecnológico Autónomo de
México (ITAM) - México

Grupo Edibrial
Mo AfOac 32 - Alevia nF

a-B,mncs
Versión en español de la obra Elementary Survey Sampling - Third Edition, por
Richard L. Scheaffer, William Mendenhall & Lyman Ott Edición original en
inglés publicada por PWS Publishers, Copyright@1986, en Estados Unidos de
América. ISBN 0-87150-943-1
D. R. @1987 por Grupo Editorial Iberoamérica, S.A de C.V. y/o
Wadsworth Internacional/Iberoamérica, Belmont, California 94002
Ninguna parte de este libro puede ser reproducida, archivada o
transmitida en forma alguna o mediante algún sistema, ya sea
electrónico, mecánico, de fotorreproduceión, de almacenamiento en
memoria o cualquier otro, sin el previo y expreso permiso por escrito de
Grupo Editorial Iberoamérica y/o Wadswofih
Internacional/lberoamérica, división de Wadsworth, Inc.

ISBN 968-7270-20-9
Impreso en México

Edúor: Nicolás Crepe P.


productor: Ortiz
Cubierta: Kaiser
Pintura de cubierta: por Michael Lasuchin, D.R. Reproducida con
autorización del artista.

Grupo Editorial Iberoamérica, S.A. de C.V.


Río Atoyac No. 32 - col. Cuauhtémoc • 06500 México, D.F.
Apdo. 5-192 • -reis. 2113128, 5530798
Reg. CNIEM 1382

PRÓLOGO
La obra Elementos de Muestreo es un texto introductorio sobre el diseño y análisis
de encuestas por muestreo, dirigido a estudiantes de administración, ciencias
sociales y ciencias biológicas. El único requisito es haber tomado un curso
elemental de estadística. La gran cantidad de ejemplos, con soluciones, lo hace
también adecuado para usarse como un texto adicional para cursos de mayor nivel.
Ya que el texto está dirigido a estudiantes con limitada preparación en
matemáticas, se hace hincapié en los aspectos prácticos de los problemas de las
encuestas. Cada capítulo presenta un diseño de muestreo de encuestas o un método
viable de estimación, mediante la descripción de un problema practico pertinente,
y luego explica la conveniencia de la metodología propuesta. Esta introducción va
seguida de un procedimiento de estimación apropiado y de una presentación
resumida de las fórmulas, para luego resolver un problema práctico. La naturaleza
de este texto no es en su totalidad un recetario de cocina. Se presentan
explicaciones que apelan a la intuición de los estudiantes para justificar muchas de
las fórmulas y para fundamentar la elección de un diseño de muestreo particular.
Se han seleccionado ejemplos y ejercicios de muchos campos de aplicación. Las
respuestas, dadas para algunos ejercicios seleccionados, pueden estar sujetas a
pequeños errores de redondeo debido a la complejidad de algunas de las fórmulas.
Las secciones de "Experienciascon datos reales" , que se encuentran al final de
la mayoría de los capítulos, sugieren maneras de cómo puede el estudiante resolver
problemas de muestreo reales. Los proyectos de estos problemas pueden ser grandes
o pequeños; algunos requieren cálculos por computadora. Hemos visto que son
expe. riencias de aprendizaje valiosas para estudiantes que toman un curso de
muestreos El trabajo en proyectos reales obliga al estudiante a considerartodos los
aspectos de
RQÕLOGO

cuesta y le motiva a percatarse de que ciertos conceptos que parecen simples en el


libro de texto, no son tan fáciles de llevar a cabo en la práctica.
El texto incluye una revisión de conceptos elementales (Capítulos 1 y 2) y
una descripción de términos relacionados con muestreo de encuestas, aunado a un
análisis de los diseños de'cuestionarios y métodos de recolección de datos
(Capítulo S). Los Capftulos 4, 5, 7 y8 presentan los cuatro diseños de muestreo de
encuestas más comunes —es decir, muestreo irrestricto aleatorio, muestreo
aleatorio estratificado, muestreo sistemático y muestreo por conglomerados,
respectivamente— . El Capítulo 6 presenta la estimación de razón y de regresión.
Los capítulos restantes tratan de muestreo por conglomerados en dos etapas,
muestreo de poblaciones animales y otros problemas especializados que ocurren en
muestreo de encuestas.
La tercera edición de este texto destaca los aspectos prácticos en la
realización de encuestas por muestreo, con nuevas secciones sobre fuentes de error
en las encuestas, métodos de recolección de datos, diseño de cuestionarios y
sugerencias en la planeación de encuestas. Casi todos los capítulos contienen ahora
más ejemplos de cómo los diversos diseños de muestreo son usados en la práctica.
Se han incluido en tres capítulos muchas aplicaciones prácticas de encuestas que
emplean muestreo con probabilidades proporcionalesa los tamaños y discusiones
de este método.
Otros temas nuevos en la tercera edición incluyen estratificación después de
la selección de la muestra, determinación del tamaño de muestra en muestreo por
conglomerados en dos etapas y un estudio más amplio sobre la estimación de
tamaños de población.
Se han añadido ejercicios nuevos a casi todos los capítulos, y el Capítulo 12
tiene ahora un conjunto de ejercicios que puede requerir atención cuidadosa en la
selección del análisis apropiado. Estos ejercicios pueden servir como una revisión
de los métodos principales presentados en el libro. Se incluye en el Apéndice gran
cantidad de datos reales que sirven de base a muchos ejercicios. Se tiene en
preparación un manual de soluciones.
El Apéndice incluye también las deducciones matemáticas de muchos de los
resultados principales del texto. El entendimiento de muchas de estas deducciones
requiere un conocimiento a buen nivel de la teoría elemental de probabilidad.
Deseamos expresar nuestro sincero reconocimiento a muchas de las personas
que han ayudado en la preparación de esta obra. En particular queremos dar las
gracias a los revisores por sus atinados comentarios, que fueron de mucha ayuda
en esta labor. Se agradece también al profesor A. Hald por su amable autorización
para usar la tabla de áreas de la curva normal que se reproduce en el Apéndice.
Estamos también profundamente agradecidos con las mecanógrafas que dedicaron
gran parte de su tiempo en la preparación del original: Judith Donnelley,
MaryJackson, Catherine Kennedy y Shirley Morley. Finalmente, agradecemos a
nuestras familias su asistencia y estímulo durante la realización de esta obra.

Richard L. Scheqffer
William Mendenhall
Lyman Ott

PRÓLOGO
LA EDICIÓN
EN
ESPAÑOL
Hasta ahora el empleo del muestreo probabilisticoha requerido especialistas muy
bien preparados en la estadística matemática, con amplio dominio de los aspectos
teóricos y con una gran intuición derivada de la práctica y experiencia
profesionales. Sin embargo, la correcta utilización de las técnicas del muestreo se
ha hecho indispensable para los profesionales de las ciencias sociales, la
administración, las ciencias biológicas y otras en donde cada día aumenta la
necesidad de diversificar y profundizar los estudios, y donde el muestreo juega un
papel de gran importancia y utilidad por su c ar & ter de rapidez y economía.
Este libro es un intento afortunado de proporcionar una conexión entre el
análisis de la información estadística para la toma de decisiones y el problema
práctico de la obtención de datos, al que necesariamentese enfrenta el estudiante y
el investigador en las diversas áreas del conocimiento.
El lector quedará convencido de la importancia de la correcta aplicación de
las diferentes técnicas del muestreo probabilístico para obtener los datos
necesarios para hacer inferencias estadísticas correctas, es decir, con una validez
científica sólida.
Los autores presentan las técnicas y los problemas del muestreo con ejemplos
y aplicaciones en una gran variedad de disciplinas, lo cual estimula al estudiante y
le
-4roporciona una idea clara sobre qué hacer en la vida real para llegar a soluciones
prácticas, económicas y eficientes. El libro es entonces un valioso complemento de
consulta para otros que tratan el muestreocon mayor profundidad y formalidad
teórica.
La presentación del contenido, con poca profundidad matemática, es clara y
hace el mayor énfasis en los aspectos prácticos que se deben resolver en las
anpstas por muestreo. El tratamiento de los temas es gradual; inicia con los
conceptcx elãten— tales, continúa con la presentación de los diferentes diseños
generales del
viii PRÓLOGO A IAEDICON BIESPAÑOL

irrestricto aleatorio, el estratificado, el sistemático, el de conglomerados, y una


buena exposición acerca de los estimadores de razón y de regresión. Otra virtud del
libro es la de incluir algunas técnicas desarrolladasrecientemente, como la de
respuestaaleatorizada y la descripción de otros diseños relativamentecomplejos. Al
final presenta un resumen que resulta de gran utilidad, pues revisa tanto las técnicas
como las estrategias para la selección del método adecuado a cada caso.
La obra es motivante para el estudiante y para el investigador; invita a dejar a
un lado el muestreo no probabilistico al contar con la opción de los diferentes
diseños probabilfsticos que producen resultados cuya precisión puede ser medida
estadísticamente.
Grupo Editorial Iberoamérica, al publicar este libro en español, contribuye a
la difusión eficaz del conocimiento del muestreo entre los cientificos sociales y
admi nistradores y, por lo tanto, a la solución eficiente de muchos problemas que se
presentan en la vida diaria profesional.
La publicación ha sido posible gracias a la dedicación y esfuerzo de los
doctores Gilberto Rendón y Roberto Gómez, quienes han hecho un trabajo de
traducción de excepcional calidad. El dominio del lenguaje, para la corrección del
estilo, a cargo de la maestra Ana María Varela, ha sido definitivo para la
presentación de las ideas de la manera más clara y comprensible.
Para mf ha sido un privilegio y una gran satisfacción participar en la
producción de esta obra.

Sergio Vargas Galindo


Consultor Editorial

CONTENIDO
Prólogo
Al estudiante

4 INTRODUCCIÓN
2 REVISION DE CONCEPTOS BÁSICOS 5
2.1 Introducción 5
2.2 Resumen de la información en poblaciones y muestras 6
2.3 Distribuciones de muestreo 9
2.4 Covarianza y correlación 13
2.5 Estimación 14
2.6 Resumen 16
Ejercicios 16
3 ELEMENTOS Da 49
3.1 Introducción 19
3.2 Términos técnicos 20
3.3 Cómo seleccionar la muestra:
el diseño de la encuesta pormuestreo 22
3.4 Fuentes de error en las encuestas 24
3.5 Métodos de recolección de datos 27
3.6 Diseño de un cuestionario 29
3.7 Planeación de una encuesta 35
3.8 Resumen
Ejercicios
x CONTENIDO
39
4 MUESTREO IRRESTRICTO ALEATORIO
4.1 Introducción 40
4.2 Cómo seleccionar una muestra irrestricta aleatoria 42
4.3 Estimación de una media y un total poblacionales 43
4.4 Selección del tamaño de muestra para la estimación
de las medias y totales poblacionales 52
4.5 Estimación de una proporción poblacional 55
4.6 Muestreo con probabilidades proporcionales al tamaño 60
4.7 Resumen 66
Ejercicios 67
Experiencias con datos reales 74

77
5 MUESTREO ALEATORIO ESTRATIFICADO
78
5.1 Introducción
5.2 Cómo seleccionar una muestra aleatoria estratificada 80
5.3 Estimación de una media y un total poblacionales 82
5.4 Selección del tamaño de muestra para estimar las
medias y totales poblacionales 85
5.5 Asignación de la muestra 88
5.6 Estimación de una proporción poblacional 96
5.7 Selección del tamaño de muestra y asignación de la
muestra para asignar proporciones 98
5.8 Comentarios adicionales sobre muestreo estratificado 103
5.9 Una regla óptima para formar los estratos 107
5.10 Estratificación después de seleccionarla muestra 109
5.11 Resumen 111
Ejercicios 112
Experiencias con datos reales 118

6 ESTIMACIÓNDE RAZÓN, REGRESION Y


DIFERENCIA 423
6.1 Introducción 124
6.2 Encuestas que requieren el uso de estimadores de razón 125
6.3 Estimación de razón usando muestreo irrestricto aleatorio 127
6.4 Selección del tamaño de la muestra 135
6.5 Cuándo usar estimación de razón 143
6.6 Estimación de razón en muestreo aleatorio estratificado
CONTENIDO xi
6.7 Estimación de regresión 147
6.8 Estimación de diferencia 150
6.9 Resumen 153
Ejercicios 155
Experiencias con datos reales 163

7 MUESTREO SISTEMÁTICO 467


7.1 Introducción 168

7.2 Cómo seleccionar una muestra sistemática 171

7.3 Estimación de una media y un total poblacionales 172

7.4 Estimación de una proporción poblacional 178

7.5 Selección del tamaño de muestra180

7.6 Muestreo sistemático replicado 182

7.7 Resumen 186


Ejercicios 187
Experiencias con datos reales 193

8 MUESTREO OOta-OtvERADOS 195


8.1 Introducción 196

8.2 Cómo seleccionar una muestra por conglomerados 198

8.3 Estimación de una media y un total poblacionales 200

8.4 Selección del tamaño de muestra para la estimación


de medias y totales poblacionales 207
8.5 Estimación de una proporción poblacional 211

8.6 Selección del tamaño de muestra para la estimación


de proporciones 213
8.7 Muestreo por conglomeradoscombinado con estratificación 214

8.8 Muestreo por conglomerados con probabilidades proporcionales

al tamaño 217
8.9 Resumen 220
Ejercicios 221
Experiencias con datos reales 229
9 MUESTREO coanv8UDOS
ETAPAS 231
9.1 Introducción 232
9.2 Cómo seleccionar una muestra por conglomerados en dos etapas

CONTENIDO
9.3 Estimación insesgada de una media y un total poblacionales 234
9.4 Estimación de razón de una media poblacional 238
9.5 Estimación de una proporción poblacional 240
9.6 Selección de tamaños de muestra 243
9.7 Muestreo por conglomerados en dos etapas con
probabilidades proporcionales al tamaño 245
9.8 Resumen 248
Ejercicios 249
Experiencias con datos reales 253

40 ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN 255


10.1 256
Introducción
10.2 Estimación del tamaño de la población usando muestreo directo 257
10.3 Estimación del tamaño de la población usando muestreo 259
inverso Selección de tamaños de muestra para muestreo directo
y
para muestreo Inverso 260
10.5 Estimación de la densidad y el tamaño de la población
usando muestreo por cuadros 264
10.6 Estimación de la densidad y el tamaño de la población usando
cuadros cargados 267
10.7 Resumen 269
Ejercicios 270
Experiencias con datos reales 273

44 TEMAS CORBB(TAFES 275


275
11.1 Introducción
11.2 Submuestras interpenetrantes 275
11.3 Estimación de medias y totales en subpoblaciones 278
Modelo de respuesta aleatorizada 282
11.5 Selección del número de reentrevistas 284
11.6 Resumen 286
Ejercicios 287
Experiencias con datos reales 289
42 RESUMEN 294
Resumen de los diseños y métodos 291
12.1
12.2 Comparación entre los diseños y métodos 293
Ejercicios 294
CONTENIDO xili
APÉNDICE 303
Bibliografía 303
Tablas 305
Deducción de algunos resultados importantes 312
Respuestas seleccionadas 318

INDICE 320

AL ESTUDIANTE
Grapo Zitorial Iberoamérica en s u esfuerzo
permanente por producir cada vez mejores textos,
pone en tus manos esta nueva obra en la que se ha
puesto la más alta calidad en los aspectos teó7ico y
didáctico, así como en diseño y presentación, con el
objetivo de proporcionarte la mejor herramienta, no sólo
para facilitarte el aprendizaje sino también para hacerlo
más estimulante.
Este, como cualquiera de nuestros libros, ha sido
cuidadosamente seleccionado para que encuentres en él
un pilar de tu preparación, y un complemento ideal a la
enseñanza del maestro. Lo didáctico de la presentación
de sus temas hace que lo consideres el mejor auxiliar, y
el que llevas a todas partes.
Lo anterior es parte de nuestro propósito de ser
partícipes en una mejor preparación de profesionales,
contribuyendo asia la urgente necesidad de un mayor
desarrollo de nuestros países hispanohablantes.
Sabemos que esta obra seráfundamental en tu
biblioteca, y tal vez la más inmediata y permanente
fuente de consulta.
Como uno de nuestros intereses principales es
hacer mejores libros en equipo con profesores y
estudiantes, agradeceremos tus comentarios y
sugerencias o cualquier observación que contribuya al
enriquecimiento de nuestras publicaciones.

Grupo Xitoñal Iberoamérica


. presente en tu formación profesional
xiv

INTRODUCCIÓN
Los cursos introductorios enfatizan que la estadística moderna es una teoría de la
información con la inferencia como su objetivo. El objetivo de nuestra
curiosidades un conjunto de mediciones, una población, que de hecho existe o
que puede ser generada por experimentación repetida. El medio para la inferencia
es la muestra, la cual es un subconjunto de mediciones seleccionadas de la
población. Deseamos hacer una inferencia acerca de la población sobre la base de
las características de la muestra —o, equivalentemente, la información contenida
en la muestra— .
Por ejemplo, supóngase que una cadena de tiendas mantiene un registro de
las cuentas de sus clientes. La cantidad que se adeuda a la compañía va a variar
día a día, conforme se efectúen nuevos cargos y se paguen algunas cuentas.
Ciertamente, el conjunto de cantidades que se deben a la compañía en un
determinado día representan una población de mediciones de considerable interés
para la gerencia. La característica poblacional de interés es el total de todas las
mediciones en la población o, equivalentemente, la carga total de crédito diario.
El mantener actualizados los créditos totales diarios asociados con las
cuentas, puede ser una tarea simple para una computadora electrónica. Sin
embargo, los datos deben ser actualizados diariamente y esta actividad consume
tiempo. Un método más sencillo para determinar la carga total de crédito
asociada con las cuentas es muestrear aleatoriamente la población de cuentas en
un determinado día, estimar el importe promedio adeudado por cada cuenta y
multiplicar por el número de cuentas. En otras palabras, empleamos un estimador
estadístico para hacer una inferencia acerca del total de la población. La
estadística elemental nos dice que esta estimación se puede hacer tan exacta
como queramos simplemente al incrementar el tamaño de la muestra. La
estimación resultante puede ser acompañada por un límite para el error de
estimación (Mendenhall, 1983, Capítulo 8) o bien expresada como un intervalo
de confianza. Entonces la informaciónen la muestra se utiliza para hacer una
inferencia acerca de la población.
La información obtenida de las encuestas por muestreo afecta casi todos los
aspectos de nuestra vida cotidiana. Tal información determina las políticas del
gobierno
2 INTRODUCCION

respecto, por ejemplo, al control de la economía y la promoción de programas


sociales. Las encuestas de opinión son la base de muchas de las noticias que
divulgan los diversos medio noticiosos. El número de personas que ven los
programas de televisión determina cuáles programas serán presentados en el
futuro.
Comúnmentese piensa que el Censo de E.U. de
Norteaméricaestablececontacto con cada uno de los hogares enel pafsRealmente,
en el censo de 1980 solamente se hicieron 14 preguntas a todos los hogares. La
informaciónsobre 42 preguntas adicionales fue obtenida únicamente de una
muestra de hogares. La información resultante la utiliza el gobierno federal para
determinar la asignación de fondos a los estados y ciudades. Esta información la
utiliza el comercio para el pronóstico de ventas, manejo de personal, y para
determinar los domicilios de futuros establecimientos. La utilizan los
planificadores urbanos y regionales para programar el uso de la tierra; agencias de
transporte, y consumo de energía. Es usada por científicos sociales para estudiar
condiciones económicas, balance racial y otros espectos de calidad de la vida.
La Oficina de Estadísticasdel Trabajo de E.U.A. realiza rutinariamente más
de 20 encuestas. Algunas de las más conocidas y más ampliamente utilizadas son
las encuestas que establecen los índices de precios al consumidor (IPC). El IPC es
una medida del cambio del precio en el tiempo de una canasta de mercado fija de
bienes y servicios. Es usado como una medida de inflación y sirve como un
indicador económico para las políticas del gobierno, Las empresas tienen tasas de
salarios y planes de penSión basados en el IPC. Los programas federales de salud
y bienestar públicos, como muchos programas estatales y locales, ajustan sus
bases de elegibilidad al IPC. Las cláusulas de contratos en rentas e hipotecas están
basadas en el IPC. Así, podemos ver que este índice, determinado sobre la base de
una encuesta por muestreo, desempeña un papel importante en nuestra sociedad.
Muchas otras encuestas realizadas por la Oficina de Estadísticas del Trabajo
(OET) son cruciales para la sociedad. La encuesta de población continua mensual
establece información básica sobre la fuerza de trabajo, empleo y desempleo. Las
encuestas sobre gastos del consumidor recolectan datos sobre gastos de la familia
en bienes y servicios usados en el consumo diario. La encuesta de
establecimientosreúne información sobre horas trabajadas y percepciones para
establecimientos en negocios no agrícolas. La encuesta sobre aspectos
ocupacionales proporcionainformación sobre futuras oportunidades de empleo
para una diversidad de ocupaciones, proyectadas aproximadamente para los
siguientes diez años. Otras actividades de la OET se encuentran en el Manual de
Métodos de la OET (1982).
Las encuestas de opinión están constantemente en las noticias, y los
nombres de Gallup y mis han llegado a ser muy conocidos por todos. Estas
encuestas por muestreo reflejan las actitudes y opiniones de ciudadanos en
aspectos que van desde política y religión a deportes y entretenimiento. Las
clasificaciones Nielsen determinan el éxito o fracaso de programas de TV.
Los comercios realizan encuestas por muestreo para sus operaciones
internas, además de utilizar las encuestas del gobierno para decisiones
administrativas cruciales. Los auditores estiman balances de cuentas y verifican el
cumplimiento con reglas de operación por medio del muestreo de cuentas. El
control de calidad de procesos de manufacturarecae fuertemente en las técnicas de
muestreo.
Un área particular de actividad comercial que depende de actividades de
muestreo detalladas es el análisis de mercados. Las decisiones sobre qué
productos comerciar, dónde comerciarlos y cómo anunciarlos son frecuentemente
hechas sobre la
NTPODLCCIÕN 3

base de información de encuestas por muestreo. Los datos pueden venir de


encuestas efectuadas por la firma que manufactura el producto o pueden ser
adquiridos de empresas que realizan encuestas especializadas sobre información
de mercados. Las actividades de tres de tales empresas son esbozadas a
continuación..
El índice de precios al menudeo de Nielsen es menos conocido que las
clasificaciones de programas de televisión de Nielsen, pero es muy importante
para las empresas que comercian con productos para la venta al menudeo. Este
índice suministra información constante sobre ventas de alimentos, cosméticos,
productos farmacéuticos, bebidas y muchas otras clases de productos. Puede
proporcionar estimaciones de ventas totales para una clase de productos, ventas
para los clientes de una marca particular, ventas para una marca competidora,
información sobre precios al menudeo y mayoreo y el porcentaje de tiendas que
venden un determinado producto. Los datos proceden de auditorías de inventarios
y ventas en 1600 tiendas distribuidas en todo Es. tados Unidos cada 60 días.
Selling Areas—Marketing, Inc. (SAMI), reúne información sobre el
movimiento de productos de almacenes y vendedores al mayoreo. La
información es obtenida en 36 grandes áreas de mercado de televisión, que
contienen el 74% de las ventas nacionales de alimento y comprende 425
categorías de productos.
La Corporación de Investigación de Mercados de América proporciona
muchos tipos de información de mercado a través del uso de encuestas, pero
alguno de los resultados más interesantes proviene de su Censo de Menú
Nacional. Esta encuesta muestrea familias y estudia sus costumbres
alimenticiaspor dos semanas. Tantas como cuatro mil familias pueden participar
durante un año. Se obtiene informaciónsobre el número de veces que un
determinado alimento es servido, cómo es servido, cuántas personas lo comen y
muchos otros detalles, incluyendo qué pasa con los sobrantes de comida. Tales
detalles son importantes para el desarrollo y publicidad de los productos.
Muchos ejemplos interesantes de los usos prácticos de la estadística en
general y del muestreo en particular, pueden consultarse en Statistics: A Guide to
the Unknown (véase la Bibliografia en el Apéndice). En este libro usted puede
encontrar algunos de los métodos y usos de las encuestas de opinión discutidos en
los artículos "0pinion Pollingin a Democracy" por George Gallup y "Election
Night on Television" por R. F.
Link. Quienes se interesen en ecología silvestre deberían leer "The Plight of the
Whales" por D. G. Chapman. Descubra cómo se manejan en forma económica las
ventas de boletos entre las líneas de ferrocarrilesy líneas aéreas, a través de
muestreo, con la lectura de "How Accountants Save Money by Sampling", por
John Neter.
Ya que el objetivo de la estadística moderna es la inferencia, usted puede
preguntar qué aspecto particular de la estadística se tratará en un curso sobre
diseño de encuestas por muestreo. La respuesta a esta pregunta cubre dos
aspectos. Primero, nos abocaremos a la economía de adquirir una cantidad
específica de información. Más específicamente, ¿córno podemos diseñar
procedimientos de muestreo que reduzcan el costo de una cantidad fija de
información? Aunque los cursos introductorios en estadística reconocen la
importancia de esta materia, destacan los conceptos básicos y cómo hacer
inferenciasen situaciones específicas después de que los datos han sido
recolectados. La segunda característica distintiva de nuestro tema es que está
dirigido a los tipos particulares de situaciones de muestreo y problemas de
inferencia que se encuentran más frecuentemente en el comercio, las ciencias
sociales y la administración de recursos naturales (madera, vida silvestre y
recreación), más que en las ciencias fisicas.
INTRODUCCIÓN

Aun la terminología de los científicos sociales difiere de la de los científicos


físicos. Los científicos sociales realizan encuestas para recolectar una muestra,
mientras que los científicos físicos llevan a cabo experimentos. Entonces
reconocemos que existen diferencias de un campo a otro de la ciencia en la
naturaleza de las poblaciones y la manera en que una muestra puede ser extraída.
Por ejemplo, poblaciones de votantes, cuentas financieras, o animales de una
especie particular pueden contener únicamente un pequeño número de elementos.
En contraste, las poblacionesconceptuales de respuestas generadas por la
medición del producto de un proceso químico son ciertamente muy grandes.
(Usted puede recordar que las propiedades de los estimadores y pruebas
esadisticas tratadas en la mayoría de los cursos introductoriossuponen que la
población de interés es grande con respecto a la muestra.) Las limitaciones
establecidasen el procedimiento de muestreo también varían de un área de la
ciencia a otra. H muestreoen las ciencias biológicas y fsicas puede ser
frecuentemente ejecutado bajo condiciones experimentalescontroladas. Tal
control es frecuentemente imposible en las ciencias sociales, comercio y manejo
de recursos naturales. Por ejemplo, un investigador en medicina puede comparar
el crecimiento de ratas sometidas a dos fármacos diferentes. Para este
experimento los pesos iniciales de las ratas y la ingesta diaria de alimento pueden
ser controlados para reducir una variación indeseable en el experimento. En
contraste, muy pocas variables pueden ser controladas al comparar el efecto de
dos diferentes anuncios de televisión sobre ventas para un determinado producto.
No es posibles ningún control al estudiar el efecto de las condiciones ambientales
sobre el número de focas en el Océano Pacífico Norte.
En resumen, este texto trata de las peculiaridades de muestreo e inferencia
comúnmente encontrados en el comercio, las ciencias sociales y la administración
de recursos naturales. Específicamente, consideraremos métodos para la
selección de la muestra de una población existente y maneras de evitar las
diversas dificultades que surjan. Los métodos para diseñar encuestas que toman
en cuenta las característicasde la población se presentarán junto con los
estimadores asociados para reducir el costo de una estimación con exactitud
especificada.
El Capitulo 2 revisa algunos de los conceptos básicos tratados en la
estadística elemental, incluyendo el papel fundamental que desempeña la
probabilidad al hacer inferencias. H Capítulo 3 presenta algo de la tenninologia
básica del muestreo, asf como una discusión de problemas que aparecen en el
diseño de encuestas por muestreo. El muestreo irrestricto aleatorio, que ya conoce
el estudiante novel, es presentado cuidadosamente en el Capitulo 4; el cual
incluye procedimientos físicos para la selección real de la muestra. Los siguientes
capítulos abarcan métodos económicos para seleccionar una muestra y métodos
asociados para la estimación de parámetros
poblacionales.
Al leer este texto, tenga presente que el objetivo primordial de cada capítulo
es la inferencia. Identifique el procedimiento de muestreo asociado con cada
capítulo, los parámetros poblacionales de interés, sus estimadores y los límites
asociados a los errores de estimación. Desarrolle una comprensión intuitiva y una
apreciación de los beneficios que se derivan de los procedimientos de muestreo
especializados. Ponga atención en los conceptos generales, y no se desconcierte
por las fórmulas de los estimadores y varianzas que algunas veces son
inevitablementecomplicadas. En concreto, ponga atención en el bosque más que
en los árboles. Resuelva algunos ejercicios y los detalles tomarán su lugar
respectivo.
REVISIÓN
DE cotaros
BÁSICOS
2" INTRODUCCION

El conocimiento de los conceptos básicos de estadística


es un requisito para el estudio de los diseños de
encuestas por muestreo. Es por eso que en este capítulo
revisaremos algunos de estos conceptos básicos.
El objetivo fundamental de la estadística es hacer
inferencias acerca de una población con base en la
información contenida en una muestra. El objetivo de
nuestra inferencia, la población, es un conjunto de
mediciones, finito o infinito, real o conceptual. Es
por eso que el primer paso en estadfstica es encontrar
una manera de expresar una inferencia acerca de una
población o, equivalentemente, describir un conjunto de
mediciones. Entonces, distribucionesde frecuencia y
medidas descriptivas numéricas son el primer tema de
nuestra revisión.
El segundo paso en estadística es considerar la
forma en que se puede hacer la inferencia acerca de la
población con base en la información contenida en la
muestra. Para este paso debemos considerar
distribuciones de probabilidad de cantidades muestrales
o distribuciones derivadas del muestreo. El
conocimientode distribución de probabilidad asociada
con la muestra nos permite seleccionar los
procedimientos adecuados para hacer la inferencia y
asignar medidas de bondad a tales inferencias.
El método de inferencia empleado principalmente en
el comercio y las ciencias sociales es la estimación.
Es posible estimar el total de activos de una
corporación, la fracción de votantesque está a favor
del candidato Garcfa, o el número de excursionistas
que utilizaron un parque del gobierno durante cierto
periodo. Es por eso que debemos entender los conceptos
básicos que fundamentan la selección de un estimador
de un parámetro poblacional, el método de evaluar su
bondad y los conceptos relacionados con la estimación
por intervalo. Debido a que el sesgo y la varianza de
los estimadores determinan su bondad, necesitamos
revisar los conceptos básicos relacionados con la
esperanza de una variable aleatoria y las nociones de
varianza y covarianza.

5
2 CE BASCOS
PEVISIÕN CONCEPTOS

Las secciones subsecuentes siguen el plan general


que se acaba de presentar. Em. pezamos con una revisión
del problema primario, es decir, cómo describir un
conjunto de mediciones. Enseguida se da una revisión
rápida del modelo probabilhtico para la repetición de
un experimento. Explicamos cómo puede ser usado el
modelo para inferir las características de una
población y discutimos variables aleatorias,
distribuciones de probabilidad y esperanzas.
Finalmente, presentamos los conceptos básicos asociados
con estimación puntual y estimación por intervalo.

2.2 RESUMEN DE LA INFORMACIÓN 3-1

Debido a que es dificil percatarse de las


características esenciales de un conjunto grande de
mediciones al observar un listado de números,
usualmente debemos resumir las mediciones a través del
uso de gráficas o técnicas numéricas. Aun cuando no es
posible contar con todas las mediciones para una
población en estudio, podemos ser capaces de suponer
alguna forma razonable para realizar la gráfica de la
distribución de frecuencias relativas de esta
población. Por supuesto, podemos siempre construir un
histograma de frecuencias o de frecuencias relativas
para una muestra, ya que las mediciones de la muestra
son conocidas, y usar éste para hacer una estimación
empírica dé la forma de la población.
Una que se ha establecido una distribución de
frecuencia relativa para una población, podemos,
mediante argumentos probabilísticos, calcular medidas
numéricas que nos resuman la información, tales como la
media, varianza y desviación estándar.
Cantidadessimilares pueden ser calculadas directamente
de las mediciones en la muestra.
Con fines de ilustración, supongamos que una
población consiste en una gran cantidad de números
enteros, 0, 1, 2, 9, en proporciones iguales. Podemos
pensar que esos números han sido escritos en pequeñas
hojas de papel y mezclados en caja, que han sido
escritos en una tabla (como una tabla de números
aleatorios) o que han sido generados en un archivo de
computadora. Ya que todos los dfgitos ocurren en
CE

1/10

FIGURA 2.
Distribución unapoblaciónque 0 con O rrwna
frecuencia
2.2 LA

igual proporción, el histograma de frecuencia relatita, el cual muestra la distribución


de las mediciones de la población, es como se muestra en la Figura 2.1
Estas frecuencias relativas pueden ser interpretadas en términos
probabilísticos. Si se selecciona un número al azar (por ejemplo si alguien extrae
una pieza de papel de la caja, sin ejercer ninguna preferencia), entonces la
probabilidad de que el número extraído sea un 4 es Suponga que un número se va a
seleccionar al azar de una población en estudio, y denote su valor por y. Entonces
los posibles valores para y (0, 2, . . . , 9, en este caso) y las probabilidades
asociadas con tales valores ( * para cada uno en este caso) constituyenla
distribución de probabilidad para la variable aleatorü y. La probabilidad asociada
con y es denotada algunas veces por p(y). Entonces, para esta población

Las medidas numéricas usadas para resumir las características de una


población son definidas como valores esperados de y o una función de y. Por
definición, el valor esperado dey, E(y), está dado por
E(y) = E yp(y)

donde la sumatoria incluye todos los valores de y para los cuales p(y) > 0.
Para la población y variable aleatoria y en estudio,

E(y) = E yp(y)
= Op(O) + lp(l) + 2p(2) • • • + 8p(8) + 9p(9)
= = 4.5
Se puede ver queE(y)es igual al valor promedio, o valor medio, de todas las
mediciones de nuestra población conceptual. En general, una media poblacional
será de notada por g, por lo que

donde y es el valor de una medición individual seleccionada de la población al azar.


La variabilidad de las mediciones en una población puede ser medida por la
va. rianza, la cual se define como el valor esperado, o valor promedio, del cuadrado
de la desviación entre una medición y se eccionada aleatoriamentey su valor medio
p. Entonces la varianza de y, V(y), está dada por
2 CE BASCOS

Para la población usada como ejemplo en esta sección,

La varianza V(y) es comúnmente denotada por cr


PEVISON ca•sKFTos

La desviación estándar se define como la raíz cuadrada de la varianza y denota


por = Para la población específica en estudio,

En estudios estadísticos la población de interés consiste mediciones


desconoci• das; es por eso que únicamente podemos especular acerca de la
naturaleza del histograma de frecuencia relativa o del tamaño de g y (T-Para
obtener alguna información acerca de la población, seleccionamos una muestra de
n mediciones y estudiamos las propiedades de esta muestra. A partir de lo que
observamos en la muestra inferimos las características de la población. Las
mediciones en la muestra serán denotadas en general por y y
Siguiendo el patrón establecido para resumir la información en una población,
podemos calcular la media, la varianza y la desviación estándarde una muestra.
Estas medidas descriptivas numéricas están dadas, respectivamente, por

Nótese que tiene divisor n — 1 en lugar de n.


Para la población de enteros q 1, . , 9 en igual proporción, se seleccionó una
muestra de n = IO mediciones. Cada una de las 10 mediciones fue seleccionada al
azar con reemplazo. (Piense en la selección de 10 papeletas de una caja
conteniendo una gran cantidad de ellas, cada una marcada con un entero entre 0 y
9.) Las mediciones muestrales fueron

Para esta muestra

F=-E Yi
CE
9+3+

- 5.4)21
= 4(92.4) = 10.27

La utilización de estas cantidades muestrales se tratará en las siguientes dos


secciones, pero podemos ver que podría ser una aproximación razonable para g si g
2 BASICOS

2.3

fuera desconocida. De la misma manera, podría ser una aproximación razonable para
si fuera desconocida, y s podría ser una aproximación razonable para a .

En los siguientes capltulos, cantidades muestrales —tales como serán utilizadas


extensivamente para realizar inferencias acerca de cantidades poblacionales
desconocidas; por ello debemos estudiar las propiedades de ciertas funciones de las
observaciones muestrales. Este estudio empieza con una ilustración numérica, la
cual va a ser generalizada para incluir una amplia variedad de situaciones de
muestreo.
Considérese la población discutida en la Sección 2.2, en la cual los enteros Q
9 estuvieron representadosen la misma proporción. Se
seleccionan cincuenta muestras de tamaño n = IO de esta población; cada muestra
es seleccionada de una manera similar al método utilizado al final de la Sección
2.2. Las medias muestrales para estas 50 muestras se presentan en orden numérico
ascendente en la Tabla 2.1.

TABLA 2.4 Medias muestrales de 50 muestras, cada una de tamanon = 10

2.3 3.6 4.1 4.3 4.8


3.7 4.1 4.3 4.8
2.6 3.7 4.1 4.4 4.8
3.2 3,7 4.1 4.5 4.9
3.3 3.8 4.7 5.0
3.4 3.9 4.3 4.7 5.1
3.5 4.0 4.3 4.7 5.3
3.5 4.1 4.3 4.8 5.5
3.6 4.1 4.3 4.8 6.0
3.6 4.1 4.3 4.8 6.6

Un histograma de frecuencias para las 50 medias muestrales es presentado en


la Figura 2.2. Esta distribución es una aproximación a la distribución & mapsfreo
teóri• de Ñ, ya que nos muestra la manera en que las tienden a distribuirse
cuando se toman muestras repetidas. La distribución de muestreopuede ser
considerada como una distribución de probabilidad para j. Nótese que la
distribución de las tiende a concentrarse cerca de la media poblacional = 4.5, con
mucha menor dispersión (o variabilidad) que las mediciones originales de la
población, y tiene una forma monticular, en lugar de una forma plana como la de la
distribución poblacional.
Desde el punto de vista de un curso elemental de estadística (véase
Mendenhall, 1983), sabemos que la distribución de muestreo de debe tener una
media , una desviación estándar y una forma como la de una cunu normal (una
curva simétrica en forma de campana). Esta distribución de 50 medias muestrales
tiene un promedio de 4.22 (el cual está cercano a = 4.5) y una desviación estándar
de 0.79 (la cual está cercana a = = 0.92). El histograma de frecuencia tiene también
una forma aproximada de campana, aunque no es muy simétrica. Estos
10 REVISÔN

FIGURA 2.2 Distribución de 50 medias muestrales con n = 50 para cada muestra

hechos concernientes al comportamiento de las medias muestrales serán


importantes en el desarrollo de los procedimientos de inferencia.
propiedades conocidas de la curva normal se deduce que
aproximadamente 68% de los valores de F, en muestreo repetido, debe caer dentro
de una desviación estándar de la media de la distribución de muestreode las j.
Aproximadamente, 95% de los valores de j, en muestreo repetido, debe caer dentro
de dos desviaciones estándar de la media. Para verificar estas aseveraciones en la
muestra observada de 50 , vemos que

4.11 ±0.79 o sea (3.43,5.01)


contiene 39 de 50 (78%) de los valores de j en la muestra, y
4.22 ± 2(0.79) o sea (2.64, 5.80)

contiene 45 de 50 (90%) de las Estos porcentajes están razonablemente cerca de


los valores teóricos de 68% y 95%. (Recuérdese que estamos considerando
únicamente una aproximación, basada en 50 muestras, con respecto a la verdadera
distribución de muestreode y.)
Si la distribución de muestreo de alguna cantidad muestral no sigue una
distribución normal, al menos aproximadamente, entonces la interpretación de la
frecuencia relativa puede aún ser obtenida considerando el teorema de
Tchebysheff. Este teorema establece que para cualquier k 1 al menos (1 — 1/k 2)
de las mediciones en cualquier conjunto deben caer dentro de k desviaciones
2 BASICOS

estándar de su media. Por ejemplo, haciendo k = 2 se obtiene que al menos (1 2 de


cualquier conjunto de mediciones debe caer dentro de 2 desviaciones estándar de
su media. Usualmente. esta fracción es mucho más grande que f.
23 DISTRIBUCIONES DE MUESTREO

El alto procentaje de mediciones que cae dentro de dos desviaciones estándar


de la media, considerando la distribución normal o el teorema de Tchebysheff,
sugiere que' la amplitud de cualquier conjunto de mediciones contiene poco más
que cuatro desviaciones estándar, usualmente. En otras palabras, la desviación
estándar de un conjunto de mediciones puede ser aproximada como 1 /4 de la
amplitud de ese conjunto de mediciones.
La discusión de las distribuciones de muestreo hasta este punto se ha basado
en que las muestras fueron seleccionadas de una población esencialmente infinita.
Pero nosotros podemos desear trabajar con poblaciones de N mediciones, donde N
puede ser relativamente pequeña. ¿Se mantiene aún bajo estas circunstancias la
normalidad aproximada de la distribuciónde ? A continuación presentarnoslos
resultados de dos investigaciones empíricas sobre esta cuestión.
Una población de N = 100 mediciones fue generada por computadora y
presentó una distribución como la que se muestra en la Figura 2.3. Se seleccionó
una muestra

o to 20 30 40 50 60 70 80 90 100

FIGURA 2.3 Distribución de una población con N = 100

den = 20 mediciones de esta población, de tal manera que cada muestra posible de
tamaño 20 tuviera una misma probabilidad de ser seleccionada (véase Capítulo 4).
Este proceso se repitió hasta que fueron seleccionadas 50 de tales muestras. Se
calculó la media para cada muestra; la distribución de estas medias muestrales se
indica en la Figura 2.4. Nótese la tendencia de este histograma a la forma de
campana, aunque no perfectamente simétrica.
Una población de N = 20 mediciones fue generada posteriormente,
presentando la distribución que se indica en la Figura 2.5. Se seleccionaron 50
muestras de tamaño n — 15 cada una, siguiendo la metodología esbozada
anteriormente. La distribución de las 50 medias muestrales se presenta en la Figura
2.6. Nótese nuevamente una tendencia hacia una distribución en forma de campana
un tanto simétrica. Sin embargo, esta distribución difiere considerablemente de la
presentada en la Figura 2.4. Aquí, las medias muestrales están agrupadas muy
cerca alrededor de la media poblacional, como debía esperarse, ya que el tamaño
de muestra de 15 es muy similar al tamaño de la población de 20. Se podría sugerir
que la distribuciónen la Figura 2.6
2

co•CHJlC6BÀscos

10 20 40 50 60 70 80 90 100

FIGURA 2.4 Distribución de medias muestrales para N = 100yn =m

15

FIGURA 2.5 Distrbución de una población con N = Z)

FIGURA 2.6 Distribución de medias muestrales para N = 15


2.4 COVAR ANZA CORRELACIÓN 43

no se asemeja tanto a la distribución normal como en la distribución de la Figura 2.4.


En resumen, la distribución de debe tener una distribución muy semejante a la
distribución normal, si n no es mayor que 20% de N. Esta observación
especialmente cierta si n 30. Cuando n es un porcentaje muy alto de N, la
distribución de muestreo de está agrupada alrededor de la media poblacional aún
más de lo que se podría esperar.

2.4 COVARIANZA Y CORRELACION


Frecuentemente, en un experimento obtiene información acerca de más de una
variable aleatoria de interés. Por ejemplo, el psicólogo mide más de una
característica por individuo en un estudio sobre el comportamiento humano.
Variables típicas pueden ser una medida de inteligencia, y„ una medida de
personalidad,Y2, y otras variables que representan el valor obtenido en ciertas
pruebas o medidas de caracterfsticas fsicas. Generalmente estamos interesados en la
simple dependencia de un par de variables, tal como la relación que existe entre
personalidad e inteligencia, o entre el aprendizaje y las calificaciones en la escuela.
En particular, nos interesa saber si los datos que representan observaciones pareadas
de y, y y, en un cierto número de gente implican una dependencia entre las dos
variables. Si es así, ¿qué tan intensa la de: pendencia?
Intuitivamente, concebimos la dependencia de dos variables, y, y indicando
que una de ellas, digamos y, , se incrementa o disminuye como una consecuenciade
un cambio en ya. Vamos a confiar nuestra atención a dos medidas de dependencia,
la co• tarianza y el coeficiente simple de correlación lineal, y vamos a utilizar las
Figuras 2.7(a) y 2.7(b) para justificarla elección de ellas como medidas de
dependencia. Estas figuras nos representan puntos graficados para dos muestras
(aleatorias) de n = 10 unidades experimentales seleccionadas de una población. Las
mediciones de y, y y, fueron hechas en cada unidad experimental. Si todos los
puntos caen sobre una línea recta, como se indica en la Figura 2.7(a),y, y h son
obviamente dependientes. En contraste, la Figura 2.7(b) nos indica poca o nula
dependencia entre y, y ya,
Supóngase que conocemos y g2, las medias de y, y y„ respectivamente,y
localizamos este punto en las gráficas de la Figura 2.7. Ahora se localiza un punto en
la

FIGURA 2.7 Rntcs graficados para muestras


2 REVISON CE CONCEPTOS BASCOS
gráfica de la Figura 2.7(a) y se miden las desviaciones (y, — g,) y (h — A). Nótese
que ambas desviaciones van a tomar el mismo signo algebraico para un punto
determinado; por eso su producto, (h — — A), es positivo. Este resultado se
mantiene para todos los puntos en la Figura 2.7(a). Los puntos a la derecha de (Bi,
van a producir pares de desviacionespositivas, los puntos a la izquierda van a
producir desviaciones negativas, y el promedio de los productos de las
desviaciones(yt — va a ser "grande" y positivo. Si la relación lineal
indicada en la Figura 2.7(a) tuviera una pendiente negativa hacia la derecha, todos
los pares correspondientes de desviacionesserían de signo opuesto, y el valor
promedio de (Yl — — serla un número negativo grande.
La situación que se acaba de describir no ocurrir5 en la Figura 2.7(b), donde
existe poca o nula dependencia entre y, y ya. Las desviaciones correspondientes (Y'
¯ Pl) Y (Y2 ¯ B2), van a tomar el mismo signo algebraico para algunos puntos, y
signo opuesto para otros puntos. Entonces, el producto (yt — será
positivo para algunos puntos y negativo para otros, yel promedio de estos productos
será un valor cercano a cero.
Así, se tiene que claramente el valor esperado (promedio)de (Yl — ¯ nos
proporciona una medida de la dependencialineal de y, y Esta medida, definida para
las dos poblaciones correspondientes asociadas a y, y y„ se denomina la covarianza
de y, y y,. Ahora, vamos a denotar la covarianzaentre y, y y, por:


Cov(Y1, )'2) = ¯ V2)]

A mayor valor absoluto de la covarianza de y, y 72, se tendrá una mayor


dependencia lineal entrey, yy,. Valores positivos indican que y, se incrementa
cuandoy, se incrementa; valores negativos indican que disminuye cuando y, se
incrementa. Un valor cero de la covarianza indica que no hay dependencia lineal
entre y, y y,.
Desafortunadamente, el uso de la covarianza como una medida absoluta de
dependencia es dificultosa porque su valor depende de la escala de medición. Es
por eso que a primera vista sea difícil saber si una covarianza es "grande". Esta
dificultad se puede eliminar estandarizando su valor por medio del coeficiente
simple de correlación lineal. Luego el coeficiente de correlación lineal de la
población,

cov(yt, 12)

(donde y son las desviaciones estándar de y, y y„ respectivamente) está relacionado


a la covarianza y toma valores en el intervalo —l p l. El coeficiente de correlación
muestral se usa como un estimador de p y se estudia en la mayoría de los cursos
introductorios. Para mayor información sobre esta materia se puede consultar
Mendenhall (1983, Capítulo 10).

2.5 ESTIMACIÓN

El objetivo de cualquier encuesta por muestreo es realizar inferencias-acerca de una


población de interés, partiendo de la información obtenida en una muestra de dicha
25 ESTIMACON

población. Las inferencias en las encuestas por muestreoson usualmente dirigidas a


la estimación de ciertas características numéricas de la población, tales como la
media, el total o la varianza. Estas medidas descriptivas numéricas de la población
se denominan Parámetros.
Un estimador es una función de variables aleatorias observables y quizás
otras constantes conocidas, usado para estimar un parárnetro. Por ejemplo, la media
muestral puede ser usada como un estimador de la media poblacional p . La media
es un estimador, ya que es una función de las observacionesen la muestra. Sin
embargo, nótese que es una variable aleatoria y tiene una distribución de
probabilidad o distribución de muestreo que depende del mecanismo muestral,
como se ha señalado en la Sección 2.3. Algunos de los posibles valores que j puede
tomar estarán cercanos a g, y otros pueden estar bastante alejados de g en
cualquiera de los lados positivo o negativo. Si nosotros tomamos una muestra y
calculamos un valor especifico como nuestro mejor estimador de g , desearíamos
saber que en promedio F nos genera valores concentrados alrededor de p y que en
general están bastante próximos a g, Entonces queremos seleccionar un plan de
muestreoque nos asegure que E (j) = y que V(F) es "pequeña".
En general, suponga que e es un estimador del parámetro O. Lbs propiedades
deseables para 9 son las siguientes:

2 V(â) = es pequeña.
Un estimador que posee la propiedad 1 se dice que es insesgado. Con respecto a la
propiedad 2 , no se tratarán estimadores insesgados de mínima varianza en este
texto, pero se compararán estimadores insesgados sobre la base de sus varianzas. Si
podemos contar con dos estimadoresinsesgados de 8 , generalmente daremos
preferencia al que tenga la menor varianza.
Aunque la distribución de probabilidad de j, un estimador común, dependerá
del mecanismo de muestreo y los tamaños de la muestra y la población, en muchas
situacionesla media muestral tiende a presentar una distribución simétrica en forma
de campana, conocida como distribución normal. Esta observación
especialmentecierta si n es grande, digamos n 30.
Una vez que sabemos qué estimador 8 estamos usando en una situación y
conocemos algo acerca de su distribución de probabilidad, podemos evaluar la
magnitud del error de estimación. Definimos el error de estimación como 19 — 91.
¿Qué tan bueno será un estimador? No podemos establecer que un estimador
observado estará dentro de una distancia especificada de 9, pero podemos, al
menos aproximadamente, encontrar un límite B tal que

P(lô - el B) = 1 —a
para cualquier probabilidad deseada 1 — a, donde 0 < a < l. Si 8 tiene una
distribución normal, entonces B = za/2Üê, donde za/2 es el valor que separa un
área de (a /2) en la cola del lado derecho de la distribución normal estándar. La
tabulación de valores de za/2 se presenta en la Tabla 1 del Apéndice. Si 1 — a =
().95, entonces, zo.025 —— I .96, o sea aproximadamente2. Ya que muchos
estimadoresque usamos a lo largo del texto no van a tener una distribución
precisamente normal para muchos va-
2 CONCEPTOS BÁSICOS
lores de n y N, y ya que el teorema de Tchebysheffestablece que al menos 75% de
las observaciones para cualquier distribución de probabilidad estará dentro de dos
desviaciones estándar de su media, vamos a usar 20ô como un limite para el error
de estimación. Este valornos da una — B) = 0.95 para los casos aproximadamente
normales y P(le — B) 0.75 en cualquier caso. Nótese que para un8 normalmente
distribuido, un límite que satisfaga cualquier probabilidad deseada (1 — u) puede
ser encontradcu través del uso de la Tabla 1.
SiP(le — BI 1 — a, entonces — B — u. En esta forma (O
— B, + B) se denomina in terv al ode confianza para 9 con coeficiente de
confiabilidad (1 — a) .La cantidad 8 — B ,esllamada el límite inferior de confian
(LIC), y 8 + B es llamada el límitesuperior de confianza (LSC).

2.6 RESUMEN

El Capitulo 2 presenta una breve revisión de los conceptos básicos de la estadística.


Para hacer inferencias acerca de una población, se requiere un método de
descripción de un conjunto de mediciones y, consecuentemente, se requiere una
discusión de histogramas de frecuencias y medidas descriptivas numéricas. Dos
medidas numéricas muy útiles son la media y la desviación estándar. Aunque la
media es una medida de, tendencia central que se interpreta fácilmente, la
desviación estándar adquiere relevancia como una medida de variación únicamente
cuando se le interpreta mediante el teorema de Tchebysheff o alguna distribución
específica tal como la normal.
Otro concepto importante es el papel que desempeña la probabilidad al hacer
inferencias acerca de la población. El probabilista razona de una población
conocida a una muestra. En contraste, el estadístico usa la probabilidad como el
instrumento para hacer inferencias acerca de una población, con base en la
informacióncontenida en una muestra. Aunque es deseable una buena formación en
probabilidad, el conocimiento de los conceptos básicos de probabilidad y el uso de
la probabilidad en el proceso de inferencia proporcionan una formación suficiente
para la comprensión de este texto.
Las variables aleatorias ysus distribucionesde probabilidad se presentan a fin
de proporcionar un fundamento para la descripción de las propiedades de los
estimadores de parámetros poblacionales. Las nociones de esperanzas, covarianza
y correlación nos ayudan en la evaluación de las propiedades de los estimadores.
La estimación de parámetros poblacionales es el método principalmente
usado para hacer inferenciasen métodos de encuestas por muestreo. El concepto de
estimador puntual, con su correspondiente medida de bondad (limite en el error de
estimación), es presentado y usado como el método de inferencia en todos los
capítulos subsecuentes.

EJERCICIOS

2.1 ¿Cuáls el objetivo de la estadística?


2.2 En qué se diferencia un curso sobre diseñode encuestas mr muestreodel curso
introductorioestándar sobre estadística?
aa-pccos

2.3 ¿Por qué es esencial el conocimiento de cómo describir un conjunto de mediciones?


2.4 {Cómo puede usted describir un conjunto de mediciones?
2.5 ¿Quées un parámetro?
2.6 Enuncie el teorema de Tchebysheff.
2.7 Muestre que la varianza muestral SE, dada en la Sección 2.2, es equivalente a

La última forma es usualmente más fácil para el cálculo numérico.


2.8 Dadaslas siguientesn = 20 medicionesmuestrales: 1, 2, O, 2, 2, 4, O, S, 1, 2, 3, 2, O, 1, 2, 2, 4,
(a) Calcule la media muestral
(b) Calcules2.
(c) ¿Qué fracción de las mediciones cae dentro de una desviaciónest{ndar de la
¿tres? ¿En qué concuerdan estas fracciones con las dadas por el teorema de
Tchebysheff? (Este ejercicio ilustra la efectividad de la desviación estándar como una
medida de la variabi lidad de un conjunto de mediciones.)
2.9 Dadas n = 10 mediciones muestrales:5, 2, 4, 4, 3, 4, 1, 3, 5, 4.
(a) Calcule la media muestral.
(b) Calcule la varianza muestral.
(c) Encuentre la fracción de mediciones que caen dentro de una desviación estándar. Compare
ésta con la correspondiente fracción dada por el teorema de ichebysheff y la distribución
normal.
2.10 Explique cuál es el significado del termino distribución de muestreo de la variable aleatoria y.
2.11 En la distribución de mu6üeo de j, ¿cómo se deben relacionar la media y la varianza con la
media y la varianza de la población de donde se seleccionb la muestra?
2.12 ¿Qué es un estimador?
2.13 ¿Cómo se evalúa la bondad de un estimador?
2.14 Describa dos propiedades deseables de un estimador.
2.15 ¿Qué es un estimador insesgado?
2.16 ¿Cuál es el error de estimación?
2.17 ¿Cuál es un límite razonable para el error de estimación?
2.18 ¿Cuál es la importancia del teorema de Tchebysheff al hacer aseveracionesacerca del error de
estimación?
2.19 Suponga que una poblaciónconsta de las mediciones denotadaspor ut, g2, . . . , uN. Una simple
observación y es seleccionada aleatoriamente de esta población. Muestre que

donde es la media poblacional.


2.20 Genere una distribución de muestreo aproximada de seleccionand025 muestras del mismo
tamaño de una población de mediciones de interés para usted. (Reemplace la primera muestra
antes de seleccionar la segunda, de tal manera que cada muestra provenga de la misma
población). ¿Etán de acuerdo las medias muestrales con los resultados discutidos en este
capítulo para distribuciones de muestreo?

ELEMENTOS Da

MUESTREO

3.4 INTRODUCCIÓN

Usted recordará que el objetivo de la estadística es hacer inferencias acerca de una


población con base en la información contenida en una muestra. Este mismo
objetivo motiva el estudio del problema de muestreo. Vamos a considerar el
problema particular del muestreo de una colección finita de mediciones
(población). Nos referiremos ocasionalmente a poblaciones compuestas de un
número infinito de mediciones. En la mayorfa de los casos, la inferencia estará en
la forma de una estimación de un parámetro poblacional, tal como una media, un
total o una proporción con un límite para el error de estimación. Para aquellos más
interesados en la metodologfa que en la teoría, se darán argumentos donde sea
posible justificar el uso de estimadores.
La primera parte de nuestra discusión del problema de muestreo introduce
ciertos términos técnicos comunes a las encuestas por muestreo. Enseguida
trataremos la forma de seleccionar una muestra de la población.
Cada observación o elemento tomado de la población contiene cierta
cantidad de información acerca del parámetro o parámetros de interés. Ya que la
información cuesta dinero, el experimentador debe detenninar qué tanta
información debe comprar. Demasiado poca información impide al experimentador
realizar buenas estimaciones; mientras que mucha información ocasiona un
despilfarro de dinero. La cantidad de información obtenida en la muestra depende
del número de elementos muestreados y de la cantidad de variación en los datos.
Este último factor puede ser controlado por el método de selección de la muestra,
llamado el dáeño de la encuesta por muestreo. H diseño de la encuesta y el tamaño
de la muestra determinan la cantidad de información pertinente a un parámetro
poblacional, siempre y cuando se obtengan mediciones exactas en cada elemento
muestreado. En la Sección 5.5 se presentan varios diseños de encuestas por
muestreo.

49
3 MUESTPEO

Si no se obtienen mediciones exactas en cada uno de los elementos de la


encuesta, entonces se introducen otros errores. Estos errores se explican en la
Sección 3.4. La exactitud de las mediciones puede mejorarse mediante métodos
adecuados de recolección de datos, discutidos en la Sección 3.5 , y por una buena
elaboración del cuestionario, tratado en la Sección 3.6. La Sección 3.7 presenta los
principales elementos que uno debe verificar cuidadosamente cuando se planea una
encuesta.

3.2 TÉRMINOS TÉCNICOS

La terminología técnica se mantiene en un mínimo en este texto; sin embargo,


ciertos términos comunes deben ser definidos. Vamos a explicar estos términos por
medio de un ejemplo. En cierta comunidad se realizó una encuesta de opinión para
determinar la actitud del público hacia una emisión de bonos en vísperas de una
elección próxima. H objetivo de la encuesta fue estimar la proporción de votantes
en la comunidad que favorecieron la emisión de bonos.

DEFINICIÓN 3.1 Un elemento es un objeto en el cual se toman las medi-


ciones.
En nuestro ejemplo, un un votante registrado en la comunidad. La
medición tomada en un elemento es la preferencia del votante respecto de la
emisión de bonos. Ya que las mediciones son comúnmente consideradas como
números, el experimentadorpuede obtener datos numéricos registrando un 1 para
un votante a favor de la emisión de bonos y un 0 para un votante que no está a
favor.

DEFINICIÓN 3.2 Una población es una colección de elementos acerca de los cuales
deseamos hacer alguna inferencia.

La población en nuestro ejemplo es la colección de votantes en la comunidad.


La característica (medición numérica) de interés, para cada miembro de esta
población, es su preferencia respecto de la emisión de bonos.
Una tarea importante para el investigador es definir cuidadosa y
completamente la población antes de recolectarla muestra. La definición debe
contener una descripción de los elementos que serán incluidos y una especificación
de las mediciones que se van a considerar, ya que estos dos componentes están
interrelacionados. Por ejemplo, si la población en el estudio de la emisión de bonos
consiste en votantes registrados, entonces uno puede querer recolectar información
sobre si cada persona muestreada planea votar o no en la próxima elección. El
muestreo de la población objetivo deseada no es siempre posible, y el investigador
puede tener que reunir información adicional de tal manera que se obtengan
respuestas a las preguntas de interés. Si en nuestro ejemplo la única población
disponible para el muestreo es una lista de residentes de la comunidad, entoncesse
debe recolectar información acerca de si cada persona muestreada es realmente un
votante registrado.
3.2 TÉRMINOS TÉCNICOS 21

DEFINICION 3.3 las unidades de muestreo son colecciones no traslapadas de


elementos de la población que cubren la población completa.
En el ejemplo de emisión de bonos, una unidad de muestreo puede ser un
votante registrado en la comunidad. Sin embargo, un proceso más eficiente puede
ser muestrear hogares, los cuales son colecciones de elementos, para obtener
información acerca de las preferencias de los votantes. Si los hogares son las
unidades de muestreo, estos deben ser definidos de tal manera que ningún votante
en la población pueda ser muestreado más de una vez y que cada votante tenga una
oportunidad de ser seleccionado en la muestra.
Como la definición lo establece, las unidades de muestreo no deben
traslaparse. No obstante, ocurren ocasiones en que la condición de no traslape es
prácticamente imposible de lograr. Las muestras de parcelas tomadas, por ejemplo,
en estudios de la región donde vive un animal, son frecuentemente circulares. El
patrón circular es una forma convenienteen su trazo y tiene ciertas ventajas en
términos de la distancia necesaria que se debe caminar para estudiar la parcela.
Obviamente, las parcelas circulares no pueden cubrir un campo sin que ocurra
algún traslape. La intención en este caso es sugerir que el traslape debe ser lo más
pequeño posible para lograr un muestreo eficiente.
Si cada unidad de muestreo contiene uno y solamente un elemento de la pobla
ción, entonces una unidad de muestreo y un elemento de la población son idénticos.
Esta situación ocurre si muestreamos votantes individuales, en lugar de hogares
dentro de la comunidad.

DEFINICIÓN 3.4 Un marco es una lista de unidades de muestreo.


Si especificamos al votante individual como la unidad de muestreo, una lista
de todos los votantes registrados puede servir como el marco para una encuesta de
opinión pública. Nótese que este marco no incluye todos los elementos en la
población, porque actualizarla lista diariamente es imposible. Si tomamos el hogar
como la midad de muestreo, entonces un directorio telefónico, un directorio de la
ciudad o una lista de jefes de familia, obtenida de los datos del censo, puede servir
como un marco.
Todos estos marcos presentan inconveniencias. Las listas no estarán
actualizadas, y contendrán muchos nombres de jefes de familia no registrados y,
por lo tanto, una muestra seleccionada de las listas contendrá muchas unidades que
no están en la población. Además, algunos votantes registrados pueden no aparecer
en cualquiera de estas listas. Sin embargo, se espera que la separación entre el
marco y la población sea lo bastante pequeña como para permitir que se hagan
inferencias acerca de la población basándose en una muestra obtenida del marco.
Algunos esquemas de muestreo pueden requerir marcos múltiples. Para
muestrear votantes se podría empezar muestreando unidades habitacionales o
manzanas de la ciudad, y después muestrear votantes dentro de las unidades
habitaciones o manzanas seleccionadas. Por lo tanto, un marco es una lista de
unidades habitacionales o una lista de manzanas de la ciudad, y el segundo marco
es una lista de los votantes dentro de esas unidades mayores. H segundo marco
puede no estar disponible hasta

que las unidades habitacionales o manzanas sean seleccionadas y estudiadas con


cierto detalle. En otro ejemplo, la estimación de rendimientos de un cultivo en un
estado puede involucrar el muestreo de una lista de productores a ser entrevistados
y una lista de parcelas para ser medidas objetivamente.
DEFINICIÓN 3.5 Una muestra es una colección de unidades seleccionadas de
un marco o de varios marcos.

Los datos son obtenidos de los elementos de la muestra y usados para


describir a la población. Considérese al votante individual como la unidad de
muestreo y la lista de votantes registrados como el marco. En la encuesta de
opinión pública, cierto número de votantes (la muestra) va a ser entrevistado para
determinar su preferencia en la próxima emisión de bonos. Podemos usar la
información obtenida de estos votantes para hacer inferencias acerca de la
preferencia de los votantes en toda la comunidad.

3.3 COMO SELECCIONAR LA MUESTRA:


EL DISENo DE LA an-JESTA POR m-JSTREO

El objetivo del muestreo es estimar parámetros de la población, tales como la media


o el total, con base en la información contenida en una muestra. Como ha
establecido previamente, el experimentador controla la cantidad de información
contenida en la muestra por medio del número de unidades muestralesque incluye
en la muestra y por el método usado para seleccionar los datos muestrales. ¿Cómo
podemos determinar cuál procedimiento usar y el número de observaciones
(unidades muestrales) a incluir en la muestra?La respuesta depende de cuánta
información se desee comprar. Si 0 es el parámetro de interés y 9 e; un estimador de
0, debemos especificar un límite para el error de estimación; esto es, debemos
especificar que 9 y B difieran en valor absoluto en una cantidad menor que B.
Representado simbólicamente, error de estimación'= le — < B
Debemos establecer también una probabilidad (1 — a), que especifica la fracción
de las veces en muestreo repetidoen que requerimos que el error de estimación sea
menor que B. Esta condición puede ser establecida como

P [error de estimación < B] = I —


Usualmente seleccionamos B = y por esto (1 — a) será aproximadamente 0.95 para
distribuciones en forma de campana. La mayoría de los estimadoresen este libro
presentarán una distribución en forma de campana para tamaños de muestra
razonablemente grandes, aun cuando la distribución original sea asimétrica.
Después de un límite específico con su probabilidad asociada (1 — a)
podemos comparar diseños diferentes (métodos de selección de la muestra) para
determinar cuál procedimiento proporciona la precisión deseada al mínimo costo. H
23

3.3 CÓMO SELECCIONAR EL DISENOCELA MUESTREO

problema de la selección del tamaño de muestra para obtener un cierto límite para el
error de estimación se trata en Mendenhall (1983, Capítulo 8).
El diseño básico (muestreo irrestricto aleatorio) consiste en seleccionar un
grupo de n unidades muestrales de tal manera que cada muestra de tamaño n tenga
la misma oportunidad de ser seleccionada. Entonces, podemos obtener una muestra
aleatoria de n votantes elegibles en la encuesta de emisión de bonos, a través de la
extracción de nombres de la lista de votantes registrados, de tal manera que cada
muestra de tamaño n tenga la misma probabilidad de selección. Los detalles de
muestreo irrestricto aleatorio son explicados en el Capítulo 4. Por ahora,
simplemente señalamos que una muestra irrestricta aleatoria va a contener tanta
informaciónsobre la preferencia de la comunidad como cualquier otro diseño de
muestreo, siempre y cuando todos los votantes en la comunidad tengan
características socioeconómicas similares.
Sin embargo, supóngase que la comunidad consta de personas de dos
diferentes grupos de ingresos, alto y bajo. Los votantes en el grupo alto pueden
tener opiniones sobre la emisión de bonos que sean muy diferentesde las opiniones
de los votantes en el grupo bajo. Es por esto que para informaciónexacta acerca de
la población, queremos muestrear votantes de cada grupo. Podemos dividir los
elementos de la población en dos grupos o estratos, de acuerdo al ingreso, y
seleccionar una muestra irrestricta aleatoria de cada grupo. A la muestra resultante
se le llama muestra aleatoria estratificau.
Nótese que la estratificaciónes llevada a cabo usando el conocimiento de una
variable auxiliar, es decir, ingreso personal. Mediante la estratificaciónen valores
alto y bajo del ingreso, incrementamosla exactitud de nuestro estimador. La
estimación de razón es un segundo método que usa la información contenida en
una variable auxiliar. Los estimadores de razón usan no solamentelas mediciones
en la respuesta de interés, sino que incorporan mediciones sobre una variable
auxiliar. La estimación de razón puede también utilizarse con muestreo aleatorio
estratificado.
Aunque se desean preferencias individuales en la encuesta, un procedimiento
más económico, especialmente en áreas urbanas, puede ser el muestrear familias
específicas, edificios de departamentos o manzanas de la ciudad, en lugar de
votantes individuales. Las preferencias individuales pueden ser obtenidas de cada
votante elegible dentro de cada unidad muestreada. Esta técnica es llamada
muestreo por conglomerados. Aunque la población ha sido dividida en grupos,
tanto en muestreo por conglomerados como en muestreo aleatorio estratificado, las
técnicas son diferentes. En muestreo aleatorio estratificado tomamos una muestra
aleatoria simple en cada estrato; mientras que en muestreo por conglomerados
tomamos una muestra aleatoria simple de grupos y entonces muestreamos todos los
elementos de los grupos seleccionados (conglomerados).
Algunas veces, los nombres de las personas en la población de interés se
encuentran en un listado, tal como una lista de registro, o en tarjetas de archivo
almacenadas en un tarjetero. Para esta situación, una técnica económica es extraer
la muestra mediante la selección de un nombre cerca del principio de la lista y
luego leccionar cada diez o quince nombres después del anterior. Si el muestreo
es conducido de esta manera, obtenemos una muestra sistemática. Como puede
esperarse, el muestreo sistemático ofrece un medio conveniene de obtener
información muestral; desafortunadamente, no necesariamente obtenemos la
mayor información con una cantidad de dinero especificada.
Sabemos que las observaciones cuestan dinero. Nótese que el costo de una
observación puede variar de un diseño a otro, aun dentro de un mismo diseño,
dependiendo
3 MUESTREO

del método de recolección de la información. El experimentador debe elegir el


diseño que proporcioha el límite deseado de error con el menor número de
observaciones (suponiendo el miérno costo por observación). Sin embargo, si el
costo por observación varía de un diseño a otro, el experimentador debe elegir el
diseño que proporciona el límite deseado del error de estimación al mínimo costo.

El error de estimación estudiado en la Sección 3.3 se debe a que una muestra no


proporciona información completa sobre una población. Esta clase de error es
llamada error de muestreo. El error de muestreo puede ser controlado por un diseño
cuidadoso de la encuesta, tema que se tratará en los capítulos subsecuentes de este
libro.
Sin embargo, otro tipo de errores puede introducirse imperceptiblemente a la
encuesta y éstos son más dificiles de controlar. Estos errores, llamados errores no
de muestreo, son debidos principalmente a la no respuesta, respuesta inexacta y
sesgo de selección.
La primera causa de error, no respuesta, es importante, ya que la no respuesta
a una pregunta hecha a un individuo seleccionado para ser incluida en la muestra
puede introducir un sesgo en los datos muestrales. Las personas que responden en
la muestra pueden no representar la población acqca de la cual deseamos hacer
inferencias. Por ejemplo, en una encuesta para determinar la aceptación de los
empleados del pago de una cuota mensual por estacionamiento,es bastante probable
que únicamentelas personas que se opongan enérgicamente al pago de la cuota sean
quienes respondan a un cuestionario enviado por correo. Si consideramos el
porcentaje de respondientes que están a favor del pago de la cuota, probablemente
obtendremos una estimacióndistorsionada de los porcentajes verdaderos para la
población entera.
H segundo problema es que los respondientes o equipos de medición dan
frecuentemente información falsa. Por ejemplo, si a una persona le pregunta si ha
falseado información en su declaración de impuestos al ingreso; por temor a ser
descubierta, es probable que responda negativamente, sea que lo haya hecho o no.
La misma persona puede, sin embargo, dar una respuesta verdadera a la misma
pregunta en un cuestionario que le ha sido enviado por correo. En otro ejemplo, las
áreas forestales medidas en fotografias aéreas pueden siempre resultar con una
medición alta o baja, debido a una calibración impropia del planímetro.
Las respuestas inexactas son algunas veces causadas por errores de definición
en las preguntas de la encuesta. Por ejemplo, en una encuesta sobre empleo, ¿qué
significa el término desempleado? ¿Incluye a los desempleados que han dejado de
buscar trabajo, adolescentes que no pueden encontrar trabajo en vacaciones,
aquellos que pierden su trabajo de tiempo parcial, etc.? Aun términos simples,
como número de años de educación, pueden ser mal interpretados fácilmente.
¿Incluye la educación únicamente el conocimiento formal en la escuela primaria,
secundaria y en la universidad, o también incluye entrenamiento técnico, clases en
el trabajo e institutos de verano? Los aspectos a ser medidos en una encuesta deben
ser definidos precisamente y capaces de ser medidos sin ambigüedades.
25

El tercer problema concierne a los cambios arbitrarios en los elementos


muestrales. Los datos deben ser obtenidos de las unidades muestrales exactas que
fueron selec-
3.4 FUENTES [E ERROR EN LAS EFUJESTAS

apnadas de acuerdo al diseño de muestreo. Un entrevistador no debe sustituir por


el vecino más próximo a una persona que fue seleccionada. Teóricamente, las
muestras seleccionadas de acuerdo con un diseño tienen probabilidades conocidas
asociadas a ellas. Las probabilidades conocidas nos permiten calcular los valores
esperados y las varianzas de los estimadores, tales como media muestral, y
entonces determinar la bondad de estos estimadores. Si se hacen sustituciones
fortuitas en la muestra, esta estructura probabilísticaes alterada y la bondad del
estimadores incierta.
En la práctica, las sustituciones fortuitas pueden sesgar los resultados. Por
ejemplo, suponga que los vecinos más próximos han sustituido a las personas que
no están en casa. Esta sustitución nos puede llevar a una muestra que contenga una
indebida proporción alta de familias con niños. Si la respuesta depende del número
de niños en la familia, la estimación resultante estará sesgada.
Uno de los errores clásicos en la historia de las encuestas de opinión fue
originado por errores no de muestreo, relacionados con la no respuesta, y una
selección deficiente del marco. El Literay Digest intentó predecir el resultado de
las elecciones presidenciales de 1936, a través del envío de cuestionarios en
tarjetas postales a 10 millones de personas; seleccionadas, obviamente, de los
suscriptores del Digest, directorios telefónicos y dueños de automóviles. Las
2,376,523 tarjetas que fueron contestadas mostraron a Landon como ganador sobre
Roosevelt por 57% a 43%. Sin embargo, Roosevelt ganó la elección por 62.5% a
37.5%. El gran error pudo haberse debido parcialmente al marco, que estuvo
ponderado hacia personas de altos ingresos; pero, ciertamente, la tasa alta de no
respuesta fue un factor determinante.
acuerdo al relato en su libro The Sophisticated Poll Watcher's Guide,
George Gallup encuestó una submuestra de 3000 de los 10 millones encuestados
por el Digest, y predijo que la encuesta del Digest iba a resultar 56% para Landon
y 44% para Roosevelt. Además, otra encuesta de Gallup predijo que Roosevelt
ganaría con 56% de los votos. H error en la encuesta de Gallup fue también de
tamaño considerable, pero mucho menor que el error en la encuesta del Dzgest,
aun cuando ésta tuvo mucha mayor respuesta. Para mayores detalles sobre este
interesante caso, lea el artículo de Maurice C. Bryson, listado en la Bibliograña, en
el Apéndice.
Los errores no de muestreo pueden ser controlados mediante una atención
cuidadosa en la construcción de los cuestionarios y en los detalles del trabajo de
campo. Estos errores en las encuestas pueden ser minimizados siguiendolos puntos
presentados en las siguientes subsecciones.

REENTREVISTAS
La no respuesta puede ser minimizada teniendo preparado un plan ciudadoso para
reentrevistas sobre los elementos muestreados. Un número fijo de reentrevistas
debe ser requerido para cada elemento muestreado, y esas reentrevistasdeben ser
en diferentes días de la semana y a diferentes horas del día. Un método específico
para determinar el número apropiado de reentrevistasva a ser presentadoen el
Capitulo 11. Es importante obtener algunas respuestas en al menos un subconjunto
de las no respuestas originales, de tal manera que se puedan eliminar factores
grandes de sesgo. Por ejemplo, al recabar opiniones sobre legislación para el
control de armas, se debe estar seguro de que quienes no respondieron no hayan
sido personas que favorecen el control de armas, aun cuando no lo suficiente como
para molestarse en responder el
cuestionario.
26 3 ELEMENTOSDEL PROBLEMA DE MUESTREO

RECOMPENSAS E INCENTIVOS
En algunas ocasiones, una táctica apropiada para estimular las respuestas es
ofrecer un premio por la respuesta. Este premio puede ser un pago en efectivo para
la persona que accede a participar en un estudio. O en estudios de productos para
el consumidor, se le puede dar al participante una provisión del producto. Los
premios deben ser ofrecidos a participantes potenciales en un estudio únicamente
después de que han sido seleccionados para la muestra mediante algún
procedimientoobjetivo. H tomar como la muestra a aquellos que responden a un
premio anunciado no suele ser apropiado, ya que quienes responden a tal aliciente
pueden ser no representativos de la población objetivo.
Los incentivos para la respuesta son particularmente de mucha ayuda para
muestras de grupos que tienen un interés particular en el problema que se estudia.
Los automovilistas asegurados pueden estar más dispuestos a responder un
cuestionario sobre seguros de automóviles si en la portada se presenta una circular
de la oficina del inspector estatal de seguros, en la que se establece que los
resultados pueden ayudar a promover tarifas más bajas. Los cazadores responderán
a un cuestionariosobre prácticas de gestión cinegética si se les asegura que los
resultados pueden mejorar las condiciones de cacería. Se pueden dar muchos
ejemplos similares, pero el punto importante es que la gente está más dispuesta a
responder a una encuesta si ve que puede obtener algunos beneficios de los
resultados.

ENTREVISTADORES ADIESTRADOS
La habilidad de un entrevistador está directamente relacionada a la calidad y
cantidad de la información resultante de una encuesta, ya sea que la entrevista sea
en persona o por teléfono. Los buenos entrevistadores pueden hacer las preguntas
de tal manera que se estimule a respuestas honestas, y pueden notar la
diferenciaentre quienes realmente desconocen la respuesta y aquellos que
simplemente no desean contestar. Los entrevistadores recientemente contratados
deben ejercitarse con respondientes tlpicos, como aquellos que se pueden
encontrar en el campo. Estas sesiones de preparación deben efectuarse con la
supervisión de entrevistadores experimentados, que puedan evaluar la entrevista y
sugerir mejoras en la técnica de entrevista.

VERIFICACIÓN DE DATOS
Los cuestionarios completados deben ser cuidadosamente analizados por alguien
diferente al entrevistador, para verificar si han sido llenados correctamente. En
esta etapa, y después nuevamente, si los datos se introducen en una computadora,
se debe revisar la información mediante un sistema preestablecido para detectar
errores reconocibles en la información.
27

Las amplitudes de las mediciones pueden ser verificadas para separar los
casos en que, digamos, la edad de una persona es listada como 1040, o una familia
es anotada como que tiene 53 hijos con una edad menor a 1 2 años. Los datos
pueden comprobarse en un cuestionario bien diseñado para ver, por ejemplo, si la
edad indicada por el respondiente concuerda con el año de nacimiento anotado.
Datos aritméticos sencillos —por ejemplo, las proporciones deben estar entre 0 y 1
y las horas por día, asig-
35 MÉTODOS DE DATOS

nadas a diferentes tareas en el trabajo, no pueden sumar más de 24— pueden ser
incluidos en estas verificaciones de datos.
La verificación rápida de datos, para que las respuestas dudosas puedan ser
corregidas mientras el respondiente está aún disponible, es un aspecto muy
importante para el buen éxito de una encuesta por muestreo.
Después de que todas las respuestas han sido recolectadas y los datos están
siendo analizados, se pueden hacer verificaciones adicionales. Los resultados de la
encuesta deben ser representativos de la población, y algunas veces los datos de la
muestra pueden ser verificados con datos conocidos de la población, para ver si
existen áreas potenciales de problemas. Por ejemplo, si la población tiene 50% de
mujeres, pero la muestra sólo presenta un 10%, puede haber errores serios en el
resumen de las mediciones promedio en hombres y mujeres. Si el ingreso
promedio para los respondientes en la encuesta es bastante bajo con respecto al
valor reportado por otras fuentes, Comparado con el valor promedio de la
población objetivo, grandes errores pueden aparecer en la recopilación de las
variables relacionadas con el ingreso. Algunos de esos problemas potenciales
pueden ser resueltos mediante un incremento en la muestra 0 cambiando la forma
de análisis, pero aun si estos problemas no son resueltos, cualquier inconsistencia
debe ser señalada en el análisis final.

CONSTRUCCIÓN DEL CUESTIONARIO


Después de seleccionar la muestra, el componente más importante de una encuesta
bien estructurada, informativa y exacta es un cuestionario diseñado
apropiadamente. Este asunto es el tema de la Sección 3.6.

3.5 MÉTODOS DE RECOLECCIÓN DE DATOS

Los métodos más comúnmente utilizados en la recolección de datos en las


encuestas por muestreo son las entrevistas personales y las entrevistas por
teléfono. Fstos métodos, con entrevistadores adecuadamente adiestrados y
reentrevistas cuidadosamente planeadas, suelen alcanzar tasas de respuesta de
60% a 75%, y algunas veces estas tasas pueden ser aún mayores. Un cuestionario
enviado por correo a un grupo específico de personas interesadas, puede obtener
buenos resultados; pero, generalmente, las tasas de respuesta para este tipo de
recolección de información son tan bajas, que los resultados no son confiables.
Frecuentemente, se puede encontrar información objetiva a través de observ'ación
directa, más que de una entrevista 0 de un cuestionario enviado por correo. Estos
cuatro tipos de recolección de datos se tratarán en las siguientes subsecciones.
ENTREVISTA PERSONAL
Los datos son frecuentemente obtenidos mediante entrevistas personales. Por
ejemplo, podemos usar entrevistas personales con votantes elegibles para
obtener una muestra de la actitud pública hacia una emisión de bonos
municipales. El procedimiento generalmente requiere que el entrevistador realice
preguntas preparadas y registre las respuestas del entrevistado. La ventaja
primordial de estas entrevistas es que la gente
28

usualmente responde cuando es confrontada en persona. Además, el


entrevistador puede notar reacciones específicas y eliminar malos entendidos
acerca de las preguntas hechas. La mayor limitación de la entrevista personal
(aparte del costo involucrado) está relacionada con los entrevistadores. Si no están
cabalmente adiestrados, pueden desviarse del protocolo requerido, introduciendo
un sesgo en los datos muestrales. Cualquier movimiento, expresión facial o
aseveración hecha por el entrevistador puede afectar la respuesta obtenida. Por
ejemplo, una pregunta insinuante, como: "¿Está usted también a favor de la
emisión de bonos?" , puede tender a originar una respuesta positiva. Finalmente,
errores en los registros de las respuestas pueden también inducir a resultados
erróneos.

ENTREVISTAS POR TELÉFONO


La información puede también ser obtenida de las personas en ia muestra a través
de entrevistas por teléfono. Con la instalación de líneas de servicio telefónico para
áreas amplias (líneas STAA), un entrevistador puede hacer cualquier número de
llamadas a áreas específicas del país por una cuota fija mensual. Las encuestas
realizadas a través de entrevistas telefónicas son frecuentemente menos costosas
que las entrevistas personales, debido a la eliminación de gastos de transporte. El
investigador puede también escuchar la entrevista para asegurarse de que se está
siguiendo el procedimiento especificado para la entrevista.
Un problema importante en las encuestas por teléfono es el establecimiento
de un marco que corresponda fielmente a la población. Los directorios telefónicos
tienen muchos números que no corresponden a hogares, y muchos hogares
tienen númeras que no aparecen en el directorio. Unos pocos hogares no tienen
servicio telefónico, aunque la falta de tal servicio es ahora un problema menor para
la mayoría de las encuestas en los Estados Unidos de América. Una técnica que
evita el problema de números no listados es marcar los dígitos aleatoriamente. En
este método se selecciona un número de un área telefónica (los primeros tres
dlgitos de un número con siete) y los últimos 4 dígitos son marcados
aleatoriamente, hasta que se obtienen detenninados hogares de un tipo especificado.
Esta técnica parece producir muestras insesgadas de hogares en determinadas
poblaciones objetivo, y evita los problemas de tratar de muestrear un directorio
telefónico.
Las entrevistas por teléfono generalmente deben realizarse en un periodo más corto
que las entrevistas personales, porque los entrevistados tienden a impacientarse más
fácilmente cuando se hablando por teléfono. Con cuestionarios propiamente diseñados y
entrevistadores adiestrados, las entrevistas por teléfono pueden ser tan exitosas como
las entrevistas personales. [Véase Schuman y Presser (1981) para mayores detalles.)
29

CUESTIONARIOS AUTOAPLICADOS
Otro método útil de recolección de datos es el cuestionario autoaplicado, el cual
es administrado por el respondiente. Estos cuestionarios usualmente son
enviados por correo a los individuos incluidos en la muestra, aunque se pueden
usar Otros métodos de distribución. El cuestionario debe ser cuidadosamente
construido Si Se desea estimular la participación de los respondientes.
El cuestionario autoaplicado no requiere entrevistadores, por IO que Su uso
produce un ahorro en el costo de la encuesta. Este ahorro en el costo es
usualmente obte-
3.6

nido a expensas de una tasa de respuesta más baja. La no respuesta puede un


problema en cualquiera de las formas de recolección de datos; pero en un
cuestionario enviado por correo, frecuentemente tenemos la menor tasa de
respuesta, ya que tenemos el menor contacto con los respondientes. La baja tasa de
respuesta puede introducir un sesgo en la muestra, porque la g que contesta los
cuestionarios puede no ser representativa de la población de interés. Para eliminar
algo de este sesgo, los investigadores comúnmente establecen contacto con los no
respondientes a través de cartas de seguimiento, entrevistas por teléfono o
entrevistas personales.

OSERVACIÓN
El cuarto método de recolección de datos es la observación directa. Por ejemplo, si
estamos interesadosen estimar el número de camiones que circulan por
determinado camino durante las horas de mayor tránsito, 4-6 P.N'I., podemos
asignar a una persona para contar el número de camiones que pasan por un punto
especificado durante este periodo. Posiblemente se utilizaría un equipo de conteo
electrónico. La desventaja de usar un observador estriba en la posibilidad de errores
en la observación.
La observación directa es usada en muchas encuestas que no requieren
mediciones en las personas. El Departamento de Agricultura de Estados Unidos,
por ejemplo, obtiene mediciones de algunas variables referentes a cultivos en
ciertas secciones de las parcelas, para obtener estimaciones de rendimiento de
cultivos, Los biólogos que estudian las poblaciones salvajes, pueden contar
animales, huellas de animales, huevos o nidos para estimar el tamaño de
poblaciones de animales.
Un aspecto que se relaciona con lo anterior es el de obtener información de
fuentes objetivas que no son afectadas por los propios respondientes: la
información sobre salud puede obtenerse de los expedientes de un hospital; la
información sobre ingresos, de registros de los empleadores (especialmente para
trabajadores del gobierno federal y estatal). Este procedimiento puede tomar más
tiempo, pero puede producir grandes recompensas en encuestas importantes.

Como ya se ha mencionado, un objetivo de cualquier diseño de encuesta es


minimizar los errores no de muestreo que pueden ocurrir. Si una encuesta es para
obtener información de personas, entonces deben considerarse muchas fuentes
potenciales de errores no de muestreo, y se espera que éstos sean controlados por el
diseño cuidadoso del cuestionario. Vamos a tratar brevemente la construcción del
cuestionarioen esta sección, pero es un tema muy importante que debe ser
ampliamente investigado por aquellos que intenten diseñar cuestionarios complejos
para encuestas. Una referencia excelente, y sobre la cual basamos extensivamente
la discusión que sigue, es Schurnan y Presser (1981). Algunos problemas
importantes en la construcción del cuestionario son esbozados en las siguientes
subsecciones.

ORDENAMIENTO DE LAS
Las personas que responden a cuestionarios generalmente tratan de ser consistentesen
sus respuestas a las preguntas. La consistenciadel respondiente puede ocasionar que
el
3 MUESTREO

ordenamiento de las preguntas afecte las respuestas, algunas veces de maneras que
parecen impredeciblespara el investigador inexperto. Un ejemplo presentado por
Schuman y Presser (19'81) ilustra este punto.
Se realizó un experimento con las siguientes dos preguntas:
A. ¿Considera usted que Estados Unidos debe permitir a reporteros de
periódicos comunistasde otros países venir y enviar a sus periódicos las
noticias tal como ellos las ven?
B. ¿Considera usted que un país comunista como Rusia debe permitir acceso
a reporteros de periódicos estadounidenses y enviar a Estados Unidos las
noticias tal como ellos las ven?
Para encuestas de 1980, en las cuales las preguntas aparecieron en el orden
(A, B), 54% de los respondientes contestósí a A y 63.7% contestósí a B. Para
encuestas en las cuales las preguntas aparecieron en el orden (B, A), 74.6%
contestó sí a A y 81.9% contestó sí a B. Así, la evidencia sugiere que haciendo
primero la pregunta B se ubica a los respondientes en un marco de actitud más
complacienterespecto de permitir reporteros comunistas en Estados Unidos. En
otras palabras, los que contestaron a B, cuando esta pregunta fue hecha primero,
trataron de ser consistentes y respondieron también sí a una pregunta similar. A.
Entonces, el contextoen el cual se hace una pregunta es muy importante, y debe ser
entendido y explicado en el análisis de los datos del cuestionario.
El orden es también importante en la posición relativa de preguntas
específicas y preguntas generales. Se les puede preguntar a los respondientes las
siguientes preguntas: A. ¿Apoyaría usted un aumento en los impuestos para
educación?
B. ¿Apoyaría usted un incremento en los impuestos?
No sería muy extraño encontrar más gente apoyando B si es preguntada en el orden
(B, A), que es preguntada en el orden (A, B). Si la pregunta A e; hecha primero, las
nas que apoyan los impuestos para la educación, y contestan afirmativamente a
A, pueden pensar que B implica un aumento en los impuestos que no se destinan a
la educación, y pueden contestar no a esta pregunta. Si B es preguntada primero,
las mismas personas que apoyan más impuestos para educación pueden responder
afirmativamente, ya que no han visto aún una pregunta específica sobre impuestos
para educación.
La actitud hacia una pregunta en una encuesta es muy frecuentemente
determinada o cambiada por preguntas anteriores, relacionadas con el mismo tema.
Schuman y Presser señalan que reportaron más casos delictivos cuando se hizo la
31

pregunta después de una serie de preguntas relacionadas con la delincuencia, que


cuando se hizo la pregunta específica. Evidentemente, las preguntas sobre la
delincuencia ayudaron a la persona que estaba contestando a recordar pequeños
incidentes —cuando ésta fue víctima de un delito— , que de otra manera podrían
ser olvidados. Las actitudes hacia el gobierno pueden ser bastante negativas
después de una serie de preguntas que destacan el despilfarro y la ineficiencia del
gobierno, y pueden ser mucho más positivas después de una serie de cuestiones
que destacan las necesarias y oportunas funciones que realiza el gobierno.
En una serie de preguntas que requieren categorizaciones, la primera
pregunta es considerada desde un punto de vista diferente a las que le siguen, y
tiende a recibir las categorizaciones más extremas. Por ejemplo, suponga que se
pide a una persona que clasifique cierto número de posibles sitios vacacionales,
con cada uno recibiendo
36 DISENOCE IN CUESTIONARIO 34

un número entre 1 y 10, donde 10 significa muy bueno. Si el primer lugar le parece
bueno al respondiente, va a tender a clasificarlo cerca de 10 y los otros tenderán a
ser clasificados más bajo. Si el primer sitio le parece desagradable al respondiente,
va a tender a ser clasificado cerca de 1 y los otros van a tender a ser clasificados
más alto. Entonces, dentro del grupo de los sitios agradables, cada uno tenderá a
recibir su más alta clasificación cuando aparezca primero en la lista. Asimismo,
cada uno de los sitios malos tenderá a recibir su más baja clasificación cuando
aparezca primero en la lista. Evidentemente, el primer lugar en la lista se utiliza
como un punto de referencia, y los otros objetos son clasificados arriba o abajo en
relación con el primer objeto.
Para muchas preguntas de la encuesta, el orden de las posibles respuestas(o
elecciones) a una pregunta particular es tan importante como la posición de las
preguntas en el cuestionario. Si a una persona que está siendo entrevistada se le
presenta una larga lista de posibles elecciones, o si cada posible elección es difusa
o dificil de interpretar, entonces la persona tenderá a contestar con la más reciente
elección (la última en la lista). Si un respondiente debe elegir entre una larga lista
escrita, entonces los objetos que van apareciendo hacia el tope de la lista tienen una
ventaja de selección. Por ejemplo, considérese la elección de candidatos para
empleo de una larga lista: aquellos que están hacia el tope de la lista tienden a ser
elegidos. En una lista de elecciones simples, tales como muy de acuerdo, de
acuerdo, desacuerdo y muy en desacuerdo, en una encuesta sobre actitudes, las
opciones tienden a recibir sus más altas frecuencias cuando aparecen primero. Esto
es, la proporción que está muy de acuerdo tenderá a ser mayor cuando esta opción
aparezca primero que cuando aparezca en cuarto lugar en la lista.
Los investigadoresque van a diseñar un cuestionariodeben tener cuidado con
los problemas comunes de ordenamiento de pregunta y respuesta. Deben tratar de
contrarrestar problemas potenciales, considerando las siguientes técnicas.
1. Impresión de cuestionarios con diferentes ordenamientos para
diferentes subconjuntos de la muestra.
2. Usar letreros o repetición de las preguntas tan frecuentemente como
sea necesario en una entrevista, de tal manera que la pregunta y
posibles respuestas sean claramente entendidas.
3. Explicación cuidadosa en el análisis de los datos del contexto en el
cual se hézo la pregunta.

'PREGUNTAS ABIERTAS CONTRA PREGUNTAS CERRADAS


Ya que los cuestionariosactuales son frecuentemente diseñados para ser
contabilizados electrónicamente después de ser completados, mediante un
formulario que facilite el manejo por computadora, la mayoría de las preguntas
deben ser cerradas. Esto es, cada pregunta debe tener una respuesta
numérica simple (como la edad del respondiente)o un número fijo de selecciones
predeterminadas, una de las cuales debe ser elegida por el respondiente.
Aunque las preguntas cerradas permiten una fácil codificación y análisis,
deben preguntas abiertas, las cuales permite al respondiente la
libre expresión de una respuesta no estructurada. Las preguntas abiertas permiten
al respondiente expresar algunas peculiaridades y matices del significado de la
respuesta.
a ELEMENTOS DEL PROBLEMA MUESTREO
Pero esto puede ocasionar grandes dificultades en el análisis, porque las respuestas
pueden no ser fácilmente cuantificables y pueden ser prácticamente imposibles de
comparar entre los cuestionarios. En contraste, las preguntas cerradas no siempre
proporcionar las opciones apropiadas, y las opciones listadas pueden por sí mismas
influenciar la opinión de la persona que está contestando. Sin embargo, una vez
que el cuestionario ha sido completado, el manejo de los datos es rutinario y se
pueden construir fácilmente resúmenes estadísticos válidos sobre las respuestas
reportadas.
Una pregunta abierta típica, similar a las realmente usadas en las encuestas
Gallup, es como sigue:
¿Cuál es el problema más importante que actualmente enfrenta Estados
Unidos?
Esta pregunta, de la forma en que está hecha, puede proporcionar resultados
significativos, ya que mucha gente va a elegir problemas similares como los más
importantes. Sin embargo, sus elecciones pueden ser forzadas dentro de categorías
predeterminadas mediante la siguiente pregunta cerrada:
El problema más importante que actualmente enfrenta Estados Unidos es
(marque uno):
a. seguridad nacional.
b. delincuencia.
c. inflación.
d. desempleo.
e. déficit prespuestarios.
Se puede observar que cualquier forma cerrada para esta pregunta va a limitar las
opciones y puede forzar a los respondientes a una respuesta que no necesariamente
va a ser su primera elección.
Un buen plan para diseñar una pregunta cerrada con opciones apropiadas es
usar una pregunta abierta similar en una prueba del cuestionario; y luego
seleccionar como opciones fijas aquellas que representan con mayor fidelidad las
elecciones expresadas en las respuestas abiertas. Obtener una lista corta de
opciones de las preguntas abiertas no va a ser siempre fácil, pero este
procedimiento proporcionará opciones más realistas que las obtenidas por mera
especulación.

OPCIÓN DE RESPUESTA
En casi cualquier pregunta que puede ser hecha, alguien siendo entrevistado querrá
decir que no sabe o que no tiene una opción. Ya que tales respuestas no dan
información útil acerca de la pregunta y esencialmente reducen el tamaño de
muestra, una práctica común en las encuestas es evitar el uso de esas opciones. El
respondiente es forzado a elegir entre las respuestas infonnativas listadas, a menos
que el entrevistador decida que simplemente no se puede hacer tal elección.
Sin embargo, forzar a la gente a tomar decisiones sobre cuestiones que
desconoce parece ser inapropiado. Entonces, un buen cuestionario debe
proporcionar preguntas seleccionadas para determinar si el entrevistado tiene
suficiente información para formarse una opinión acerca de un determinado
problema. De ser así, la pregunta principal se hace sin la opción "no opina". De lo
contrario, la pregunta debe ser evitada.
3.6 DISEÑO DE UN CUESTONA,Q'O 33
En otras palabras, las preguntas acerca de las cuales casi todo mundo tiene
suficiente información para formarse una opinión, tales como un cumplimiento
más estricto de las leyes sobre límites de velocidad para los conductores de
automóviles, deben ser establecidas sin la opción "no opina". Las preguntas de
naturaleza detallada, limitada o específica, tales como preguntas sobre reglamentos
municipales recientemente emitidos, deben ser consideradas previamente mediante
preguntas seleccionadas para saber si el entevistado tiene alguna información sobre
ese aspecto.
Aun después de que la opción "no opina" ha sido eliminada de una pregunta,
permaneceel problema de determinar cuántas opciones se deben permitir.
Frecuentemente, los cuestionarios pretenden polarizar la opinión hacia uno u otro
lado, como en la siguiente pregunta:
¿Cónsidera usted que el cumplimiento de las leyes de tránsito en la ciudad es
muy estricto o muy complaciente?
Aquí no se ofrecen opciones intermedias. Una razón por la que no se permiten
elecciones intermedias, tales como ' 'me parece correcta la forma en que se está
haciendo" , es que los entrevistados pueden tomar esta elección con demasiada
frecuencia sólo pará salir del paso. La opción de dos elecciones fuerza a la persona
entrevistada a interpretar la dirección de la respuesta, pero el entrevistador debe
explicar que se pueden tomar en cuenta diversos grados de rigidez o tolerancia.
"¿A qué polo estoy más cercano?", es el punto al cual se quiere llevar al
entrevistado. Por supuesto, si se quieren categorizar los grados de rigidez o
tolerancia en esta pregunta, entonces se deben presentar más de dos opciones. Sin
embargo, los diseñadores de cuestionariosdesean conservar el número de opciones
tan pequeño como sea posible.

REDACCIÓN
Aun para las preguntas en las cuales el número de opciones está claramente
determinado, el diseñador debe considerar las palabras que componen la parte
principal de la pregunta. Preguntas "Sí-No", como
{Apoya usted la aplicación de la pena de muerte?,
deben ser hechas en una forma más equilibrada, tal como:
{Apoya usted la pena de muerte o se opone a ella?
Algunas preguntas conllevan inherentes sólidas proposiciones y
contraproposiciones. Schuman y Presser (1981, p. 186) muestran resultados para
la comparación de las siguientes preguntas:
A. ¿Si en una compañía o negocio particular existe un sindicato, considera
usted que es .necesarioque todos los trabajadores sean miembros del
sindicato, o se opone usted a esto?
B. ¿Si en una compañía o negocio particular existe un sindicato, considera
usted que es necesario que todos los trabajadores sean miembros del
sindicato, o se debe dejar a cada individuo decidir si quiere o no estar en el
sindicato? Entre las personas a quienes se les hizo la pregunta A, 32.1 %
respondióque se deberequerir a los trabajadores que sean miembros del
sindicato; pero de quienes contestaron la pregunta B, únicamente 23%
respondió de esta manera. La pregunta B tiene una firme contraproposición
en la segunda fase de la pregunta. Las personas que no tienen sólidas
inclinaciones hacia cualquier tendencia son particularmente suscep-
tibles a fuertes proposiciones o contraproposiciones en el texto de la pregunta.
nuevo, las preguntas deben hacerse en forma equilibrada, con un mínimo de
proposiciones o contraproposiciones en su contenido.
Algunas veces el entrevistado puede tender a mostrar acuerdo con el
entrevistador cuando la pregunta es sugerente. Por ejemplo, la pregunta:
¿Está usted de acuerdo en que los tribunales son muy tolerantes con los
transgresores de la ley?,
recibirá muchas más respuestas afirmativas que las que debiera, simplemente
porque la respuesta parece concordar con la noción del entrevistador de la
respuesta correcta. Las preguntas sugerentes deben ser replanteadas en una forma
equilibrada, como se indicó anteriormente en esta subsección.
Las respuestas a muchas preguntas pueden ser radicalmente alteradas tan sólo
debido a una elección apropiada o inapropiada de palabras. Schuman y Presser
(1981 ,
p. 277) informan sobre estudios de las siguientes preguntas •

A. ¿Considera usted que Estados Unidos debe prohibir discursos públicos


contra la democracia?
B. ¿Considera usted que Estados Unidos debe permitir discursos públicos
contra la democracia?
En un estudio de quienes contestaron la pregunta A, el 21.4% respondió sí;
mientras que de los que contestaron la pregunta B, el 47.8% respondió no. Las
personas son algo renuentes a prohibir discursos públicos contra la democracia,
pero están mucho más dispuestas a no permitir tales discursos. Prohibir es una
palabra enérgica y produce una actitud negativa que muchos no pueden consentir.
Permitir es una palabra mucho más tolerable y no produce aflicción. El punto
importante a recordar es que el tono de la pregunta, determinado por las palabras
empleadas, puede tener un impacto significativo en las respuestas.
Las preguntas también deben ser hechas en términos claramente definidos para
minimizar los errores en la respuesta. Una pregunta como:
¿Qué tanta agua toma usted?, es demasiado
vaga. Puede ser replanteada como sigue:
Aquí está un vaso de 114 de litro, sosténgalo usted. {Cuántos vasos de 1/4
de litro de agua toma usted diariamente?
Si el total de agua tomada es importante, el entrevistador debe recordar a la
persona que café, té y otras bebidas son mayormente agua. Asimismo, una
pregunta como:
¿Cuántos niños hay en su familia?, es
demasiado ambigua. Puede ser replanteada como sigue:
(Cuántas personas menores de 21 años viven en su hogar y reciben de usted
más de la mitad de su apoyo financiero?
nuevo, la pregunta debe ser especffica, con todos los componentes bien definidos.
Muchas más cosas podrían discutirse sobre el tema de la construcción del
cuestionario. Pero los aspectos presentados aqul son los más importantes y cada uno
debe ser considerado muy cuidadosamente antes del inicio del muestreo.
3.7 PLANEACO\ CE UNA BOJESTA 35
Ahora revisaremosy ampliaremos algunas de las ideas presentadas en secciones
previas en la forma de una lista de cotejo. Cada aspecto en la lista debe ser
cuidadosamente considerado en la planeación de cualquier encuesta.

7. ESTABLECIMIENTO LE Establezca los objetivos de la encuesta


de una manera clara y concisa, y remítase a estos objetivos conforme se
vaya progresando en el diseño e instrumentación de la encuesta. Mantenga
los objetivos suficientemente simples, de tal manera que sean entendidos por
quienes trabajan en la encuesta y sean logrados exitosamente cuando se
complete la encuesta.

2. POBLACIÓN OBJETIVO. Defina cuidadosamente la población que va a ser


muestreada. Si lbs adultos van a ser muestreados, entonces defina qué se
entiende por adulto (todos aquellos con más de 18 años de edad, por
ejemplo), y establezca qué grupo de adultos está incluido (todos los
residentes permanentesdé una ciudad, por ejemplo). Tenga presente que se
va a obtener una muestra de esa población, y defina la población de tal
manera que la selección sea factible.
3. EL MARCO. Seleccione el marco (o marcos) de tal manera que la lista de
unidades muestrales y la población objetiva concuerden lo más posible.
Tenga en cuenta qué marcos múltiples pueden hacer el muestreo más
eficiente. Por ejemplo, los residentes de una ciudad pueden ser muestreados
de una lista de manzanas de la ciudad, relacionada con una lista de residentes
dentro de las manzanas.
4, DISEÑO Seleccione el diseño de muestreo, incluyendo el
número de elementos en la muestra, de tal manera que la muestra
proporcione suficiente información para los objetivos de la encuesta. Muchas
encuestas producen poca o inútil información porque no fueron propiamente
diseñadas.

5. MÉTODO MEDICIÓN. Decida sobre el método de medición,


usualmente uno o más de los siguientes métodos: entrevistas personales,
entrevistas por teléfono, cuestionarios enviados por correo u observación
directa.

6. NSTRl-ñ8VTO MEDICIÓN. En conjunción con el paso 5, especifique


cuidadosamente qué mediciones van a ser obtenidas. Si se va a usar un
cuestionario, planee las preguntas de tal manera que se minimice la no
respuesta y el sesgo por respuesta incorrecta.
7, SELECCIÓN Y WVESTIGADORESLE CAMPO.
seleccione cuidadosamente y adiestre a los investigadores de campo.
Después de que el plan de muestreo esté clara y completamente establecido,
alguien debe recolectar los datos. Aquellos que van a reunir los datos, los
investigadores de camPO, deben ser cuidadosamente adiestrados sobre qué
mediciones hacer y cómo hacerlas. El adiestramiento es especialmente
importante si se usan entrevistas personales o por teléfono, porque la tasa de
respuesta y la exactitud de las respuestas son afectadas por el estilo personal
y el tono de del entrevistador.

8. PLOTO. Seleccione una pequeña muestra para una prueba piloto. La


prueba piloto es crucial, ya que permite a usted probar en el campo el cues-
tionario y otros instrumentos de medición, calificar a los entrevistadores y
verificar el manejo de las operaciones de campo. Los resultados de la prueba
piloto usualmente sugieren algunas modificaciones antes de realizar el
muestreo a escala completa.

9. ORGANIZACIÓN TRABAJO LE CAMPO. Planee en detalle el trabajo de


campo. Cualquier encuesta de gran escala involucra un gran número de
personas trabajando como entrevistadores, coordinadores o personal dedicado
al manejo de datos. Antes de que empiece la encuesta deben organizarse
cuidadosamente los diferentes trabajos y establecerse claramente las líneas de
autoridad.
70, DEL DATOS. Elabore un esquema de cómo se
debe manejar cada pieza de información para todas las etapas de la encuesta.
Las grandes encuestas generan gran cantidad de información. Es por eso que
un plan bien preparado para el manejo de los datos es de la mayor
importancia. Este plan debe incluir los pasos para el proceso de los datos,
desde el momento en que se hace una medición en el campo hasta que el
análisis final ha sido completado. Se debe incluir también un esquema de
control de calidad para verificarla correlación entre los datos procesados y los
datos recolectados en el campo.
77. ANÁLISIS LE DATOS. Defina los análisis que deben realizarse.
Estrechamente relacionado al paso IO, este paso involucra la especificación
detallada de los análisis que deben ser ejecutados. Se pueden también listar
los temas que serán incluidos en el reporte final. Si usted considera el reporte
final antes de que la encuesta sea llevada a cabo, puede tener más cuidado en
la selección de los aspectos a ser medidos en la encuesta.

Si se siguen estos pasos diligentemente, la encuesta está lista para un buen


comienzo y debe proporcionar información útil para el investigador.

3.8 RESUMEN

El objetivo de una encuesta por muestreo es hacer inferencias acerca de la


población de interés, con base en la información contenida en una muestra. La
población consiste en el conjunto de datos sobre los cuales deseamos hacer una
inferencia, y está compuesta de elementos o piezas de información. Las unidades
de muestreo son colecciones de elementos de la población que no presentan
traslapes. H marco es una lista de unidades de muestreo que usamos para
representar la población. La muestra es una colección de unidades de muestreo
tomadas a partir del marco. Mediante los datos de la muestra, vamos a estimar
ciertos parámetros de la población y fijar límites sobre nuestro error de estimación.
La cantidad de información obtenida de la muestra puede ser controlada por
el número de unidades muestrales extraídas de la población y el diseño de
muestreo o método de -recolección de datos usado. Algunos de los diseños
introducidos fueron muestreo irrestricto aleatorio, muestreo aleatorio estratificado,
muestreo por conglomerados y muestreo sistemático. Cada uno se trata en detalle
en un capítulo posterior. El mejor diseño para un determinado problema es el que
proporciona la precisión necesaria en términos de un límite para el error de
estimación para un costo mínimo.
37
Después que el diseño ha sido seleccionado, existen varios métodos para
recolectar los datos de la muestra. Entrevistas personales, entrevistas por teléfono,
observación directa y cuestionarios enviados por correo fueron métodos discutidos
y evaluados como medios de reunir los datos en la muestra. Cada método tiene sus
ventajas Y' limitaciones.
En la Sección 3.6 discutimoS la construcción real de los cuestionarios. De
nuevo, enfatizamos la importancia de obtener información en la muestra que sea
representativa de la población. Este problema es de importancia primordial cuando
consideramos métodos de recolección de información.

EJERCICIOS

3.1 Un experimentador quiere estimar el consumo promedio de agua por familia en una ciudad.
Analice los méritos relativos a seleccionar familias individuales, unidades habitacionales
(casas para una sola familia, edificios de apartamentos, etc.) y manzanas de la ciudad
como unidades de muestreo. ¿Qué usaría usted como marco en cada caso?
Un guardabosques quiere estimar el número total de árboles que poseen diámetros mayores de
12 pulgadas en un área forestal. Se tiene disponible un mapa del área. Analice el problema
de la selección de unidades muestrales apropiadas y refiera un marco apropiado,
3.3 Un perito en seguridad está interesado en estimar la proporción de llantas de automóvil en
mal estado. {Debería usar automóviles individuales o colecciones de automóviles, tales como
los de estacionamientos, como unidades de muestreo? ¿Qué podría usar como marco?
3.4 Una industria está constituida por muchas plantas o fábricas pequeñas, localizadas a lo largo y
ancho del país. Una ejecutiva quiere encuestar las opiniones de los empleados sobre la
política vacacional de la industria. ¿Qué sugerirla usted que ella utilizara como unidades de
muestreo? ¿Qué podría ella usar como marco?
3.5 H departamento de agricultura de un estado desea estimar el área sembrada con maíz dentro del
estado. Sugiera posibles unidades de muestreo y marcos.
3.6. Un investigador de ciencias políticas quiere estimar la proporción de adultos residentes en un
tado que favorecen una legislatura unicameral. Analice posibles unidades y marcos.
Estudie también los méritos relativos a entrevistas personales, entrevistas por teléfono y
cuestionarios por correo como métodos de recolección de datos.
3.7 Analice los méritos relativos a utilizar entrevistas personales, entrevistas por teléfono y
cuestionarios por correo como métodos de recolección de datos para cada una de las
situaciones siguientes:
(a) Una ejecutiva de televisión quiere estimar la proporción de televidentes en el país que
están viendo su cadena a cierta hora.
(b) Un editor de periódico deseaencuestar las actitudes del público hacia el tipo de noticias
que publica su diario.
(c) El regente de una ciudad está interesadoen determinar la actitud de los casatenientes con
respecto a un cambio propuesto en la zonificación.
(d) El departamentosanitario de un municipio quiere estimar la proporción de perros que han
sido vacunados contra la rabia el año pasado.
3.8 Analice problemas asociados con el orden de las preguntas. Elabore una lista de dos o
pre• guntas para las cuales usted considera que el orden es importante y explique por qué.
3.9 Analice el uso de preguntas abiertas contra cerradas. Indique un ejemplo con una pregunta
abierta apropiada. Señale un ejemplo de cómo una pregunta similar puede ser cerrada.
Cuáles son las ventajas de las preguntas cerradas?
sao Presente un ejemplo de una pregunta que tiene una débil contraproposición. Refiera un ejemplo
de una pregunta que tenga una fuerte contraproposición.
3.11 Analice el uso de una opción de "no opinión" en una pregunta cerrada.
3.12 Exponga un ejemplo de una pregunta.que pueda forzar una respuesta en una cierta dirección
debido al uso de palabras inconvenientes.
3.13 Analice la importancia de técnicas apropiadas de manejo de datos y control de calidad en
una encuesta.
3.14 Analice la importancia de realizar una prueba piloto.
3.15 ¿Por qué la tasa de respuesta es una consideración en las encuestas?. Estudie métodos para
reducir la tasa de no respuesta.
3.16 Los entrevistados comúnmente reciben llamadas por teléfono de personas que realizan
encuestas durante las horas de la cena. Quienes planean la encuesta probablemente piensan
que muchos potenciales entrevistadosse encuentran en casa en esos momentos. Analice los
pros y contras de dicho procedimiento.
3.17 Usted ha sido contratado para estimar la proporción de republicanos registrados en su
condado que favorecen un incremento en el número de armas nucleares propiedad de
Estados Unidos. ¿Cómo planearía usted la encuesta?(Revise los once pasos de la sección
3.7, observando que los pasos 4 y 11 no puede ser contestados completamente en este
momento.)
3.18 Una encuesta de Yankelovich, Skelly y White, realizada en el otoño de 1984, mostró que un
quinto de las 2207 personas encuestadas falsearon información en su declaración del
impuesto federal al ingreso. ¿Considera usted que esta fracción es cercana a la proporción
real que ocultó información? ¿Por qué? (Analice las dificultades de obtener información
exacta sobre preguntas de este tipo.)
3.19 En una encuesta de Gallup sobre la juventud (GainesuUe Sun, febrero 13, 1985) , a 414
alumnos intermedios y avanzados se les hizo la siguiente pregunta:

¿Qué curso o materia que usted estudió en la prepartona ha sido el mejor en


preparación para una educación o carrera futuras?
En sus respuestas a esta pregunta 25% de los estudiantes eligió matemáticas y 25% eligió
inglés. ¿Considera usted que ésta es una buena pregunta con resultados informativos?
$.20 Una encuesta realizada por Group Attitudes, Inc., fue hecha para medir las actitudes de
estadounidenses hacia la universidad (Gainesville Sun, septiembre 9, 1982). La empresa
que realizó la encuesta envió cuestionarios por correo a 4200 personas en todo Estados
Unidos y recibió 1188 respuestas. Alrededor de 55% de los encuestados dijo haber tenido
grandes problemas para poder pagar la educación universitariade sus hijos. ¿Considerarla
usted esta cifra como altamente confiable y representativa de la verdadera proporción de
estadounidenses con este problema?
(¿Qué grupos de personas probablemente responderán a tales preguntas?)

MUESTREO
IRRESTRICTO
ALEATORIO
ESTUDIO DE CASO

Casi todos periódicos publican una revisión de cuando mems una encuesta de
opinión. Lm lectores alertas pueden aplicar el conocimiento de bs procedimientos
estadísticosbásicos para decidir S la información divulgada en bs artículos está res
paldada por bs datos.
encuesta de Yankelovich, Skelly y White, realizada a firES de 1984
examinó opiniones de 2207 residentes de sobre aspectos relacionados con el
impuesto federal de ingresos Sun, enero 1 5, 4985). Ic resultados mostraron que
el 54% de residentes entrevistados consideró a formularios de impuestos del
Servicio de Ingresos Escales complicados para declarasiones de impuestos. ¿Está
justificado el artículo que afirma: 'La mayoría encuentra complicado el impuesto
de ingresos"? La técnicas estadísticas explicadas en el Capítulo 4 ayudaran a
responder esta pregunta. El análisis para este caso presentará al final del capítulo

3
4 AEATCFD
4.4 INTRODUCCIÓN

El objetivo de una encuesta por muestreo es hacer una inferencia acerca de la


población con base en la información contenida en una muestra. Dos factores
afectan la cantidad de información contenida en la muestra y, por lo tanto, afectan
la precisión de nuestro procedimiento de hacer inferencias. El primero es el tamaño
de la muestra seleccionada de la población. El segundo es la cantidad de variación
en los datos; la variación frecuentemente puede ser controlada por el método de
selección de la muestra. El procedimiento para seleccionar la muestra se denomina
diseño de la encuesta por muestreo. Para un tamaño de muestra fijo, n,
consideraremos diversos diseños, o procedimientos de muestreo, para obtener las n
observaciones en la muestra. Puesto que las observaciones cuestan dinero, un
diseño que proporciona un estimador preciso del parámetro para un tamaño de
muestra fijo produce un ahorro en el costo para el experimentador. El diseño básico
o técnica de muestreo, llamado muestreo irrestricto aleatorio, se analiza en este
capitulo.

DEFINICIÓN 4.4 Si un tamaño de muestra n es seleccionado de una


población de tamaño N de tal manera que cada muestra posible de tamaño n
tiene la misma probabilidad de ser seleccionada, el procedimiento de
muestreo se denomina muestreo irrestricto aleatorio. A la muestra así
obtenida se le llama muestra irrestricta aleatoria.

Usaremos el muestreo irrestricto aleatorio para obtener estimadores de las medias,


totales y proporciones poblacionales.
Considérese el siguiente problema. Un auditor federal va a examinarlos
registros contables del hospital de una ciudad. T ns registrcx del hospital, obtenidos
de una compu-
INTRODUCCION 44

tadora, muestran un determinado total de cuentas por cobrar, y el auditor debe


verificar este total. Si existen 28 000 cuentas abiertas en el hospital, el auditor no
tiene el tiempo suficiente para examinar el registro de cada paciente ni para
obtener una cifra del total de cuentas por cobrar. Por lo tanto el auditor debe
elegir algún esquema de muestreo para obtener una muestra representativa de
los registros de los pacientes. Después de examinar las cuentas de los pacientes
en la muestra, entonces el auditor puede estimar el total de cuentas por cobrar
para todo el hospital. Si la cifra de la computadora cae dentro de un margen
especificado por la estimación del auditor, la cifra de la computadora se acepta
como válida. otra manera, se deben examinar más registros del hospital por
posibles discrepanciasentre la cifra de la computadora y los datos de la muestra.
Supóngase que todas las cuentas de los N = 28,000 pacientes son
registradas en tarjetas de computadora y un tamaño de muestra n = 100 será
seleccionado. La muestra es llamada muestra irrestricta aleatoria, si cada muestra
posible de n 100 registros tiene la misma probabilidad de ser seleccionada.
El muestreo irrestrito aleatorio forma la base de la mayoría de los diseños
de muestreo analizados en este libro, y forma la base de la mayoría de las
encuestas científicas que se realizan en la práctica. El Índice de Televisión de
Nielsen (ITN) es el servicio más ampliamente usado que existe para la medición
de la audiencia. Este se basa en una muestra aleatoria de aproximadamentemil
doscientos hogares que tienen conectado a la televisión un audiómetro de
almacenaje instantáneo. Este medidor registra si está o no funcionando la
televisión, qué canal se está viendo, y cambios de;anales. En una muestra
aleatoria adicional de familias, cada familia anota en un diario los diferentes
programas que ve. El ITN informa el número de hogaresen la audiencia y el tipo
de audiencia y el tiempo que ve televisión durante diversos periodos.
La encuesta de Gallup actualmente se inicia con una muestra aleatona de
aproximadamente 300 distritos electorales, muestreados de 200,000 distritos
electorales en Estados Unidos. Luego los hogares a entrevistarse son
seleccionadosde cada distrito por otro plan de aleatorización. H muestreo se hace
en dos etapas, pero el muestreo irrestricto aleatorio desempeña una función
clave en cada etapa.
Los auditores estudian muestrasirrestrictas aleatorias de registros contables
para comprobar la observancia de los controles de auditoría, establecidos por la
empresa, o para verificar el valor real de las cuentas en dólares. Por lo tanto, ellos
pueden desear estimar la proporción de cuentas que no concuerdan con los
controles o el valor total de, digamos, las cuentas por cobrar
Las investigacionesde mercado frecuentemente incluyen una muestra
irrestricta aleatoria de usuarios potenciales de un producto. Los investigadores
pueden desear estimar la proporción de compradores potenciales que prefieren
un cierto color de automóvil o sabor de alimento.
Un guardabosques puede estimar el volumen de madera o proporción de
árboles enfermos, seleccionando puntos geográficos en el área cubierta por el
bosque y luego asociando a cada punto una parcela de forma y tamaño fijos (tal
como un drculo de 10 metros de radio). Todos los árboles dentro de las parcelas
seleccionadas pueden ser estudiados, pero, nuevamente, el diseño básico es una
muestra irreRricta aleatoria.
H experimentador ahora se enfrenta a dos problemas: (1) ¿cómo
seleccionar la muestra irrestricta aleatoria? , y (2) ¿cómo estimar los
diversosparámetros poblacionales de interés? Estos temas se estudian en las
secciones siguientes.
42 4 MUESTREO PRESIPICTO ALEATORIO

IRRESTRICTA ALEATORIA

Seleccionar una muestra irrestricta aleatoria de la población de interés no es tan


sencillo como puede parecerlo al principio. ¿Cómo podemos seleccionar una
muestra de una población, de tal manera que cada muestra posible de tamaño n
tenga la misma probabilidad de ser seleccionada? Podemos usar nuestro criterio
para seleccionar "aleatoriamente" la muestra. Esta técnica frecuentemente se
denomina muestreo casual. Una segunda técnica, muestreo representativo,
involucra seleccionar una muestra que consideramos es típica o representativa de
la población. Tanto el muestreo representativo como el casual están sujetos al
sesgo del investigador y, lo que es más importante, conducen a estimadores
cuyas propiedades no pueden ser evaluadas. Por lo tanto, ninguna de estas
técnicas genera una muestra irrestricta aleatoria.
Muestras irrestrictas aleatorias pueden ser seleccionadas usando tablas de
números aleatorios. Una tabla de números aleatorios se muestra en la Tabla 2 del
Apéndice.
Una tabla de números aleatorios es un conjunto de enteros generado de
modo que, comúnmente, la tabla contendrá todos los diez enteros (0, 1, . . . 9),
en proporciones aproximadamente iguales, sin tendencias en el patrón en que se
generaron los dígitos. Por lo tanto, si un número es seleccionadode un punto
aleatorioen la tabla, es igualmente probable que sea cualquiera de los dígitos
entre el O y el 9.
Seleccionar números de la tabla es análogo a extraer números de un
sombrero que contiene esos números en papeletas perfectamente mezcladas.
Supóngase que deseamos una muestra irrestricta aleatoria de tres personas
seleccionadas de entre siete. Podríamos numerar a las personas del 1 al 7, poner
papeletas conteniendo estos números (un número por papeleta) dentro de un
sombrero, mezclarlas y extraer tres, para obtener los números extraídossin
reemplazo. Análogamente, podríamos apuntar con un lápiz sobre un punto
aleatorio inicial en la Tabla 2 del Apéndice. Supóngase que la punta señala la línea
15 de la columna 9 y decidimos usar el último dígito de la derecha (un 5, en este
caso). Este procedimiento es semejante al de extraer un 5 del sombrero. Ahora
podemos continuar en cualquier dirección para obtener los números restantes en
la muestra. Suponga que decidimos, antes de principiar, proseguir hacia abajo de
la página. El número inmediatamente abajo del 5 es un 2; así, nuestra segunda
persona seleccionada es la número 2. Al continuar, enseguida encontramos a un
8, pero hay solamente siete personasen nuestra población; en consecuencia, el 8
debe ser ignorado. Luego aparecen dos 5 más, pero deben omitirse, puesto que
la persona 5 ya ha sido seleccionada. (El 5 ha sido extraído del sombrero.)
Finalmente encontramos al 1 y nuestra muestra de tres se completa con las
personas numeradas como 5, 2 y 1.
Nótese que cualquier punto de inicio puede ser usado y uno puede
moverse en cualquier dirección predeterminada. Si se va a utilizar más de una
muestra en cualquier problema, cada una debe tener su propio punto de inicio.
Una ilustración más realista se presenta en el Ejemplo 4.1.

EJEMPLO 4.1

Por simplicidad, supóngase que existen N = 1000 registros de pacientes, de los


cuales será seleccionada una muestra irrestricta aleatoria de n = 20. Sabemos que
una
4.3 UNA MEDIA Y TOTAL POBLACIONALES 43

muestra irrestricta aleatoria será obtenida si cada muestra posible de n = X)


registros tiene la misma probabilidad de ser seleccionada. Los dígitos en la Tabla 2
del Apéndice, y en cualquier otra tabla de números aleatorios, son generadas para
satisfacer las condiciones del muestreo irresticto aleatorio. Determinar cuáles
registros van a ser incluidos en una muestra de tamaño n = 20.

SOLUCIÓN
Podemos considerar que las cuentas son los números 001 , 002, . . , 999, 000. Esto
es, tenemos 1000 números de tres dígitos, donde 001 representa el primer registro,
999 el registro del paciente 999 y 000 el milésimo.
Recurra a la Tabla 2 del Apéndice y utilice la primera columna; si no
tomamos en cuenta los dos últimos dígitos de cada número, vemos que el primer
número formado de tres dígitos es el 104, el segundo es el 223, el tercero es el 241,
y así sucesivamente. Tomando una muestra aleatoria de 20 dígitos, obtenemos los
núyneros que se muestran en la Tabla 4.1.

TABLA 4.1 de pacientes que serán induidos en la muestra

104 779 289 510


223 995 635 023
241 963 094 010
421 895 103 521
375 854 071 070

Si los registros están numerados, solamente seleccionamos los registros con los
números correspondientes, y estos registros representan una muestra irrestricta
aleatoria de n = 2C) de N = 1000. Si las cuentas de los pacientes no están
numeradas, podemosremitimos a una lista de las cuentas y numerar de la la. a la
loa, 23a, 70a, y así sucesivamente, hasta obtener los números deseados. Si un
número aleatorio ocurre dos veces, se omite la segunda ocurrencia y se selecciona
otro número como su reemplazo.

Previamente establecimos que el objetivo de la encuesta por muestreo es hacer


inferencias acerca de una población, a partir de la información contenida en una
muestra. Una manera de hacer inferencias es estimar ciertos parámetros de la
población, utilizando la información de la muestra. H objetivo de una encuesta por
muestreo es, frecuente mente, estimar una media poblacional, denotada por g, o un
total poblacional, denotado por T. Por lo tanto, el auditor del Ejemplo 4.1 podría
estar interesado en el valor medio en dólares de las cuentas por cobrar o la cantidad
total en dólares de esas cuentas. En consecuencia, en esta sección consideramosla
estimación de los dos pará. metros poblacionales g y T.
4 MUESTREO IRRESTRICTO A-EATCFO

Supóngase que una muestra irrestricta aleatoria de n cuentas es seleccionada,


y que vamos a estimar el valor medio por cuenta para la población total de
registros de un hospital. Intuitivamente, emplearíamos el promedio muestral,
para estimar p.
Por supuesto, un valor de revela muy poco acerca de la media poblacional ,
al menos que podamos evaluar la bondad de nuestro estimador. Por lo tanto.
además de estimar g, nos gustaría fijar un Ifmite sobre el error de estimación.
Puede demostrarse que . posee muchas propiedades deseables para estimar p . En
particular,l es un estimador insesgado de , y tiene una varianza que decrece
conforme el tamaño de muestra n se incrementa. Mís precisamente para una
muestra irrestricta aleatoria, seleccionada sin reemplazo de una población de
tamaño N,

(4.1)

Estas propiedades son formalmente derivadas en el Apéndice, pero en este punto


demostraremos que son válidas para un caso particular. Supóngase que tenemos una
población de N = 4 mediciones dadas por {1, 2, 3, 4). Si una sola observacióny es
seleccionada al azar de esta población, entonces y puede tomar cualquiera de los
cuatro valores posibles, cada uno con probabilidad Por lo tanto,

= E(y) yp(y) = Id) + 2d) +3(h +


= + 2 +3 + 4) 2.50
02 = V(y) = - = E (y -
= (1 - + (2 - 2.5)2d) +(3 - 2.5)2d) + (4 -

Ahora supóngase que seleccionamos una muestra aleatoria de tamaño n = 2


(sin reemplazo) de esta población de cuatro mediciones. Existen seis muestras
posibles, listadas como sigue:

Todas esta muestras serán igualmente probables, y en consecuencia una


probabilidad de ¿ será asignada a la ocurrencia de cualquier muestra.zas seis
medias muestrales, son, respectivamente,

1.5, 2.0, 2.5, 2.5, 3.0, 3.5

Puesto que cada una de estas medias muestrales puede ocurrir con probabilidad
de conocemos la distribución de muestreo de y
De nuestra
43

YUüOfALPOBLAClONALES 45
definición de valor esperado,

También,

2
+ (2.5 -
= (2.5)Q) = —
Recordando que para este ejemplo u2 N = 4, y n = 2, tenemok

Por lo tanto, hemos demostrado que

También se demuestra en el Apéndice que

así que la V(j) puede ser estimada insesgadamente de la muestra por

1
donde
La varianza del estimadorj es la misma que la dada en un curso
introductorio, excepto que está multiplicada un factor de corrección para ajustar
por el muestreo de una población finita. El factor de corrección toma en cuenta el
hecho de que una estimación basada en una muestran = 10 de una población de
N = 20 unidades contiene más información acerca de la población que una
muestra de n' = 10 de una población de N = 20,000.

Estimador de la media poblacional g :


4.3 Y POBLACONALES

MIJESIPEO IP2ESTRlCTO ALEATOR!O

Varianza estimada de j:

(4.3)

donde

Límite para el error de estimación:

La cantidad (N — n)/N se denomina corrección por población finita (cp0.


Nótese que este factor de corrección difiere un poco del encontrado en la varianza
verdadera de f. Cuando n permanezca relativamente pequeña con respecto al
tamaño de la población N, la cpf estará muy cercana a la unidad. En la práctica, la
cpf puede despreciarsesi (N — n)/ N 0.95 0, equivalentemente,si n (ñ)N. En tal
caso, la varianza estimada dep es la ya conocida cantidad s 2 / n .
En muchos casos el tamaño de la población no está claramente definido Q se
desconoce. Supóngase que muestras de laboratorio muy pequeñas son
seleccionadasde un depósito de gran volumen con azúcar mascabado para medir el
contenido de azúcar puro. No es claro cómo será determinado N, pero
generalmente puede suponerse bastante grande. En consecuencia, la cpf puede ser
ignorada. Si una muestra de votantes se selecciona de la población de un estado
para obtener un N preciso en aquel momento, es generalmente imposible.
Nuevamente, N se supone grande y la cpf se omite.
Para mostrar el comportamiento de los intervalos de confianza para la media,
seleccionamos 50 muestras aleatorias de tamaño n = 20 de la población con N =
100 elementos, graficada en la Figura 2.3. Un intervalo de confianza de
aproximadamente 95% fue construido para cada muestra, con los resultados que se
muestran en la Tabla 4.2. Nótese que cuatro (o sea 8%) de los intervalos
observados no cubren la media poblacional verdadera. Este resultado está bastante
cercano al valor nominal de 5%.
La Tabla 4.3 muestra los resultados de un experimento similar, extraldo de
los datos de la Figura 2.5. Aquí, solamente dos (4%) de los intervalosno cubren la
media verdadera.
Nótese que en ambos casos los intervalos de confianza varían en longitud y
posición, conforme pasamos de una muestra a otra. Recuérdese también que los
intervalos son aleatorios. En el muestreo repetido, aproximadamente el 95% de los
intervalos incluye a p,pero cualquier intervalo puede o no incluir a p.

EJEMPLO 4.2

Remítase al auditor del hospital del Ejemplo 4.1 y suponga que una muestra
aleatoria den = 200 cuentas es seleccionada del total de N = 1000. La media
muestral de las IOTA- 4

TABLA 4.2 intervalos de confiariza para N = 100 y n = 20


LCI = 52.575

56.020 1047.629 43.332 68.708


53.650 973.679 41.418 65.882
60.052 1044.769 47.381 72.722
49.350 606.324 39.697 59.002
49.082 994.433 36.721 61.444
49.038 1058.878 36.282 61.794
42.857 937.009 30.858 54.856
46.682 901.619 34.911 58.453
42.694 677.978 32.487 52.901
52.922 1086.781 39.999 65.844
47.778 926.727 35.845 59.712
48.950 705.443 38.539 59.362
52.200 1227.258 38.467 65.933
50.395 714.205 39.919 60.871
54.384 845.914 42.982 65.785
49.296 968.221 37.099 61.494
50.167 957.080 38.040 62.295
50.082 948.243 38.010 62.153
58.146 840.061 46.785 69.508
51.010 37.749 64.271
54.947 1021.469 42.418 67.476
51.596 907.564 39.787 63.405
60.053 612.693 50.350 69.756
61.360 730.304 50.767 71.954
37.612 642.730 27.674 47.550
45.641 788.646 34.632 56.640
47.266 678076 37.059 57 ,474
51.645 815.394 40.452 62.839
48.601 760.584 37.790 59.412
49.368 1003.110 36.953 61.784
52.723 874.174 41.133 64.313
4.3 Y POBLACONALES

43.005 622.081 33.228 52.782


33.760 586.996 24.262 43.257
57.683 656.446 47.639 67.726
68.100 750.229 57.363 78.837
59.298 695.199 48.962 69.634
47.474 1021.986 34.942 60.006
47.749 962.295 35.588 59.909
50.098 785.590 39.111 61.085
51.697 893.741 39.978 63.416
45.989 731.062 35.390 56.588
54.382 735.614 42.392 66.373
56.294 898.002 44.547 68.041
52.548 1333.015 38.236 66.860
53.236 1147.398 39.958 66.514
57.694 766.730 46.840 68.548
63.771 860.750 52.270 75.271
48.835 875.848 37.234 60.437
66.375 645.377 56.416 76.333
56.731 1070.385 43.906 69.556
4 МЕТЕН) lPPESIQlCTO АВКК)
ТАМ lntervalos de confianza para N = 20 у п 4.3 15
= 9.035

10.172 62.698 8.168 12.175


10.312 53.296 8.465 12.160
10.435 58.390 8.501 12.368
8.198 15.953 6:340 10.057
7,410 46.677 5.681 9.139
10,455 49.063 8.682 12.227
9.133 64.951 7.094 11.17.2
9.255 51.192 7.445 1 1.066
9.392 54.933 7.516 11.267
10.386 59.018 8.442 12.330
8.700 62.707 6.696 10.703
8Л26 46.516 6.401 9.852
8.869 53.483 7.018 10.719
9.074 58.610 7.137 11.012
7.719 52.275 5.889 9.548
7.815 49.723 6.031 9.600
54.153 6.932 10.656
8.778 53.764 6.923 10.634
11.350 50.345 9.554 13.145
8.205 55.182 6.326 10.085
8.371 56.787 6.464 10.278
9.556 57.116 7.644 11.468
9.442 58.971 7.499 11.385
7.865 53.681 6.011 9.719
9.323 67.261 7.248 11.398
9.300 48.507 7.538 1 1.062
9.400 47.895 7.667 11.133
9.738 56.042 7.844 11.632
10.100 50.812 8.297 11.904
9.540 58.265 7.608 11.471
9.204 55.947 7.311 11.096
9.057 55.205 7.177 10.937
9.514 48.569 7.750 11.277
10.533 50.279 8.738 12.327
9.076 51.918 7.252 10.899
8.159 52.775 6.321 9.997
7.453 55.096 5.575 9.331
8.323 58.580 6.386 10.260
8.704 57.380 6.787 10.620
9.146 57.078 7.234 11.057
9.301 53.757 7.446 11.156
8,908 59.789 6.951 10.864
7.418 55.680 5.530 9.306
7.335 49.494 5.555 9.115
9.601 58.002 7.674 11.528
8.175 55.629 6.288 10.063
8.634 52.570 6.799 10.468
9.200 55.837 7.310 11.091
7.136 41.977 5.496 8.775
8,032 50.013 6.243 9.822
4.3 Y POBLACIONALES 51
MEDIA TOTAL

cuentasfue = $ 94.22, y la varianza muestral es s' = 445.21. Etime g, el ponHliocle la deuda


para las 1000 cuentas clel hospital, y establezca un limite para el enor de estimación.

SOLUCIÓN
Usamos = $94.22 para estimar g. Un límite para el error de estimación puede ser
encontrado usando la Ecuación (4.4).

= $2.67
Por lo tanto estimamos que el valor medio por cuenta, g, será = $ 94.22.
Puesto que n es grande, la media muestral tendrá una distribución
aproximadamente normal, así que $ 94.22 + $ 2.67 es un intervalo de confianza
para la media poblacional de aproximadamente 95%.

EJEMPLO 4.3

Una muestra irrestricta aleatoria de n = 9 registros del hospital es seleccionada para


estimar la cantidad promedio de la deuda sobre N = 484 cuentas abiertas. Los
valores de la muestra para estos nueve registros están listados en la Tabla 4.4.
Estime g, la cantidad promedio de la deuda, y establezca un límite para el error de
estimación.

TABLA 4.4 Cantidad de dinero adeudado

Y7

SOLUCIÓN
Es conveniente presentar los datos y cálculos de la muestra como indica en la Tabla
4.5.
Al sumar las cantidades en la columna y, obtenemos

Yi = 368.00
De la columna de y , tenemos

15,332.50
50
3

33.5
0 ,122.25 32.00 t .024.00
52.00
43.00 i ,849 00
40.00 j .681
45-00 2.025.00 42 so 1.806 25

39.00

Necesitamos estas dos Cantidades para calcular y SE, Nuestra estimación de es

368 00
9

Para encontrar un límite para el error de estimación, debemos calcular

— -(15,33250 - 15.047.1 l l
= 35.67
Utilizando Ja Ecuación (4.4), obtenemos el Irmite para elzerror de estimación,

En resumen, la estimación de la cantidad media de dinero adeudada por


cuenta, u, es = $ 40.89. Aunque no podemos estar seg-utos de qué tan cerca está
de p , estamos razonablemente confiados en que e] error de estimación es menor
de $ 8.94.

Muchas encuestas por muestreo son realizadas para obtener información


acerca de un total poblacional. El auditor federal del Ejemplo 4,1 probablemente
podria escar intercsado en verificar la cifra calculada para el total de Cuencas por
Cobrar (en dólares) para las N = 1 000 cuentas abiertas.
4.3 Y POBLACIONALES 53
Usted recuerda que la media para una población de tamaño N es la suma de
to• das las observaciones en la población dividida entre N. El total poblacional —
esto es,
ESTIMACIÓN CE UNA MEDIA TOTAL

la suma de todas las observacionesen la población— se denota por el símbolo T. Por


lo tanto,

Intuitivamente, esperamos que el estimador de T sea N veces el estimador de g, el


cual lo es.

(4.5)
n

Varianza estimada de T :

(4.6)

donde

Límite para el error de estimación:


Nótese

q
ue la varianza estimada de = Ni en la Ecuación (4.6) es NP veces la varian• za
estimada de dada en la Ecuación (4.3).

EJEMPLO 4.4

Una empresa industrial está interesada en el tiempo por semana que los científicos
emplean para ciertas tareas triviales. Las hojas de control del tiempo de una
muestra aleatoria de n = 50 empleados muestran que la cantidad
promedio de tiempo empleado en esas tareas es de 10.31 horas, con una varianza
muestral de SE = 2.25. La compañia emplea N = 750 científicos. Estime el número
total de horas-hombre que se pierden por semana en las tareas insignificantes y
establezca un límite para el error de estimación.

SOLUCIÓN
Sabemos que la población consiste de N = 750 empleados, de los cuales una
muestra aleatoria de n = 50 hojas de control del tiempo fue obtenida. La cantidad
promedio de tiempo que se pierde por los 50,empleadosfue = 10.31 horas por
semana. Luego la estimación de T es
= 750(10.31) = 7732.5 horas
4.4 55
52 MUESTREO ALEATORIO

A fin de establecer un límite para el error de estimación, aplicamos la Ecuación


(4.7) para obtener

2476

Por lo tantola estimacióndel tiempo total perdido 7732.5 horas. Estamosra-


zonablemente confiados de que el error de estimación es menor que 307.4 horas.

4.4 SELECCION Da TAMANO RWSTRA


PARA LA ESTIMACIÓN DE MEDIAS Y
TOTALS POBLACIONALES

En alguna etapa del diseño de la encuesta, alguien debe tomar una decisión
acerca del tamaño de la muestra que será seleccionada de la población. Hasta
ahora hemos tratado un procedimiento de muestreo (el muestreo irrestricto
aleatorio) pero nada acerca del número de observaciones que serán incluidas en
la muestra. Las implicacionesde tal decisión son obvias. Las observaciones
cuestan dinero. Por lo tanto si la muestra es muy grande, tiempo y talento son
desperdiciados. Por el contrario, si el número de observaciones incluidas en la
muestra es muy pequeño, compramos información inadecuada por el tiempo y
esfuerzo empleado y nuevamente hemos hecho un mal gasto.
El número de observaciones necesarias para estimar una media poblacional
g con un límite para el error de estimación de magnitud B se encuentra al
establecer dos desviacionesestándar del estimador, p, igual a B y resolviendo esta
expresión para n. Esto es, debemos resolver

(4.8)
para n.
Usted recordará que la varianza estimada de F, V(ñ, esta dada por
4 PRESTRICTO

(4.9)

También(4.10)

Usted reconocerá la Ecuación (4.10) de un curso introductono como la conocida


varianza de j, esto es, a 2 /n, multiplicada por el factor
TAMAÑO CE LA

El tamaño de muestra requerido ahora puede encontrarsedespejando n de la


siguiente ecuación:

(4.11)
La solución se presenta en la Ecuación (4.12).

Tamaño de muestra requerido para estimar g con un lámite para el


error de estimación B:

donde

En una situación práctica la solución para n presenta un problema debido a


que la varianza poblacional cr2 es desconocida. Puesto que la varianza muestral
s2frecuentemente se encuentra disponible de un experimento anterior, podemos
obtener un tamaño de muestra aproximado al reemplazar por SP en la Ecuación
(4.12). Ilustraremos un método para estimar el valor de cuando se cuenta con muy
poca información anterior. Si N es grande, como comúnmente ocurre, el (N - 1 )
puede ser reemplazado por N en el denominador de la Ecuación (4.12).

EJEMPLO 4.5
La cantidad promedio de dinero para las cuentas por cobrar de un hospital debe ser
estimada. Aunque no se cuenta con datos anteriores para estimar la varianza
poblacional " 2, se sabe que la mayoría de las cuentas caen dentro de una amplitud
de variación de $100. Existen N = 1000 cuentas abiertas. Encuentreel tamaño de
4.4 57
muestra necesario para estimar y con un Ifmite para el error de estimación de B = $
$,
SOLUCIÓN
Necesitamosuna estimaciónde , la varianza poblacional. Ya que la amplitud de
variación es aproximadamente igual a 4 desviaciones estándar (4C), un cuarto de
tal amplitud proporcionará un valor aproximado de u . Por lo tanto,
rango -— 10() = 25
4
(25)2 = 625
Al usar la Ecuación (4.12), obtenemos

MUESTREO ALEATORIO

B2 (3)2
donde 2.25
4 4
1000(625)
= 217.56
999(2.25) + 625
Esto es, necesitamos aproximadamente 218 observaciones para estimar g , la media
de las cuentas por cobrar, con un límite para el error de estimación de $3.00.

De manera semejante, podemos determinar el número de observaciones


necesarias para estimar un total poblacional r, con un límite para el error de
estimación de magnitud B. El tamaño de muestra requerido se encuentra al
establecer dos desviacionesestándar del estimadorigual a B y resolviendo esta
expresión para n. Esto es, debemos resolver

o, equivalentemente,
(4.13)
[La razón para esta equivalencia está dada directamente después de la Ecuación

Tamaño de muestra requerido para un límite para error


4 PRESTRICTO

(4.14)

donde
4N2

EJEMPLO 4.6

Un investigador está interesado en estimar la ganancia en peso total en O a 4


semanas de N 1000 polluelos alimentadoscon una nueva ración. Obviamente, pesar
cada ave sería tedioso y tardado. Por lo tanto, determine el número de polluelos que
serán seleccionadosen este estudio para estimar con un límite para el error de
estimación igual a 1000 gramos. Muchos estudios similares sobre nutrición de
polluelos se han llevado a cabo en el pasado. Usando los datos de esos estudios, el
investigador encontró que la varianza poblacional, fue aproximadamente igual a
36. OOgramos. Determine el tamaño de muestra requerido.

SOLUCIÓN
Podemos obtener un tamaño de muestra aproximado usando la Ecuación (4.14) con
igual a 36.00 y
43

Esto es,

Por lo tanto, el investigador necesita pesarn = 126 polluelos para estimar T, la


ganancia en peso total en 0 a 4 semanas de N = 1000 polluelos, con un límite para
el error de estimación igual a 1000 gramos.

4.5 ESTIMACIÓN DE uu
PROPORCIÓN POBLACIONAL

El investigador que realiza una encuesta por muestreo frecuentementeestá


interesado en estimar la proporción de la población que posee una característica
específica. Por ejemplo, el líder de un congreso investigando los méritos de votar
a los 18 años de edad, puede desear estimar la proporción de votantes
potenciales en el distrito entre las edades de 18 a 21 años. Un grupo de
investigación de mercados puede estar interesado en la proporción del total de
ventas por dietas preparadas que es atribuible a un producto en particular; esto
es, ¿qué porcentaje de las ventas corresponde a un producto en particular? Un
administrador forestal puede estar interesado en la proporción de árboles con un
diámetro de 12 pulgadas o más. Las clasificacionesde televisión, frecuentemente,
son determinadas estimando la proporción de televidentes que ven un programa
en particular.
Usted reconocerá que todos estos ejemplos muestran una característica del
experimento binomial, esto es, una observación pertenece o no a la categoría de
interés. Por ejemplo, se puede estimar la proporción de votantes elegibles en un
distrito en particular, examinando los datos del censo poblacional para vanos de
los barrios dentro del distrito. Una estimaciónde la proporción de votantes entre
los 18 y 21 años de edad para todo el distrito será la fracción de votantes
potenciales de los barrios seleccionados, quienes se ubican dentro de esta
amplitud de variación de la edad.
En la siguiente explicación denotamos la proporción poblacional y su
estimador por los dmbolosp y p, respectivamente. Las propiedades de p en
4 PRESTRICTO
muestreo irrestricto aleatorio son equiparables a las de la media muestral j, si las
mediciones de la respuesta se definen como sigue: Sea y, 0 si el tüésimo elemento
seleccionado no la característica específica, y = 1 si la posee. Entonces, el
número de elementosen una muestra de tamaño n que posee una característica
específica es

Si seleccionamos una muestra irrestricta aleatoria de tamaño n, la proporción


muestral p es la fracción de elementos en la muestra que la característica de
56 A-EATCH)

interés. Por ejemplo, la estimación de la proporción de votantes elegibles entre las


edades de 18 a 21 años en cierto distrito es número de votantes seleccionados
entre las edades de 18 a 21 años número de votantes seleccionados

o bien p n

En otras palabras, F es el promedio de los valores 0 y 1 de la muestra. Asimismo,


podemos pensar en la proporción poblacional como el promedio de los valores O
y 1 de la población (esto es, p = g),

Estimador de la proporción poblacional p:

(4.15)

Varianza estimada de F:

(4.16)

donde

Límite para el error de estimación:

(4.17)
43
EJEMPLO 4.7
Una muestra irrestricta aleatoriade n = 100 estudiantes del último año de un
colegio fue seleccionada para estimar: (1) la fracción de N = 300 estudiantes del
último año que asistirán a una universidad, y (2) la fracción de estudiantes que
han tenido trabaps de tiempo parcial durante su estancia en el colegio. Sean y Xi (i
1 2 , 100) las respuestas del i•ésimo estudiante seleccionado. Estableceremos que
O si el i-ésimo estudiante no planea asistir a una institución superior, y = si lo
planea. Asimismo, sea x, = 0 si él no ha tenido alguna vez un trabajo de tiempo
parcial durante su estanciaen el colegio, y Xi = 1 si lo ha tenido. Usando los datos
de la muestra presentados en la tabla adjunta, estime p: , la proporción de
estudiantes del último año que planea asistir a una universidad y P2, la proporción
de estudiantes del último año que ha tenido un trabajo de tiempo parcial durante
sus cursos en el colegio (incluyendo los veranos).
ESTIMACIÜ\J [E- POBLACIONAL

SOLUCIÓN
Las proporciones muestrales de la Ecuación (4.15) están dadas por

15
4 PRESTRICTO
'-t

0.15 100

65
100
Los límites para los errores de estimación de pt y P2 son, respectivamente,

= 2(0.0293) = 0.059

= 2(0.0$91) 0.078
Por lo tanto, estimamos que 0.15 (15%) de los estudiantes del último año planea
asistir a una universidad, con un límite para el error de estimación igual a 0.059
(5.9%).
Estimamos que 0.65 (65%) de los estudiantes del último año ha tenido un trabajo
de tiempo parcial durante su estancia en el colegio, con un límite para el error de
estimación igual a 0.078 (7.8%).
MUESTREO

Hemos demostrado que la proporción poblacional p puede ser considerada


como el promedio (g) de los valores 0 y 1 de la población. Por lo tanto, el problema
de determinar el tamaño de muestra requerido para estimar p dentro de B unidades
será análogo al de determinar un tamaño de muestra para estimar g con un limite
para el error de estimación B. Usted recordará que el tamaño de muestra requerido
para estimar g está dado por

(4.18)

donde D = B2[4 [véase la Ecuación (4.12)]. El tamaño de muestra necesario para


estimar p puede ser encontrado al reemplazar u 2 en la Ecuación (4.18) por la cantidad

Tamaño de muestra requerido para estimar p con un límite para el


error de estimación B :
Npq
(4.19)

En una situación práctica desconocemos p. Un tamaño de muestra


aproximado puede determinarse al reemplazar p por un valor estimado.
Frecuentemente, tal estimación puede ser obtenida de encuestas anteriores
similares. Sin embargo, si no se cuenta con información anterior, podemos
substituir p = 0.5 en la Ecuación (4.19) para obtener un tamaño de muestra
conservador (uno que será probablemente mayor que el requerido).

EJEMPLO 4.8

Los dirigentes del consejo estudiantil en un colegio desean realizar una encuesta
para determinar la proporción de estudiantes que está a favor de una propuesta de
código de honor. Ya que entrevistar a N = 2000 estudiantes cn un lapso razonable
es casi imposible, determine el tamaño de muestra (número de estudiantes a
entrevistarse) necesario para estimar p con un límite para el error de estimación de
magnitud B =
0.05. Suponga que no hay información previa disponible para estimar p.

SOLUCION
4

Cuando no se cuenta con información previa, podemos aproximar los tamaños de


muestra requeridos, estableciendo p = 0.5 en la Ecuación (4.19). Tenemos que

B2 (0.05)'
= 0.000625
5 ESTIMACIÓN DE PROPORCIÓN POBLACIONAL 59

Por lo tanto, Npq

500
1.499
= 333.56
Esto es, 334 estudiantes deben ser entrevistados para estimar la proporción de
estudiantes que está a favor de una propuesta de código de honor, con un limite
para el error de estimación de B = 0.5.

EJEMPLO 4.9

Con referencia al Ejemplo 4.8, supóngase que además de estimar la proporción de


estudiantes que apoya la propuesta de código de honor, los dirigentes del consejo
estudiantil también desean estimar el número de estudiantes que considera que
la organización del consejo estudiantil funciona de acuerdo a sus necesidades.
Determine el tamaño de muestra combinado que se requiere en una encuesta
para estimar Pl, la proporción de quienes están a favor de la propuesta de código
de honor, y P2, la proporción de los que opinan que el consejo estudiantil
funciona de acuerdo con sus necesidades, con límites para los errores de
estimación de magnitud BI = 0.05 y B 0.07. Aunque no se dispone de
información anterior para estimar h, aproximadamente el 60% de los estudiantes
opinó que el consejo satisfizo adecuadamente sus necesidades en una encuesta
similar llevada a cabo el año anterior.

SOLUCIÓN
En este ejemplo debemos determinar un tamaño de muestra que nos permita
estimar Pl con un límite BI = 0.05 y con un límite B = 0.07. Primero
determinamoslos tamaños de muestra que satisfacen cada objetivo
separadamente. Luego, el mayor de los dos será el tamaño de muestra combinado
para una encuesta que satisface ambos objetivos. Del Ejemplo 4.8, el tamaño de
muestra requerido para estimar Pl con un límite para el error de estimación de BI =
0.05 fue n = 334 estudiantes. Podemos usar los datos de la encuesta del año
anterior para determinar el tamaño de muestra necesario para estimar P2.
Tenemos que

(0.07)2
= 0.001225
4 4
y, por lo tanto, con 0.60,
Npq

= 178.52
RRESTRICTO

Esto es, 179 estudiantes deben ser entrevistados para estimar p„ la proporción de
N 2000 estudiantes que considera que el consejo estudiantil satisface sus
necesidades, con un límite para el error de estimación igual a 0.07.
H tamaño de muestra requerido para lograr ambos objetivos en una
encuesta es 334, el mayor de los dos tamaños de muestra.

4.6 MUESTREO CON PROBABILIDADES


PROPORCIONALES AL TAMAÑO

H trabajo previo de este capitulo ha dependido de la muestra, siendo una


muestra irrestricta aleatoria, conforme a la Definición 4.1. Ahora mostraremos
que, variando las probabilidades con que las diversas unidades de muestreo son
seleccionadas, algunas veces resulta ventajoso. Supóngase, por ejemplo, que
deseamos estimar el número de empleos vacantes en una ciudad,
muestreandoempresas industriales dentro de ella. Normalmente, muchas de las
empresas serán muy pequeñas y emplearán a pocos obreros, mientras que
algunas empresas serán muy grandes. En una muestra irrestricta aleatoria, el
tamaño de la empresa no es tomado en cuenta, y una muestra tfpica contendrá
en su mayoría empresas pequeñas. Pero la información deseada (número de
empleos vacantes) está fuertemente influenciada por las empresas grandes. Por
4

lo tanto, podríamos mejorar la muestra irrestricta aleatoria dando a las empresas


grandes una mayor oportunidad de aparecer en la muestra. Un método para
lograr este muestreo se denomina muestreo con probabilidades proporcionales al
tamaño o muestreo ppt.
Para una muestra y, , ya, . . . , y, de una población de tamaño N, sea
= la probabilidad de que aparezca en la muestra.
Los estimadores insesgadosde T y g, junto con sus varianzas estimadas y Emites
sobre el error de estimación, son como sigue:

Estimador del total poblacional r:

(4.20)

Varianza estimada de r

(4.21)

Límite para el error de estimación:

4.6 CON PROBABILIDADES PROPORCIONALESALTAMAÑO 61

Varianza estimada de g pp

t(ôppc) - (4.24)
Límite para el error de estimación:

y
g son insesgados para cualquier selección de Ti, pero claramente el interés del
experimentadores seleccionar las Ti de tal manera que las varianzas de los
estimadores sean lo más pequeñas posibles. ¿Cómo se debe hacer esta selección?
Supóngase, por el momento, que el valor de se conoce para cada una de las N
unidades en la población. Por lo tanto, el total poblacional T también será conocido.
En estas condiciones podemos seleccionar cada unidad para la muestra con
probabilidad proporcional a su valor y, suponiendo que todas las medicionesson— o
sitivas. Esto es, podemos hacer Ti = yd r.
Con Ti = Yi/T para cada unidad muestreada, rppt será

Por lo tanto, estima exactamente a Además,

n(n — 1)

Lo que nuevamente muestra que tenemos un estimador preciso.


Ahora, antes del muestreo, es imposible conocer los valores para cada
unidad en la población. (Si fuesen conocidos, no sería necesario el muestreo.) En
consecuencia, no es posible la selección de Ti = Yi/r, pero proporciona un criterio
para seleccionar las que pueden ser usadas en el muestreo. La forma práctica de
elegir las m es seleccionarlas de manera proporcional a una medida conocida que
esté altamente correlacionadacon y,. En el problema de estimar el número total de
empleos vacantes, las empresas pueden ser seleccionadas con probabilidades
proporcionales a su fuerza de trabajo total, que debe conocida con exactitud antes
de seleccionar la
VILESTQEO PPESTPCTC A-E,ATCFK)

muestra. El número de empleos vacantes por empresa se desconoce antes del


muestreo, pero estará altamente correlacionado con el número total de obreros en
la empresa. Veremos una aplicación muy útil del muestreo ppt en el Capítulo 8.
Para ilustrar numéricamente cómo trabaja el muestreo ppt, regresaremos a la
población de N = 4 elementos, {1, 2, 3, 4}. Recuérdese que para una muestra
irrestricta aleatoria de tamaño n = = 2.5 y ñ=0.417. Supóngaseque decidimos
seleccionar n = 2 elementos con probabilidades diferentes y seleccionar 0.1,
0.1, T3 = 0.4 y T4 = 0.4. Para realizar este muestreo, podemos seleccionar un
dígito aleatorio de la tabla de números aleatorios y tomar como nuestro primer
elemento muestreado

1 si el dígito aleatorio es Q
2 si el dígito aleatorio es 1,
3 si el dígito aleatorio es 2, 3, 4 0 5, 4 si el dígito aleatorio es 6, 7, 8 0
9.
4

Luego el proceso se repite para el segundo elemento muestreado. (Nótese que un


mismo elemento puede ser seleccionado dos veces, lo cual no es posible en el
muestreo irrestricto-aleatorio.) Esta selección de Tl, T2, 773 y confiere a los
valoresmás pequeños en la población, (1, 2), la probabilidad más pequeña de ser
incluidos en la muestra, y los valores más grandes, (3, 4), tienen apreciablemente
una probabilidad mayor de ser incluidos. Nótese que estas probabilidades no son
exactamente proporcionales al tamaño, pero tienden hacia esa dirección.
La tabla 4.6 contiene una lista de las 10 muestras posibles, la probabilidad de
obtener cada muestra, y la estimación T producida por cada muestra. La muestra

TABLA 4.6 Muestreo con probabilidadesdiferentes[muestrasde tamaño n = 2 de {1, 2, 3, 4}


con

1.00

{l , 2} resultará si nuestro primer dígito aleatorio es un O y nuestro segundo dígito


aleatorio es un 1. Entonces, el valor de , según la Ecuación (4.20), será:
4.6 .63

1 2
2 0.1 0.1

En-la Tabla 4.6, vemos que


EGppt) = 15(0.02) + +
Y de esta manera queda demostrado que Tppt es un estimador insesgadode T.
También, vGppt) = (15 - • + (10 - = 6.250
Si usamos el muestreo irrestricto aleatorio con n = 2, nuestro estimador NI de r
tendrá una vananza calculada como sigue:
V(NÑ) N2 = 6.672
la cual es mayor que la V(F La reducción proporcidnalenla varianza, usando un
estimador ppt, sería mayor si las mediciones poblacionales tuvieran más
variabilidad y si las estuviesen más próximas a ser verdaderamente proporcionales
al tamaño de las mediciones poblacionales.
El muestreo con probabilidades diferentes disminuirá la varianza de un estima
dor, permitiendo por lo tanto estimacionesmás precisas, si las probabilidades son
proporcionales, o aproximadamente proporcionales, al tamaño de las mediciones
seleccionadas. Sin embargo, si las probabilidades se seleccionan en forma
incorrecta, entonces r y g pueden tener una varianza mayor que la correspondiente a
T y a de un muestreo irrestricto aleatorio. Supóngase, por ejemplo, que en las
muestras de tamaño n = 2 de {1, 2, 3, 4}, seleccionamos = 72—0.4 y = 0.1.
Entonces T aún es un estimador insesgado de r, pero la ) = 81.25. En este caso, Tppt
es un estimador mucho más deficiente que el T de un muestreo irrestricto aleatorio.
En resumen, el muestreo ppt involucra un muestreo con reemplazo, lo cual
significa que una unidad de muestreo no es eliminada de la población después de
ser seleccionada para la muestra. Por lo tanto, una unidad de muestreo puede ser
seleccionada más de una vez. Una selección repetida usualmente es indeseable,
pero no ocurrirá frecuentementesi n/N es pequeña. Además, esta
característicaindeseable frecuentemente queda más que compensada por la
reducción en la varianza que puede ocurrir. Los estimadores ppt de r y solamente
producen varianzas más pequeñas si las probabilidades Ti son proporcionales, o
aproximadamente proporcionales, al tamaño de las que se investigan.
Ilustraremos el uso práctico de los estimadores ppt el Ejemplo 4.10.

EJEMPLO 4.40

Un investigador desea estimar el número promedio de defectos por tablero que


contienen componentes electrónicos, fabricados para la instalaciónen
computadoras. Los tableros contienen un número diferente de componentes, y el
investigador considera que el número de defectos debe estar positivamente
correlacionado con el número de componentes en un tablero. Por lo tanto, se
utilizará un muestreo ppt, siendo la pro-
70 4
MUESTREO IRRESTRICTO A-EATOO

babilidad de seleccionar cualquier tablero para la muestra, proporcional al número


de componentes en el tablero. Una muestra de n = 4 tableros será seleccionada de
N = 10 tableros de la producción de un día. El número de componentes en los 10
tableros son, respectivamente,

10, 12, 22, 8, 16, 24, 9, 10, 8, 31

Muestre cómo seleccionar n = 4 tableros con probabilidadesproporcionalesal tamaño.

SOLUCIÓN
Listamos el número de componentes (nuestra medida del tamaño) en una columna, y
los intervalos acumulados y las Ti deseadas en columnas adyacentes, como
sigue:

10
10/150
2 12 11-22 12/150
3 22 23-44 22/150
4 8 45-52 8/150
5 16 53-68 16/150
6 24 69-92 24/150
7 9 93-101 9/150
8 10 102-111 10/150
9 8 112-119 8/150
10 31 120-150 31/150

Hay 150 componentesen la población que será muestreada. Podemos considerar


que estos componentesestán numerados del 1 al 150. La columna del intervalo
acumulado registra los componentes numerados en cada tablero. El tablero número
I tiene los 10 primeros componentes, el tablero número 2 tiene los componentes
del 11 al 22, y así
sucesivamente.
Las son simplemente el número de componentes por tablero, dividido entre el
número total de componentes. tableros con mayor número de componentes tienen
mayores probabilidades de selección.
Para seleccionarla muestra de n = 4 tableros, acudimos a la tabla de números
aleatorios y seleccionamoscuatro números aleatorios entre el 1 y el 150. Los
números que seleccionamos fueron 14, 56, 94, y 25. Localizamosestos números en
la columna del intervalo acumulado. Los tableros correspondientesa esos intervalos
constituyen la muestra.
71
Puesto que el 14 cae en el intervalo del tablero 2, éste entra a la muestra.
Asimismo, el 56 cae en el intervalo del tablero 5, el 94 cae en el intervalo del
tablero 7, y el 25 cae en el intervalo del tablero S. Por lo tanto, la muestra consiste
de los tableros 2, 3, 5 y 7. Estos tableros han sido seleccionados con probabilidades
proporcionales al número de sus componentes. Nótese que con este método
podríamos haber seleccionado un tablero en particular más de una vez

46 MUESTREO CON TAMAÑO

EJEMPLO 4.14
Después de que el muestreo del Ejemplo 4.10 fue completado, el número de
defectos encontrados en los tableros 2, S, 5 y 7 fueron, respectivamente, 1, S, 2 y 1.
Estime el número promedio de defectos por tablero, y establezca un límite para el
error de estimaclón.

SOLUCIÓN
estimada por

la Ecuación (4.23) la media


donde n =

74= 1
12 22 16 9
1 so ISO'
Por lo tanto,

También, de la Ecuación (4.24)


2
ü(fi
2

3050)
+ - 17.10
22
72 4
150 2
17.10
9
= 0.0295

La estimación del número promedio de defectos por tablero, con un límite para el
error de estimación, es entonces,
1.71 ± 0.34
H intervalo (1.37, 2.05) proporciona un intervalo de confianza de aproximadamente
95% para el número promedio de defectos por tablero.
A-EATCFD

4.7 RESUMEN

H objetivo de la estadística es hacer inferencias acerca de una población con base


en la información contenida en una muestra. L)os factores afectan la cantidad de
información en una investigación dada. H primero es el tamaño de la muestra.
Mientras más grande sea el tamano de muestra, mayor será la información que
esperamos obtener acerca de la población. El segundo factor que afecta la
cantidad de información es la magnitud de variación en los datos. La variación
puede ser controlada mediante el diseño de la encuesta por muestreo, esto es, el
método por medio del cual se obtienen las observaciones.
En este capítulo se trató el tipo más simple de diseños de encuesta por
muestreo, el muestreo irrestricto aleatorio. Este diseño no intenta reducir el efecto
de la variación sobre el error de estimación. Una muestra irrestricta aleatoria de
tamaño n ocurre si cada muestra de n elementos de la población tiene la misma
probabilidad de ser seleccionada. Las tablas de números aleatorios son útiles para
determinar los elementos que serán incluidos en una muestra aleatoria simple.
En la estimación de una media y un total T, poblacionales, usamos la media
muestral y el total NP, respectivamente. Ambos estimadores son insesgados; esto
es, g Y E(NF) = T. La varianza estimada yel límite para el error de estimación
estan dados para ambos estimadores.
En alguna etapa durante el diseño de una encuesta, el experimentador debe
decidir cuánta información se desea, esto es, en qué magnitud puede tolerarse un
Ifmite para el error de estimación. Las necesidades de tamaño de muestra fueron
presentadas para estimar g y T con un Emite para el error de estimación
específico.
El tercer parámetro estimado fue la proporción poblacional p. Las
propiedades de p fueron presentadas y relacionadas con las propiedades de j, el
73
estimador de la media poblacional p. La selección del tamaño de muestra para
estimar p con un limite específico para el error de estimación se basó en el mismo
principio empleado para la selección de un tamaño de muestra para estimar y T.
Si las mediciones de la población varían considerablemente en tamaño, ysi
alguna medida aproximada de este tamaño está disponible antes del muestreo,
entonces el muestreo con probabilidades proporcionales al tamaño puede ser
ventajoso. Este método produce estimadores insesgados de y 7, los cuales pueden
tener una varianza mucho menor que las de aquellos generados a través del
muestreo irrestricto aleatorio.

ANÁLISIS Da ESTUDIO
DE CASO
LA BUJESTA SIF

la encuesta de opinión presentada al principio de este

capítulo, el 54% de 2207 personas entrevistadas opinó que hs formas del SIF no.'
complicadas.l-ka estimación de la proporción poblacional que considera formas
complicadas encontró usando

EEFCICOS
al que el tarnanode la población Na grande Con = 0.54. la porción

muestral observada, 2207


0.54 ±0.02
0.52 a 0.56
como nue<ra de la proporción poblacional b tanto; podernos conque la
mayoría de contrtllyentes realmente encuentran a del SIF
complicadas.

4.1 2 quepuedenseleccionar-

Liste todas las posiY• muestras irrestrictas aleatorias de tamaño n se de la población {O,
74 4
1, 2, 3, 4). Calculela T2 de la población yla V(Í) de la media muestral Luego, demuestre
por cálculos directos que

4.2 Para las muestras irrestnctas aleatorias generadas en el Ejercicio 1 , calcule la s2 de cada
muestra. Demuestre numéricamente que

E(s2) = —1—cr2

4.3 Suponga que usted va a estimar el número de conglomerados de maleza de cierto tipo en un
campo. ¿Cuál es la población, y qué usaría como unidades de muestreo? (Cómo
construiría un marco? (Cómo seleccionaría una muestra aleatoria?Si la unidad de
es un área, tal como una yarda cuadrada, ¿afecta el tamaño seleccionado para la unidad
de muestrm a la precisión de los resultados?¿Qué consideraciones tomaría en cuenta su
elección del tamaño de la unidad de muestreo?
4.4 El conjunto de datosen el Apéndice (Tabla 3) lista las cifras de la población de residentes por es
tado, según el censo de 1980. Seleccione una muestra irrestricta aleatoria de cinco
estados. Use las cifras de la población de 1980, de los estados seleccionados para estimar
la población total de Estados Unidos, y establezca un límite para el error de estimación.
{ Incluyesu intervalo obtenido la cifra de la población total dada en la tabla? (Considera
usted que cualquier intervalode confianza de 95%, basado en muestras de tamaño 5,
incluiría al total verdadero? ¿Por qué?
4.5 Las autoridades de un parque estatal están interesadas en la proporción de personas que
acampan y que consideran que el espacio del área disponible para acampar en un terreno
en particular es adecuado. Las autoridades decidieron tomar una muestra irrestricta
aleatoria de n 30 de los primerosN = 300 acampadosque visitan el campo. Sea y, O si el
jefe del i-ésimo grupo muestreadoconsidera que el espacio del área disponible para
acampar no es adecuado, y y, = 1 si consideraque es adecuado{t 30). Use los
&tosde la tabla adjunta para timarp. la proporción de personas que acampan y que
consideran que el espacio del área nible para acampar es adecuado. Establezca un
límite para el error de etimación.
MUESTREO RRESTRICTO

Per"na muatrada
Rapuata , Yi

1 1
2
3
29 1
30 1
75

4.6 Use los datos del Ejercicio 4.5 para determinar el tamaño de muestra requerido para
estimar p con un límite para el error de estimación de magnitud B 0.05.
4.7 Una muestra irrestricta aleatona de n = 100 medidores de agua es controlada dentro de una
comunidad para estimar el promedio de consumo de agua diario por casa, durante un
periodo estacional seco. La media y la varianza muestrales fueron - —- 12.5ys e -— 1252.
Si suponemos que hay N = 10,000 casas dentro de la comunidad, estime g, el promedio de
consumo diario verdadero, y establezca un Ifmite para el error de estimación.
48 Usando los datos del Ejercicio 4.7, estime el número total de galones de agua, r, usado
diariamente durante el periodo seco. Establezca un Iñmite para el error de estimación.
49 Los encargados de administrar los recursos de los terrenos dedicados a la caza silvestre
están interesados en el tamaño de las poblaciones de venado y de conejo en los meses de
invierno en un bosque en particular. Como una estimación del tamaño de la población, los
administradores proponen usar el número promedio de grupos densos de conejos y de
venados por parcelas de pies por lado. De acuerdo con una fotografa aérea, el bosque
fue dividido en N = 10,000 cuadros de pies por lado. Una muestra irrestricta aleatoria de n
= 500 parcelas fue seleccionada, y se observóel número de grupos densos de conejos y de
venados. Los resultadosde este estudio se resumen en la tabla adjunta. Estime gt y g2, el
número promedio de grupos densos de venados y de conejos, respectivamente, por
parcelas de pies por lado. Etablezca los límites para los errores de estimación.

Media muestra] = 2.80 Media muestra] = 4.52


Varianza muestral 0.65 Varianza muestra] 0.97

4.10 Una muestra irrestricta aleatoria de n 40 estudiantes de un colegio fue entrevistada para
determinar la proporción de estudiantes que está a favor del cambio del sistema emestral
al trimestral. Veinticinco de los estudiantes respondieron afirmativamente. Estime la
proporción de estudiantes del colegio que está a favor del cambio (suponga que N 2000).
Establezca un Ilmite para el error de estimación.
4.11 Un dentista está interesadoen la efectividadde una nueva pasta dental. Un grupo de N =
1000 niñosde escuela participó en el estudio. Los registrosde un estudio anterior
mostraron que habfa un promedio de 2.2 caries cada seis meses para el grupo. Después de
tres meses de iniciado el estudio, el dentista muestreón = IO niños para determinar cuánto
hablan progresado con la nueva pasta dental. Usando los datos de la tabla adjunta,
estimeel número medio de caries para todo el grupo, y establezca un limite para el error de
estimación.
EJERCICIOS
Número caria en
Niño el Irri«lo de tre mu
76 4
2 4
3 2
4 3
5
5 2
7 3
8 4

4.12 El Departamento de Caza y Pesca de cierto estado está interesado en la dirección de sus
programas futuros de caza. Para mantener un potencial mayor de caza futura, el
departamento desea determinar la proporción de cazadores que buscan cualquier tipo de
ave de caza. Se obtuvo una muestra irrestricta aleatoria de n 1000 de los N = 99,000
cazadores con permiso. Suponga que 430 indicaron que cazaron aves. Estime p , la
proporción de cazadorescon permiso que buscan aves de caza. Establezca un límite para el
error de estimación.
4.13 Usando los datos del Ejercicio 4.12, determine el tamaño de muestra que el
Departamentodebe obtener para estimar la proporción de cazadores de aves de caza, dado
un límite para el error de estimación de magnitud B = 0.02.
414 El auditor de una compañía está interesado en estimar el número total de comprobantes de
viáticos que fueron archivados incorrectamente. En una muestra irrestricta aleatoria de N =
50 comprobantes tomados de un grupo de N = 250, 20 fueron archivados incorrectamente.
Estime el número total de comprobantes archivados incorrectamentede los N = 250, V
establezca un límite para el error de estimación. [Sugerencia: Si p es la proporción
poblacional de comprobantes archivados incorrectamente, entonces Np es el número total
de comprobantes archivados incorrectamente. Un estimador de Np es NF, el cual tiene una
varianza estimada dada por N2Ü(F).]
4.15 Un psicólogo desea estimar el tiempo de reacción promedio para un estímulo entre 200
pacientes de un hospital especializado en transtornos nerviosos. Una muestra irrestricta
aleatoria de n = 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción,
con los resultados siguientes j = 2. I segundos s = O.4 segundos
Estime la media poblacional g, y establezca un límite para el error de estimación.
4.16 En el Ejercicio 4.15, ¿de qué tamaño deberá ser la muestra para estimar con un límite para el
error de estimación de 1 segundo?Use 1.0 segundos como una aproximaciónde la
desviación estándar poblacional.
4.17 un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para
estimar la proporción de hogares donde habita cuando menos una persona mayor de 65
años de edad. La ciudad tiene 621 hogares, según el directorio telefónico más reciente.
Una muestra irrestricta aleatoria de n 60 hogares fue seleccionadadel directorio. Al
terminarla investigación de campo, de los 60 hogares muestreados, en 1 1 habita cuando
77
menos una persona mayor de 65 años de edad. Estime la proporción poblacional p, y
establezca un límite para el error de estimación.
4.18 El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador
para terminar una tarea sencilla. El taller tiene 98 operadora. Se seleccionaron aleato•
IRRESTRICTO ALEATORIO

riamente a ocho operadores y les tomó el tiempo. Lm resultados obtenidosse muestran en la


tabla adjunta. Estime el tiempo promedio para terminar la tarea entre todos los operadores,
y establezca un Ifmite para el error de estimación.

Tiempo (en minu.)


5.3
5.1 4.6
7.9
3.8 4.1

4.19 En el Ejercicio 4.18, ¿de qué tamaño deberá ser la muestra para estimar p con un límite
para el error de estimación de 0.08? Suponga que la proporción verdadera p es
aproximadamente 0.2.
4.20 Un investigador está interesado en estimar el número total de "árboles marcados" (árboles más
grandes que cierto tamaño específico) en una plantación de N 1500 acres. Esta información
utiliza para estimar el volumen total de madera aserrada para los árboles en la plantación.
Una muestra irrestricta aleatoria de n = 100 parcelas de 1 acre fue seleccionada, y cada
parcela fue examinada en relación con el número de árboles marcados. H promedio
muestral para las n = 100 parcelas de 1 acre fue = 25.2, con una varianza muestral de s2 =
136. Estime el número total de árboles marcados en la plantación. Establezca un límite para
el error de estimación.
4.21 Usando los resultados de la encuesta descrita en el Ejercicio 4.20, determine el tamaño de
muestra requerido para estimar r, el número total de árboles en la plantación, con un límite
para el error de estimación de magnitud B = 1500.
4.22 Una gran empresa constructora tiene 120 casas en diversas etapas de terminación. Para estimar
la cantidad total de dólares que será registrada en el inventario de la construcción en
proceso, se seleccionó una muestra irrestncta aleatoria de 12 de esas casas y se
determinaron los costos acumulados en cada una de ellas Suponga que los costos obtenidos
para las 12 casas de la muestra fueron los siguientes:
35,500 30,200 28,900
36,400 29,800 34,100
32,600 26,400 38,000
38,200 32,200 27,500
Estime los costos totales acumulados para las 120 casas, y establezca un límite para el error
de estimación.
4.23 los datos de la Tabla S en el Apéndice, seleccione una muestra irrestricta aleatoria simple de n
= IO estados. Estime la proporción de estados con el ingreso por persona de 1977 que estén
abajo de $ 5500, y establezca un límite para el error de estimación.
78 4
4.24 Los resultados de una encuesta de opinión pública, reportados en una revista (Time, Enero 2,
1984), mostraron que el 51% de los entrevistados coinciden completamente con la
siguiente declaración:
Los soviéticos están tan temerosos de una guerra nuclear como los
estadounidenses, y por lo tanto el interés mutuo encontrar formas para negociar.
El anfculo establece que "10s resultados están basados en una encuesta por teléfono de
1000 votantes registrados . . . H error de muestreo potencial es de más o menos 3 " ¿Cómo
se calculó y cuál es la interpretación del 3 % ? ¿Podemos concluir que la mayoría de los
votantes registrados coinciden completamente con la declaración ?
4.24 La encuesta de Florida de febrero-marzode 1984 (Gamestalle Sun, abril 1, 1984) entrevistó a
871 adultos de todo el estado. En una pregunta, el 53% de los entrevistados favoreció fuerte
EJEFCCOS
mente el apoyo a Israel. ¿Podrfa usted concluir que la mayoría de los adultos en Florida
favorecen el apoyo decidido a Israel?
4.26 Los resultados de una encuesta de Louis Harris establecen que el 36% de los estadounidenses
registra al fútbol como su deporte favorito. Un artfculo establece: "Con una muestra de
este tamaño (1091 adultos) se puede decir con 95% de seguridad que los resultados están
dentro de más o menos 3% de lo que estarían, si la población completa de adultos hubiera
sido encuestada" (Gainestille Sun, mayo 7, 1961). ¿Etá usted de acuerdo?
4.27 La Compañía Nielsen, A. C. , ha instalado monitores electrónicosen los aparatos de televisión
de aproximadamente 1200 de los 80 millones de hogares estadounidenses. Los datos
obtenidos de los monitores registran estimaciones de la proporción de hogares que
sintonizaron un programa de T V en particular. Nielsen presenta la siguiente justificación
para este tamaño de muestra (D. Cody, "Poll and Pollsters", Sky, octubre de 1982, p. 116):
Mezcle 70,000 frijoles blancos y 30,000 frijoles rojos y luego extraiga una
muestra de 1000 frijoles. Las probabilidades matemáticas son de que el número de
frijoles rojos estará entre 270 y 330, o sea de 27 a 30% de la muestra, lo que
corresponde a una "cla sificación" de 30, más o menos tres, con una certeza de 20
a 1 de confiabilidad estadística. La regla estadística básica no cambiaría si el
muestreo proviniera de 80 millones de frijoles en lugar de 100,000.
Interprete y justifique esta declaración en términos de los resultados de este capftulo.
4.28 En una encuesta de opinión se interrogó a 1684 adultos en todo Estados Unidos (Gainestille
Sun, julio 4, 1983). En la encuesta se reportó tener un 6% de margen de error para los
resultadosreferentes a las proporciones de entrevistados que favorecen ciertas decisiones. ¿Etá
usted de acuerdo?
429 Un auditor detecta que cierta empresa regularmenteexagera las cantidadesde dinero en dólares
de los inventarios, a causa de los retrasos en el registro de las retiros. H auditor quiere
estimar la cantidad total exagerada sobre 1000 artículos listados, obteniendolas
cantidadesexactas (revisadas) del inventario mediante una muestra irrestricta aleatoria de
15 artículos, y comparando estas cifras exactas con las cantidades registradas. Los datos
para los artículos seleccionados se muestran en la tabla respectiva (todos los datos en
dólares). Estime la cantidad total exagerada sobre los 1000 tipos de artículos, y establezca
un Ifmite para el error de estimación. (Omita la cpf )

Artículo Cantidad Cantidad Exageración namero (diferencia)


79
175 210 35

2 295 305 10
3 68 91 23
4 74 82 8
5 128 12
6 241 250 9
7 362 384 22
8 72 80 8
9 59 82 23
10 112 140 28
11 118 124 6
12 210 230 20
13 240 260 20
14 123 247 24
15 96 108 12
4

PRESTPICTC

4.30 Un auditor muestrea aleatoriamente 20 cuentas por cobrar de las 500 cuentas de una
empresa. El auditor lista la cantidad de cada cuenta y verifica si los documentos respectivos
cumplen con los procedimientos establecidos. Los datos son como sigue (cantidades en
dólares, Y = si, N = no):

Ctrnta Cantidad (ilenta Cantidad

1 278 11 188
2 192 12 212
3 13 92
94
4 14 56
86 142
5 15
335 37
16
7 310 186
290
17
8 221 18 221
9 19 219
168
10 20 305
Estime el total de cuentas por cobrar para las 500 cuentas de la empresa, y establezca un
límite para el error de estimación. ¿Considera usted que el Promedio de las cuentas por
cobrar de la empresa excede de $250? ¿Por qué?
4.31 Remftase al Ejercicio 4.30. Con los datos referentes a la concordancia, estime la proporción de
las cuentas de la empresa que no cumplen con los procedimientos establecidos. Establezca
un límite para el error de estimación. { Considera usted que la proporción de cuentas que
cumplen con los procedimientos establecidos excede del 80%? ¿Por qué?
4.32 Remítase al Ejercicio 4.30. Suponga ahora que las 20 cuentas dadas representan una
población de la cual n = 5 cuentas serán seleccionadas para una investigación más detallada.
(El cuentahabiente será entrevistado para verificar las cantidades.) Seleccione una muestra
de 5 cuentas con probabilidades proporcionales a las cantidades.
4.33 El departamento de agricultura de un estado quiere medir la producción total de tomates para
una muestra de campos sembrados, con el propósito de estimar la producción total de
tomate para el estado. Analice los méritos del muestreo irrestricto aleatorio comparado con
el muestreo
con probabilidades proporcionales al tamaño.
4.34 Remítase a las cifras de la población de Estados Unidos dadas en la Tabla 3 del Apéndice.
nueve estados del noreste, seleccione una muestra de cuatro estados con probabilidades
proporcionales a los tamaños de su población total en 1970. ¿Es este procedimiento un
esquema dp muestreo apropiado para estimar el total de desempleoen el Noreste este
procedimiento un esquema de muestreo apropiado para estimar acres de terreno forestal?
4.35 Para los n = 4 estados seleccionadosen el Ejercici04.34, registrelos tamaños desu población en
1980, según la Tabla 3 del Apéndice. Use estos datos para estimar la población total en
1980 de los estados del noreste, y establezca un límite para el error de estimación. ¿Etá el
total que se indica en la tabla incluido en su estimación por intervalo? {Considera usted
que este método de muestreo es mor que seleccionar una muestra irrestricta aleatoria de
cuatro estados con fines de estimar la población total? ¿Por qué?
4.36 La tabla adjunta muestra gastos de consumo personal en Estados Unidos para una selección de
bienes y servicios(en miles de millones de dólares). Seleccione una muestra de tres
categoríascon probabilidades proporcionales a los gastos de 1981. Utilice para las
categorías muestreadas datos de 1982 para estimar el gasto total por las nueve
categoríasen 1982. Establezca un límite para el error de estimación.
13

101 Vehículos automotores


109,9
Nluebles y enseres domésticos 93.3 93.5
Alimentos 375.9 396.9
Ropa i 15.3 119,0
Gasolina y aceite 94.6 91.5
Combustible y carbón 20.7 20.0
Vivienda 302.0 334.1
Funcionamiento de la vivienda 128.4 144
Transporte 65.5 68.4
Fuente: The World Almanac Book of Facts, 1984 edition, copyright@
NewspaFr Enterprise Azociation, Inc., 1983, New York, N Y 10166.

4.37 Un estudio para evaluar las actitudes de los contadores, respecto a la publicidad de sus
Ervicios, incluyó el envío de cuestionarios a 200 contadores seleccionadosde una lista de
1.400 nombres. Un total de 82 cuestionarios debidamente contestados fueron devueltos. El
resumen de los datos para una pregunta es como sigue:

Probabilidad de publicidad en el fututo [0/0]

Certeza virtual 22 35
Muy probable 4
Poco probable 19 35
Alrededor de 50-50 18 15
Poco improbable 6 10
Muy
improbable
No absoluto
No respuesta

Fuente: K. Tr$nor, "Accountant Advertising: Perceptions, Attitudes and


ofAdvertúing Research, vol. 23 no. 6, 1984 @ Copyright
1984, by the AdvertiJing Research Foundation.

(a) Estime la proporción poblacional de certeza virtual para hacer publicidad nuevamente.
(b) Estime la proporción poblacional de tener al menos una probab dadde 50-50 de hacer
publicidad nuevamente.
(c) Entre aquellos con publicidaden el pasado, estimela proporciónpoblacionalde ser
pocoimprobable el hacer publicidad nuevamente.
(d) Entre aquellos con publicidad en el pasado, estime la proporción poblacional de tener al
menos una probabilidad de 50-50 de hacer publicidad nuevamente.
En todos los casos establezca un límite para el error de estimación. ¿Las partes (c) y (d)
requieren de más suposiciones de las que se hacen para las partes (a) y (b)?
4.38 Una empresa de investigación de mercados estima la proporción de clientes potencialesque
prefiere cierta marca de lápiz labial, mediante la selección " aleatoria" de 100 mujeres que
74 4 VUESTPEO RPESTRICTO ALEATCRO

su puesto de ventas en un centro comercial. las 100 mujeres seleccionadas, 65 de ellas


mani festaron tener preferencia por la marca A.
(a) (Cómo estimaría usted la proporción verdadera de mujeres que prefiere la marca A, con
un límite para el error de estimación?
(b) ¿Cuál es la población objetivo en este estudio?
(c) ¿Seleccionó la empresa de investigación. de mercados una muestra irrestrica aleatoria?
(d) (Qué otros problemas ve usted con este tipo de muestreo?
4.39 Se está formulando un caso legal para un sindicatode secretarias, quienes alegan que sus
patrones les están pagando salarios injustamente bajos. Las 64 secretariasen la empresa
tienen un salario promedio anual de $ 18,300, con una desviación estándar de $400. El
salario promedio para todas las secretariasen la ciudad en que se localiza la empresa de
$20,100. (Puede usted sustentar el alegato de las secretarias mediante argumentos
estadísticos?Si es así, plantee ciudado• sarnente estos argumentos y las premisas que los
fundamentan.
4.40 La Comisión para la Igualdad de Oportunidades de Empleo acusa a una empresa de
transgredir las normas para el contrato de minoritarios, puesto que de sus 120
empleados solamente 30 no son blancos. Se sabe que en el área de mercado laboral para
esa empresa, el 36% de los empleados disponibles son no blancos. (Puede usted
sostenerla acusación de la CIOE con fundamentos estadísticos?Plantee sus argumentos
en favor o en contra de la acusación, con cuidadosa atención a las suposiciones.

4.1 La Tabla 4.7 lista algunas de las estadísticas finales para la temporada 1982-1983 de la Aso
ciación Nacional de Basquetbol. Use estos datos para completar los ejercicios siguientes:
(a) Seleccione una muestra irrestricta aleatoria den = 5 equipos de los,N 23 equiposlistados.
los puntos anotados por los 5 equipos muestreados para estimar el número
promedio de puntos anotados por equipo y el número total de puntos anotados en la
temporada por todos los equipos. En cada caso establezca un límite para el error de
estimación. (Incluye su estimación por intervalo, para el total de puntos anotados, al
total verdadero?
(b) En papel cuadriculado, grafique el número de puntos anotados contra el número de
parti- dos ganados para cada uno de los 23 equipos. (Parece existir una gran
correlación positiva entre estas dos mediciones?Suponga que una muestra de n = 5
equipos es seleccionada con probabilidades proporcionales al número de partidos
ganados, y que esta muestra es usada para estimar el número total de puntos
anotados en la asociación. (Considera usted que la vananza de este estimador será
más grande o más pequeña que la vananza del estimador del total de puntos
anotados usado en el inciso (a)? (Por qué?
(c) Grafique el número de partidos ganados contra el número de rechazos para cada uno de
kx; 43 equipos. (Parece existir una correlación positiva entre estas dos mediciones?
(d) Seleccione una muestra de n = 4 equipos con probabilidades proporcionales al número
de partidos ganados. Use el número de rechazos de estos cuatro equipos para estimar el
número promedio de rechazos por equipo en la asociación. Establezca un límite para el
error de estimaclón.
Identifique un problema en su área de interés del cual pueda usted extraer una muestra
irrestricta aleatoria para estimar una media, un total o una proporción poblacionales. Defina
claramente la población, las unidades de muestreo, y construya un marco. Seleccione una
muestra irreãricta aleatoria del marco, usando la tabla de números aleatorios en el
Apéndice. Luego recolecte datos y efectúe los cálculos necesarios.
co.' DATOS REALES

la de Bosquetõoi

TM.A4.7
División del Atlántico
Philadelphia 65 17 9,191 8,562 3,920
Boston 56 26 9,191 8,752 3,805
New Jersey 49 33 8,672 8,445 3,693
New York 38 8,198 7,979 3,343
Washington 42 40 8,134 8.145 3.529
División del Centro
Milwaukee 51 31 8,740 8,379 3,572
Atlanta 43 39 8,335 8,413 3,572
Detroit 37 45 9,239 9,272 3,789
Chicago 28 54 9,102 9,403 3,794
Cleveland 23 59 7,964 8,574 3,587
Indiana 20 62 8,911 9.391 3,593
División del Medio Oeste
San Antonio 53 29 9,375 9,075 3,831
Denver 45 37 10,105 10,054 3,738
Kansas City 45 37 9,328 9,209 3,663
Dalias 38 44 9,243 9,277 3,677
Utah 30 52 8,938 9,282 3,643
Houston 14 68 8,145 9,096 3,466
División del Pacífico
Los Ángeles 58 24 9,433 8,978 3,668
Phoenix 53 8,776 8,361 3,612
Seattle 48 34 9,019 8,756 3,721
Portland 46 36 8,808 8,633 3,560
Golden State 30 52 8,902 9,205 3,565
San Diego 25 57 8,903 9,299 3,502

Fuente: The World Almanac & Book of Facts, 1984 edition, copyright@Newspaper
Enterprise Inc., 1983, New York, NY 10166.
Algunos proyectos sugeridos son como sigue:
Comercio: Estime el ingreso promedio bruto para las empresas de un cierto tipo en su
área, o la cantidad promedio gastada para esparcimiento entre los varones de un colegio.
Ciencias sociales: Estime la proporción de votantes registrados que apoyan alguna
propuesta política popular, o estime el número promedio de personas por familia para
cierta sección de su ciudad.
Ciencias fsicas: Considere un experimento de laboratorio, tal como medir la
resistencia de tensión de un alambre o medir el diámetro de una barra. Tome n
observacionesindependientes sobre tal experiniento trátelas como una muestra
irrestricta aleatoria. Construya una estimación por intervalo para la media "poblacionai ".
Aquí la población es meramente conceptual (se podrían efectuar muchas mediciones del
fenómeno en cuestión), y su media representa la resistencia promedio del alambre de
este tipo o el diámetro promedio de la barra.
Ciencias biológicas: Estime el peso promedio de los animales alimentados con una
dieta durante un periodo específico, o estime la altura promedio de los árboles en cierta
porción de terreno. Como un ejemplo para trabajar con totales en lugar de medias,
estime el número total
4 RRESTRICTO AEATCFD

de colonias de (de cierto tipo) que plaga una parcela. Aqul cali dãhso en la selección de las
unidades de muestreo y la construcción del marco.
Si un ejemplo real involucra un conjunto grande de datos, quizá desee usar una
computadora para sus cálculos. La mayoría de los centros de cómputo tiene programas
tipo que calculan medias y varianzas muestrales. Cuatro paquetes de tales programas
ampliamente usados son SPSS, SAS, BIOMED y MINITAB (véase la Bibliografa en el
Apéndice).
MUESTREO
ALEATORIO ESTRATIFICADO
ESTUDIO DE CASO

¿PODEMOS ESTIMAR EL COSTO TOTAL EL CUIDADO LA SALUD?

Ih problema importante de interés nacional involucra la esfimación del costo de


cuidados de la salud. costos sm estudiados por diversas instituciones. tanto del
sector gobierno como del sector privado, a fin de establecer políticas
gubernamentales y evaluar decisiones mercantiles, tales como para «emas de
seguro.
1-h método para estimar bs costos de hospital para una enfermedad
considerado en el artículo "Economic Impactcf 14dney Stones in White Adult
Males" , por J. P L Scheaffer (Urology, vol. 24, Nb 4, (984) En este
trabajo&s regionesde Carolinas y estados de las Montanas
Rocosas, fueron consideradas para un estudio especial. muestra den, = 363
pacientes con ftiasisen hs Carolinas tuvo un costo promedio para la primera
hospitalizaciónde S 350; una muestra de = 258 pacientes con en las Rocnsas tuvo
un costo promedio para la primera hospitalización de $ 1 150. ¿Podemosesfimar
el costo
cional anual total de hospitalización por esta enfermedad para ambas regiones
disponible
combinadas? méto dos del Capítulo 5 r uns indicarán cómo hacerlo si existe alguna
información adimétodos pueden utilizarse entonces para hacer la estimación 1-
Jnkks si cuenta con información muestral para otras regiones.

77

5.4 INTRODUCCIÓN

El objetivo del diseño de encuestas por muestreo es maximizar la cantidad de


inforrnación para un costo dado. El muestreo irrestricto aleatorio, diseño básico
de muestreo, suele suministrar buenas estimaciones de cantidades poblacionales
a un COSLO bajo. En este capítulo definimos un segundo procedimiento de
muestreo, el muestreo aleatorio estratificado, que en muchas ocasiones
incrementa la cantidad de información para un costo dado.

5. Una muestra aleatoria estratificada es ¿a obtenida


mediante la separación de los elementos de ¿a población en grupos que no
Presenten traslapes, llamados estratos, y la selección Post erior de una
muestra irrestr1Cta aleatoria simple de cada estrato.

Supóngase que en cierto municipio se va a realizar una encuesca de opini&n


pública, diseüda para estimar la proporción de votantes que apoyan mayor gasto
de los impuestos públicos en mejorar el servicio de ambulancia. F] municipio
comprende ciudades y un área rural. Los elementos poblacionales de interés
para la encuesta 'son codos los hombres y mujeres en edad de votar residentes en
e) municipio. Una muestra aleatoria estratificada de adultos residentes en el
municipio puede Obtenerse mediante la selección de tres muestras irrestrictas
aleatorias de adultos: una en cada ciudad y Otra en el área rural. Esto es, las dos
ciudades y el árca rural representan tres estratos de los cuales obtenemos
muestras irrestrictas aleatorias.
5.4 INTRODUCCIÓN 79

En esta encuesta, ¿por qué debemos escoger una muestra aleatoria


estratificada, en lugar de upa muestra irrestricta aleatoria? Primero, tengamos en
cuenta que nuestro objetivo al diseñar una encuesta es maximizar la información
obtenida (o minimizar el límite para el error de estimación) para un presupuesto
fijo. Las muestras que presentan poca variabilidad entre las mediciones
producirán pequeños límites para el error de estimación. Entonces, si los adultos
en una ciudad (digamosciudad A) tienden a pensar de igual manera respecto al
servicio de ambulancia, podemos obtener una estimación muy exacta de la
proporción encuestada con una muestra relativamente pequeña. Asimismo si
todos los adultos de la segunda ciudad (ciudad B) tienden a pensar semejante
acerca de esta situación, aunque difieran en opinión de los de la ciudad A,
podemos obtener nuevamente una estimación exacta con una muestra pequeña.
Esta situación puede presentarse si la ciudad A tiene un hospital y por eso no le
urge mejorar el servicio de ambulancia; mientras que la ciudad B no tiene hospital
y por ello necesita mejorar su servicio de ambulancia. Las opiniones en el área
rural pueden ser más variadas, pero quizá viva ahí menor número de adultos y se
pudiera disponer de recursos suficientes para un estudio detallado en esta área.
Cuando se combinan los resultados de la muestra aleatoria estratificada, la
estimación final de la proporción de votantes que apoyan un mayor presupuesto
para el servicio de ambulancia puede tener un límite para el error de estimación
mucho más pequeño que el obtenido de una muestra irrestricta aleatoria de
tamaño comparable.
Segundo, el costo por obtener las observaciones varía según el diseño dé la
encuesta. El costo por seleccionarlos adultos que van a ser el costo del
tiempo y traslado del entrevistador y el costo para instrumentar todo el proceso
de muestreo pueden ser minimizados mediante una muestra aleatoria
estratificada, cuidadosamente planeada para áreas geográficas compactas bien
definidas. Tales ahorros en costos pueden permitir al investigador utilizar una
muestra de mayor tamaño que la que podría usar para una muestra irrestricta
aleatoria del mismo costo total.
Tercero, se pueden desear estimaciones de parámetros poblacionales para
ciertos subconjuntos de la población. En la encuesta del municipio cada comisión
de la ciudad puede desear una estimación de la proporción de votantes que
favorecen un mejor servicio de ambulancia para su propia ciudad. El muestreo
aleatorioestratificado permite la estimación separada de parárnetros
poblacionales dentro de cada estrato.
En resumen, los motivos principales para utilizar muestreo aleatoria estratifica
do en lugar de muestreo irrestricto aleatorio son los siguientes:

1. La estratificación puede producir un límite más pequeño para el error de


estimación que el que se generaría por una muestra irrestricta aleatoria del mismo
tamaño. Este resultado es particularmente cierto si las mediciones dentro de los
estratos son homogéneas.
2. El costo por observación en la encuesta puede ser reducido mediante la
estratificación de los elementos de la población en grupos convenientes.
3. Se pueden obtener estimacionesde parámetros poblacionales para subgruposdela
población. Los subgrupos deben ser entonces estratos identificables.
Estos tres principios para la estratificación deben tenerse presentes cuando
se está planeando estratificar o no a una población o decidiendo cómo definir los
estratos. El muestreo de pacientes hospitalizados, sujetos a cierta dieta para
evaluar ganancia en peso, puede ser más eficiente si son estratificados por sexo,
ya que el varón tiende a pesar más que la mujer. Una encuesta de estudiantesen
una universidad puede apli-
80
carse e instrurnentarse más convenientemente si los estudiantes son
estratificados en residentes internos y externos del recinto universitario. Si los
gerentes de una planta manufacturera requieren estimaciones de la proporción
de productos defectuosos, se puede realizar un plan de muestreo para control de
calidad estratificado por líneas de producción.
La mayoría de las grandes encuestas tiene incorporado cierto grado de
estratificación en el diseño. Como ejemplos consideraremos a tres grupos
importantes de encuestas realizadas por la Oficina de Estadísticas del Trabajode
Estados Unidos.
El Indice de Precios del Consumidor (IPC) es una medida de la variación
promedio en precios de una colección fija de bienes y servicios para los
consumidores urbanos. El IPC realmente se calcula a partir de al menos cuatro
diferentes tipos de encuestas: encuestas de ciudades, encuestas de familias
urbanas, encuestas de empresas que proporcionan bienes y servicios, y encuestas
de bienes y serviciosespecíficos. En el diseño de la mayoría de las encuestas del
IPC, 1166 unidades muestrales(municipioso grupos de municipios contiguos) son
identificadas en la población y agrupadas en 85 estratos. Los estratos son elegidos
con base en aspectos geográficos, tamaño de la población, incremento en el
porcentaje poblacional de 1960 a 1970, grandes industrias, porcentaje de no
blancos, y porcentaje de urbanos. Las unidades muestrales dentro de un estrato
son elegidas lo más homogéneas posible con respecto a estas características.
La Encuesta de Población Actual (EPA) mide aspectos de empleo,
desempleo, y personas que no están en la fuerza de trabajo. Esta encuesta agrupa
1931 unidades muestralesen todo Estados Unidos, en estratos similares a los de
las encuestas del IPC, excepto que se usan unidades muestrales rurales y el
número de ranchos es una cantidad importante para la estratificación.
La Encuesta de Establecimientos (EE) reúne información relativa a horas de
trabajo y ganancias para establecimientos no agrícolas en Estados Unidos. Los
establecimientos son estratificados de acuerdo con el tipo de industria y tamaño,
primordialmente para homogeneidad de las mediciones pero también para
aportar estimaciones para diversos tipos de industria. Por ejemplo, se
proporciona información para categorías de industrias, tales como minería,
construcción, manufactura, transporte y finanzas, seguros y bienes raíces.
En este capítulo la estratificación se utilizará siempre con muestreo
irrestricto aleatorio en cada estrato, como se estableció en la Definición 5.1. Sin
embargo, la estratificación puede ser combinada con otros tipos de
muestreodentro de los estratos. Presentaremos algunos ejemplos en capítulos
posteriores.

5.2 CÓMO SELECCIONAR UNA MUESTRA


ALEATORIA ESTRATIFICADA
H primer paso en la selección de una muestra aleatoria estratificada es espeficar
claramente los estratos; así, cada unidad muestra] se ubica en el estrato
apropiado. Este paso puede ser más dificil de lo que parece. Por ejemplo, suponga
que usted planea estratificar unidades muestrales, —digamos, hogares— en
unidades urbanas y rurales. ¿Qué se debe hacer con estos hogares en una
población de 1000 habitantes?¿Son rurales o urbanos estos lugares? Pueden ser
rurales si el pueblo está aislado en el campo, o pueden ser urbanossi el pueblo es
contiguo a una gran ciudad. Por ello, para especificar
89

5.2 CÓMO SELECCIONAR UNA NAJESTRA ALEATORIA ESTRATIFICADA

los significados de urbano y ruml es esencial que cada unidad muestra I pertenezca
claramente únicamente a un estrato.
Después que las unidades de muestreo han sido divididas en estratos,
seleccionamos una muestra irrestricta aleatoria de cada estrato, mediante la técnica
presentada en el Capítulo 4. El problema de elegir el tamaño de muestra apropiado
para cada estrato se tratará posteriormente en este capftulo. Debemos estar seguros
de que las muestras seleccionadas en los estratos sean independientes. Esto es, se
deben aplicar diferentes esquemas de muestreo aleatorio dentro de cada estrato, de
tal manera que las observacioneselegidas en un estrato no dependan de las que se
han elegido en otro
estrato.
Se requiere alguna notación adicional para muestreo aleatorio estratificado. Sea
número de estratos
Ni = número de unidades muestrales en el estrato i
N = número de unidades muestrales en la población

El siguiente ejemplo ilustra una situación en la cual el muestreo aleatorio


estratificado puede ser apropiado.

EJEMPLO 5.4

Una empresa publicitaria está interesada en determinar qué tanto debe enfatizar la
publicidad televisivaen un determinado municipio, y decide realizar una encuesta
por muestreo para estimar el número promedio de horas por semana que se ve la
televisión en los hogares del municipio. Este comprende dos pueblos, pueblo A y
pueblo B, y un área rural. El pueblo A circunda una fábrica, y la mayoría de los
hogares son de trabajadores fabriles con niños en edad escolar. El pueblo B es un
suburbioexclusivo de una ciudad vecina y consta de habitantes más viejos con
pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en
el área rural. Analice los méritos de usar muestreo aleatorio estratificado en esa
situación.

SOLUCIÓN
La población de hogares se ubica en tres grupos naturales, dos pueblos y un área
rural, de acuerdo con su localización geográfica. Entonces la población dividida en
tres estratos es bastante natural, simplemente por conveniencia administrativa para
seleccionar las muestras y para ejecutar el trabajo de campo. Además, los
elementos de cada estrato deben presentar tendencias similares de
comportamientoentre ellos mismos. Se espera relativamente poca variabilidad en
el número de horas que se ve' televiSión en los hogares de cada grupo, y este es
precisamente el caso en que la estratificación produce una reducción en el limite
para el error de estimación.
La empresa publicitaria puede desear producir estimaciones, por separado,
del número promedio de horas que se televisión en cada pueblo. El muestreo
aleatorio estratificado permite estas estimaciones.
Para la muestra aleatoria estratificada, tenemos N, 155, N, = 62 y N, = 93, con N
= 310.

82 5 VICIESTREC ESTRATIFCADC

5.3 ESTIMACION DE UNA MEDIA Y UN TOTAL


POBLACIONALES

¿Cómo podemos usar los datos de una muestra estratificada para estimar la
media de la población?Sea ji la media muestral para la muestra irrestricta
aleatoria seleccionada en el estratoi, ni el tamaño de la muestra en el estrato i, la
media poblacional para el estrato i, y el total poblacional para el estrato i.
Entonces, el total de la población r es igual a Tl + T2 + • • • + TL. Tenemos una
muestra irrestricta aleatoria dentro de cada estrato. Por ello sabemos, a partir del
Capítulo 4, que ji es un estimador insesgado de g, y NÑi es un estimador
insesgado del total del estrato Ti = Ni'.Li. Parece razonable formar un estimador
de T, que es la suma de los mediante la suma de los estimadores de los r,.
Asimismo, ya que la media poblacional g es igual al total poblacional T dividido
entre N, un estimador insesgado de se obtiene sumando los estimadores de los Ti
de todos los estratos y luego dividiendoentre N. Denotamos este estimador por
Fst, donde el subíndice st indica que se ha utilizado muestreo aleatorio
estratificado.

Estimador de la media poblacional g :


1
= —INIFI + + • + NLj'Ll = ¯ Niñ (5.1)
Varianza estimada de jst•.

N, n,
(5.2)

Límite para el error de estimación:


Y POBLACONALES 91

EJEMPLO 5.2

Suponga que se lleva a cabo la encuesta planeada en el Ejemplo 5.1. La empresa


publicitaria tiene tiempo y dinero suficientes para entrevistarn 40 hogares, y
decide seleccionar muestras aleatoria de tamaño n , = 20 del pueblo A, n, 8 del
pueblo B, — 12 del área rural. (Después analizarenios la elección de los
tamaños de
5.3 ESTIMACIÓN CE UNA MEDIA TOTAL

muestra.) Se seleccionan las muestras irrestrictas aleatorias y se realizan las


entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en
horas por mana, se muestran en las Tablas 5.1 y 5.2.
Estime el tiempo promedio que se ve televisión, en horas por semana, para
(a) todos los hogares en el pueblo A y (b) todos los hogares en el pueblo B. En
ambos casos fije un límite para el error de estimación.
Los términos S 1, s2, y ss en la Tabla 5.2 son las varianzas muestrales para los
estratos l, 2 y 3, respectivamente; fueron obtenidos mediante la fórmula

para t —— 1, 2, 3, donde yo esla observaciónj•ésima en el estrato t'. Estas


varianzasestiman las correspondientes varianzas verdaderas en los estratos +1, y

SOLUCIÓN
(a) De la Tabla 5.1 y Ecuación (5.1),

310
= 27.7
es la mejor estimación del número promedio de horas por semana en que en todos
los hogares del municipio se ve televisión. También, t(ñt)

12
= 1.97
La estimación de la media poblacional, con uniímite para el error de estimación de
aproximadamente dos desviacionesestándar, está dada por

27.675 ± 27.7 ± 2.8


Entonces estimamos que el número promedio de horas por semana que se ve
televisión en los hogares del municipio es de 27.7 horas. El error de estimación
debe ser menor que 2.8 horas, con una probabilidad aproximadamente igual a
0.95.
(b) Las = 8 observaciones del estrato 2 constituyen una muestra irrestricta
aleatoria; por ello podemos aplicar las fórmulas del Capftulo 4. La estimación del
5 MUESTREO ALEATORIO
ESTIQATIPiCADO

TABLA 5.4 Tiempo que se ve televisión, en ñoras por semanc


Estrato I , Estrato 2, Estrato 3,
pueblo A pueblo B área rural

35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
12 32 34 24
36 25 29 31
39 38 40 45
28 27 35 34

TABLA 5.2 Cálculos para la lobb 5.

Estrato Estrato 2 Estrato 3


= 12
— 19.000
= 33.900 n = 25.125 = 87.636
= 35.358 232.411
NI = 155 62
tiempo promedio de ver televisión para el pueblo B , con un limite de
aproximadamente dos desviaciones estándar para el error de estimación, está dada
por

o sea 25.1
o sea 25.1 ± 10.1
Esta estimación tiene un límite grande para el error de estimación porque s2 es
grande y el tamaño de muestra n2 es pequeño. Entonces la estimación de la media
poblacional es bastante buena, pero la estimaciónj2de la media del estrato 2 es
deficiente. Si Se desea una estimación para un estrato particular, la muestra del
estrato debe ser lo suficientemente grande para proporcionar un límite razonable
para el error de estimación.

Los procedimientos para la estimación de un total poblacional T se derivan direct


mente de los procedimientos presentados para la estimación de g. Ya que es igu a
NB, un estimador insesgado de es dado por
Estimador del total poblacional :
(4.4)

Varianza estimada de Nj.t:

(5.5)

54 SELECCIÓN TAMAÑO CE ESTRIAR LAS MEDIAS TOTAS


94 5 MUESTREO ALEATORIO ESTRATIFICADO
Límite para el error de estimación:

EJEMPLO 5.3

Remítase al Ejemplo 5.2 y estime el número total de horas por semana que
las familias del municipio dedican a ver televisión. Fije un límite para el
error de estimación.

SOLUCIÓN
Con los datos de la Tabla 5.1,

= 8587 horas
La varianza estimada de NP está dada por f(NFst) = N 2
ê(Fq) = = 189,278.560
La estimación del total de la población, con un límite para el error de
estimación, está dada por

N osea
8587 ± 870
esta manera estimamos que el tiempo semanal total que en los
hogares del municipio se ve televisión es de 8587 horas. El error de
estimación debe ser menor que 870 horas :

5.4 SELECCIÓN Da TAMAÑO DE


WESTRA PARA ESTIMAR
MEDIAS Y TOTALS
POBLACIONALES

La cantidad de información en una muestra depende del tamaño de


muestra n, ya que V(ñt) decrece con el incrementode n. Examinemos
un método para seleccionarel tamaño de muestra, a fin de obtener
una cantidad fija de información para estimar un parámetro
Y POBLACONALES 95
poblacional. Supóngase que especificamos que la estimación debe
estar dentro de B unidades de la media poblacional, con una
probabilidad aproximadamente igual a 0.95. Simbólicamente
queremos

V(Fst) = — 4

Esta ecuación contiene la varianza poblacional de en lugar de la


varianza estimada. Para N grande, la varianza real, V(FR), es muy similar
a la Ecuación (5.2), con • • , SL reemplazadas por +1, 02, . , CL.2
Aunque hicimos V(jst) igual a B2/4, no podemos despejar n, a
menos que sepamos algo acerca de la relación entre nt, n„ . . . , y n.
Hay muchas maneras para asignar un tamaño de muestra n a los
diversos estratos. Sin embargo en cada caso el número de
observaciones asignado al i-ésimo estrato es una fracción del tamaño
de muestra total n. Denotamos esta fracción por tv,. Por elio podemos
señalar
n, = ntVi 12..,L (5.7)
Usando la Ecuación (5.7), podemos entonces hacer V(ñt) igual a B 2/4 y
despejar n.
De igual modo la estimación del total poblacional T con un iímitede
B unidades para el error de estimación, nos lleva a la ecuación

o mediante la Ecuación (5.5),

Tamañode muestra aproximada quese requiere para estimar g o f


con un límite B para el error de estimación:

(5.8)

donde Wi es la fracción de observaciones asignadas al estrato i, es


la varianza po• blacional para el estrato i, así

para estimar g
4

Para poder usar la Ecuación (5.8) debemos obtener


aproximaciones de las varianzas poblacionales u, . . . , Un método para
96 5 MUESTREO ALEATORIO ESTRATIFICADO
obtener esas aproximaciones es usar las varianzas muestrales SI,
s2, . . . , S L de un experimento previo para estimar u, p, • , TL. Un
segundo método requiereconocer la amplitud de variación de las
observaciones dentro de cada estrato. Del teorema de Tchebysheff y la
distribución normal, la amplitud de variación debe ser
aproximadamente de 4 a 6 desviaciones es• tándar.
5 a SELECCIÓN TAMAÑO CE MCIES[PA ESTIMAR -rorA-B

En la Sección 5.5 se preEngan métodos para elegir las fracciones w, , u,'2, . . . , WL.

EJEMPLO 5.4
Una encuesta anterior sugiere que las vananzas de los estratos para el
Ejemplo 5. son aproximadamente 25, 225 y 100. Deseamos estimar la
poblacional mediante Seleccione el tamaño de muestra para obtener un
Ifmfre en el error de estimación igual a 2 horas, si las fracciones
asignadas son w, = S, y En otras palabras. se debe tomar un número
igual de observaciones de cada estrato.

SOLUCIÓN
Un límite para el error de estimación de 2 horas significa que

= 2 o sea V
Por tanto D = l.
Enel Ejemplo 5.1, N, = 155, N, 62 y N, 93. Poresto

= 6,991,275

NOi =
=

= 27,125
2
=
ND
Y POBLACONALES 97
la Ecuación (5.8) tenemos que

= 56.7
Entonces el experimentador debe tomar n = 57 observaciones con

n(wl) = = 19

EJEMPLO 5.5

A' como en el Ejemplo 5.4, supóngase que las varianzas del Ejemplo 5.1
son aproximadas por 25, 225 y 03 100. Deseamos estimar el total
poblacional r con un límite de 400 horas para el error de estimación.
Seleccione el tamaño de muestra apropiado, si se va a tomar el mismo
número de abservaciones en cada estrato.

SOLUCIÓN
El límite para el error de estimación debe ser 400 horas y por ello,

B 2 (400)2 40,000
4N2 4N2
Para calcular n con la Ecuación (5.8) necesitamos las siguientes
cantidades:

— 6,991,275
(del Ejemplo 5.4)

= 27,125
(del Ejemplo 5.4)

2
D N2 40,000 = 40,000
N

Usando la Ecuación (5.8) se tiene


98 5 MUESTREO ALEATORIO ESTRATIFICADO

Se recordará que el objetivo del diseño de encuesta por muestreo es


proporcionarestimadores con varianzas pequeñas al menor costo
posible. Después de elegir el tamaño de muestra n, existen muchas
maneras para dividir n entre los tamaños de muestra de los estratos
individuales n, , ni, . . . , ttL. Cada división puede originar una varianza
di-
99
5.5 ASIGNACON DE LA MUESTRA

ferente para la media muestral. Por lo que nuestro objetivoes usar una asignación que
presente una cantidad especificada de información a un costo mfnimo.
En términos de nuestro objetivo. el mejor esquema de asignación está influido
por tres factores. Ellos son los siguientes:
1. H número total de elementos en cada estrato.
2. La variabilidad de las observaciones dentro de cada estrato.
3. El costo por obtener una observación de cada estrato.

El número de elementos en cada estrado afecta la cantidad de información en


la muestra. Una muestra de tamaño 20 de una población de 200 elementos debe
contener más información que una muestra de tamaño 20 de 20000 elementos.
Entonces deben asignar tamaños grandes de muestra a los estratos que contienen
gran número de elementos.
La variabilidad debe ser considerada porque se necesita una muestra mayor
para obtener una buena estimación de un parámetro poblacional, cuando las
observaciones son menos homogéneas.
Si el costo para obtener una observación varía de un estrato a otro,
tomaremos muestras pequeñas de estratos con altos costos. Lo haremos así, a
sabiendas de que nuestro objetivo es mantener el costo del muestreo al mínimo.

Asignación aproximada q ue minimiza el costo para el valor fijo de V(j.t) o que


núnimiza V(j.t) para un fijo:

(5.9)

donde Ni denota el tamaño del i-ésimo estrato, denota la varianza poblacional para
el i-ésimo estrato y q denota el costo para obtener una observaciónindividual del i-
ésimo estrato.

Para poder usar la fórmula de asignación (5.9) se debe obtener, previamente


a la realización del muestreo, una aproximación para la varianza de cada estrato.
Las aproximaciones pueden ser obtenidas de estudios anteriores o conociendo la
amplitud de variación de las mediciones internas de cada estrato.
Sustituyendo los w, en la Ecuación (5.8) por los ni/n de (5.9), nos da

(5.10)
100 5 MUESTREO ALEATORIO ESTRATIFICADO
para asignación óptima con la varianza de fija en D.

EJEMPLO 5.6
La empresa publicitaria del Ejemplo 5.1 encontró que cuesta más obtener una
observación del área rural que una del pueblo A o del B. El incremento es debido
los costos de traslado de un hogar rural a otro. El costo por observación en cada
pueblo se ha estimado en $9.00 (esto es, Cl = c2 = 9), y los costos por observación
en el área rural se han estimado en $16.00 (esto es, = 16). Las desviaciones
estándar por estrato (aproximadas por las varianzas muestrales de una encuesta
previa) son 5, 15y 10. Encuentre el tamaño de muestra total n y los tamaños
de muestra para los estratos nt, ti2 y n, , que permiten a la empresa estimar, al
mínimo costo, el tiempo promedio que ve televisión, con un límite para el error de
estimación igual a 2 horas.

SOLUCION
Tenemos que

= 800.83

= 8835

Entonces

58

Por lo que nt = 18.5 0 bien 18 n

Asimismo,

Por ello el
5.5 ASGNACON LA VUESTPA 94

das en ver la televisión, al mínimo costo, con un límite de 2 horas para el error de
estimación.

En algunos problemas de muestreo estratificado, el costo por obtener


información es el mismo para todos los estratos. Si los costos son desconocidos,
podríamos suponer que los costos por observación son iguales. Si q = Cz • • • = CL,
entonces los términos de costo se cancelan en la Ecuación (5.9) y

(5.11)

Este método para seleccionar n, , '12, , nL se denomina asignación de Neyman. En


la asignación de Neyman, la Ecuación (5. IO) para el tamaño de muestra total n
toma la forma

(5.12)

EJEMPLO 5.7

La firma publicitaria del Ejemplo 5.1 decide utilizar entrevistas por teléfono en
lugar de entrevistas personales, porque todos los hogares en el municipio tienen
teléfono y este método reduce los costos. El Costo de obtener una observación es
entonces el misrno en los tres estratos. Las desviaciones estándar son de nuevo
aproximadas por 5, 15 y 10. La empresa estimar la media población con un
límite para el error de estimación igual a 2 horas. Encuentre el tamaño
aproximado de la muestra n y los tamaños de muestra para los estratos ni, n2 y
n3.

SOLUCIÓN
Ahora vamos a usar las Ecuaciones (5.11) y (5.12), ya que los costos son iguales en
todos los estratoy Por eso, para encontrar las fracciones de asignación WI, y w3,
usamos la Ecuación (5.11). Entonces

Ngt = NIT, + N2Ü2 +


= + = 2635
y de la Ecuación (5.11)
102 5 MUESTREO ALEATORIO ESTRATIFICADO

— n(O.30)
103
VUESTR20 ALEXOP'O

Asimismo,

Entonces wt 0.30, w2 = 0.35 y u.'3 = 0.35.


Ahora usemos la Ecuación (5.12) para encontrar n. Un límite de 2 horas el error de
estimación significa que

osea =1
Por eso,

N 2D = =
96,100

TambiénNg,2 = 27,125

del Ejemplo 5.5, y la Ecuación (5.12) nos da

(2635)2
56.34 0 bien 57
96,100 + 27,125
Entonces17 =
= 20
= 20
El tamaño de muestra n en el Ejemplo 5.7 es casi
igual al del Ejemplo 5.6, pero la asignación ha cambiado. Sc toman más observaciones del área
rural porque éstas ya no tienen un costo más alto.

EJEMPLO 5.8

Una investigadora quiso estimar el peso promedio de 90 ratas (50 machos y 40 hembras) que
han sido alimentados con cierta dieta. Las ratas fueron separadas por sexo; por lo que el de
muestreo aleatorio estratificado con dos estratos pareció apropiado. Para aproximar la
variabilidad dentro de cada estrato, la investigadora seleccionó la rata más pequeña y la más
104 5
grande en cada estrato y las pesó. Ella encontró que la amplitud de variación fue de 10 gramos
para los machos y de 8 para las hernbras. ¿Qué tan grande debió tomarse la muestra para
estimar el promedio pobla 55 ASiCNACiÜNl

cional con un límite de I gramo para el error de estimación? Suponga que el costo de
muestreo fue el mismo para ambos estratos.

SOLUCIÓN
Denotemos los machos como el estrato 1 y las hembras como al estrato 2. Para usar la
Ecuación (5.11) primero debemos aproxirnar y Ch. La desviación estándar debe ser alrededor
de un cuarto de la amplitud de variación, suponiendo que los pesos tienen una distribución
normal. Entonces

De la Ecuación (5. I l)

Donde = 125 + 80 = 205

Entonces= 125 0.61n


205

Entonces WI = 0.61 0.39.


Debemos calcular las siguientes cantidades para poder encontrar n:
2

. = 472.50
4 4
Usando la Ecuación (5.12), tenemos

(205)2
= 16.83
(90f(0.25) + 472.50
El tamaño de muestreo n debió haber sido 17 con
105

Además de encontrar costos iguales, en


algunas rianzas, ocasiones resultan las mismas
va-
en la Ecuación
(5.11) y

(5.13)

Este método de asignación de la muestra a los estratos es llamado asignación


proporcional porque los tamaños de muestra ni, n2, . . . , FIL son proporcionales a los
tamaños de los estratos N, , Nz, . . , NE. Por supuesto la asignación proporcional puede y
suele utilizarse cuando los costos y las varianzas de los estratos no son iguales. Una ventaja al
usar esta descomposición es que el estimador es simplemente la media muestral de toda la
muestra. Esta característica puede representar un importante ahorro de tiempo en algunas
En asignación proporcional, la Ecuación (5.8) para el valor de n, que produce V(jst) = D,
se convierte en

EJEMPLO 5.9

La empresa publicitaria del Ejemplo 5.1 considera que las varianzas aproximadas que se usaron
en los ejemplos previos son erróneas y que las varianzas de los estratos son iguales. El valor
común de fue aproximado por IO en un estudio preliminar. Se van a efectuar entrevistas por
teléfono, por 10 que los costos serán iguales en todos los estratos. La empresa desea estimar el
número promedio de horas por semana que se ve la televisión en los hogares del municipio,
con un límite para el error de estimación igual a 2 horas. Encuentre el tamaño de muestra y los
tamaños de estratos necesarios para lograr esta exactitud.

SOLUCIÓN
Tenemos que
106 5
— 310(100) = 31,000
Entonces, ya que D = 1, de la Ecuación (5.14) resulta

31,000
= 75.6 0 bien 76
310(1) + ,000)
55 ASIG\ACION DE WWESTQA

Por lo que

15

23
= n(0.5) = 38
Estos resultados difieren de los del Ejemplo 5.7 porque aquí hemos supuesto que las varianzas
Son iguales en todos los estratos y son aproximadas por un valor común

En ocasiones la cantidad de dinero que se va a gastar en el muestreo es fijada antes de


iniciar el experimento. Entonces el investigador debe encontrar un tamaño de muestra y
esquema de asignación que minimice la varianza del estimador para un presupuesto fijo.

EJEMPLO 5.4 0

En el ejemplo del tiempo de ver televisión, supóngase que los costos son como los
especificados en el Ejemplo 5.6. Esto es, Cl = 9 y = 16. Vamos a aproximar las varianzas por 5,
i 5 y IO. Dado que la empresa publicitaria tiene únicamente $500 para gastar en muestreo, elija
el tamaño de muestra y la asignación que minimice V(js,).

SOLUCION
El esquema de asignación es aún dado por la Ecuación (5.9). En el Ejemplo 5.6 encontramos
que w, = 0.32, tV2 0.39 y = 0.29.
Ya que el costo total debe ser igual a $500, tenemos que
C2t12 + C3n3 500

o bien 9111 + 9'12 + 16n3 = 500 Ya que n, = nwi, podemos sustituir como
sigue:
9nW1 9n2V2 + 16nw3 = 500
107
o bien 9n(O.32) + 9n(O.39) + 16n(O.29) = 500
Al despejar n, obtenemos
11,03n = 500
500
= 45.33
11.03
MIJESIPEO ALEAVC)QO ESTPAIiFCADO

Por lo que debemos tomar n = 45 para asegurar que los costos permanezcan inferiores a $500.
La asignación correspondiente está dada por

= 14
— 18

— 13

Podemos resumir lo siguiente sobre el muestreo aleatorio estratificado: en general, el


muestreo aleatorio estratificado con asignación proporcional producirá un estimador con una
varianza más pequeña que la producida por muestreo irrestricto aleatorio (con el mismo
tamaño de muestra), si existe considerable variabilidad entre las medias de los estratos. Si los
costos de muestreo son aproximadamente iguales de un estrato a otro, el muestreo aleatorio
estratificado con asignación óptima [Ecuación (5.8)) producirá estimadores con menor
varianza que los producidos por asignación proporcional cuando existe variabilidad entre las
varianzas de los estratos.

5.6 ESTIMACIÓN DE UNA PROPORCIÓN POBLACIONAL

En nuestros ejemplos numéricos nos ha interesado estimar el promedio o el número total de


horas por semana usadas para ver televisión. En contraste, supóngase que la empresa
publicitaria quiere estimar la proporción (fracción) de hogares que ven un programa
particular. La población se divide en estratos, al igual que antes, y se toma una muestra
aleatoria de cada estrato. Luego se realizan las entrevistas para determinar la proporción pi
de hogares, integrantes del estrato i, donde se ve el programa. Este Pi es un estimador
insesgado de Pi, la proporción poblacional en el estrato i (como se describió en el Capítulo 4).
Razonando como lo hicimos en la Sección 5.3, concluimos que Nipi es un estimador insesgado
del número total de hogares del estrato i donde ven este programa particular. Por lo que NIPI
+ N2P2 + • • • + N,pL es un buen estimador del número total de hogares en que ven el
programa en la población. Dividiendo esta cantidad entre N, obtenemos un estimador
insesgado de la proporción poblacional p de hogares donde ven el programa.
108 5

Estimador de la proporción poblacional p :

¯— + N2F2 + • . . + NLfiL) Niñ (5.15)


Varianza estimada de pse:

f'(ñt) = —5 [Ni t(ñ) + N?Ñ(F2) +


5.6 ESTIMACIÓN Dl UNA PROPORCION POBIACC„NAI

(5.16)

Límite para el error de estimación:

EJEMPLO 5.44

La empresa publicitaria quiso estimar la proporción de hogares en el municipio del


Ejemplo 5. I donde Se ve el programa X. El municipio es dividido en tres estratos,
pueblo A, pueblo B y el área rural. Los estratos contienen NI = 155, N 62 y Ns = 93
hogares, respectivamente. Una muestra aleatoria estratificada de n = 40 es
seleccionada con asignación proporcional. En otras palabras, se toma una muestra
irrestricta aleatoria de cada estrato; los tamaños de las muestras son n 1 = 20, n = 8 y
= 12. Las entrevistas Son tomadas en los 40 hogares muestreados; los resultados se
presentan en la Tabla 5.3. Estime la proporción de hogares donde se ve el programa X,
y fije un límite para el error de estimación.

TABLA 5.3 Datos pora el Eiemob 5-1


Número de
hogares donde
Tamaño de ve el programa
Estrato muestra X
16 0-
2 2 80
3 = 12 6 0.25
109
0.50

SOLUCIÓN
El valor estimado de la proporción de hogares donde se ve el programa X está dado
por psx. Usando la Ecuación (5.15), calculamos

310 + 62(0.25) + 93(0.50)] = 0.60

La varianza de psr puede estimarse usando la Ecuación (5.16). Primero vamos a calcu-

lar

De la Ecuación (5 ,16) tenemos

(310)2
— 0,0045
Entonces el valor estimado de la proporción de hogares en el municipio donde se ve
el programa X, con un límite para el error de estimación, está dado por

El límite para el error de estimación en el Ejemplo 5.11 es bastante grande,


podríamos reducir este lírnite y hacer el estimador más preciso incrementando el
tamaño de la muestra. El problema de la elección del tamaño de muestra se trata en
la siguiente sección.
110 5
5.7 SELECCION DEL TAMAÑO DE MUESTRA Y
ASIGNACIÓN DE LA MUESTRA PARA ESTIMAR
PROPORCIONES

Para estimar una proporción poblacional, primero indicamos qué tanta información
deseamos mediante la especificación del tamaño del límite; e] tamaño de la muestra
es elegido de acuerdo con esto.
La fórmula para el tamaño de muestra n (para un límite dado B del error de
estimación) es igual que la Ecuación (5.8), excepto que está dada por pg..
MUESTRA 111
5.7 SE-LE-CCIÔN DEI TO,VIAÑO DE V ASIGNACION DE MUESTRA

Tamaño de muestra aproximado que se requiere para estimar•p, con un límite B para el error de
estimación:

(5.18)

donde Wi es la fracción de observaciones asignadas al estrato i, p, es la proporción poblacional del estrato i, y

donde N _ denota el tamaño del i-ésimo estrato, Pi denota la proporción poblacional para el i-ésimo estrato y Ci
denota el costo por obtener una observación individual del i-ésimo estrato.

EJEMPLO 5.42

Los datos de la Tabla 5.2 fueron tomados de un muestreo realizado el año pasado. La empresa publicitaria quiere
ahora efectuar un nuevo estudio en el mismo municipio para estimar la proporción de hogares donde ven el
programa X. Aunque las fracciones y ps que aparecen en las Ecuaciones (5,18) y (5.19) desconocidas, pueden
ser aproximadas por las estimaciones del estudio anterior, esto es, Pl = 0.80, F2 = 0.25 y ps = 0.50. El costo por
obtener una observación es $9 para cualquiera de los pueblos y $16 para el área rural, esto es, c, = cz = 9 y '3 =
16Los hogares que se encuentran dentro de los estratos son NI = 155, N2 = 62 y Ns = 93. La empresa quiere
estimar la proporción poblacional p, con un limite para el error de estimación igual a 0.1. Encuentre el tamaño de
la muestra n y los tamaños de los estratos nt, tt2 y n3, que darán el límite deseado a un costo mínimo.
ESIPATIÇICADO
5 MUESTREO ALEATORIO
SOLUCIÓN
Primero usamos la Ecuación (5.19) para encontrar las fracciones de asignación Wi. Usando Pi para aproximar Pi,
tenemos

9
62.000 26.846 46.500 3 3 4
= 20.667 + 8.949 + 11.625 — 41.241

— n(O.50)

Asimismo,

Entonces w, 0.50,
0.22 y W3 = 0.28.
El siguiente paso es usar la Ecuación (5.18) para encontrar n. Primero deben calcularse las cantidades siguientes:

0.50 0.22 028


— 18,686.46
= NIPtq1 + N2p2q2 + N-gpgqg

= 59.675

Para encontrar D, hacemos 0.1 (el límite para el error de estimación). Entonces

(0.1)2
= 0.0025 = D 4

NI D = 240.25
57 SELECCIÓN DEL TAMAÑO DE Y ASIGNACION DE LA VIUE-STQA

Finalmente, con la Ecuación (5.18) encontramos el valor aproximado de n dado por


MUESTRA 113

0 bien 63

Si el costo de muestreo no varía de un estrato a Otro, entonces los factores de costo q se cancelan de la
Ecuación (5.19),

*APLO 5.43

Supóngase que en el Ejemplo 5.12 se van a efectuar entrevistas por teléfono, por 10 que los costos de muestreo los

mismos en todos los estratos. La fracción Pi aproximará


A

por p, t 1' = 1, 2, 3. Deseamos estimar la proporción poblacional p con un límite de 0.1 para el error de estimación.
Encuentre el tamaño de muestra apropiado para lograr este límite al costo mínimo.

SOLUCIÓN
La Ecuación (5.19) se utiliza para encontrar las fracciones Wi, w2 y w3, pero ahora todos los términos q pueden ser
reemplazados por 1. Por lo que

NiGã
= 62.000 + 26.846 + 46.500 = 135.346

n(O.20)

n(O.34)

62.000
= n(O.46)
5 MUESTREO ALEATORIO
135.346

Asimismo ,

Entonces WI = 0.46, tV2 0.20 y tV3 = 0 34


MUESTREO ALEATORIO
402 S

La Ecuación (5.18) o la Ecuación (5.12) con = Se pueden utilizar para encontrar n. Usando
(5.12) tenemos
A

Z , i = 59.675 (del Ejemplo 5.12)

N2 D = 240.25 (del Ejemplo 5.12)

(135.346)2
= 61.08 0 bien 62
240.25 + 59.675
Por lo que tomamos una muestra de 62 observaciones para estimar p con un limite en el error de
magnitud B 0.1. La asignación correspondiente está dada por

n, = = 62(0.46) = 29
= = 62(0.20) = 12
113 = = 62(0.34) = 21
Estas respuestas son similares a las encontradas en el Ejemplo 5.12. Los cambios en la asignación
resultan porque los costos no varían en el Ejemplo 5.13.

Recuérdese que la fórmula de asignación (5.9) toma una forma muy simple cuando las
varianzas, así como los costos, son iguales en todos los estratos. La Ecuación (5.19) se simplifica
de la misma manera, siempre y cuando todas las proporciones de los estratos Pi sean iguales y
todos los costos q sean iguales. Entonces la Ecuáción
(5.19) toma la forma

12...L (5.20)
Como ya se mencionó, este método de asignación de los tamaños de muestra a los estratos es
llamado asignación Proporcional.

EJEMPLO 5.44

En la encuesta de televisión del Ejemplo 5.12 la empresa publicitaria planea utilizar


entrevistas por teléfono; por lo que los costos de muestreo no varían de un estrato a
otro. Los tamaños de los estratos son IVI = 155, N2 = 62 y N3 = 93. Los resultados de la
5 MUESTREO ALEATOPIO ESTRATIFICADO
encuesta del año pasado (véase Tabla 5.3) parecen divergir de los de este año. La
empresa considera que la proporción de hogares donde se ve el programa X está
cercana a 0.4 en cada uno de los tres estratos, y desea estimar la proporción poblacional
p con un límite de 0.1 para el error de estimación, Encuentre el tamaño de muestra n y
la asignación que provee este límite al mínimo costo.
5.3 COMEN[AQIOS VUEST?+C ESIQA\IVICAOO

SOLUCION
Las fracciones de asignación se determinan mediante la Ecuación (5.19) con Pl, . . . , y , CL
reemplazados por I . Entonces

= n(0.5)

o bien = 0.3
El tamaño de muestra n se determina con la Ecuación (5.18), usando 0.4 como una aproxirnación
para Pl, y p3, o bien puede encontrarse haciendo piqi en la
Ecuación (5.14). Usando la última ecuación con Pi = 0.4, tenemos

N pqi
= 74.4

ND
74.4
= 73.3 0 bien 74
117
Entonces = 37
= 15
= 22

5.8 COMENTARIOS ADICIONALES SOBRE MUESTREO


ESTRATIFICADO

El muestreo aletorio estratificado no siempre produce un estimador con una varianza más
pequeõa que la de] estimador correspondiente en el muestreo irrestricto aleatorio. El siguiente
ejemplo explica este aspecto
404

EJEMPLO 5.45

Un distribuidor de comestibles al mayoreo en una gran ciudad desea saber si la demanda es lo


bastante grande como para justificar la inclusión de un nuevo producto a sus existencias. Para
tomar la decisión, planea añadir este producto a una muestra de los almacenes a los que abastece
para estimar el promedio de las ventas mensuales. Él únicamente suministra a Cuatro grandes
cadenas en la ciudad. Así que, por conveniencia administrativa, decide usar muestreo aleatorio
estratificado con cada cadena como un estrato. Hay 24 almacenes en el estrato l, 36 en el estrato 2,
30 en el estrato 3 y SO en el estrato 4. Entonces NI = 24, = 36, Ns = 30, = 30 y N = 120. El
distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas mensuales en n = 20
almacenes. Dado que no tiene información previa respecto a las varianzas de los estratos y porque
el costo del muestreo es el mismo en cada estrato, decide aplicar la asignación proporcional, la cual
da

24
120
Asimismo ,

El nuevo producto es introducido en cuatro almacenes elegidos al


azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada
una de las cadenas 3 y 4. Después de un mes, las ventas presentan los
resultados indicados en la ta bla siguiente. Fstime las ventas promedio para
5 MUESTREO ALEATOPIO ESTRATIFICADO
Estrato Estrato Estrato Estrato
2 3 4

94 91 108 92
90 99 96 110
102 93 100 94
110 105 93 91
111 93 113
IDI
99 ñ = 100 = 98 100 e,
= 78.67 55.60 39.50 = 112.50
SOLUCIÓN
De la Ecuación (5. l)
jst ¯ ¯ =
N,
COvlENIARIOS ADICIONALES MUESTREO ESTPATFCADO

Nótese que el estimador de la media poblacional es el promedio de todas las observaciones muestrales cuando se

utiliza la asignación proporcional


Usando la Ecuación (5.2) se encuentra la varianza estimada de la cual es

para nuestro ejemplo

55.60
Entonces
. 6

= 2.93
y la estimación de las ventas mensuales promedio, con un límite para el error de estimación, es

Supóngase que el distribuidor ha decidido tomar una muestra irrestricta aleatoria de n 20 almacenes y los
mismos 20 almacenes del Ejemplo 5.15 son seleccionados. En otras palabras, suponga que los 20 almacenes
constituyen una muestra irrestricta aleatoria en lugar de una muestra aleatoria estratificada. Entonces el estimador
de la media poblacional tiene el mismo valor que el calculado en el ejemplo, esto es,
— — 99.3
Pero la varianza estimada toma el valor
119
= 2.49

Vemos que la varianza estimada es menor en el de muestreo


irrestricto aleatorio. Entonces concluimos que este muestreo
pudo haber sido más adecuado para nuestro problema. El experimentador no tomó en cuenta que las ventas varían
grandemente dentro de los almacenes en una cadena cuando estratificó con en las cadenas. Él pudo haber obtenido
una varianza más pequeña para su estimador, si hubiera estratificado con base en la cantidad de ventas, esto es,
ubicando los almacenes con ventas mensuales bajas en un estrato, almacenes con ventas altas en otro, y así su-
cesivamente.
En muchos problemas de encuestas por muestreo se toma más de una medición en cada unidad de muestreo,
para estimar más de un parámetro pblacional. Eta situación ocasiona complicaciones en la selección del tamaño de
muestra y asignación apropiados, como se ilustra en el siguiente ejemplo:
5 MUESTREO ESTRATIFICADO
106 ALEA ORO

EJEMPLO 5.4 6

Un servicio forestal estatal está realizando un estudio de la gente que utiliza las instalaciones
de campamentos operados por el estado. El estado tiene dos áreas para acampar, una
localizada en las montañas y otra localizada a lo largo de la costa. El servicio forestal desea
estimar el número promedio de personas por sitio dentro de los campamentos, y la
proporción de sitios que utilizan personas de fuera del estado durante un particular fin de
semana, cuando se espera que todos los sitios estén ocupados. El número promedio de
personas se va a estimar con un límite de 1 para el error de estimación, y la proporción de
personas de fuera del estado con un límite de O. I . Las dos áreas para acampar forman
convenientemente dos estratos, la localidad de la montaña como el estrato 1 y la localidad de
la costa como el estrato 2. Se sabe que NI = 120 sitios para acampar y N 2 = 80. Encuentre el
tamaño de muestra y la asignación necesarios para lograr estos dos límites.

SOLUCION
Suponiendo que los costos de muestreo Son los mismos en cada estrato, podemos obtener el
tamaño de muestra más pequeño mediante el de la asignación de Neyman. Sin embargo, esta
asignación depende de las varianzas de los estratos y nos da diferente asignación para los dos
tipos de mediciones consideradas en el problema. En lugar de eso, usamos asignación
proporcional porque es usualmente cercana al óptimo y nos da la misma asignación para
cualquier medición deseada. Entonces
120
=
0.6
N 200

= 0.4
N 200
Ahora se debe determinar el tamaño de muestra separadamente para cada una de las
estimaciones deseadas. Primero, consideramos el problema de estimar el número promedio
de personas por sitio. Debemos tener una aproximación de las varianzas de los estratos para
poder usar la Ecuación (5.8) para el tamaño de muestra. El semicio forestal conoce por
experiencia que la mayoría de los sitios contienen de I a 9 personas. Por lo que podemos usar
la aproximación

i 1,2
4
Por lo que
2

59 407

De la Ecuación (5.8)

= 14.8 0 bien 15
es el tamaño de muestra requerido.
Ahora vamos a considerar la estimación de la proporción de ocupantes de fuera del
estado. No se tienen disponibles estimaciones previas de las proporciones p, así que hacemos
pl = P2 = 0.5 para obtener un tamaño de muestra máximo. Usamos la
Ecuación (5.18) para encontrar n, por lo que debemos encontrar

50 = 10,000

De la Ecuación (5.18) se tiene

10,000
= 67
40
100 +
27
50

Entonces
5 MUESTREO ESTRATIFICADO
son los tamaños de muestra requeridos para obtener ambos límites. Nótese que estos
tamaños de muestra dan una estimación del número promedio de personas por sitio con un
límite mucho más pequeño que el requerido.

5.9 UNA REGLA ÓPTIMA PARA FORMAR LOS


ESTRATOS
Si nuestro único objetivo en la estratificación es producir estirnadores con varianza pequeña,
entonces el mejor criterio para definir los estratos es el conjunto de valores que la respuesta
puede tomar. Por ejemplo, supóngase que deseamos estimar el ingreso promedio por hogar
en una comunidad. Podríamos estimar este promedio con bastante exactitud si pudiéramos
poner todos los hogares de bajos ingresos en un estrato y todos los hogares de altos ingresos
en otro antes de realizar el muestreo. Por supuesto esta asignación es frecuentemente
imposible porque el conocimiento detallado de los ingresos antes del muestreo hace
desaparecer en principio el problema estadístico. Sin
408 ALÊATOQIO

embargo, en ocasiones tenemos algunas frecuencias de datos en categorías generales de la


variable de interés o de alguna variable altamente correlacionada. En estos casos el "método
acurnulativo de la raíz cuadrada de la frecuencia" es adecuado para delimitar los estratos. En
vez de tratar de explicar este método en teoría, simplemente vamos a mostrar cómo funciona
en la práctica.

EJEMPLO 5.4 7

Un investigador desea estimar el promedio anual de ventas para 56 empresas, usando una
muestra de n = 15 empresas. Se encuentran disponibles datos de frecuencias en una
clasificación por incrementos de $50 000 y se presentan en la tabla siguiente. ¿Cómo podemos
asignar las empresas a L = 3 estratos?

100-150 11 3.32 3.32


150-200 14 3.74 7.06
200-250 9 3.00 10.06
250—300 4 2.00 12.06
300-350 5 2.24 14.30
350-400 8 2.83 17.13
400-450 3 1.73 18.86
450-500 2 1.41 20.27

56

SOLUCION
Nótese que hemos añadido dos columnas a los datos de frecuencias de la población, es decir,
la raíz cuadrada de las frecuencias y la rafz cuadrada acumulada. El método óptimo
aproxirnado para la estratificación consiste en encontrar intervalos iguales en la columna de la
raíz cuadrada acumulada. (Nota: en esta escala 7.06 es 3.32 + 3.74, y así sucesivamente.)
Entonces (20.27)/3 = 6.76 y nuestros límites de estratos deben estar lo más cerca posible a
6.76 y 2(2.76) — 13.52. En la escala real, 7.06 es lo más cercano a 6.76 y 14.30 es lo más
cercano a 13.52. Entonces resultan los siguientes tres
estratos:
Estrato I : empresas con ingresos de 100,000 a 200,000. Estrato 2:
empresas con ingresos de 200,001 a 350,000. Estrato 3: empresas con
ingresos de 350,001 a 500,000.
Suponiendo que las empresas en esos estratos puedan ser identificadas antes del muestreo, la
muestra de n = 15 se obtiene tomando 5 de cada estrato. (Tamaños de muestra iguales en los
estratos quedan cerca de la óptima con esta técnica.)

5 fo ESTRATIFICACIOQ DESDIJÉS DE SELECCIONAR LA VILESTQA 409

5.40 ESTRATIFICACIÓN DESPUÉS DE


SELECCIONAR LA MUESTRA

Ocasionalmente, aparecen problemas en los cuales desearíamos estratificar con base en una
variable clave, pero no es posible ubicar las unidades de muestreo en sus estratos correctos sólo
hasta después de haber seleccionado la muestra. Por ejemplo, podemos desear estratificar una
encuesta de opinión pública por sexo de los entrevistados. Si la encuesta se realiza mediante
muestreo de números telefónicos, los entrevistados no pueden ubicarse en el estrato de
masculino o en el femenino sino hasta después de haber hecho contacto con ellos. Asimismo,
una auditora puede querer estratificar las cuentas de acuerdo con si son al mayoreo o al
menudeo, pero ella quizá no disponga de esta información sólo hasta después de haber tomado
una cuenta para la muestra.
Supóngase que una muestra irresticta aleatoria de n personas es seleccionada para una
encuesta. La muestra puede ser dividida en n 1 masculinos y n 2 femeninos después que la
5 MUESTREO ESTRATIFICADO
muestra ha sido entrevistada. Entonces, en lugar de usar para estimar g, podemos usar siempre
que Ni/N sea conocido tanto para masculinos como para femeninos. Nótese que en esta
situación n, y n2son aleatorzos, ya que varían de una muestra a otra aunque n sea fija. Entonces
esta muestra no es exactamente una muestra aleatoria estratificada de acuerdo con la Definición
5.1. Sin embargo, si Ni/ N es conocido y si n, 20para cada estrato, entonces este método de
estratificar después de la selección de la muestra es casi tan exacto como el muestreo aleatorio
estratificado con asignación proporcional.
La estratificación realizada de la selección de la muestra, frecuentemente es apropiada
cuando la muestra irrestricta aleatoria no está adecuadamente equilibrada de acuerdo con las
agrupaciones principales de la población. Supóngase, por ejemplo, que una muestra irrestricta
aleatoria de n = 100 personas es seleccionada de una población que debe estar igualmente
dividida entre varones y mujeres. La medición muestral de interés es el peso de los
entrevistados, y el objetivo es estimar el peso promedio de la gente de la población. La muestra
revela la siguiente información:
Varone Mujere

n, = 20 = 80
= 180 libras = 110
— 124 libras
Con una baja representación de los varones en la muestra, el estimador j = 124 parece
indebidamente bajo. Podemos ajustar esta estimación calculando

+ 0.5(110) = 145

Esta estimación parece ser mas realista, ya que varones y mujeres están ahora igualmente
ponderados. Nótese que Ni/N es conocido con un •buen grado de aproxirnación, aun cuando se
desconocen NI y N2.
«o
EJEMPLO 5.48

Una gran empresa sabe que 40% de las cuentas que reciben son al mayoreo y 6()% son al menudeo. Sin
embargo, identificar las cuentas individuales sin consultar un archivo es complicado. Un auditor desea
muestrear n = I OO de Sus cuentas para estimar la cantidad promedio de las cuentas por cobrar de la
empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al mayoreo y un 30% de cuentas al
menudeo. Los datos son separados cn cuentas al mayoreo y cuentas al menudeo después del muestreo,
con los siguientes resultados (en dólares):

Mayoreo Menudeo

Estime g, la cantidad promedio de las cuentas que recibe la empresa, y fije un límite al error de
estimación.

SOLUCION
Ya que la proporción observada de cuentas al mayoreo (O. 7) está muy alejada de la proporción
verdadera (0.4), la estratificación después de que se ha seleccionado la muestra irrestricta aleatoria
parece apropiada. Este procedimiento se justifica, ya que tanto n 1 como n 2 exceden 20.

= 376
y omitiendo la correcciÓn por población finita, tenemos

Por lo que 376 ± 28


es nuestra estimación de g. Confiamos bastante en que g se encuentra entre $348 y $404.

Debemos tomar en cuenta dos Observaciones precautorias. Si N, N se desconoce o si no puede


obtenerse una buena aproximación, este método de estratificación no debe usarse, ya que los errores en
las ponderaciones Ni/ N , pueden ocasionar que este estimador estratificado sea muy deficiente.
Algunas veces este método de estratificación se usa para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron
RESUMEN 141

a una muestra irrestricta aleatoria son varones, entonces la proporción de varones en la muestra va a
ser pequeña, y se podlfa producir un estimador ajustado mediante la estratificación después del
muestreo. Este método puede incluso inducir a graves.sesgos en el resultado si la no respuesta sesga
la muestra irrestricta aleatoria. Lo que debe recordarse es que la muestra original debe aún ser una
muestra irrestricta aleatoria de la población.

5.44 RESUMEN

Una muestra alátoria estratificada se obtiene separando los elementos de la población en grupos, o
estratos, de tal manera que cada elemento pertenezca a uno y sólo uno de los estratos, y entonces se
obtiene una muestra irrestricta aleatoria de manera independiente en cada estrato. Este diseño de
muestreo de encuestas presenta tres ventajas principales sobre el muestreo irrestricto aleatorio.
Primero, la varianza del estimador de la media poblacional es por lo común reducida porque la
varianza de las observaciones dentro de cada estrato es usualmente más pequeña que la de toda la
población. Segundo, el Costo por recolectar y analizar los datos es frecuentemente reducido por la
separación de una población grande en estratos más pequeños. Tercero, se pueden obtener
estimaciones separadas para estratos individuales sin seleccionar otra muestra y, por lo tanto, sin
costo adicio
La Ecuación (5. l) nos da un estimador insesgado de la media poblacional, el cual es un promedio
ponderado de las medias de los estratos. La Ecuación (5.2) nos da un estimador insesgado de la
varianza de este estimador es usado en la obtención de límites para el error de estimación. Se da
también un estimador insesgado del total poblacional, así como su varianza estimada.
Antes de realizar una encuesta, los experimentadores deben considerar qué tan grande deben
tolerar el error de estimación, y de acuerdo con esto seleccionar el tamaño de la muestra. El tamaño
de muestra n es dado por la Ecuación (5.8) para un límite fijo B en el error de estimación. Esta muestra
debe ser entonces asignada a los diferentes estratos. La asignación que nos da una cantidad fija de
información a un mínimo costo es dada por la Ecuación (5.9); la cual es afectada por los tamaños de
los estratos, las varianzas de los estratos, y los costos por efectuar observaciones.
El estimador pst de una proporción poblacional tiene la misma forma que y es dado por la
Ecuación (5.15). Un estimador insesgado de pst es dado por la Ecuación (5.16). Los problemas relativos
al tamaño y asignación de muestra tienen las mismas soluciones que anteriormente, excepto que es
reemplazada por .

ANÁLISIS DEL ESTUDIO DE CASO

LA ESTIMACIÓN DE LOS COSTOS EN EL CUIDADO DE LA SALUD


¿-n el oroblerno estimación de os costos :otaes ce IO ormera nosotaI'zacOn los oaaentes con
litiasis rema , las Corol'ncs V las Rccosas fueron seleccionadas como estratos porque tienen tasas de
incidencia para enferrneõ0õ muy Ciferen-
442 5 MUESQEO ALEATORIO ESTRATIFICADO
tes, y porque se deseaba informrx:ión separada para cada región, Además, esta
separaciôn en reganes geográficos simpiiticaõo os procedimientos de muestreo
Los oatos muestraies se resumen como sigue•

Carolinas Rocosas

Para cacuar casta onuol para estas egones deoe enconfrarse


primero Nd y Np el número (E cocientes de litiasis que se esoera encontrar
en la región respectivo sn un arso cualquiera. Pueden aproxmorse estas
estimocones SI se encuentran las tosas de incidencic para la enfermedad y si
se conoce la çooación to tal jas reganes.
Un estudio pardela mostró que el número de oasos e a de 454 por codo
habitantes en las Caroinas, y de 263 por cada '100,00C) habitantes en las
Pocosas De ocue do con el censo 498C), Io población de ios Carolinos era de
y la de región de las vonjanos Rocosas e a de 7,35" ,0CD. De esto mo-

= 40,828

= • 19,333
Aho a ocdemos estirnar el costo total anual
de io primera hosoitoiizoclón cara os pacientes corm litiasis en ias dos
regones combinadas como

o sea
Fi límite Para ei e ror de estgmación es (ya que los poblaciones son grandes
compa radas con os amaños oe muestra]-

Entonces esfimamos que e! costo total anua' para los dos regiones está entre
S72 y S82 millones aproximadamente,
EJERCICIOS

5.1 Una cadena de almacenes de departamentos está interesada en estimar la proporción de cuentas por cobrar
negligentes. La cadena consiste de 4 almacenes. Así que el costo de muestreo es redu-
EJERCICIOS
443
cido. Se usa muestreo aleatorio estratificado, con cada tienda corno un estrato. Ya que no se dis. pone de
inforrnación referente a las proporciones poblacionales antes del muestreo, Se usa la asignación
proporcional. De la tabla acompañante, estime p, la proporción de cuentas negligentes para la cadena, y
fije un límite para el error de estimación.

Tamaño de muestra
Número muestral de cuentas negligentes 4 2 8 1

5.2 Una corporación desea estimar el número total de horas-hombre perdidas debido a accidentes de los
empleados, en un mes determinado. Ya que los obreros, los técnicos y los administrativos tienen
diferentes tasas de accidentes, el investigador decide usar muestreo aleatorio estratificado, con cada
grupo formando un estrato. Datos de años previos sugieren las varianzas mostradas en la tabla anexa,
para el número de horas-hombrc perdidas por empleado en los tres grup(E, y de datos actuales se
obtienen los tamaños de los estratos. Determine la asignación de Neyman para una muestra de n = 30
empleados

5.3 Para el Ejercicio 5.2, estime el número total de horas•hombre perdidas durante el mes indicado y establezca un
límite para el error de estimación. Use los datos de la tabla acompañante. obteni• da de una muestra de 18
obreros, IO técnicos y 2 administrativos.

8
o 8 32 24
o
6 16 8 12
7 4 4 3 2
9 5 8 8
18 2 0

5.4 Se forma una comisión de zonificación para estimar el valor promedio de avalúo en un suburbio residencial de
una ciudad. El uM) de ambos distritos de votantes en el suburbio como los estratos es conveniente
porque se tienen disponibles listas separadas de las viviendas en cada distrito. De los datos presentados
en la tabla acompañante, el valor promedio de avalúo para todas las casas en el suburbio, y establezca un
límite para el error de estimación (nótese que se utilizó la asignación proporcional).
444 5 MUESTREO ALLATCHO ESTIQA[FICADO

5.5 Una corporación desea obtener información acerca de la efectividad de una máquina comercial. Se
va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la
maquinaria con base en una escala numérica. Las divisiones están localizadas en Norteamérica,
Europa y Asia. Es por eso que usa muestreo estratificado. Los costos son mayores para las
entrevistas de los jefes de división localizados fuera de Norteamérica, La tabla siguiente
proporciona los costos por entrevista, varianzas aproximadas de las calificaciones, y los Ni que
se han establecido. La corporación quiere estimar la calificación promedio con v(Pst) 0. I. Elija el
tamaño de muestra n que obtiene este limite y encuentre la asignación apropiada

5.6 Una escuela desea estimar la calificación promedio que puede ser obtenida en un examen de
comprensión de lectura por estudiantes de sexto grado. Los estudiantes de la escuela
agrupados en tres estratos, los que aprenden rápido en el estrato I y los que aprenden lento en
el estrato III. La escuela decide esta estratificación porque de esta manera se reduce la
variabilidad en las calificaciones del examen. El sexto grado contiene 55 estudiantes en el
estrato I, 80 en el estrato ll y 65 en el estrato III. Una muestra aleatoria estratificada de 50
estudiantes es asignada proporcionalmente y produce muestras irrestrictas aleatorias de n, 14,
n2 20 y n3 = 16 de los estratos I, II y III. El examen se aplica a la muestra de estudiantes y se
obtienen los resultados que se muestran en la tabla. Estime la calificación promedio para este
grado y establezca un limite para el error de estimación.
Estrato I Estrato II Estrato
EJERCICIOS
80 92 85 82 42 32
68 85 48 75 36 31
72 87 53 73 65 29
85 91 65 78 43 19
90 81 49 69 53 14
72 61 31
62 79 81
53 42 30
61 83 59
68 39 32
52
71 61
59 42
415

5.7 Supnga que la calificación promedio para el examen de la clase del Ejercicio 5.6 va a estimar de nuevo al final
del año escolar. LOS costos de muestreo Son iguales en todos los estratos, pero las varianzas son
diferentes. Encuentre la asignación Óptima (Neyman) para una muestra de tamaño 50, usando los datos
del Ejercicio 5.6 para aproximar las varianzas.
5.8 Utilizando los datos del Ejercicio 5.6, encuentre el tamaño de muestra requerido para estimar la
calificación promedio, con un límite de 4 puntos para el error de estirnación. Use asignación
proporcional.
5.9 Repita el Ejercicio 5.8, ahora usando la asignación de Neyman. Compare los resultados con la respuesta del
E*rcicio 5.8.
5.10 Un guardabosques quiere estimar el númem total de de árbols en ranchos de un estado. Ya que
el número de acres de árboles varía considerablemente con respecto el tamaño del rancho, decide
estratificar con base en el•tamaño de los ranchos. Los 240 ranchos en el estado puestos en una de 4
categorías de acuerdo con el tamaño. Una muestra aleatoria estratifi• cada de 40 ranchos, seleccionada
mediante asignación proporcional, produce los resultados del número de acz-es plantados de árboles que
se muestran en la tabla anexa. Etime el número total de acres plantados de árboles en los ranchos del
estado, y un límite para el error de egimación.

97 67 125 155 .142


256
125
42167 655
67 96 310 440 220 540
25 92 256 47 495 510 780
105 86 310 236 320 396
27 43 220 352 196
45 59 142 190
53 21
5.11 El estudio del Ejercicio 5.10 se va a hacer anualmente, con el Emite para el error de estimación de 5000 acres.
Encuentre un tamaño de muestra aproximado para adquirir este límite si se usa. la asignación de Neynlan. los
datos del Ejercicio 5.10.
5.12 Una psicóloga que está trabajando con un grupo de adultos con retraw mental, desea estimar su tiempo de
reacción promedio a un cierto estfrullo. Ella considera que varones y mu#res pmbablemente presentarán
una diferencia en tiempos de reacción, por lo que desea estratificar con base en los sexos. El grupo de 96
tiene 48 varones. En estudios previos de este tipo de investigaciones se ha encontrado que los tiempos
presentan una amplitud de variación de 5 a 20 gundos para varones y de 3 a 14 segundos para mujeres.
Los costos del muestreo son los mismos para ambos estratos. Usando la asignación óptima, encuentre el
tamaño de muestra aproximado necesario para estimar el tiemp de reacción promedio para el grupo, con
un límite aproximado a

5.13 Un ayuntamiento municipal está interesado en ampliar las instalaciones de un centro de atención diurna para
niños con retraso mental. La ampliación va a incrementar los costos de asistencia a los niños del centro.
Se va a realizar una encuesta por muestreo para estimar la proporción de familias con niños afectados que
utilizarán las instalaciones ampliadas. Las familias están divididas en aquellas que usan las instalaciones
y aquellas que no lo hacen. Algunas familias viven en la ciudad donde se encuentra localizado el centro,
y Otras viven en las áreas rurales o suburbanas de los alrededores. Entonces se usa
muestreo aleatorio estratificado Con en la ciudad que usan las instalaciones,
personas de los alrededores que las usan, en
5
MUESTREO ALEATORIO ESTPATFCADO

la ciudad que no las usan, y personas en los alrededores que no las usan, formando los estratos I , 2, 3
y 4, respectivamente. Aproximadamente 90% de los que usan las instalaciones y 50% de los que no las
usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual
es de $4.00 y de $8.00 para uno que no lo es. La diferencia en el costo resulta de la dificultad para
localizar a quienes no usan las instalaciones.
Registros existentes nos dan NI 97, a'V2 = 43, N, = 145 y N4 68. Encuentre el tamaño de muestra
aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05
para el error de estimación.
5.14 Se lleva a cabo la encuesta del Ejercicio 5. IS y se obtiene la siguiente proporción de familias que usarán
las nuevas instalaciones.

ñ = 087, ñ = 0.93, ñ = 060, P. = 0.53


Etirne la proporción poblacional p, y establezca un límite para el error de estimación. ¿Se logró el
límite deseado?
5.15 Suponga que en el Ejercicio 5.13 el costo total del muestreo se fija en $400. Elija el tamaño de muestra y
la asignación que minimiza la varianza del estimador pst para este costo fijado.
5.16 Considere la información que se da en el Ejemplo 5.17 sobre las 56 empresas comerciales.
(a) Suponga que se tienen n = 15 observaciones para formar una muestra aleatoria estratificada con
dos estratos únicamente. Encuentre el punto de división óptimo entre los estratos. Con n = 7 y 712
—— 8, suponga que los resultados de las mediciones en la muestra (en miles de pesos) son los
siguientes 110, 142, 212, 227, 167, 130, 194 para el estrato l, y 387, 345, 465, 808, 280, 480, 355
y 405 para el estrato 2. Estime mediante y calcule la varianza estimada de
(b) Ahora suponga que el punto diviErio entre los estratos es cambiado a 300,000. Suponga que se
toman miÑnas 15 mediciones en una muetra aleatoria de ni = 8 y n2 = 7, Nótese que
este muestreo carnbia el valor 280 del estrato 2 al estrato 1. (Este resultado no es probable que se
presente en la práctica, y se utiliza aquí sólo con fines explicativos.) Encuentre y calcule la
varianza estimada de La respuesta numérica debe indicar la supe rioridad del método acumulativo
de la raíz cuadrada de frecuencias.
5.17 Si no se tiene información disponible wbre la variable de interés primordial, digamos y, entonces la
estratificación óptima puede ser aproximada mediante el uso de otra variable, digamos x, la cual está
altamente correlacionada con y. Suponga que un investigador desea estimar el número

0—10 2
11-20 4
21-30 6
31-40 6
41-50 5
51—60 8
61-70 10
71-80 14
81-90 19
91-100 13
101-110 3
111—120 7
EJERCICIOS

promedio de días de ausencia por enfermedad, «orgados por cierto grupo de empresas en un año
determinado. No se tiene disponible infonnación referente a días de ausencia pr enfermedad, pero se
puede encontrar información sobre el número de empleados por empresa. Suponga que para estas
empresas se tiene que el número total de días de ausencia por enfermedad está altamente
correlacionado con el número de empleados. Use los datos de frecuencias de la tabla acompañante
para dividir óptimamente las 97 empresas en L = 4 estratos, para los cuales es posible usar tamaños de
muestra iguales.
5.18 Considere el Ejercicio 4.30. El auditor desea ahora submuestrear algunas de las 20 cuentas para una
auditoría más detallada. Separe las 20 cuentas en dos estratos, aplicando el método acumulativo de la
raíz cuadrada de frecuencias a las cantidades dadas.
5.19 Una verificación de control de calidad estándar para acumuladores de automóviles consiste
simplemente en registrar su peso. Un embarque particular de una fábrica consistió de
acumuladores producidos en dos meses diferentes, con el mismo número de acumuladores para cada
mes. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de la
variación mensual. Las muestras irrestrictas aleatorias de pesos de acumuladores para los dos meses
mostraron las siguientes mediciones (en libras):

61.5 64,5
63.5 63.8
63.5 63.5
64. O 66.5
63.8 63.5
64.5 64.0

Estime el promedio de los acumuladores en la Pblación (el embarque) , y fije un límite para el error de
estimación. Descarte la cpf, El estandar de la fábrica para este tipo de acumuladores es de 69 libras.
¿Considera usted que el embarque cumple el estándar del promedio?
5.20 ¿Cree usted que la estratificación del Ejercicio 5.19 es deseable, o será suficiente con muestreo irrestricto
aleatorio? Suponga que el muestreo irrestricto aleatorio es tan conveniente como el muestreo aleatorio
estratificado.
5.21 Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de
microcomputadora defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe
que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de
ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos
integrados resulta que 38 provienen de la operación A y 62 de la operación B. De entre los circuitos
integrados muestreados de la operación A, 6 defectuosos. De entre las piezas muestreadas de la
operación B, IO son defectuosas.
(a) Considerando únicamente la muestra irrestricta aleatoria de 100 circuitos integrados, estime la
proporción de los defectuosos en el lote, y establezca un límite para el error de estimación.
418 5
(b) Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la
operación A y B, estime la proporción de los defectuosos en la población, y fije un Emite para el
error de estimación
Omita los cpf en ambos casos. ¿Qué respuesta encuentra más aceptable?
5.22 ¿En qué condiciones ocurre que la estratificación produce grandes ganancias en precisión sobre el
muestreo irrestricto aleatorio? (Suponga que los costos de observación son constantes en ambos.
diseños.)
5.23 Un analista de investigación de mercados quiere estimar la proporción de personas que favorece el
producto de su compañfa respecto a un producto similar de una compañía rival. El área de
VUESTQEO ALEATORIO ESTPATFCADO

prueba para esta investigación es el estado de Nueva York. Él también está interesado en obtener
estimaciones separadas para la proporción en personas con edades de 18 a 25 años y para mayores de
25 años. Analice posibles diseños para esta encuesta.
5.24 Un investigador desea estimar el ingreso promedio de los empleados de una gran empresa. Se tienen
registros de los empleados listados por antigüedad, y, en términos generales, se tiene que el salario se
incrementa con la antigüedad. Analice los méritos relativos al muestreo irrestricto aleatorio y al
muestreo aleatorio estratificado para este caso. ¿Cuál recomendaría usted y cómo organizaría el
esquema de muestreo?
5.25 En el uso de como un estimador de g, algunas veces resulta ventajoso encontrar la asignación y el tamaño
de muestra que minimiza la para un costo fijo c. Esto es, el costo c perrnitido para el muestreo es fijo y
queremos encontrar la mejor asignación de recursos en términos de maximizar la información sobre
La asignación óptima para este caso es aún dada por la Ecuación (5.9). Muestre que la elección
apropiada de n es

donde co representa gastos generales fijos de la encuesta.

EXPERIENCIAS CON DATOS REALES

5.1 En la Tabla 3 del Apéndice se presentan datos del Censo de 1980 de Etados Unidos. Considerando las
cuatro divisiones mayores del país (Noreste, Centro Norte, Sur y Oeste) como estratos, seleccione una
muestra aleatoria estratificada de estados, y estime el total de la poblaclón para 1980, con un límite
para el error de estimación. En el diseño, seleccione un tamaño de muestra y una asignación que
considere apropiados para obtener una buena estimación. ¿Qué consideraciones intervienen en su
elección? ¿El intervalo producido incluye el total verdadero indicado en la tabla? Compare su
respuesta con las de otros e«udiantes. ¿Todos los intervalos encontrados son de la misma longitud?
¿Incluyen todos los intervalos el verdadero valor poblacional?
5.2 Usando los mismos datos del Censo de 1980 de Unidos, y los misrnos estratos del Ejercicio 5.1 , estime la
proporción de estados que tienen tasas brutas de natalidad (nacimientos anuales por cada mil
habitantes) mayores que la tasa de natalidad para todo el pais durante 1978. Fije un límite para el error
EJERCICIOS
de estimación. Usted puede seleccionar un tamaño de muestra y asignación diferentes a los usados en
el Ejercicio 5. I .
5.3 La Tabla 5.4 muestra la altura de edificios altos en ciertas ciudades de Estados Unidos. Usando las ciudades
como estratos, seleccione una muestra aleatoria estratificada de edificios y estime la altura promedio
para esta población. Fije un límite para el error de estimación. Compare su respuesta con las de sus
compañeros.
5.4 Considere la Tabla 5.4. Usando las ciudades como estratos, estime la proporción de edificios en esta lista
que Obrepasan los 500 pies de altura. Etablezca un límite para el error de estimación. Ponga atención
cuidadosa al tamaño de muestra y la asignación para obtener de modo eficiente un límite pequeño.
5.5 Etime el precio promedi% a] menudeo de un abarrote común frX)r ejemplo café, pan, pasta dental o azúcar)
en la ciudad, o sección de la ciudad en la cual vive. Considere de tres a cinco estratos para los
almacenes, y observe de modo cuidadoso la mejor manera de estratificación. Se sugiere estratificar
con base en el tipo de almacén (gTandes supermercados contra pequeñas tiendas de
420 5
AS coX DATOS REALES 449

TABLA 5.4 Atura editocs Citas en ciTXGs Estcxx_13 irredaa-es en oeSJ

Atlanta, Ga.

para un total dc

Dallas, Tex.

Building
Hilton Hotel
Peachtree Center Harris

Telephone
Trust Company Bank
States
Center Cain Budding
Peachtree Center Building

Chicago, 111.
1000 uke Shore Plaza

1136 Marina City 2


1127 edifici O s

one South wuker Dr.


Poi nt

LaSalle National Bank one IASa11e st. 188 Randolph Tower I I I


E. Chernut Sr. Tribune
River Plaza Chi Mart-t
Puæ pies, insurance Building

Mai 2001 Bryan St Building 372 first International Building San Jacinto Tower Court House & Federal Ofce 362 LTV Republic Bmk Building,
Building
Arco no tone ornamental Mercantile Building vine To 150 She Hotel
TWO W y n dham Hotel Plat* of ne America's
Bank One Main place Este)
Re-public Bank Tower LTV Hotel
City Center National Bank Elm
SW Bell Tower Building, torre Mai n To
One Lincoln Plaza de pies Tower
Olympia Y Mobil Bu,iding Plan of the America's
Reunion To wet 'Mart Hotel y Sur)
Life Fi d clity Union Ccntnl No. 3 Diamond One Centre Adolph us To wc r Detroit, Mich.
Detrdit Plaza Hotel David Stott
Penobacot Building Michigan Consolidated Gas Top of Troy Building
15000 Town Company Building Detroit Bank & Trust Buildihg 370
Guard i an Edison
(4 edificios) 479 J. L Building To
BOO k To McNamara Federal Off
13000 Dr. Building
Tower Detroit bank & Trust Budding 374 Continüa
YUE-STQE-O Alf-ATCRIO ESTRATIFICADO

T ABLA 5.4 Continuaciön

MRhiganBellTelephone 340 pontchartt•ainMotor Hotel 1300 Lafayette

Houston, Tex.

Regency Houston

LOS Angeles, Calif.


422 5

Nueva York, N.Y.


World Center (2 tortes) 1350 Quern iCal Bank. •N Y. Trust Wa Idorf-Astoria
e State 250 Building House
Torre de TV, 222 pies, 55 St.
1472 Chan in 40th st.
Ch ryslcr 1046 GO [f & Western Building Ave.

950 Marine Midland Building New York Life


40 wall •rower McGraw Hill 674 Penney Bui i

RCA Building t 633 Broadway 780 3rd Ave.

I Chase Manhattan Ptau 725 5th Ave. 560 Leingtm•-a Ave.

Pan Am Building American Brands Celanese Building


W w orth A. T. & T. Tower 648 House
1 Penn Plaza G Electric 640 Building
750 Irving Trust Time & Life
I Liberty Plaza 345 hrk Ave. 634 Cooper Bregstein Building
741 Grace plaza 1185 Avenue of America:
One Astor Plaza New York Plaza Municipal

Union Budding Home Corporation Madison Square

Motors Building Building Westvaco Building


M tan Life N.Y. Telephone 888 Socony Mobil Building
500 5th Ave, 7th AVC,
9 W. 57th st. Continüa
EXPERiENCIAS CON DATOS PEALE-S 424

T ABLA 5.4 Continuaciån

Filadelfia, Pa.
Philadelphia Electric Company
Pittsburgh, Pa.

Plaza Oliver

San Francisco, Calif.

Fuente: The W0fld Almanac e. Book of Facts, 1984 edition, copyright C)NewspaF Enterpri*
Auxiation, Inc., 19839 New York, NY 10166

VILIC-STPEO ALEATORIO ESTRATIFICADO

barrio), áreas geográficas, o con una combinación de los dos. El último método es importante si usted dexa
comparar las estimaciones para pequeñas tiendas de barrio en diferentes secciones de la ciudad. Construya
cuidadosamente un marco, buscando varias fuentes de posibles listas de almacenes que deban ser incluidas en la
población. Elija un tamaño de muestra para obtener una varianza fijada de antemano para el estimador a un costo
mínimo. Etablezca estimaciones para cada estrato, así como para toda la población. Use una tabla de números
aleatorios en la selección real de Sus muestras.
424 5

ESTIMACIÓN DE
RAZÓN, REGRESIÓN Y
DIFERENCIA
ESTUDIO DE CASO

¿QUÉ TAN PRECISO ES EL INVENTARIO?


Ijno tarea •mcorrcnte ae un auctor es evaluar Cu exactituo ae tas
cantidades del inven ovo oresenroao cor unc emoresa Esto evc;ucaón se
noce seecconcnoo artícuos lis a del inventario. deterrnnancto en adores ei
trrcorte aç_yopiaci0 poro orno arncuio seleccanacjo, y luego estimarycso e
e;ror totol raventano Si error totai se denoto ocr Te, IO contiõ0d totd del
nventcrio presentado [conriõ0õ osentoaa en el libro) por lo cantidad totol
del inventario revisado cor ry, entcrces

Puesta cuer* es conocido (es Io cantidcc presentado oor IO firrmJ, e! único oroeees
estimar r
LOS técnicos del Coaítula 6 puecern utilzorse para estmor 'o toral ael rventaro
reviscd0 y el error total del inventario. TOI análisis se presento pos erormen-

423
424 CE REGRESIÓN Y DIFERENCIA

6.4 INTRODUCCIÓN

La estimación de la media y el total poblacionales en los capítulos precedentes se


basó en una muestra de las mediciones de la respuesta, y, h, . . . , obtenida por
muestreo irrestricto aleatorio (Capftulo 4) y muestreo aleatorio estratificado
(Capítulo 5). Algunas veces otras variables están íntimamente relacionadas con la
respuesta y. Midiendo y y una o más variables auxiliares, podemos obtener
información adicional para estimar la media poblacional. Probablemente usted está
familiarizadocon el uso de variables auxiliares para estimar la media de una
respuesta y. Es básico para el concepto de correlación y proporciona los medios
para el desarrollo de una ecuación de predicción relacionando y y X por el método
de mínimos cuadrados. Este tema se trata ordinariamente en los cursos
introductorios de estadística (Mendenhall, 1986, Capítulo 10).
Los Capftulos4 y 5 presentaron estimadores simples de parámetros
poblacionales utilizandolas mediciones de la respuesta y, , h, . . . , y, ; sin embargo,
el enfásis principal fue establecido sobre el diseña de la encuesta por muestreo
(irrestrico aleatorio o estratificado). En contraste, este capítulo presenta tres
nuevos métodos de estimación, basados en el uso de una variable auxiliar X. Los
métodos se denominan estimación de razón, regresión y diferencia. Los tres
métodos requieren de la medición de dos variables, y y x, en cada elemento de la
muestra. Diversos diseños de muestreo pueden ser empleados en unión con la
estimación de razón, regresión o diferencia, pero estudiaremos principalmente el
muestreo irrestricto aleatorio. Sin embargo, las nociones básicas de cómo se aplican
6 ESTIMACIÓN RAZÓN,

estas técnicas al muestreo aleatorio estratificado se explicarán en la estimación de


razón.
6.2 ENCUESTAS QUE REQUIEREN EL USO DE ESTIMADORES DE RAZÓN 125

6.2 ENCUESTAS WE
ESTIMADORES DE RAZÓN

La estimación de un total poblacional algunas veces requiere el uso de variables auxiliares.


Ilustramos el uso de un estimador de razón para una de las situaciones. El precio al mayoreo
que se paga por las naranjas en remesas grandes se basa en el contenido de azúcar de la
carga. El contenidoexacto de azúcar no puede ser determinado antes de la compra y
extracción del jugo de la carga completa; sin embargo, puede ser estimado. Un método para
estimar esta cantidad es primero estimar el contenido medio de azúcar por naranja, gy, y
luego multiplicarlopor el número de naranjas Nen la carga. Por lo tanto podríamos
seleccionar aleatoriamenten naranjas de la carga para determinar el contenido de azúcar y
en cada una de ellas. El promedio de estas mediciones dela muestra y„ "2, . . . , yn estimara a
gy; NP estimarael contenido de azúcar total en la carga, Ty. Desafortunadamente este
método no es factible, debido a que es muy costoso y se emplea mucho tiempo para
determinar N (esto es, para contar el número total de naranjas en la carga).
Podemos eludir la necesidad de conocer N observando los dos hechos siguientes.
Primero, el contenido de azúcar de una sola naranja, y, está íntimamente relacionado con su
peso x; segundo, la razón del contenido total de azúcar con el peso total de la carga de
naranja es igual a la razón del contenido medio de azúcar por naranja, Ay, con el peso medio
Ax. Por lo tanto

Al resolver para el contenido total de azúcar de la carga, tenemos

Podemos estimar y usando y i, los promedios del contenido de azúcar y el peso para la
muestra de n naranjas. También, podemos medir , el peso total de las naranjas en el camión.
Entonces una estimación de razón del contenido total de azúcar r es

o, equivalentemente (multiplicandoel numerador y el denominador por n) ,


En este caso el número de elementos en la población, N, es desconocido, y por lo tanto
no podemos usar el estimador simple Ni del total poblacional T (Sección4.3). Así, un
estimador de raz6n o su equivalente es necesario para lograr el objetivo de la
426 LE
estimación. Sin embargo, si N es conocida, tenemos la elección de usar el estimador
NP o el estimador de razón para estimar Ty. Si y y x están altamente
correlacionadas, esto es, x cdntribuye con información para la predicción de y, el
estimador de razón deberá ser mejor que Ni, el cual depende únicamente de
Además del total poblacional Ty, hay frecuentemente otros parámetros de
interés. Podemos querer estimar la media poblacional usando un procedimiento de
estimación de razón. Por ejemplo, supóngase que deseamos estimar el contenido
de azúcar promedio por naranja en una gran remesa. Podrfamos usar la media
muestral j para estimar g . Sin embargo, si X yy están correlacionadas,un estimador
de razón que usa información de la variable auxiliar x suele proporcionar un
estimador más preciso de
La razón poblacional es otro parámetro que puede ser de interés para un
investigador. Por ejemplo, supóngase que queremos estimar la razón del total de
automóviles vendidos en el primer trimestre de este año con el número de ventas
durante el periodo correspondiente del año anterior. Sea Tx el número total de
ventas para el primer trimestre del año pasado y sea Ty el número total de ventas
para el mismo periodo en este año. Estamos interesados en estimar la razón

El concepto de estimación se usa en el análisis de datos de encuestas muy


importantes y prácticas utilizandas por el gobierno, el comercio, e investigaciones
académicas. Por ejemplo, el índice de precios al consumidor (IPC) realmente es una
razón de los costos de adquisición de un conjunto fijo de artículos de una calidad y
cantidad constantes para dos puntos en el tiempo. Generalmente,el IPC compara
los precios de hoy con los de 1967. H IPC está basado, en parte, en los datos
recolectados cada mes o cada dos meses de 24,000 establecimientos (tiendas,
hospitales, estaciones de servicio, y así sucesivamente)seleccionadosde 85 áreas
urbanas del país. El IPC es usado principalmente como una medida de inflación
(véase Capltulo 1).
La Encuesta General de Población ajusta las cifras de desempleo para edad,
sexo y raza según una técnica de estimación de razón. Por ejemplo, la razón del
número de negros desempleados al número de negros en la fuerza de trabajo, para
un área de muestreo, puede generalizarse a una medida del número de negros
desempleados en un área mayor simplemente multiplicando la razón muestral por
el número de negros en la fuerza de trabajo del área mayor.
El índice de Ventas al Menudeo de Nielsen puede proporcionar razones de los
precios de venta promedio para dos marcas competitivas de un producto o para un
solo producto en dos puntos en el tiempo. H SAMI puede proporcionar razones
sobre el volumen total de existencias para dos marcas competitivas.
En las predicciones a menudo se utiliza una técnica de estimación de razón.
Por ejemplo, la razón de las ventas totales en el primer periodo del año en curso,
6 ESTIMACIÓN RAZÓN,

con un total similar para el año pasado, puede multiplicarse por las ventas totales
del año pasado para estimar las ventas totales de este año. Métodos similaresson
usados para predecir el crecimiento de la población.
En la investigación académica, los sociólogos están interesados en medidas
como la razón del presupuesto total mensual para alimentación con el ingreso total
mensual por familia, o la razón del número de niños con el número de personas que
viven en
6.3 ESTIMACIÓN RAZÓN
[E 127
una unidad habitacional. Los investigadores en medicina pueden medir la potencia relativa de un
nuevo medicamento, observando la razón de la cantidad promedio requerida del nuevo producto
para producir una respuesta con la cantidad promedio requerida de un medicamento tipo para la
misma respuesta.
Como usted puede ver, las aplicaciones posibles de la estimación de razón son in terminables.
Sin embargo, ahora desviaremos nuestra atención a la estructuración de estimadores para Ay, Ty y
R; y proporcionaremos ejemplos numéricos de cada uno. Cuando sea pertinente, las
comparacionesse harán con los estimadores de aquellos parámetros presentados en los capítulos
previos.

Vamos a suponer que una muestra irrestricta aleatoria de tamaño n será seleccionada de una
población finita que contiene N elementos. Entonces„¿cómo estimamos una media p„ un total Ty, o
una razón R poblacionales, utilizando la información de la muestra sobre y y una variable auxiliar
x?

Estimador de la razón poblacional R:

(6.1)

Varianza estimada de r:

(6.2)

Límite para el error de estimación:

(6.3)

[Si la media poblacional


en las Ecuaciones (6.2) y (6.3). ]
128 6 ESTIMACION PAZÕN, Y DIFERENEIA
REGPESON

EJEMPLO 6.4

En una encuesta para examinar las tendencias en bienes ralces, un investigador está
interesado en el cambio relativo en el valor calculado de las casas en una comunidad
en particular durante un periodo de dos años. Una muestra irrestricta aleatoria de n
= 20 casases seleccionada de N = 1000 casas de la comunidad. [k los registrosfisca.
les, el investigador obtiene el valor calculado para este año (y) y el valor
correspondiente para hace dos años (x), de cada una de las n = 20 casas incluidas en
la muestra. El investigador desea estimar R, el cambio relativo en el valor calculado
para las N
1000 casas, usando la información contenida en la muestra.

TABLA 6.4 y cálculos para la encuesta de avalúo de bienes raíces [dfras en


unidades de SdO,000

Valor calculado Valor hace du

actual

1 6.7
2
44,89 8.2 8.4 67.24 70.56 68.88 50.41
47.57
3 7.9 8.2 62.41 67.24 74.78
4 6.4 6.9 40.96 47.61 44.16
5 8.3 8.4 68.89 70.56 69.72
6 7.2 7.9 51.84 62.41 56.88
7 6.0 6.5 36.00 42.25 39.00 Los
8 7.4 7.6 54.76 57.76 56.24 datos
para la
9 8.1 8.9 65.61 79.21 72.09
encuesta
de 10 9.3 9.9 86.49 98.01 92.07
bienes
11 8.2 9.1 67.24 82.81 74.62 ralces se
12 6.8 7.3 46.24 53.29 49.64
13 7.4 7.8 54.76 60.84 57.72
14 7.5 8.3 56.25 68.89 62.25
15 8.3 8.9 68.89 79.21 73.87
16 9.1 9.6 82.81 92.16 87.36
17 8.6 8.7 73.96 75.69 74.82
18 7.9 8.8 62.41 77.44 69.52
19 6.3 7.0 39.69 49.00 44.10
20 8.9 9.4 79.21 88.36 83.66
6.3 ESTIMACIÓN
presentan en la Tabla 6.1. Hfrnos adicionadolas columnas x, , y Xi)', las cuales
son útiles para el cálculo de la V(r).
Usando los datos de la Tabla 6.1, estime R, el cambio relativo en el avalúo de
bienes raíces en el periodo de dos años dado. Establezca un límite para el error de
estimación.
[E 129
SOLUCIÓN
La estimación de R, usando los datos de la muestra, está dada por 20

Usando la Tabla 6.1,

154.5
Por lo tanto estimamos que el avalúo de bienes raíces se ha incrementado
aproximadamente un 20% en un periodo de dos años en el área estudiada.
El límite para el error de estimaciónse encuentra usando la Ecuación (6.3). Un
método abreviado para calcular Ei_l (Yi — rxi)2 está dado por

(6.4)
Estas cantidades pueden obtenerse de la Tabla 6.1 :

(Yi — 'Xi)2 = 1373.71 +
= 1.3157
Usando la Ecuación (6.5) resulta

1000 - 20 1 1.3157
= 0.02 20(1000) 2
19
(7.725)
Por lo tanto estimamos que la razón del avalúo actual de bienes
rafces con aquel de hace dos años es r = 1.07, y estamos bastante
confiados en que el error de estimación es menor que 0.02. Esto es, la razón verdaderaR para la
población deberá estar entre 1.05 y I .09. Nótese que el límite para el error de estimación es
bastante pequeño. En consecuencia r será un estimador muy preciso de R.
130 6 ESTIMACION PAZÕN, Y DIFERENEIA
Los intevalos de confianza para muestras grandes, basados en la teoría de la
distribución normal, presentados en el Capftulo 2, también se aplican en el caso de la
estimación de razón. Así, por ejemplo, un intervalo de confianza de aproximadamente
95% para la razón R es de laforma

CE REGRESION

La técnica de razón para estimar un total poblacional Ty fue aplicada en la


estimación del contenido total de azúcar de una carga de naranjas. El estimador
simple NY noes aplicable debido a que no conocemos N, el número total de naranjas
en el camión. El siguiente procedimiento de estimación de razón puede ser aplicado
en la estimación
se conozca o no N.

d
e

rrx (6.5)

Varianza estimada de T :
2

t(ôy) = (6.6)
donde y Tx son la media y el total poblacionales, respectivamente, para la
variable aleatoria X.

Límite para el error de estimación:

(6.7)

Nótese que si bien no necesitamos conocer N o Ax, debemos conocer para estimar r
mediante el procedimiento de estimación de razón.

EJEMPLO 6.2
6.3 ESTIMACIÓN

En un estudio para estimar el contenido total de azúcar de una carga de naranjas,


una muestra aleatoria de n = IO naranjas fue pesada y extraído el jugo (véase la
Tabla 6.2). El peso total de todas las naranjas, obtenido pesando primeroel camión
cargado y luego descargado, fue de 1800 libras. Estime Ty, el contenido total de
azúcar de las naranjas, y establezca un limite para el error de estimación.

SOLUCIÓN
H contenidode azúcar de una naranja usualmente es registradoen grados brix — una
medida del número de libras de sólidos (principalmente azúcar) por 100 libras de
jugo—. Para nuestros cálculos usaremos las libras por naranja. Una estimación de r
CERAZÓN USANDO MUESTREO IRRESTRICTO ALEATORIO 431

TABLA e EPrnr:k) 6.2 6.2 Datos


I
azúcar naranja
Naranja (al libras) (en libras)

a021
040
2 0.030 0.48

3 0.025 0.43

4 0,022 0.42

5 0.033 0.50

6 0.027 0.46

7 0.019 0.39

8 0.021 0.41

9 0.023 0.42

10 0.025

E % =0.246 E = 4.35

puede ser obtenida usando la Ecuación (6.5):

0 246
132 6 ESTIMACION PAZÕN, Y DIFERENEIA
-¿.#1800) = 101.79 libras

Un límite para el error de estimación puede ser encontrado si usarnos una versión
modificada de la Ecuación (6.7). Debido a que en este ejemplo N es desconocida,
suponemos que la corrección por población finita (N — n)/ N, es casi la unidad. P.*a
suposición es razonable porque esperamos al menos N = 4000 naranjas en una carga
pequeña. La media muestral debe ser usada en lugar de en la Ecuación (6.7); puesto que
gx es desconocida. Con estos ajustes la Ecuación (6.7) se transfonna en

la Ecuación (6.4). para el cálculo:

donde
6.3

De los datos,

= 0.10839
4 35
— = 0.435
10
Sustituyendoen la Ecuación (6.4) da
10

E (y, — rxô2 = E Y? +r2 E


—Q006224 +
=0.000052285
Luego el limite para el error de estimación es

(1800)2 — 0.000052285
10
En resumen, la estimación de razón del contenido total de azúcar de la carga de na = 101.79,libras,
con un límite para el error de estimaciónde 6.3. Estamos confiados en que el contenido total de azúcar
cae dentro del intervalo

101.79 + 6.3
a
Usted recordara que el tamaño de la población N con frecuencia es desconocido.
Consecuentemente, el investigador debe decidir en qué condicionesel uso del estimador de razón = r gs
mejor que el del estimador correspondiente NI, donde ambos estimadores están basados en un muestreo
irrestricto aleatorio (véase Sección 6.5). En general, rrx pos— una varianza más pequeña que N' cuando
existe una fuerte correlación positiva entre X y y (donde.p, el coeficiente de correlación entre x y y, es
mayor que i), Intuitivamente, esta aseveración tiene sentido porque en estimación de razón se utiliza la
información adicional proporcionada por la variable auxiliar X.
Si un investigador está interesado en una media poblacional más que en un total poblacional, el
correspondiente procedimiento de estimación de razón se muestra en las Ecuaciones (6.8), (6.9) y (6.10).
134 6 ESTIVACIÓN REGRESIÓN Y DIFERENCIA
133

(6.8)

Varianza estimada A :

(6.9)
Límite para el error de estimación:

EJEMPLO 6.3
compaííía desea estimar la cantidad promedio de dinero pagado a los empleados por
gastos médicos durante los pruneros tres meses del aíío en curso. Ins reportes del
promedio por trimestres están disponibles en los informes fiscales del aiío anterior. Una
muestra aleatoria de 100 registros de empleados se seleccionó de una población de 1000
empleados. Los resultados de la muestra se resumen a continuación. los datos para
estimar y establezca un límite para el error de estimación.

n 100, N = 1000
Total para el trimestre actual:
100

Total para el trimestre correspondiente del año anterior:


too
E = 1200
Total poblacional para el trimestre correspondiente del año anterior
PAZOQ,
= 12,500
100 100 100
E = 31,650, E xi = 15,620,
6.3
SOLUCIÓN
El estimador de es

= rgx
donde
12,500

Entonces18.23

El límite para el error de estimación puede ser encontrado


usando la Ecuación (6.10); sin embargo, debemos calcular
primero

too too 100 100

= 441

Al sustituir en la Ecuación (6.10) se obtiene el lúnite para el error de estimación:

= 0.42
1000— 100 441.68
100(1000) 99
Por lo tanto estimamos que la cantidad promedio de dinero pagado a
los empleados por gastas médicos es $18.2S. Estamos muy confiados en
que el error para estimar e; menor que $0.42.

Al recordar las fórmulas para la estimación de razón de una media, un total o una razón
poblacionales, hacemos las siguientes asociaciones. La razón muestral r está dada por la
fórmula

(6.11)
136 6 ESTIMACION RAZÓN, REGRESION Y DIFERENEIA
Luego los estimadores de R, Ty,y gy son

rgx
(6.12)
(6.13)
(6.14)
Por lo tanto solamente necesitamos conocer la fórmula para r y su relación con y ry. Las
varianzas aproximadas pueden ser obtenidas si usted recuerda la fórmula básica,

(6.15)

Así(6.16)
(6.17)

6.4 SELECCIÓN DEL TAMAÑO DE LA MUESTRA

Previamente establecimos que la cantidad de información contenida en la muestra


depende de la variación en los datos (la cual frecuentementees controlada por el diseño
de la encuesta por muestreo) y el número de observacionesn incluidas en la muestra. Una
vez que el procedimiento (diseño) de muestreo ha sido seleccionado, el investigador debe
determinar el número de elementos que serán seleccionados. Consideraremos el tamaño
de muestra requerido para estimar un parámetro de la población R, Ay, o T dentro de B
unidades por muestreo irrestricto aleatorio usando estimadores de
razón.
Nótese que el procedimiento para seleccionar el tamaño de la muestra n es idéntico
al presentadoen la Seccián 4.4. El número de observacionesrequeridas para estimar R,
una razón poblacional, con un limite para el error de estimación de magnitud B , está
determinado estableciendo dos desviaciones estándar del estimador de razón r igual a B y
despejando n de esta expresión. Esto es, debemos resolver
6.4

(6.18)

para n. Aunque no hemosrevisado la 6rma de V(r), usted recordará que V(r), la varianza
estimada de r, está dada por la fórmula
2

(6.19)

Podemos reescribir la Ecuación (6.19) como

2
(6.20)
En este caso definimos

s
Una varianza poblacional aproximada, V(r), puede ser obtenida de V (r) reemplazandos
con la varianza poblacionalcorrespondiente*. Por lo tanto el número de observaciones
requeridas para estimar R, con un límite B para el error de estimación, se determina
despejando n de la siguiente ecuación:

Tamaño requerido de muestra para estimar R, con un límite para el error de


estimación B:
No-2
(6.22)

En una situación práctica nos enfrentamos con el problema para determinar el tamaño
de muestra apropiado porque no conocemosc . Si no se dispone de información anterior
para calculars como un estimadorde , tomamos una muestra preliminar de tamaño ri y
calculamos

Luego sustituimos esta cantidad por en la Ecuación (6 , 22) , y encontramos un tamaño de


muestra aproximado, Si también es desconocido, puede ser reemplazado por la media
muestral i, calculada con las n' observaciones preliminares.
138 6 ESTIMACION RAZÓN, REGRESION Y DIFERENEIA

EJEMPLO 6.4

Una compañfa industrial desea estimar la razón de cambio del año pasado con este año en
cuanto al número de horas-hombre que se pierden debido a enfermedad. Se efectuó un
estudio preliminar con n' = IO registros de empleados, y los resultados se presentan en la
tabla adjunta. Los registros de la compañía muestran que el número total de horas-hombre
que se perdieron a causa de enfermedad el año anterior fue rx = 16,300. Use los datos para
determinar el tamaño de muestra requerido para estimar R, el cambio relativo para la
compañía, con un límite para el error de estimación de magnitud B = 0.01. Suponga que la
compañfa tiene 1000 empleados (N =
1000).
Horas-hombl* pedida• en perdHn•
en
Empleau e] a50 αη*Ηοτ, 'Χ el aHo actu•l, Υ

10 14 12

178 187

SOLlJClON
Primero, estudio prehminar. M calculamos
una admaci6n de

donde

Enseguida, con Ιος datos dad(b detenninama


6.4

= 4245
ΙΟ

187
178

Ιο tanto
10 ΙΟ

= + — 31.265
140 6 ESTIMACIÓN PAZÜN,
CE
10

31.265
= 3.474
9 9
El tamaño de muestra requerido ahora puede ser encontrado usando la Ecuación (6.22). Nótese que

16,300
= 16.3
N 1000
2 2

= 0.006642
4 4
N62 1000(3.474)
ND +62 10000006642) + 3.474
Por lo tanto debemos seleccionar aproximadamente 344 registros de empleados para estimar R, el
cambio relativo eq horas-hombre perdidas por enfermedad, con un límite para el error de estimación de
0.01 horas.

Asimismo podemos determinarel número de observaciones n necesarias para estimar una media
poblacional Ay, con un •te para el error de estimaciónde magnitud B. El tamaño de muestra requerido se
encuentra despejando n de la siguiente ecuación :

(6.23)
Establecido de manera diferente,

=B [de la Ecuación (6.17)]


La solución se muestra en la Ecuación (6.24).

Tamaño de muestra requerido para estimar con un límite para el error de estimación B:

(6.24)
B2
6.4
Nótese que no necesitamos conocer el valor de gr para determinar n en la Ecuación (6.24); sin
embargo, necesitamos una estimación de (7 2, de información anterior si está disponible o de
información obtenida en un estudio preliminar.
139

EJEMPLO 6.5
Una investigadora desea estimar el número promedio de árboles por acre en una
plantación de N = 1000 acres. Ella planea seleccionar n parcelas de 1 acre y contarel
número de árboles Y' en cada parcela. También tiene fotografias aéreas de la plantación,
con las cuales puede estimar el número de árboles x en cada parcela para la plantación
completa. En consecuencia conoce gx. Por lo tanto parece apropiado usar un estimador de
razón para g . Determine el tamaño de muestra necesario para estimar gy con un límite
para el error de estimación de magnitud B = 1.0.

SOLUCIÓN
Suponiendo que no se dispone de información anterior, debemosconducir un estudio
preliminar para estimar . Puesto que un investigador sólo puede examinar 10 parcelas de
un acre en un día para determinar el número total de árboles y por parcela, resulta
conveniente realizar un estudio preliminar con n' = 10 parcelas. Tns resultados de tal
estudio se dan en la tabla adjunta, con la estimación aérea x correspondiente.

23
2 14 15
3 20 22
4 25 24
5 12 13
6 18 18
7 30 35
8 27 30
9 8 10
10 31 29

208 221

9
Usando la Ecuación (6.4):
6 ESTIMACON RAZÓN, Y DIFERENICIA
10 10

Del estudio preliminar,

2
(25)2
(15)2 + + (29)2 = 5469

(23)2 + (14)2
+ . . . + (31)2 =
4872
440 [E PEGPESON
10

5144
10

221
208

10

= 37.8992
9 9

Ahora determinemos n según la Ecuación (6.24), donde D = B2/4

= 16.56
2
ND +c 1000(0.25) + 4.21

En resumen, necesitamos examinar aproximadamente 1 7 parcelas para estimar el


número promedio de arboles por parcela de 1 acre, con un Ilmite para el error de
estimación de B = 1.0. Solamente necesitamos agregar 7 observaciones, puesto que
tenemos 10 del estudio preliminar.
6.4
El tamaño de muestra requerido para estimar con un Emite para el error de
timación de magnitud B , puede encontrarse resolviendo la siguiente expresión para n:

(6.25) o, equivalentemente,

B [dela Ecuación (6.16)]

Tamaño de muestra requerido para estimar con un límite para el error de esti-
mación B:

NC2
(6.26)

EJEMPLO 6.6

Un auditor desea comparar el valor verdadero en dólares del inventario de un hospital, Tv,
con el inventarioregistrado, El inventario registrado puedeser obtenido de los registros
almacenados en la computadora del hospital. El inventario real podría
determinarseexaminando y contando todos los artlculos del hospital, pero este proceso
serfa muy costoso y emplearía mucho tiempo. Por lo tanto el auditor planea estimar r con
base en una muestra de n hospital aleatoriamente.
En el inventario del hospital, los registros de computadora listan N = 2100 artlculos
de diferente tipo y el número de cada artlculo en particular. Con estos datos puede
obtenerse un valor total para cada artlculo, x, multiplicandoel número total de cada
artlculo registrado por el valor unitario de cada artlculo. El valor total de inventario
obtenido, según los registros de computadora, esta dado por
2100

= suma de los valores para los N = 2100 =


En este caso fue $950,000. Determine el tamaño de muestra (número de artículos)
necesario para estimar r con un Ifmite para el error de estimación de magnitud B $500.

SOLUCIÓN
Debido a que no hay información previa disponible, debe realizarse un estudio preliminar
para estimar . personas pueden determinar el valor verdadero y para cada uno de 15
artículosen un día. Para este ejemplo usaremos los datos del inventario
6 ESTIMACON RAZÓN, Y DIFERENICIA
Valor Valor
ArúculO de computadora, X real, y

1 4 15.0 14.0
2 9.5 9.0
3 14.2 12.5
4 20.5 22.0
5 6.7 6.3
6 9.8 8.4
7 25.7 28.5
8 12.6 10.0
9 15.1 14.4
10 30.9 28.2
11 7.3 155
12 28.6 26.3
13 14.7 13.1
14 20.5 19.5
15 10.9 9.8

242.0 237.5
6 ESTIVACIÓN CE RAZÓN, Y DIFERENCIA

REGPESON

de un solo día (n' = 15)como un estudio preliminar para obtener una primera estimación de y,
consecuentemente, una primera aproximación del tamaño requerido de muestra n. Eñ realidad, el
investigador probablemente efectuaría un estudio preliminar del inventario de dos o tres días para
proporcionar una buena aproximación de 2 y en consecuencia de n; sin embargo, para simplificar
10' cálculos, consideraremos un estudio preliminarden' = 15 artículos. Estos datosse resumen en la
tabla adjunta con las correspondientes cifras de la computadora (los datos en cientos de dólares).
Para determinar una estimación de u2 , debemos calcular

Usando los datos del estudio preliminar, obtenemos

— 4522.19

= 4706.54
15

—0.98
+••+
= 4560.27
Por lo tanto

= 4522.19 +
= 104.2218

E (Yi

104.2218
7.4444
14 14
Ahora el tamaño de muestra requerido puede ser encontrado usando la Ecuación (6,26). Tenemos

0.01417

y por lo tanto

¯ 2100001417) + = 420.2326
6 ESTIVACIÓN CE RAZÓN, REGRESIÓN Y DIFEREhCIA

Así el auditor debe seleccionar aproximadamente 421 artículos para estimar, Ty, el valor real del
inventario, dentro de B = $50().

El uso del estimador de razón es más efectivo cuando la relación entre la respuesta yy una
variable auxiliar x es lineal a través del origen y la varianza de y es proporcional a
x. El ejemplo siguiente ilustra este punto. Un distribuidor de neumáticos para automóvil
desea estimar el promedio de los ingresos en efectivo para sus 1570 tiendas (N 1570)
durante un periodo particular de ventas. una muestra irrestricta aleatoria den = 50 tiendas,
los ingresos en efectivo correspondientesyi (i = 1, 2, 50) son observados. Un posible
estimador de gy, el promedio de los ingresos en efectivo para la compañia, es j, la media
muestral.
Además de obtener los ingresosen efectivo y„ suponga que el distribuidor puede
obtener Xi (i — 1, 2, — . . . , 50), el número de clientes que hacen compras en la tienda i
durante el periodo de ventas. Para determinar la relación entre y y X, el distribuidor puede
graficarlos datos de las ventas y los clientes para las n = 50 tiendas muestreadas.
Si la gráfica es similar a la presentada en la Figura 6.1 , podemos suponer que los
ingresos en efectivo y están linealmente relacionados con el número de clientes que
compran mercanclas, x. De hecho, podríamos representar esta relación mediante una línea
recta que pasa a través de la intersección de los ejes X y y, y por lo tanto podemos decir
que es lineal a través del origen. Además usted notará en la Figura 6.1 que la "dispersión "
de los valores dey se ensancha a medida que se incrementa X. Por lo tanto podemos decir
que la varianza de y es proporcional a X. En estas condiciones el estimador de razón de g ,
la cantidad promedio de ingresos en efectivo por tienda, deberá tener una varianza más
pequeña y, en consecuencia, será más preciso que

o 10 '20 30 40 50 60 70 80 90 100

x = número de clientes
FIGURA 6.1 Gráfica de kE itv•esos en efectivo contra el número de dientes

Alguna veces, la gráfica de y contra x no indica claramente que deba utilizarse la


estimación de razón. El coeficientede correlación p entre y y x es otro buen indicador de la
efectividad del estimador de razón. Para p > i, el estimador de razón proporcionará una
estimación más precisa de o que la que proporcionarían o Ni.
A diferencia de los procedimientos de estimación estudiados previamente, la
estimación de razón usualmente conduce a estimadores sesgados. Por lo tanto debemos
444
considerar la magnitud del sesgo para decidir cuál procedimiento de estimación
usar. Aunque no hay fórmulas exactas para detenninar el sesgo de estos
estimadores, puede demostrarse que el valor absoluto del sesgo es menor o igual
al producto de la desvlaclón estándar de la media muestra I de la variable auxiliar
X y la desviaciónestándar del estimador de razón, todo dividido entre gx, Esto es,

IE(ô) — s — (6.27)
donde 9 puede ser el estimador de razón r, o y 9 es el correspondiente pará.
metro estimado. Si las estimaciones de Ci, y Ax son conocidas de una
experimentación anterior, podemos estimar el sesgo máximo para una situación
asica dada usando la Ecuación (6.27).
Generalmente,para un tamaño de muestra grande (n > 30) y para (CHAx)
0.10, el sesgo es despreciable. Nótese también que los estimadores de razón son
insesgados cuando la relación entre y y x es lineal a través del origen.
Finalmente, debemos considerar el costo de obtención de información sobre
la variable auxiliar x. Si la situación • a sugiere el uso de la estimación de razón, el
experimentador debe decidir si el incremento en la precisión del estimador de
razón justifica el costo adicional.

6.6 ESTIMACIÓN DE RAZÓN EN MUESTREO


ALEATORIO ESTRATIFICADO

Por las mismas razones indicadas en el Capltulo 5, la estratificación de la población


antes de usar un estimador de razón, algunas veces es ventajosa. Supondremos
que podemos tomar una muestra suficientemente grande de las X y las y en cada
estrato va que las aproximaciones de varianza sean apropiadas.
Hay dos métodos diferentes para construir estimadores de razón en
muestreo atradficado. Uno e; estimarla razón de gy con Ax dentro de cada estrato
y luegoformar el promedio ponderado de estas estimaciones separadas como una
sola estimación de la razón poblacional. El resultado de este procedimiento se
denomina un estimador de razón separado.
6 ESTIVACIÓN CE RAZÓN, REGRESIÓN Y DIFEREhCIA

H otro método implica estimar primero gy con la usual y en la misma forma


estimar con ist. Luego puede usarse como un estimador de gy/ Ax. A este
estimador se le llama estimador de razón combinado.
No introduciremos una notación general (ydiflcil de manejar) para estos
estima• dores pero ilustraremos su uso aon un ejemplo numérico. La derivaciónen
el Apéndice muestra que la varianza de una suma de variables aleatorias es la
suma de las varianzas, si las variablesson independientes. Este hecho nos
permitirá usar una suma de términos similares a aquellos de la Ecuación (6.9) para
la varianza del estimador de razón separado o del combinado. Los dos ejemplos
siguientes ilustran el uso de las técnicas

EJEMPLO 6.7

Remítase al Ejemplo 6.4. Trate las 10 observaciones dadas ahí sobre horas-hombre
perdidas debido a enfermedad como una muestra irrestricta aleatoria de la
compañfa A. Asf 10, FA = 18.7, EA = 17.8, 1.05, NA = 1000 y 16,300.
Una muestra irrestricta aleatoria de 11, = IO mediciones fue tomada de la
compañla B dentro de la misma industria. (Suponga que las compañías A y B
juntas forman la población de trabajadoresde interés en este problema.) Los datos
se presentan en la tabla anexa. Se sabe que B = 1500 empleados y = 12,800.
Encuentre el estimador de razón separado de gy y su varianza estimada.

SOLUCIÓN
El estimador de razón de AyA es (FA/ [véase la Ecuación (6.8)], y su varianza
estimada está dada por la Ecuación (6.9).El estimador carrespondiente de gyB
con una varianza estimada similar.
Para obtener un estimador de Ay, la media poblacional de las y, necesitamos
promediar los estimadores eligiendo pesos proporcionales al tamaño de los estratos,

como en el Capítulo 5. Así


será el estimador de gy, con varianza estimada

f(ôyRS)
El valor observado de según los datos, es

1000 18.7 1500 4.6


(16.3) + — 87
2500 17.8 2500 7.8
Dado que ya tenemos

(y, - 'AXi)2 = 31.26


y por cálculos similares para la compañía B,

(y, = 87.45
146

Horas-hornb1T perdidas en perdi&s en el

a60 anterior, XB el a60 actual, y,

1
2
34
414 6 5 12 10
6 6
7 4 2
8 4
9 8 4
10 16 8
78 46

podemos sustituir en O(ÊYRS) para obtener

=0.40

EJEMPLO 6.8

a del Ejemplo 6.7 y


para
6 ESTIVACIÓN CE RAZÓN, REGRESIÓN Y DIFEREhCIA

Aqul usamos para estimar Ay, para estimar Ax, y

por•rc, la comoel
varian- m estimada

EB)1 -
2

Para los datos dados

= 10.24
= 11.80
16,300 + 12,800
= 11.64
2500
67 ESTIMACÓN DE REGRESIÓN 147

Por lo tanto el valor observado de gyRC es

10.24
(11.64) = 10.13
11.80

También,— rc(Xi
= 51.56

— rc(Xi
- = 144.21

y sustituir en V(gyRC), tenemos

V(pyRC)

Al comparar los Ejemplos 6.7 y 6.8, vemos que el estimador de razón


combinado da la varianza estimada mayor. Este resultado generalmente es así, y
por lo tanto deberíamos emplear el estimador de razón separado en la mayoría de
los casos. Sin embargo, el estimador de razón separado puede tener un sesgo más
grande, puesto que el estimador de razón de cada estrato contribuye al sesgo. En
resumen, si los tamaños de muestra de los estratos son suficientemente grandes
(por ejemplo 20 aproximaciones) de modo que las razones separadas no tengan
sesgos grandes y para que las aproximacionesde varianza resulten adecuadas,
entonces utilice el estimador de razón separado. Si los tamaños de muestra de los
estratos son muy pequeños, o si las razones dentro de los estratos son
aproximadamente iguales, entonces el estimador de razón combinado puede
funcionar mejor.
Por supuesto que un estimador del total poblacional puede determinarse
multiplicando cualquiera de los estimadores anteriores por el tamaño de la
población N, y por consiguiente las varianzas pueden ser ajustadas. Asf podemos
usar la notación

6.7 ESTIMACIÓN DE REGRESIÓN


Vimos en la Sección 6.5 que el estimador de razón es más apropiado cuando la
relación entre y y x es lineal a través del origen. Si existe una relación lineal entre
las y y las X observadas, pero no necesariamente una que pase a través del origen,
la información extra proporcionada por la variable auxiliar x puede ser tomada en
cuenta mediante un estimador de regresión de la media gy. También debe
conocerse antes de que el estimador pueda ser empleado, como fue en el caso de
la estimación de razón para

La línea fundamental que muestra la relación básica entre las y y las x


algunas veces es referida como la línea de regresión de pobre x. Por lo tanto, en
las fórmulas siguientes el subindice L se usa para denotar regresión lineal.
6 ESTIMACIÓN REGRESIÓN Y

148
El estimador dado a continuación supone que las X
son fijadas de antemano y que las y son variables
aleatorias. Podemos considerar que el valor de X es
algo que ya ha sido observado, semejante a los ingresos
en el primer trimestre del año pasado, y la respuesta
pcomo una variable aleatoria que será observada, tal
como los ingresos trimestrales actuales de una
companía, para la cual ya se conoce X. Las propiedades
probabilfsticas del estimador entonces dependen
solamente de y para un conjunto dado de las x.

Varianza estimada

de g
(6.29) Límite para el error de estimación:

-
E 32
(6.30)

Cuando se calcula b, usando los pares observados


(yt, Xi), , (Yn, xn), podemos aplicar el hecho de que

EJEMPLO 6.9

Se hizo un examende conocimientos matemáticos a 486


estudiantes, antes de su ingreso a cierto colegio. De
estos estudiantes. una muestra irrestricta aleatoria de
n = IO estudiantesfue seleccionada y se observaron sus
progresos en cálculo. Después las calificaciones
finales en cálculo fueron anotadas, como indica en la
tabla adjunta. sabe que gx = 52 para los 486
estudiantes que presentaron el examen. Estime gy para
esta población, y establezca un límite para el error de
estimación.
6.7 ESTIMACIÓN DE PEGPESCN 149

final

1
65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75

SOLUCIÓN
Los cálculos resultan = 76, = 46,

= 0.766
Entonces el valor observado de pyL es
+ b(gx - i) = 76 - 46) = 80

7.397
También, t(ôYL) -
y el límite para el error de estiP1ación es
6 ESTIMACÕN Y

apropiado que un estimador de razón. (Una gráfica de los puntos mostraría que la
línea de regresiónro pasa por el origen Sin embargo, el estimadorde de un regresi
ón
450 CE PAZC».I. REGRESOQ

total es de la forma NgyL, requiriendo específicamente el conocimiento de N.


Dado que el estimador de razón también funciona bien en este caso, determinar el
número de naranjas en la carga puede no ameritar el tiempo y el costo extras.
En otros casos N puede ser conocida o fácilmente encontrada. Por lo tanto
uno debe considerar cuidadosamente la elección entre los estimadores de razón y
de regreSión cuando se estiman medias o totales poblacionales.

6.8 ESTIMACIÓN DE DIFERENCIA

El método de diferencia para estimar una media o un total poblacionaleses similar


al de regresión en que ajusta el valor de hacia arriba o hacia abajo en una cantidad
que depende de la diferencia — 2). Sin embargo, no se calcula el coeficiente de
regresión b, De hecho se fija igual a la unidad.
El método de diferencia es, entonces, m" fácil de aplicar que el de regresión
y con frecuenciafunciona igual de bien. Comúnmente se emplea en
procedimientos de auditoría; consideraremos tal ejemplo en esta sección.
Las fórmulas siguientes son válidas siempre que se utilice el muestreo
irrestricto aleatorio.

Varianza estimada de gYD :

ü(PyD) = (6.32)
donde di = Yi — Xi
Límite para el error de estimación:
EJEMPLO 6.40

Los auditores frecuentemente están interesados en comparar el valor intervenido


de los artículos con el valor asentado en el libro. Generalmente, los valores en el
libro son conocidos para cada articulo en la población, y los valores
intervenidosson obtenidos con una muestra de esos artículos. Los valores en el
libro entonces pueden utilizarse

6.8 ESTIMACIÓN DIFERENICIA 454

para obtener una buena estimación del valor intervenido total o promedio para la
población.
Supóngase que una población contiene 180 artículos inventariados con un valor
establecidoen el libro de $13,320. Denote por Xi el valor en el libro y por el valor
intervenido del i-ésimo artículo. Una muestra irrestricta aleatoria de n = IO artículos
produce los resultados que se muestran en la tabla adjunta. Estime el valor intervenido
medio de g mediante el método de diferencia y estime la varianza de gyD.

9
10
2 14 12 +2
3 7 8 —1
4 29 26
47 —2
5 45
6 109 112 —3

7 40 36
8 238 240
-
2
9 60 59
10 170 167 +3

SOLUCIÓN
Puesto 71.7 y que 74.0,
6 ESTIMACÕN Y

+i=74.o +(72.1 - 71.7) =744

también, (di — = d? — nã2

= 6.27
9
Por lo tanto

El tipo de problemas qde están diseñados para resolverse con estimadores de


diferencia también pueden ser resueltoscon los estimadores de regresión o de razón.
Primero compararemos los cálculos para los tres estimadores, y luego hablaremos acerca
de cómo seleccionar uno u otro para ciertas situaciones.

Remítase al problema del Ejemplo 6.10. Estime gy usando un estimador de regresión y un


estimador de razón. En cada caso calcule una estimación de la varianza.
6 RAZÓN Y

REGRESIÓN

SOLUCIÓN
Empezando con el estimador de regresión, tenemos

Por lo tanto
71.7) = 74.38 • =o.99
Usando la Ecuación (6.29) y haciendo los cálculos se tiene
f'(ôYL) = 2.24
Para el estimador de razón de g , la Ecuación (6.8) da

721
(V ) —— (74) 74.41

Siguiendo la Ecuación (6.9), t(fiy) = 0.66

Nótese que las tres estimaciones de son aproximadamente iguales, pero en este caso el
estimador de diferencia tiene la -varianza estimada más pequeña, y el estimador de regresión
con mucho tiene la varianza estimada mas grande.
¿Cómo seleccionarla usted el mejor estimador para una situación dada? El estimador de
diferencia trabaja bien cuando la gráfica de y contra X muestra que los puntos caen a lo largo
de una línea recta con pendiente igual a la unidad. Verificando

FIGURA 6.2 Gráfica de y contra x para d Ejemplo 6.10


153
la gráfica para los datos del Ejemplo 6. IO (véasela Figura 6.2) muestra que realmente
los datos caen cerca de una línea recta con una pendiente igual a la unidad. Por lo
tanto para este caso el estimador de diferencia es el mejor de los tres.
Ya hemos visto en la Sección 6.5 que el estimador de razón es muy útil para los
casos en donde la dispersión de los puntos resulta más grande a medida que los
valores de x y y se incrementan. (Véasela Figura 6.1.) En términos del ejemplo de
auditoría, el método de razón será preferible si las diferencias entre los valores
intervenidos y los del libro son proporcionales a los valores asentados en el libro.
¿Qué se puede decir acerca del estimador de regresión?Si la gráfica de y contra x
cae a lo largo de una línea recta con pendiente muy diferente a la unidad, entonces el
estimador de regresión puede producir ganancias sustanciales. Para exagerar la
cuestión en un ejemplo muy simplificado, supóngase que el valor de Y' siempre es dos
veces el valor de x, como en los cinco puntos siguientes:

2 1
4 2 2
6 3 3
8 4 4
10 5 5

Entonces el estimador de regresión producirá v(gyL) = 0 [de acuerdo con la Ecuación


(6.29) con b = 2], El estimador de diferencia, en contraste, tendrá una varianza
estimada basada en

y verdaderamente mucho mayor que cero.


Por supuesto, una varianza estimada de cero casi nunca ocurrirá en la práctica;
pero si la gráfica de y contra x es lineal con una pendiente diferente de la unidad.
calcular la estimación de regresión y su varianza puede valer el esfuerzo adicional.
En este aspecto hay que tener cuidado, así como en otras situaciones donde
puede utilizarse más de un mttodo de estimación. H método a utilizarse debe ser
seleccionado sobre la base de las consideraciones teóricas del problema y quizás en
algún muestreo preliminar. El experimentador no debe recolectar los datos y después
buscar un estimador que dé una varianza pequeña.

6.9 RESUMEN
454 6 RAZÓN, Y

Este capitulo ha presentado brevemente la estimación de razón de una media, de un


total y de una razón poblacionales mediante muestreo irrestricto aleatorio. Midiendo
una variable y y una variable auxiliar X para cada elemento en la muestra, obtenemos
ESTUACION REGRESIÓN

información adicional para estimar el parámetro de la población de interés. Cuando existe una
fuerte correlacián positiva entre las variables x y y , el precedimiento de estimación de razón
usualmente proporciona estimadores más precisos de y que aquellos obtenidos con las técnicas
clásicas presentadas en el Capítulo 4.
Los tamaños de muestra requeridos para estimar gy, Ty y R fueron presentados con un
Ifmite para el error de estimación igual a B. En cada caso uno debe obtener una estimación de
con base en la información anterior o de un estudio preliminar para tener una aproximación del
tamaño de muestra requerido.
La estimación de regresión es otra técnica para incorporar información sobre una variable
auxiliar. Este método generalmente será mejor que la estimación de razón si la relación entre
las y y las X es una Ifnea recta que no pasa por el origen.
Aunque estos métodos pueden emplearse con cualquier diseño de muestreo, nos hemos
concentrado en el muestreo irrestricto aleatorio, mencionando el muestreo aleatorio
estratificado para el caso de razón.
El método de estimación de diferencia es similar en principio a la estimación de
regresión. Funciona bien cuando la gráfica de y contra x muestra que los puntos caen
uniformemente cerca de una línea recta con pendiente igual a la unidad.

ANÁLISIS s-n-DO CASO


LA ESTIMACIÓN Da
1-h auditor puede el método de esfimadón de razón para obtener una estimación de
la cantidad totai intervenida, la cual puede utihzarse para esfimar el error total del
inventario, como planeó al principio de este capítulo.
Cha errpresa electrónica reporta que el monto de inventario de N = 100 terminales de
computadora de 50,000. 1-h auditor decide esfrnar el enor total en artículo
a
muestreando cinco tetminales y determinando vah real. datos de la muestra y Es cálculos
pertinentes como [en unidades de S 1000):
Cantidad Cantidad
en el libro, Xi intervenida, y, Yi — rx,

13 1.1 1.17 -0.07 0.0049


1.08 0.22 0.0484
12 00025
005
1.7 —0.03 0.0009
1.17 0.0289
13 6.3 -0.17 0.0856

70

--2 = 0.9
6.3
La estimadón de Ty, la cantidad totd intervenida,
135 7.0
1.4
[en unidades de SOCO), y el límite para el enor 5
2
= 14

b tanto que la cantidad total


intervenida
121 y 135 + 14 = 149 El error total, - Ty,
450 - 449 = Y 450 cve bastante
probable
(rx)2 que el en-cx total positivo.
nN x n—1 E (Y/ - 1-1 (150) (0.0856)

EJERCICIOS

6.1 Un guardabosques está interesadoen estimar el volumen total de árboles en una venta de madera. Registra el
volumen de cada árbol en una muestra irrestricta aleatoria. Además mide el área basal de cada árbol
marcado para venta. Luego usa un estimador de razón del volumen total.
El guardabosques decide tomar una muestra irrestncta aleatoria de n = 12 de los N = 250 árboles
marcados para venta. Denótese por el área basal y por? el volumen en pies cúbicos para un árbol. El
área basal total para los 250 árboles, , es de 75 pies cuadrados. Use los datos de la tabla adjunta para
estimar , el volumen total en pies cúbicos de los árboles marcados para venta, y establezca un límite
para el error de estimación.

1 0.3 6
2 0.5 9
3 0.4 7
4 0.9 19
5 0.7 15

6 0.2 5
7 0.6 12
8 0.5 9
9 0.8 20
10 0.4 9
11 0.8 18
12 0.6 13
456 6 RAZÓN, Y

6.2 Use los datos de y en el Ejercicio 6.1 para calcular una estimación de TF , , Establezca un límite
para el error de estimación. Compare sus resultados con aquellos obtenidos en el Ejercicio 6.1. ¿Por qué
la estimación Ni, la cual no usa losdatosdel área basal, es mucho mayor que
457 6 CE RAZÓN,

EST'VIACIÕN

laestimación de razón? (Observe y {Puede especularse acerca de la causa de esta discrepancia?)


6.3 Una encuesta de consumo fue realizada para determinarla razón de dinero gastado en alimentos con el
ingreso por año, para las familiasde una pequeña comunidad. Una muestra irrestricta aleatoriade
14 familiasfue seleccionada de entre 150. datos de la muestra presentan en la tabla adjunta. Etime
R, la razón poblacional, y establezca un límite para el error de estimación.

Cantidad gastada
Familia total, X en alimentos, y

1 25, 100 3800


2 32, 200 5100
3 29, 600 4200
4 35, 000 6200
5 34, 400 5800
6 26,500 4100
7 28 , 700 3900
8 28,200 3600
9 34, 600 3800
10 32, 700 4100
11 31, 500 4500
12 30, 600 5100
13 27,700 4200
14 28, 500 4000

64 Una corporación está interesada en estimar el total de ganancias por las ventas de televisiones de
color al final de un periodo de tres meses. tienen las cifras del total de ganancias de todos
distritos dentro de la corporaciónpara el periodo de tres meses correspondientedel año anterior.
Una muestra irrestricta aleatoria de 13 oficinas de distrito es seleccionada de las 123 oficinas de
la corporación. Usando un estimador de razón, estime y establezca un límite para el error de
estimación. Ue los datos de la tabla adjunta, y tome = 128,200.

Dat. de tre Dato. de tra

550
2 720 780 EERCOOS 157
3 1500 1600
65 4 1030 los datos del Ejercicio 6.4 para estimar las
5 620 600
ganancias medias para las oficinas de la
6 980 1050 corporación. Establezca un límite para el
7 928 977 error de estimación.
6.6
8 1200 1440
Un investigadortiene una colonia de N =
9 1350 1570 763 ratas que han sido sometidasa un
10 1750 2210
11 670 980 •
12 729 865
13 1530 1710
458 CE RAZCN REGRESIÓN

fármaco tipo. El tiempo promedio para atravesar correctamente un laberinto bajo la influencia del
fármaco tipo fue de = 17.2 segundos. Al investigadorahofa le gustaría someter a un nuevo
fármaco a una muestra aleatoria de 11 ratas. Estime el tiempo promedio requerido para atravesar
el laberinto bajo la influencia del nuwo fármaco. (Véanse los datos en la tabla adjunta). Etablezca
un Ifmite para el error de estimación. (Sugerencia: empleo de un estimador de razón para g será
conveniente si suponemos que las ratas reaccionarán al nuevo fármaco de la misma manera que lo
hicieron con el fármaco tipo.)

1 14.3 15.2
2 15.7 16.1
3 17.8 18.1
4 17.5 17.6
5 13.2 14.5
6 18.8 19.4
7 17.6 17.5
8 14.3 14.1
9 14.9 15.2
10 17.9 18.1
11 19.2 19.5
6.7 Un grupo
utiliza en un estudio de nutrición. En un estudio previo se registró el peso de cada conejo. El
promediode estos pesos es 3.1 libras. Después de meses el experimentador quiere obtener una
aproximacióndel peso promedio de los conejos. Selecciona entonces al azarn = 10 conejos y los
pesa. Los los actuales se presentanen la tabla adjunta. Estime el promedio actual,
y establezca un límite para el error de estimación.

3.2
4.1
2 3.0 4.0
3 2.9 4.1
4 2.8 3.9
5 2.8 3.7
6 3.1 4.1
7 3.0
8 3.2 4.1
9 2.9 3.9
10 2.8 3.8

6.8 Un trabajador social quiere estimar la razón del número de cuartos por apartamento con el número
promedio de personas por apartamento en un determinado barrio de cierta área urbana. El
trabajador social selecciona una muestra irrestricta aleatoria de 25 apartamentos de los 275 del
barrio. Sea X, el número de personas en el apartamento i, y sea y, el número decuartos en el
apartamento i. En el cómputo del número de cuartos y el número de habitantesen cada
apartamento se obtuvieron los datos siguientes:
6 ESTWIACIC)N Y

E 2240, y? = 169.0
Estime la razón del número promedio de cuartos con el número promedio de personas en esta
área, y establea un límite para el error de estimación.
6.9 Un director de recursos forestales está interesado en estimar el número de abetos muertos por una
fuerte infestación en un área de 300 acres. Usando una fotografia aérea, el director divide el
área en 200 parcelas de uno y medio acres. Sean n la cantidad de abetos muertos, calculada con
base en la fotografia, y y la cantidad real en el terreno para una muestra imstricta aleatoriade n
= 10 parcelas. H número total de abetos muertos, obtenido según la cantidad en fotografia,
= 4200. Use los datos de la muestra de la tabla adjunta para estimar Ty , el número total de
abetos muertos en el área de 300 acres. Establezca un límite para el error de estimación.

12
2 30 42
3 2424
4 2436
5 18 24
6 30 36
7 12 14
8 6 10
9 36 48
10 42 54

6.10 Ins miembros de una asociación de maestros están interesadosen los incrementos salariales
otorgados a los maestros de escuela secundaria en un sistema acolar particular. Una muestra
irrestricta aleatoria de n 15 maestros es seleccionada de una lista en orden alfabético de todos
los maestros de escuela secundaria en el sistema. T m 15 maestrosson entrevistadospara
determinar sus salarios en este año y los del año pasado (véase la tabla adjunta). Use estos
datos para estimar R, el cambio relativo, para los N = 750 maestros de escuela secundaria en el
sistema escolar de la comunidad. Establezca un límite para el error de estimación.

1 15, 400 16,500


2 16, 700 17 ,
600
3 17,792 18,
920
460 CE RAZCN REGRESIÓN

4 19, 956 21,


400
5 16,355 17 ,
020
6 15, 108 16,308
7 17,891 19,
100
8 15,216 16,
320
9 15, 416 16,
420
10 15,397 16,
600
11 18, 152 19,
560
12 16, 436 17,
750
13 19, 192 20,
800
14 17, 006 18,
300
15 17, 311 18,
920
EJERCICIOS

6.11 Un experimentadorestaba investigando un nuevo complemento nutritivo para el ganado. A


mediados del estudio de dos meses, el experimentadorse interesó en estimar el promedio para el
rebaño completo, compuesto de N = 500 novillos. Una muestra irrestricta aleatoria de n = 12
novillos fue seleccionada del rebaño y se pesó. Los datos para el ganado muestreado y los pesos
correspondientes obtenidos en un estudio previo se presentan en la tabla adjunta. Suponga que , el
promedio para el estudio previo, fue de 880 libras. Estime gr, el peso promedio para el rabaño, y
establezca un límite para el error de estimación.

en el —tudio previo actual


Novillo (en libras) (en libras)

815
897
2 919 992
3 690 752
4 984 1093
5 200 768
6 260 828
7 1323 1428
8 1067 1152
9 789 875
10 573 642
11 834 909
12 1049 1122

6.12 Una agencia de publicidad está interesadaen el efecto de una nueva campaña de promoción
regional sobre las ventas totalesde un productoen particular. Una muestra irrestricta aleatoria de n
= 20 tiendas es seleccionada de N = 452 tiendas regionales en las cuales se vende el producto. Ins
datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el
periodo de tres meses previo a la nueva campaña. estos datos (véase la tabla anexa) para estimar
ry, el total de ventas para le periodo actual, y establezca un límite para el error de estimación.
Supóngase que Tx = 216,256.
Ventas VentkS Ventas antes Ventas
Tienda antes de la campaha actuales Tienda de la campana actuale

208 11 599 626


2 400 239 12 510 538
3 440 428 13 828 888
472 14 473 510
4 259 276 15 924 998
5 351 363 16 110 171
6 880 942 17 829 889
7 273 294 18 257 265
514 19 388 419
8 487
195 20 244 257
9 183 897
10 863
6.13 Use los datos del Ejercicio 6.12 para determinar el tamaño requerido de muestra para estimar
% , con un límite para el error de estimación igual a $ 3,800
6.14 Con base en los Ejercicios 6.4 y 6.5, usando un estimador de regresión, estimelas ganancias
promedio g.y, y establezca un límite para el error de estimación. Compare su respuesta con
aquella del Ejercicio 6.5. ¿Existe alguna ventaja para utilizar aquí el estimador de regresión?
CE REGRESÔN

160 6 ESTIMACÕN QAZÕN Y DIFERENCIA

6.15 Muestre cómo se ajustan las Ecuaciones (6.28) y (6.29) para estimar un total en lugar de una
media Ay.
6.16 Remftase al 6.9. Estime r usando un estimador de regresión, y establezca un límite para el
error de estimación. ¿Cree usted que para este problema el estimador de regresión es
mejor que el estimador de razón?
6.17 Ins comerciantes de futuros mercados están interesados en los precios relativos a ciertas
mercancías más que en los ñiveles del precio específico. Estos precios relativos pueden
presentarse en términos de una razón. Una muy importante en agricultura es la razón
res/cerdo. De 64 días de comercio en el primer trimestre de 1977, los precios de res y de
cerdo fueron obtenidos al seleccionar 18 días, con los resultados que se muestran en la
tabla adjunta. Estime el valor verdadero (py/ gx) para este periodo, y establezca un límite
para el error de estimación.
Res, Cerdo, X, Xi

42.40 47.80 39.65 49.4()


41 48.60 38.45 44.30
39.60 48.20 37.80 43.90
39.45 46.75 37.20 42.70
37.00 46.50 37.60 43.25
37.80 45.4() 37 so 44.55
38.55 47.30 36.90 45.10
38.60 48.20 37.30 45.00
38.80 49.40 38.60 45.25
6.18 ¿En qué condiciones debe plearse un estimador de razón para T en lugarde un estimador
de la forma NI ?
6.19 Analice los méritos relativos a las estimaciones de razón, regresión y diferencia.
6.20 El número de personas por debajo del nivel de pobreza (en miles) para todas las razas y para
los negros solamente se presenta en la tabla adjunta para una muestra aleatoria den = 6
estados. Estime la razón del número de negros por debajo del nivel de pobreza con el
número de blancos por debajo del nivel de pobreza para todos estados combinados.
Establezca un Ifmite para el error de estimación.

417
Georgia 869 472
Illinois 1284 545
Massachusetts 547 57
New Jersey 699 407
Oklahoma 391 59

Fuente: U. S. Bureau of the Census, Statistical


Abstmct (f the United State: 1982-1983 (103d
edition). Washington, D.C., 1984. Data on page 424.
6.2] Una auditoría tradicional expresa las ventas al menudeo como la apertura del inventario más
las compras almacenadas menos el cierre del inventario. Por lo tanto tal auditoría
considerara estos tres conceptospara reportar las ventas totales durante cierto periodo
(por ejemplo, seis meses) de una tienda de ventas al menudeo. Tales datos combinados
con los de varias tiendas y recolectados para diversas marcas competitivas permiten
estimar las participaciones en el mercado (porcentaje del mercado total correspondiente
a una marca).
EJEFCCCS 161
Los método más rápidos para estimar las participaciones en el mercado son los métodos de
auditoría por ventas de fin de semana y por compras almacenadas. H primero elimina las compras
almacenadas, puesto que las compras son mínimas en un fin de semana, pero usa un tiempo más
corto y está sujeto a la distorsión por las ofertas de fin de semana. H segundo solamente usa la
información de compra para calcular la participación en el mercado y no involucra revisión de
inventarios.
Datos sobre las participaciones en el mercado, calculados por los tres métodos, tradicional (T),
fin de semana (W), y compras (P), se presentan en la tabla adjunta para una marca de cerveza. Las
observaciones fueron tomadas en seis diferentes periodos de tiempo dentro de un año.

15 16 12
18 17 14
16 17 20
14 16
13 12 8
16 18 15

(a) Estime la razón del promedio de participación en el mercadocalculadopor el método de fin de


semana con el calculado por el método tradicional. Establezca un límite para el enor de
estimación.
(b) Estime la razón del promedio de participación en el mercado calculado por el método de
compras con aquel calculado por el método tradicional. Establezca un límite para el error de
estimación.
(c) ¿Cuál de los métodos menos costosos (W o P) se compara más favorablementecon el método
tradicional ?
6.22 [k acuerdo con los datos que se presentan en la tabla adjunta sobre los gastos de seis áreas diferentes
del campo de atención de la salud en Estados Unidos, estime la razón de los gastos para la atención
de la salud en 1982 con aquellos para 1981 , y establezca un límite para el error de estimación.
¿Cuáles son los defectos de esta estimación de la razón verdadera de los gastos para la atención de
la salud en Estados Unidos?

1981 1982
CE REGRESÔN

Atención hospitalaria 118.0 135.5


Servicios médicos 54.8 61.8
Servicios dentales 17.3 19.5
Atención en sanatorios particulares 24.2 27.3
Medicamentos 21.3 22.4
Óptica y aparatos 5.7 5.7
Fuente: The World Almanac Book (f Facts, 1984 edition,
copyright@Newspaper Enterprise Association, Inc.. 1983, New York, NY
10166.

6.23 H ingreso nacional para 1981 será estimadocon base en una muestra de n = 10 industrias que declaran
sus ingresos de 1981 antes que las 35 restantes. (Existen 45 industrias que se utilizan para
determinar el ingreso nacional total.) Se dispone de los datos del ingreso de 1980 para las 45
industrias y los totales son 2174.2 (en miles de millones). Los datos se presentan en la tabla
adjunta.
462 6 ESTIVACON RAZÓN, Y

Productos he fábricas textiles 13.6 14.5


Productos químicos y relacionados 37.7 42.7
Madera aserrada y leña 15.2 15.1
Equipo eléctrico y electrónico 48.4 53.6
Vehículos automotores y equipo 19.6 25.4
Transporte y almacenaje 33.5 35.9
Banca 44.4 48.5
Bienes raíces 198.3 221.2
Servicios de salud 99.2 114.0
Servicios de educación 15.4 17.0

Fuente: U. S. Bureau of the Census, Statistical Abstmct (f the United States:


1982-83 (103d edition). Washington, D.C., 1984. Data on page 444.

(a) Encuentre un estimador de razón del ingreso total de 1981, y establezca un límite para
el error de estimación.
(b) Encuentre un estimador de regresión del ingreso total de 1981 , y establezca un límite
para el error de estimación.
(c) Encuentre un estimador de diferencia del ingrzso total de 1981, y establezca un límite
para el error de estimación.
(d) ¿Cuál de los tres métodos, (a), (b) o (c), es el más apropiado en este caso? ¿Por qué?
6.24 El gerente de ventas de una empresa quiere medir la relación entre las ventas mensuales y los
costos de publicidad mensuales. { Usted qué parámetros le sugeriría estimar? ¿Por qué?
¿Qué datos debe recolectar el gerente?
6.25 Una empresa industrial elabora un producto que es empaquetado, para propósitos de
mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar
el volumen poten cial de ventas para el trimestre siguiente. Una muestra irrestricta
aleatoria de clientes para cada marca es entrevistadapara proporcionar una cantidad
potencial y de ventas (en número de unidades) para el próximo trimestre. La cifra de las
ventas verdaderas del año pasado, para el mismo trimestre, está disponible para cada uno
de los clientes muenreados y se denota por x. Los datos presentan en la tabla anexa. La
muestra para la marca I fue tomada de una lista de 120 clientes, para quienes el total de
ventasen el mismo trimestredel año pasado fue de 24,500 unidades. La muestra de la
marca ll viene de 180 clientes, con un total trimestral de ventas para el año pasado de 21 ,
000 unidades. Encuentre una estimación de razón del total potencial de ventas para el
próximo trimestre. Estime la varianza de su estimador.

Marca 1 Marca II

204 210 137 150


143 160 189 200
82 75 119 125
256 280 63 60
275 300 103 110
198 190 107
159 180
63 75
87 90

EXPERIENCIASOCN DATOS REALES 163

6.1 La Tabla 6.3 muestra la temperatura normal (T)y la cantidad de precipitación(P) para las estaciones
meteorológicasen todo Estados Unidos. los datos de precipitaciónen enero y mano para una
muestra de n estaciones, y determine las estimaciones siguientes.
(a) Estime la razón de la precipitación promedio de mano con la precipitación promedio en
enero.
(b) Estime la precipitación promedio en mano para todas las estaciones, utilizando los datos de
enero y mano. EliJa uno de los tres posibles estimadores de este capitulo, y explique el moti
vo de su elección.
CE REGRESÔN

(c) Seleccione un tamaño de muestra apropiado, y establezca un límite para el error de


estimación en (a) y (b).

TABLA 6.3 Temperatura precipitación mensuales

Albany, N. Y. 22 2.2 24 2.1 33 2.6 47 2.7 58 3.3


Albuquerque, N.M. 35 0.3 40 0.4 46 0.5 56 0.5 65 0.5
Anchorage, Alaska 12 0.8 18 0.8 24 0.6 35 0.6 46 0.6
Asheville, N.C. 38 3.4 39 3.6 46 4.7 56 3.5 64 3.3
Atlanta, Ga. 42 4.3 45 4.4 51 5.8 61 4.6 69 3.7
Baltimore, Md. 33 2.9 35 2.8 43 3.7 54 3.1 64 3.6
Barrow, Alaska —15 0.2 —19 0.2• —15 0.2 0.2 19 0.2
Birmingham, Ala. 44 4.8 47 5.3 53 6.2 63 4.6 71 3.6
Bismarck. N.D. 8 0.5 14 0.4 25 0.7 43 1.4 54 2.2
Boise, Idaho 29 1.5 36 1.2 41 1.0 49 1.1 57 1.3
Boston, Mass. 29 3.7 30 3.5 38 4.0 49 3.5 59 3.5
BufTa10, N.Y. 24 2.9 24 2.6 32 2.9 45 3.2 55 3.0
B urlington, Vt. 17 1.7 19 1.7 29 1.9 43 2.6 55 3.0
Caribou, Maine 11 2.0 13 2.1 24 2.2 37 2.4 50 3.0
Charleston, S.C. 49 2.9 51 3.3 56 4.8 65 3.0 72 3.8
Chicago, 111. 24 1.9 27 1.6 37 2.7 50 60 3.4
Cincinnati, Ohio 32 3.4 34 3.0 43 4.1 55 3.9 64 4.0
Cleveland, Ohio 27 2.6 28 2.2 36 3.1 48 3.5 58 3.5
Columbus, Ohio 28 2.9 30 2.3 39 3.4 51 3.7 61 4.1
Dallas-Ft. Worth,
Tex. 45 1.8 49 2.4 55 2.5 65 4.3 73 4.5
Denver, Col. 30 0.6 33 0.7 37 1.2 48 57 2.6
Des Moines, Iowa 19 1.1 24 1.1 34 2.3 50 2.9
Detroit, Mich. 26 1.9 27 1.8 35 2.3 48 3.1 58 3.4
Dodge City, Kans. 31 0.5 35 0.6 1.1 54 1.7 64 3.1
Duluth, Minn. 9 1.2 12 0.9 24 1.8 39 49 3.4
Eureka, Calif. 47 7.4 48 5.2 48 4.8 50 3.0 53 2.1
Fairbanks, Alaska —12 0.6 —3 0.5 10 0.5 29 0.3 47 0.7
Fresno, Calif. 45 1.8 50 1.7 54 1,6 60 1.2 67 0.3
Galveston, Tex. 54 3.0 56 2.7 61 2.6 69 2.6 76 3.2
464 6 ESTIMACÖN [E QAZÖN,QEGPESÖN Y
TABLA 6.3 Continuaciön

Gnnd Junction,
Colo. 27 0.6 34 0.6 41 0.8 52 0.8 62 0.6
Gnnd Rapids, Mich. 23 1.9 25 1.5 33 2.5 47 3.4 57 3.2
Hartford, Conn. 25 3.3 27 3.2 36 3.8 48 3.8 58 3.5
Helena, Mont. 18 0.6 25 0.4 31 0.7 43 0.9 52 1.8
Honolulu, Hawaii 72 4.4 72 2.5 73 3.2 75 1.4 77 1.0
Houston, Tex. 52 3.6 55 3.5 61 2.7 69 3.5 76 5.1
Huron, S.D. 13 0.4 18 0.8 29 1.1 46 2.0 57 2.8
Indianapolis, Ind. 28 2.9 31 2.4 40 3.8 52 3.9 62 4.1
Jackson, Miss. 47 4.5 50 4.6 56 5.6 66 4.7 73 4.4
Jacksonville, Ha. 55 2.8 56 3.6 61 3.6 68 3.1 74 3.2
Juneau, Alaska 24 3.9 28 3.4 32 3.6 39 3.0 47 3.3
Kansas City, Mo. 27 1.3 32 1.3 41 2.6 54 3.5 64 4.3
Knoxville, Tenn. 41 4.7 43 4.7 50 4.9 60 3.6 68 3.3
Lander, Wyo. 20 0.5 26 0.7 31 1.2 43 2.4 53 2.6
Little Rock, Ark. 40 4.2 43 4.4 50 4.9 62 5.3 70 5.3
Los Angeles, Calif. 57 3.0 58 2.8 59 2.2 62 1.3 65 0.1
Louisville, Ky. 33 3.5 36 3.5 44 5.1 56 4.1 65 4.2
Marquette, Mich. 18 1.5 20 1.5 27 1.9 40 2.6 50 2.9
Memphis, Tenn. 41 44 4.7 51 5.1 63 5.4 71 4.4
Miami, Fla. 67 2.2 68 2.0 71 2.1 75 3.6 78 6.1
Milwaukee, Wis. 19 1.6 23 1.1 31 2.2 45 2.8 54 2.9
Minneapolis, Minn. 12 0.7 17 0.8 28 1.7 45 2.0 57 3.4
Mobile, Ala. 51 4.7 54 4.8 59 7.1 68 5.6 75 4.5
Moline, 111. 22 1.7 26 1.3 36 2.6 51 3.8 61 3.9
Nashville, Tenn. 38 4.8 41 4.4 49 5.0 60 4.1 69 4.1
Newark, N.J. 31 2.9 33 3.0 41 3.9 52 3.4 62 3.6
New Orleans, La 53 4.5 56 4.8 61 5.5 69 4.2 75 4.2
New York, N.Y. 32 2.7 33 2.9 41 3.7 52 3.3 62 3.5
Nome, Alaska 6 0.9 5 0.8 7 0.8 19 0.7 35
Norfolk, Va. 41 3.4 41 3.3 48 3.4 58 2.7 67 3.3
Okla. City. Okla. 37 1.1 41 1.3 48 2.1 60 3.5 68 5.2
Omaha. Nebr. 23 0.8 28 1.0 37 1.6 52 3.0 63 4.1
Parkersburg, W. Va 33 3.1 35 2.8 43 3.8 55 3.5 64 3.6
Philadelphia, Pa. 32 2.8 34 2.6 42 3.7 53 3.3 63 3.4
Phoenix, Ariz. 51 0.7 55 0.6 60 0.8 68 0.3 76 0.1
Pittsburgh, Pa 28 2.8 29 2.4 38 3.6 50 3.4 60 3.6
Portland, Maine 22 3.4 23 3.5 32 3.6 43 3.3 53 3.3
Portland. Oreg. 38 5.9 43 4.1 46 3.6 51 2.2 57 2.1
Rovidence, 28 3.5 29 3.5 37 4.0 47 3.7 57 3.5
Raleigh, N.C 41 3.2 42 3.3 49 3.4 60 3.1 67 3.3
Rapid City, SD 22 0.5 26 0.6 31 1.0 45 2.1 55 2.8
Reno, Nev. 32 1.2 37 0.9 40 0.7 47 0.5 55
Richmond, Va. 38 2.9 39 3.0 47 3.4 58 2.8 67 3.4
EXPERIENCIAS CON' DATOS REALES

TABLA 6.3 Continuación

T P T P T P T P T P

St. Louis, Mo. 31 1.9 35 2.1 43 3.0 57 3.9 66 3.9


Salt LAke City, Utah 28 1.3 33 1.2 40 1.6 49 2.1 58 1.5
San Antonio, Tex. 51 1.7 55 2.1 61 1.5 70 2.5 76 3.1
San Diego, Calif. 55 1.9 57 1.5 58 1.6 61 0.8 63 0.2
San Francisco, Calif. 48 4.4 51 3.0 53 2.5 55 1.6 58 0.4
San Juan, P.R. 75 3.7 75 2.5 76 2.0 78 3.4 79 6.5
Sault Ste. Marie, 14 1.9 15 1.5 24 • 1.7 38 2.2 49 3.0
Mich.
Savannah, Ga. 50 2.9 52 2.9 58 4.4 66 2.9 73 4.2
Seattle, Wash. 38 5.8 4.2 44 3.6 49 2.5 55 1.7
Spokane, Wash. 25 2.5 32 1.7 38 1.5 46 1.1 55 1.5
Springfield, Mo. 33 1.7 37 2.2 44 3.0 57 4.3 65 4.9
Syracuse, N. Y. 24 2.7 25 2.8 33 3.0 47 3.1 57 3.0
Tampa, Ha. 60 2.3 62 2.9 66 3.9 72 2.1 77 2.4
Trenton, N.J. 32 2.8 33 2.7 41 3.8 52 3.2 62 3.4
Washington, D.C. 36 2.6 37 2.5 45 3.3 56 2.9 66 3.7
Wilmington, Del. 32 2.9 34 2.8 42 3.7 52 3.2 62 3.4

Fuente: The World Almanac & Book Cf Facts, 1984 edition. copyright@Newspaper Enterprise
Association,lnc.. 1983, Ycyk, NY 10166.

6.2 En la Tabla 3 del Apéndice se presentan los datos del censo de 1980 de Estados Unidos. Usando como
estratos las cuatro regiones del país, forme una estimación de razón estratificada del total
poblacional de 1980, haciendo uso de los datos de 1970 para los estados y para Estados Unidas en
total. Seleccione una asignación y un tamaño de muestra apropiados. Establezca un 'te para el error
de estimación.
6.3 Un proyecto interesante es estimar qué porcentaje del dinero gastado para esparcrmlento por las
estudiantes de su comunidad corresponde a un tipo específico de entretenimiento, tal como el cine.
Usted puede obtener esta estimación listando una muestra irrestricta aleatoria de n estudiantes,
llamándolos por teléfOno (o entrevistándolospersonalmente), y registrando la cantidad total gastada
para esparcimiento (xi) así como la cantidad gastada en cine Luego estime la razón (1%/ gx), y
establezca un límite para el error de estimación.
Considere el tamaño de muestra antes de iniciar el estudio. También puede ser más conveniente
concentrarse en los estudiantes de una localidad, tal como un edificio de apartamentos o un grupo de
casas, más que en los estudiantes sin ninguna limitación. La no respuesta siempre es un problema
cuando se trata con poblaciones humanas, por lo tanto piense en las formas de minimizar este
problema.
6.45 La estimación de razón frecuentementees un método convemente para estimar las propiedades de objetos
materiales que son difíciles de medir directamente. Reúna una caja de piedras u objetos de
forma irregular. Se desea estimar el volumen total de las piedras. El volumen de Ójetos de forma
irregular es algo difícil de medir, pero el volumenesta relacionado con el peso, el cual es bastante
fácil de medir. Por lo tanto el volumen puede ser estimado usando la relación del volumen con el
peso.
166 6 ESTIMACION M PAZCN, PEGRESION Y DIFERENCIA

Seleccione una muestra den piedras. Mida el peE y el volumen & cada piedra en la
muestra. (Se puede usar el desplazamiento de agua como un método para medir el
volumen.) Luego ob. tenga el total de todas las piedras en la caja. Use estos datos para
construir una estimación del volumen total de las piedras, con un límite para el error de
estimación.
MUESTREO
SISTEMÁTICO
EL WEL CALIDAD?
antes están interesados en la calidad de Es
idos. consumidores quieren asegurarse que
ducto que funcionará de acuerdo con
te desea evidenaar que s s productos están
evidencia frecuentemente proporcionada por
el contrd de calidad dentro del proceso de
eo frecuentemente involucran la selecdón de
de una línea de producción en continuo
elecdón puede requerir el muestreode cada
n artículocada hora, o algún plan sistemático
idad observada para cada artículo puede una
el fiempo de duración, o sinvemente una
"aprobado" y "no aprobado" Luego compara
terística observada con un vabr que Sn..e de
e la calidad.
ieno equipo hidráulico, un componente
ce La característica de calidad principal de la
e que contiene el proceso de fabricación
de cada media hora de producción, y d dato
mula durante 8 Ex:xas de un día. Rr lo tanto
la producción de un día porcentajesde cobre
anza de 18. La norma para el bronce fuede
n la norma? Lm técnicas presentadasen este
der pregunta.
467
468 7 MIJESTPEO SISTEMATICO
7.4 INTRODUCCIÓN

Como hemos visto en los Capítulos 4 y 5, el muestreo irrestricto aleatorio y el


muestreo aleatorio estratificado requieren un trabajo muy detallado en el proceso de
selección de la muestra. Las unidades de muestreo en un marco adecuado deben ser
numeradas (o identificadas de otra manera) de modo que un mecanismo de
aleatorización, tal como una tabla de números aleatorios, pueda utilizarse para
seleccionar las unidades especificas para la muestra. Un diseño de encuesta por
muestreo que es ampliamente usado debido principalmente a que simplifica el
proceso de selección de la muestra se denomina muestreo sistemático.
La idea básica del muestreo sistemático es como sigue: supóngase que una
muestra de n nombres será seleccionada de una larga lista. Una manera sencilla de
hacer esta selección es elegir un intervalo apropiado y seleccionar los nombres a
intervalos iguales a lo largo de la lista. De este modo cada décimo nombre podría ser
seleccionado. por ejemplo. Si el punto de inicio para este proceso de selección
regular aleatorio, el resultado es una muestra sistemática.

DEFINICIÓN 7.1 Una muestra obtenida al seleccionar aleatoriamente un


elemento de los primeros k elementos en el marco y después cada k.ésimo ele.
mento se denomina muestra sistemática de I -en-k.

Como en los capítulos previos, presentamoslos métodos para estimar una


media, un total, y una proporción poblacional. También analizaremos los limites
apropiados para el error de estimación y tamaño de muestra requeridos.
El muestreo sistemático proporciona una opción útil para el muestreo irrestricto
aleatorio por las siguientes razones:
7.4 INTRODUCCCN 469

l. El muestreo sistemático es más fácil de Iles.g a cabo en el campo, y por lo tanto, a diferencia de
las muestras irrestrictas aleatorias y las muestras aleatorias estratificadas, está menos expuesto
a los errores de selección que cometen los investigadores de campo.
2. H muestreo sistemático puede proporcionar mayor información que la que puede proporcionar
el muestreo irrestricto aleatorio por unidad de costo.

En general el muestreo sistemático involucra la selección aleatoria de un elemento de los


primeros k elementos y posteriormentela selección de cada k-ésimo elemento. Este procedimiento
es más fácil de realizar y usualmente, a diferencia del muestreo irrestricto aleatorio, está menos
expuesto al error del entrevistador. Por ejemplo, sería dificil aplicar el muestreo irrestricto
aleatorio para seleccionar una muestra de n = 50 compradores en la esquina de una calle. El
entrevistador no podría determinar qué compradores incluir en la muestra, debido a que el
tamaño de la población N no se conocería hasta que todos los compradores hubieran pasado por la
esquina. En contraste, el entrevistador podrfa tomar una muestra sistemática (digamos 1 en 20
compradores) hasta que el tamaño de muestra requerido se obtuviera.
Aunado a que es más fácil de realizar y que está menos expuesto al error del entrevistador, el
muestreo sistemáticofrecuentemente proporciona más información que el muestreo irrestricto
aleatorio por unidad de costo. Una muestra sistemática generalmente se extiende más
uniformemente sobre toda la población y, por lo tanto, puede proporcionar más información
acerca de la población que una cantidad equivalente de datos contenida en una muestra irrestricta
aleatoria. Considérese la siguiente ejemplifícación: deseamos seleccionar una muestra sistemática
de 1-en-5 de una pila con N = 1000 recibos de viaje (esto es, una muestra de n = 200 recibos) para
determinar la proporción de recibos archivados incorrectamente. Se extrae al azar un recibo de los
primeros 5 (por ejemplo, el No. 3), y posteriormentese incluye cada quinto recibo en la muestra.
(Véase la tabla adjunta.)
Supóngase que la mayoría de los primeros 500 recibos ha sido archivada correctamente, pero
a causa de un cambio en los empleados, los siguientes 500 recibos han sido archivados
incorrectamente. El muestreo irrestricto aleatorio podría accidentalmente seleccionar un gran
número (quizás todos) de los 200 recibos que fuesen de los primeros o que fuesen de los siguientes
500 recibos y, en consecuencia, producir una estimación muy deficiente de p. En contraste, el
muestreo sistemático seleccionará un número igual de recibos de cada uno de los dos grupos y
dará una estimación más precisa de la fracción de recibos archivados incorrectamente.
Ejemplos adicionales son discutidos en la Sección 7.3 para ilustrar cómo elegir entre el
muestreo irrestricto aleatorio y el muestreo sistemáticoen una situación dada. Sin embargo, nótese
que la precisión de las estimaciones por muestreosistemático depende del orden de las unidades
de muestreo en el marco. Si los recibos incorrectos han sido dispuestos aleatoriamente entre todos
los demás, entonces la ventaja del muestreo sistemático se habrá perdido.
El muestreo sistemático comúnmente es muy utilizado en una gran variedad de contextos. El
censo de Estados Unidos hace solamente un número mínimo de preguntas a cada habitante, pero
reúne mucha más información con una muestra sistemática de habitantes.
En el censo de 1980 hubo 14 preguntasen el formulario abreviado distribuido a todos los
habitantes. Otras 42 preguntas se presentaron en el formulario completo que fue
SISTEMÁTICO

Recibo
Recibo muutreado

2
3 3
4
5
6
7
8 8
9
10

996
997
998 998
999
1000

distribuido a, aproximadamente, una de 1-en-5 de los habitantes.


La encuesta Gallup inicia su proceso de listandó 200,000 distritos electorales en Estados Unidos
y luego selecciona sistemúicamente SOO para un estudio complementario de familias. Las familias, o
las casas, dentro de un distrito muestrea. do pueden asimismo ser seleccionadas sistemáticamente —
seleccionando la segunda casa en una manzana y en otra no y recorriendo de este a oeste, por ejemplo
— La mayoría de los planes de muestreo para el control de calidad industrial suelen ser sistemáticos
en estructura. Un plan de inspección para los artículos fabricados a lo largo de una línea de montaje en
movimiento puede requerir la inspección de cada quincuagésimo artículo. Una inspección de las cajas
de los productos almacenados en un depósito puede sugerir muestrear la segunda caja de la izquierda
en la tercera fila de arriba hacia abajo de cada quinta estiba. En la inspección del trabajo realizado en
los puestos de operarios, el plan de inspección puede requerir el ir y venir por las filas de los puestos e
inspeccionarla maquinaria en cada décimo puesto. La hora del día frecuentemente es importante para
evaluar la calidad de la labor realizada por el trabajador, y así un plan de inspección puede requerir el
muestreq de la producción de un puesto de operario en horas seleccionadas sistemáticamente durante
el día.
Los auditores frecuentementese enfrentan con el problema de muestrear una lista de cuentas para
comprobar el cumplimiento con los procedimientosde contabilidad o para verificar las cantidades. La
forma más natural para muestrear las listas es seleccionar las cuentas sistemáticamente.
Los investigadores de mercado y los encuestadores, quienes muestrean personas en
movimiento, muy frecuentemente emplean un diseño sistemático. A cada vigésimo cliente en un
7 MUESTREO

mostrador de pago se le puede preguntar su opinión acerca del sabor, color, o textura de un producto
alimenticio. A cada décima persona que aborde un autobús
7.2 CÓMO SELECCIOBIARUNA S STEMÁTICA 171

se le puede pedir que llene un cuestionario acerca del servicio de autobús. Cada
centésimo automóvil que entra a un parque de diversión puede ser detenido y al
conductor preguntarle acerca de los sistemas de publicidad del parque o sobre el
preciode los boletos. Todas estas muestras son sistemáticas.
Las estimaciones de la producción de plantas cultivadas frecuentemente
resultan de muestras sistemáticasde terrenoscultivados y pequeñas parcelas dentro
de los terrenos cultivados. Asimismo los guardabosques pueden muestrear
sistemáticamente parcelas de terreno para estimar la proporción de árboles
enfermos o pueden muestrear sistemáticamente los mismos árboles para estudiar
patrones de crecimiento.
Por lo tanto el muestreo sistemático es un diseño conocida. Ahora
investigaremos la elaboracióq de estos diseños y las propiedades de los estimadores
resultantes de medias, totales y proporciones.

7.2 COM0 SELECCIONAR UNA MUESTRA


SISTEMÁTICA

Aunque el muestreo irrestricto aleatorio y el muestreo sistemático proporcionan


alternativas útiles para uno u otro, los métodos para seleccionar los datos de la
muestra son diferentes. Una muestra irrestricta aleatoria de una población selecciona
usando una tabla de números aleatorios, como se anotó en la Sección 4.3. Por el
contrario, en el muestreo sistemático se tienen diversos métodos disponibles. El
investigador puede seleccionar una muestra sistemática de 1-en-3, una de 1-en-5 0,
en general, una de 1. en-k. Por ejemplo, un investigador en medicina está interesado
en obtener información acerca del número promedio de veces en que 15,000
especialistas recetaron un cierto medicamento en el año anterior (N = 15,000). Para
obtener una muestra irrestricta aleatoria de n = 1600 especialistas, prodríamos usar
los métodos de la Sección 4.3 y referirnos a la tabla de números aleatorios; sin
embargo, este procedimiento podría requerir bastante trabajo. Por otra parte
prodríamos seleccionar un nombre (especialista) al azar de entre los primeros k = 9
nombres que aparecen en la lista y luego seleccionar noveno nombre hasta que el
tamaño de muestra 1600 es seleccionado. Esta muestra se denomina muestra
sistemática de 1-en.9.
Quizás usted desearía saber cómo se selecciona k en una situación dada. Si el
tamaño de la población N es conocido, podemos determinar un tamaño de muestra n
aproximado para la encuesta (véase Sección 7.5) y luego seleccionar k para obtener el
tamaño de muestra. En la población para la encuesta médica hay N =
15,000especialistas. Supóngase que el tamaño de muestra requerido es n 100.
Entonces debemosseleccionar a k como menor o igual a 150. Para k = 150
obtendríamos exactamente n = 100 observaciones; mientras que para k < 150, el
tamaño de muestra sería mayor que 100.
En general, para una muestra. sistemática de n elementos de una población de
tamaño N, k debe ser menor o igual que N/n (esto es, k N/ n). Nótese en el ejemplo
anterior que k es, k 150.
No podemos seleccionar exactamente a k cuando el tamaño de la población es
desconocido. Podemos determinar un tamaño de muestra n aproximado, pero
debemos suponer el valor de k necesario para obtener un tamaño de muestra n. Si se
selec-
SISTEMÁTICO

ciona un valor de k muy grande, el tamaño de muestra n requerido no se obtendrá


usando una muestra sistemática,de 1 -en-k de la población. Este resultado no
presenta problema si el experimentador puede volver a la población y realizar otra
muestra sistemática de 1-en-k hasta obtener el tamaño de muestra requerido. Sin
embargo, en algunas situaciones, obtener una segunda muestra sistemática es
imposible. Por ejemplo, tomar otra muestra sistemática de 1-en-20 de
compradoreses imposible, si el tamaño requerido de n = 50 compradores no es
obtenido en el tiempo que los compradores pasan por la esquina.

7.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL


POBLACIONALES

Como hemos señalado repetidamente, el objetivo de la mayoría de las encuestas por


muestreo es estimar uno o más de las parámetros de la población. Podemos estimar
la media poblacional usando la media muestra] de una muestra sistemática. Este
resultado se muestra en la Ecuación (7.1).

Estimador de la media poblacional g:

(7.1)
donde el subíndice sy significa que se utilizó el muestreo sistemático.
Varianza estimada de j.y:

(7.2)
Límite para el error de estimación:


Si N es desconocida,eliminamosla cpf, (N n)/N las Ecuaciones (7.2) y
7 MUESTREO

(7.3).
Usted reconocerá que la varianza estimada de dada en la Ecuación (7.2) es
idéntica a la varianza estimada de obtenida mediante muestreo irrestricto aleatorio
(Sección 4.3). Este resultado no implica que las varianzas poblacionales sean iguales.
La varianza de está dada por

(7.4)
Asimismo la vananza de está dada por
2
(7.5)
V(ñy)
n
7.3 POBIACIONALES
ES UNA MEDIA Y TOTAL 173

donde p una medida de la correlación entre los pares de elementos dentro de la misma muestra
sistemática. Si p está cercano a uno, entonces los elementos dentro de la muestra son bastante
similares con respecto a la característica que se está midiendo, y el muestreo sistemático producirá
una varianza de la media muestral mayor que la obtenida con el muestreo irrestricto aleatorio. Si p es
negativo, entonces el muestreo sistemático puede ser mejor que el muestreo irrestricto aleatorio. La
correlación puede ser negativa si los elementos dentro de la muestra sistemática tienden a ser
extremadamente diferentes. (Nótese que p no puede ser negativamente grande como para que la
expresión de la varianza llegue a ser negativa.) Para p cercano a cero y N bastante grande. el muestreo
sistemático es aproximadamente equivalente al muestreo irrestricto aleatorio.
Un estimador insesgado de V(Fsy) no puede ser obtenido usando solamente los datos de una
muestra sistemática. Este enunciado no implica que nunca podremosobtener una estimación de
v(Fsy). Cuando el muestreo sistemático es equivalente al muestreo irrestricto aleatorio, podemos
tomar como aproximadamente igual a la varianza estimada de basada en un muestreo irrestricto
aleatorio.
¿Para cuáles poblacionesocurre esta relación ?Para responder esta pregunta, debemos
considerar los tres tipos siguientes de poblaciones:

1. Población aleatoria,
2. Población ordenada,
3. Población periódica.

DEFINICIÓN 7.2 Una población es aleatoria si SuS elementos están ordena-


dos al azar.
Los elementos de una muestra sistemática seleccionados de una población aleatoria se espera que
sean heterogéneos con un p aproximadamente igual a cero. Por lo tanto cuando N es grande la
varianza de es aproximadamente igual a la varianza de basada en un muestreo irrestricto aleatorio. El
muestreo sistemático en este caso es equivalente al muestreo irrestricto aleatorio. Por ejemplo un
investigador desea determinar el número promedio de recetas prescritas por ciertos médicos durante
el año anterior. Si el marco consiste de una lista en orden alfabético de médicos, la suposición de que
los nombres en la lista no están correlacionados con el número de recetas para un medicamento en
particular es razonable. Por lo tanto consideramos aleatona a la población. En este caso una muestra
sistemática será equivalente a una muestra irrestricta aleatoria.

DEFINICIÓN 7.3 Una población es ordenada si los elementos dentro de la población están
ordenados en magnitud de acuerdo con algún esquema.

En una encuesta para estimar la efectividad de la enseñanza en un curso introductorio extenso,


los estudiantes son interrogados para evaluar a su maestro de acuerdo
SISTEMÁ CO

con una escala numérica. Se extrae'entoncesuna muestra de una lista de evaluaciones que están
distribuidas en orden numérico ascendente. La población de mediciones de la cual se extrae la
muestra se considera una población ordenada..
7 MUESTREO
Una muestra sistemática extralda de una población ordenada es generalmente heterogénea con
p O, Puede demostrarse, usando las Ecuaciones (7.4) y (7 ,5), que cuando N es grande y p 0,

Por lo tanto una muestra sistemática de una población ordenada proporciona más información que
una muestra irrestricta aleatoria por unidad de costo, debido a que la varianza de es menor que la
varianza correspondiente de
Ya que no podemos obtener una estimación de v( Fsy) con base en los datos de la muestra, una
estimación conservadora (una que es mayor de lo que se esperaría) de v( Fsy) está dada por t(ñy)

DEFINICIÓN 7.4 Una población es periódica si los elementos de lapoblación tienen variación ciclica.

Supóngase que estamos interesados en determinar el volumen de ventas promedio diario para
una cadena de tiendas de abarrotes. La población de las ventas diarias claramente es periódica,
ocurriendo las ventas máximas al final de cada semana. La efectividad de una muestra sistemática de 1
-en* depende de los valores que seleccionemos para k. Si muestreamos las ventas diarias cada
miércoles, probablemente subestimaríamos el promedio verdadero del volumen de ventas diario.
Asimismo si muestreamos las ventas cada viernes, probablemente sobreestimaríamos el promedio
verdadero de las ventas. Podríamos muestrear cada noveno día de trabajo para evitar muestrear
consistentemente los dfas de ventas altas o bajas.
Los elementos de una muestra sistemática extraída de una población periódica pueden ser
homogéneos (estoes p > O). Por ejemplo, los elementos de una muestra sistemática de ventas diarias
tomadas cada miércoles serán bastante homogéneos. Puede demostrarse, mediante las Ecuaciones
(7.4) y (7.5), que cuando N es grande y

Por lo tanto en este caso el muestreo sistemático proporciona menos información que el muestreo
irrestricto aleatorio por unidad de costo. Como en las situaciones anteriores, v( jsy) no puede ser
estimada directamente mediante una sola muestrasistemática. Podemos aproximar su valor usando V(
j), como para muestreo irrestricto aleatorio. En general este estimador subestimará la varianza
verdadera de
Para evitar este problema que ocurre con el muestreo sistemático de una población periódica, el
investigador podría cambiar varias veces el punto de inicio aleatorio. Este procedimiento reducirá la
posibilidad de seleccionar observaciones con la misma posición relativa en una población periódica.
Por ejemplo, cuando una muestra sistemática de 1-en-l() es extraída de una larga lista de tarjetas
archivadas, una tarjeta es
475
seleccionada aleatoriamente de entre las 10 primeras tarjetas (por*mplo, la no. 2) y
posteriormente cada décima tarjeta. Este procedimiento puede modificarse
seleccionando aleatoriamente una tarjeta de entre las primeras 10 (por ejemplo, la no. 2)
y posteriormentecada décima tarjeta para tal a las 15 seleccionesobtener los números
2, 12, 22, 152
7.3 POBIACIONALES
En este momento se puede seleccionarotro punto de inicio aleatorio de entre los 10
números siguientes:

153, 154, 155, . , 162


Si el 156 es seleccionado, entonces posteriormente procedemos a seleccionar cada
décimo número para las siguientes 15 selecciones. Este procedimiento completo se
repite hasta que es obtenido el tamaño de muestra deseado.
El procedimientode seleccionar vanas veces,un punto de inicio aleatorioa través de
la muestra sistemática tiene el efecto de mezclar los elementos de la población y al
mismo tiempo el de seleccionar una muestra sistemática. En consecuencia podemos
suponer que la muestra obtenida es equivalente a una muestra sistemática extraída de
una población aleatoria. La varianza de puede ser entonces aproximada usando

EJEMPLO 7.4

Un investigador desea determinar la calidad del jarabe de arce contenido en la savia de


los árboles en una finca de Vermont. El número total de árboles N es desconocido; por lo
tanto es imposible realizar una muestra irrestricta aleatoria de árboles. Como un
procedimiento alternativo, el investigador decide usar una muestra sistemática de 1-en-7.
Los datos de esta encuesta están listados en la tabla adjunta. Los datos son el porcentaje
del contenido de azúcar (en la savia) para los árboles muestreados.

mumtreado en la savia, y

2 82 6724
3 76 5776
83 6889
210
211 84 7056
212 80
79 6241
212 212
= 17,066
E
476
estos datos para estimar g , el contenido de azúcar promedio de los árboles de arce en la
finca. Establezca un límite para el error de estimación.
7 MUESTREO
SOLUCIÓN
Una estimación de g está dada por

17,066
= 80.5 n 212
Para encontrar un límite para el error de estimación, primero debemos calcular s .
Usando la fórmula para el cálculo, obtenemos

= 535.48
Intuitivamente, podemos suponer que la población de árboles en la finca es aleatoria.
Según esta suposición la varianza estimada de está dada por la Ecuación (7.2). Habiendo
realizado la muestra de 1-en-7, conocemos N. Suponiendo N = 1484 resulta

535.483 1484 - 212


V( fisy) =212 1484 = 2.16
Un límite aproximado para el error de estimación está dado por

En resumen, estimamos que el promedio de azúcar contenido en la savia de 80.5%.


Estamos bastante confiados en que el límite para el error de estimación es menor de
2.9%.

Se recordará que la estimación de un total poblacional requiere del conocimiento


del número total de elementos N en la población cuando aplicamos los procedimientos
de los Capítulos 4 y 5. Por ejemplo, usamos
= NP
como un estimador de T en el muestreo irrestricto aleatorio. También, usamos

donde

como un estimador de r en el muestreo aleatorio estratificado con L estratos (Sección


5.3). Asimismo necesitamos conocer N para estimar T cuando estamos usando el
muestreo sistemático.
El tamaño de la población se desconoce en muchas situaciones prácticas, en las
cuales se sugiere el uso del muestreo sistemático; sin embargo, cuando N es conocida,
podemos estimar T usando las Ecuaciones (7.6), (7.7) y (7.8).
7.3 POBIACIONALES
ESTIMACIÓN CE UNA MEDIA Y UN TOTA- 477

Estimador del total poblacional r:


(7.6)
Varianza estimada de f :

f(Nñy) = N2 ê(ñy) = N2 (7.7)


Límite para el error de estimación:

Nótese que los resultados presentados en las Ecuaciones (7.6), (7.7) y (7.8) son
idénticos a los presentados para estimar un total poblacional mediante muestreo
irrestricto aleatorio. Este resultado no implica que la varianza de sea la misma que la
varianza de NP. Nuevamente no podemos obtener un estimador insesgado de V(Nñy)
con base en los datos de una sola muestra sitemática. Sin embargo, en ciertas
circunstancias, como se anotó antes, el muestreo sistemático es equivalente al
muestreo irrestricto aleatorio, y podemos usar los resultados presentados en la Sección
4.3.

EJEMPLO 7.2

Un hortelano de Virginia tiene un huerto experimental con N = 1300 manzanos de una


nueva variedad en estudio. El investigador desea estimar la producción total (en
bushels) de la huerta, con base en los árboles de una muestra sistemática de 1-en-l(). La
media y la varianza muestrales para los árboles muestreados fueron 3.52 bushels y s =
0.48 bushel. Utilice estos datos para estimar T, y establezca un límite para el error de
estimación.

SOLUCIÓN
Una suposición razonable es que la población es aleatoria; por lo tanto los muestreos
irrestricto aleatorio y el sistemático son equivalentes. Si la población fuese periódica, el
experimentador podría seleccionar varios puntos de inicio aleatorios en la selección de
los árboles que serán incluidos en la muestra.
Una estimación de r está dada por
= 1300(3.52) = 4576
Un límite para el error de estimación puede determinarse usando la Ecuación
(7.8) con n = 130:
7 MUESTREO

1300 -
= 150
478 SISTEMÁTICO
130
1300
Por lo tanto estimamos que 'la producción total del huerto
de manzanos es 4576 bushels, con un límite para el error de estimación de 150 bushels.

Si la estratificación de la población es ventajosa, el muestreo sistemático puede


utilizarse dentro de cada estrato en lugar del muestreo irrestricto aleatorio. Usando el
estimador de la Ecuación (7.1) con la varianza estimada (7.2) dentro de cada estrato, el
estimador resultante de la media poblacional parecerá similar al de la Ecuación (5.1),
con una varianza estimada dada por la Ecuación (5.2). Tal situación podría surgir si
fuéramos a estratificar una industria por plantas y luego a tomar una muestra
sistemática de los registros dentro de cada planta para estimar el promedio de las
cuentas por cobrar, el promedio del tiempo perdido por accidentes, y sucesivamente.

7.4 ESTIMACIÓN DE IN PROPORCIÓN POBLACIONAL

Un investigador a menudo desea usar los datos de una muestra sistemática para
estimar una proporción poblacional. Por ejemplo, para determinar la proporción de
votantes registrados que están a favor de una prometedora emisión de bonos, el
investigador podría utilizar una muestra sistemática de 1-en-k de la lista de votantes
registrados.
H estimador de la proporción poblacional p por muestreo sistemático se denota
mediante psy. Como en el muestreo irrestricto aleatorio (Sección 4.5), las propiedades
de psy son análogas a las propiedades de la media muestral si las mediciones de la
respuesta se definen como sigue: sea = O si el i-ésimo elemento muestreado no posee
la característica específica y = 1 si la posee. El estimador psy es entonces el promedio
de los valores 0 y 1 de la muestra.

Estimador de la proporción poblacional p:

Psy = jsy = (7.9)


Varianza estimada de p,

(7.10)

donde ay
7.3 POBIACIONALES
Límite para el error de estimación:
179
7.4 ESTIMACIÓN PROPORCIÓN POBLACCNAL

Podemos omitirla cpf, (N — N , en las Ecuaciones(7.10) y (7.11) si el tamaño de la


población N es desconocido pero puede suponerse relativamente grande con respecto a n.
Notemos nuevamente que la varianza estimada de psy (o bien es idéntica a la varianza
estimada de p (o bien l), usando el muestreo irrestricto aleatorio (Sección 4.5). Este resultado no
implica que las varianzas poblacionales correspondientes sean iguales; sin embargo, si N es
grande, y si las observaciones dentro de una muestra sistemática no están correlacionadas (esto
es, p = 0), las dos varianzas poblacionalesserán iguales.

EJEMPLO 7.3

Una muestra sistemática de 1-en-6 es obtenida de una lista de votantes registrados para
estimar la proporción de votantes que están a favor dela emisión de bonos propuesta.
Diferentes puntos de inicio aleatorio se utilizan para asegurar que los resultados de la
muestra no son afectados por variación periódica en la población. Los resultados
codificados de esta encuesta de elección previa se muestran en la tabla adjunta. Estime p,
la proporción de los 5775 votantes registrados que están a favor de la emisión de bonos
propuesta (N = 5775). Establezca un limite para el error de estimación.

16

5760
5766
5772 1

962

E Yi = 652

SOLUCIÓN
La proporción muestra I está dada por
962

652

== 0.678
962 962
7 MUESTREO
Puesto que N es grande y varios puntos de inicio aleatorio fueron seleccionados en la
extracción de la muestra sistemática, podemos suponer que

180 SISTEMATICO

proporciona una buena estimación de V(psy).


El límite para el error de estimación es

5775
Por lo tanto estimamos que 0.678 (67.8%) de los votantes registrados favorece a la
emisión de bonos propuesta. Estamos relativamente confiados en que el error de
estimación es menor que 0.028 (2.8%).

7.5 SELECCIÓN Da TAMAÑO nn-ESTRA


Ahora vamos.a determinar el número de observaciones necesario para estimar dentro
de B unidades. H tamaño de muestra requeridose encuentra despejandon de la siguiente
ecuación:

(7.12)

La solución para la Ecuación (7.12) involucra a a y p, que debenserconocidos (al


menos aproximadamente) a fin de despejar n. Aunque estos parárnetros algunas veces
pueden ser estimados si se cuenta con datos de una encuesta anterior, en este texto no
trataremos este método. En su lugar, usamos la fórmula para n de un muestreo
irrestricto aleatorio. Esta fórmula podría dar una muestra extragrande para poblaciones
ordenadas y una muestra muy pequeña para poblaciones periódicas. Como se anotó
antes, las varianzas de y son equivalentes si la población es aleatoria.

Tamaño de muestra requerido para estimar g con un límite B para el error de


timación :
No-2
(7.13)
181

EJEMPLO 7.4

La administración de una empresa de servicio público está interesada en la cantidad


promedio de tiempo que tienen de estar vencidas las cuentas atrasadas. Una muestra
sistemática será extraída de una lista en orden alfabético con N = 2500 cuentas de
7.5 SELECCIÓN CR MUESTRA
clientes que están vencidas. En una encuesta similar realizada el año anterior, la valianza
muestralfue,s = 100 días. Determine el tamaño de muestra requerido para estimar g , la
cantidad promedio de tiempo que tienen de estar vencidas las cuentas de la empresa de
servicio público, con un límite para el error de estimación de B = 2 días.

SOLUCIÓN
Una suposición razonable es que la población es aleatoria; por lo tanto p O. Luego
podemos usar la Ecuación (7.3) para encontrar el tamaño de muestra aproximado.
Reemplazando pors y estableciendo

4 4
tenemos

2500(100)
= 96.19
2499(1) + 100
Por lo tanto la administración debe muestrear aproximadamente 97 cuentas para estimar
la cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas, con un
límite para el error de estimación de 2 días.

Para determinar el tamaño de muestra requerido al estimar r con un límite en el error


de estimación de magnitud B, utilizamos el método correspondientepresentado en la
Sección 4.4.
El tamaño de muestra requerido para estimar p con aproximación a B unidades se
encuentra usando la fórmula del tamaño de muestra para estimar p con muestreo
irrestricto aleatorio.

Tamaño de muestra requerido para etimarp con un límite B para el error de


estimación:
Npq
7 MUESTREO
(7.14)

En una situación práctica se desconoce p. Podemos encontrar un tamaño de muestra


aproximado reemplañndo p por un valor estimado. Si no se dispone de información
anterior para estimar p, podemos obtener un tamaño conservadorde muestra haciendop 0.5

EBRO 7.5
Una empresa publicitaria está iniciando una campaña de promoción para un nuevo
producto. La empresa quiere muestrear clientes potenciales en una pequeña comunidad
para determinar la aceptación del producto.
7
482 VUESTPEOSSTEMÀT'CO

Para eliminar algo de los costos asociados con las entrevistas personales, el
investigador decide seleccionar una muestra sistemática de entre N = 5000
nombres listados en un registro de la comunidad y recolectar los datos mediante
entrevistas por teléfono. Determineel tamaño de muestra requerido para estimar
p, la proporción de personas que consideran "aceptable" el producto, con un límite
para el error de estimación de magnitud B = 0.03 (esto es, 3%).

SOLUCION
El tamaño de muestra requerido puede ser encontrado usando la Ecuación (7.14).
Aunque no se tienen disponibles datos anteriores sobre el nuevo producto,
podemos encontrar un tamaño de muestra aproximado. Haga p = 0.5 en la
Ecuación (7.14) y

B 2 (0.03) 2
= 0.000225
4 4
Entonces el tamaño de muestra requerido es

= 909.240
Por lo tanto la empresa debe entrevistar 910 personas para determinar la
aceptación del producto con un límite para el error de estimación de 3%.

Establecimos en la Sección 7.3 que no podemos estimar la varianza defrsy con base
en la información contenida en una sola muestra sistemática a menos que el
muestreo sistemático genere, con fines prácticos, una muestra aleatoria. Cuando
ocurre este resultado podemos usar los procedimientos de estimación del
muestreo irrestricto aleatorio explicados en la Sección 4.3. Sin embargo en la
mayoría de los casos el muestreo aleatorio sistemático no es equivalente al
muestreo irrestricto aleatorio. Un método alternativo debe ser usado para estimar
V(ñy). Tal ,métodoes el muestreo sistemático replicado.
Como el nombre lo implica, el muestreo sistemático replicado requiere de
réplicas, o sea de la selección de más de una muestra sistemática. Por ejemplo,
diez muestras sistemáticas de 1-en-50, cada una conteniendo seis mediciones,
podrían ser obtenidas en aproximadamente el mismo tiempo que una muestra
sistemática de I -en5 conteniendo 60 mediciones. Ambos procedimientos
producen 60 mediciones para estimar la media poblacional g , pero el
procedimientode muestreo replicado nos permite. estimar V(jsy) utilizando el
cuadrado de las desviaciones de las n, = 10 medias muestrales individuales
7 MUESTREO SISTEMÂTCO
alrededor de su media. El promedio g de las 10 medias muestrales estimará la
media poblacional p.
Para seleccionar n, muestras sistemáticas replicadas, debemos separar más
los elementos de cada muestra. Por lo tanto diez muestras de 1-en-50 (n, 10, k' =
50) de seis mediciones cada una contienen el mismo número de mediciones que
una sola muestra de 1-en-5 (k = 5) conteniendon = 6() mediciones. El punto de
inicio para
7.6 MUESTREO SISTEMÁTICO REPLICADO

cada una de las ns muestras sistemáticas es seleccionado aleatoriamente de entre los


primeros k elementos. Los elementos restantes en cada muestra son obtenidos adicionando
W, 2k', y así sucesivamente, al punto de inicio hasta queel número total por muestra, n/ ns,
es obtenido.
Una población consiste de N = 960 elementos, los cuales podernos numerar
consecutivamente. Para seleccionar una muestra sistemática de tamaño n = 60,
seleccionamos k = N / n = 16 y un número aleatorio entre el 1 y el 16 como un punto de
inicio. ¿Qué procedimiento seguimos para seleccionar 10 muestras sistemáticas repetidas
en lugar de una muestra sistemática?Primero, seleccionamos k' = IOk 10(16) = 160. A
continuación, seleccionamos IO números aleatorios entre el 1 y el 160. Finalmente, la
constante 160 se adiciona a cada uno de estos puntos de inicio aleatorio para obtener IO
números entre el 161 y el 320; el procesode adicionar la continúa hasta que se
obtienen IO muestras de tamaño 6.
Una selección aleatoria de 10 enteros entre el 1 y el 160 da los siguientes:
73, 42, 81, 145, 6, 21, 86, 17, 112, 102
Estos números forman los puntos de inicio aleatorio para 10 muestras sistemáticas, como se
muestra en la Tabla 7.1. H segundo elemento en cada muestra se encuentra adicionando
160 al primero, el tercero adicionando 16() al segundo, y así sucesivamente.

TABLA 7.1 Selección de muestras sistemáticas replicadas

Punto de Segundo Tetcer Sexto inicio elemento elemento elemento


aleatorio en la muestra en la muestra en la muestra

17 177
21 181
42 202
73 233
81 241
86 246
102 262
112 272
185
Frecuentemente seleccionamos n, = 10 pues nos permite obtener suficientes medias
muestrales para adquirir una estimación satisfactoria de V(g). Seleccionamos k' de tal
manera que dé el mismo número de mediciones que se obtendrían con una sola muestra
sistemática de 1-en-k: así k =kn,

Las fórmulas para estimar según ns muestras sistemáticas se señalan en las


Ecuaciones (7.15), (7.16) y (7.17).
Estimador de la media poblacional usando n. muestras sistemáticas de len-k':

(7.15)
donde representa el promedio de la i-ésima muestra sistemática.
Varianza estimada de g :

t(fi) = (7.16)
Límite para el error de estimación:

También podemos usar muestreo sistemático replicado para estimar un total


poblacional r , si N es conocido. Las fórmulas necesarias se dan en las Ecuaciones
(7.18), (7.19) y (7.20).

Estimador del total poblacional usando n, muestras sistemáticasde len-k'•

(7.18)
Varianza estimada de f :
2

= N2 t(Ê) N2 (7.19)
Límite para el error de estimación:

EJEMPLO 7.6
7 MUESTREO SISTEMÂTCO

Un parque estatal cobra la admisión por automóvil en lugar de por persona, y un


funcionario del parque quiere estimar el número promedio de personas por
automóvil para un día efectivo en particular durante el verano. H funcionario sabe
por experiencia que entrarán al parque alrededor de 400 automóviles y quiere
muestrear 80 de ellos. Para obtener una estimación de la varianza, utiliza el
muestreo sistemático repli-
7.6

cado con 10 muestras de 8 automóvilescada una. Usando los datos que se presentan en la
Tabla 7.2, estime el número promedio de personas por automóvil y establezca un límite
para el error de estimación.

TmA 7.2 Datos del número de personas pcx automóvil [las resçllestas y, están en paréntesis)

Punto de inicio Segundo Tercer Cuarto Quinto Sexto Séptimo Octavo aleatorio elemento elemento
elemento elemento elemento elemento elemento

52 (4) 102 (5) 152 (3) 202 (6) 252 (i) 302 (4) 352 (4) 3.75
55 (3) 105 (4) 155 (2) 205 (4) 255 (2) 305 (3) 355 (4) 3.38
57 (4) 107 (6) 157 (2) 207 (3) 257 (2) 307 (1) 357 (3) 2.88
13 (6) 63 (4) 113 (6) 163 (7) 213 (2) 263 (3) 313 (2) 363 (7) 4.62
26 (4) 76 (5) 126 (7) 176 (4) 226 (2) 276 (6) 326 (2) 376 (6) 4.50
•31 (7) 81 (6) 131 (4) 181 (4) 231 (3) 281 (6) 331 (7) 381 (5) 5.25
35 (3) 85 (3) 135 (2) 185 (3) 235 (6) 285 (5) 335 (6) 385 (8) 4.50
40 (2) 90 (6) 140 (2) 190 (5) 240 (5) 290 (4) 340 (4) 390 (5) 4.12
45 (2) 95 (6) 145 (3) 195 (6) 245 (4) 295 (4) 345 (5) 395 (4) 4.25
46 (6) 96 (5) 146 (4) 196 (6) 246 (3) 296 (3) 346 (5) 396 (3) 4.38

SOLUCIÓN
Para una muestra sistemática

IV 400 5
n 80
Por lo tanto para n, = IO muestras k' = 10k = 10(5) 50
Los siguientes 10 números aleatorios entre el 1 y el 50 son extraídos:
13, 35, 2, 40, 26, 7, 31, 45, 5, 46
Los automóviles con estos números forman los puntos de inicio aleatorio para las muestras
sistemáticas.
En la Tabla 7.2 la cantidad es el promedio para la primera hilera, es el promedio para
la segunda hilera, y asf sucesivamente. La estimación de g es
187

—(3.75 +338 + . . • +4.38) = 4.16


Puede establecerse la siguiente identidad:

Sustituyendo, obtenemos
1
- = 177.410 - — (1733.06) = 4.104
10
486

Por lo tanto la varianza estimada de es

400 — 80
4.104
= 0.0365
400 10(9)
La estimación de g con un límite para el error de estimación es
osea 4.16±0.38
Por lo tanto nuestra mejor estimación del promedio de personas por automóvil es
4.16. H error de estimación será menor que 0.38 aproximadamente con una
probabilidad de 0.95.

7.7 RESUMEN
H muestreo sistemático es presentado como una alternativa para el muestreo
irrestricto aleatorio. El muestreo sistemático es más fácil de llevar a cabo y, por lo
tanto, está menos expuesto que el muestreo irrestricto aleatorio a los errores del
entrevistador. Además el muestreo sistemático frecuentemente proporciona más
información que el muestreo irrestricto aleatorio por unidad de costo.
Consideramos la estimación de una media, un total y una proporción
poblacionales usando los estimadores F,y, NPsy y psy, respectivamente. En estos
estimadores se establecieron los límites correspondientes para los errores de
estimación.
Para seleccionar entre el muestreo irrestricto aleatorio y el sistemático
primero debemos considerar el tipo de población que se investiga. Por ejemplo,
cuando N es grande y p < O, la varianza de es más pequeña que la varianza
correspondiente de y' basada en una muestra irrestricta aleatoria. Una muestra
7 MUESTREO SISTEMÂTCO
sistemática es preferible cuando la población es ordenada y N es grande. Cuando
la población es aleatoria, los dos procedimientos de muestreo son equivalentes y
cualquiera de los dos diseños puede ser usado. Debe tenerse cuidado en la
aplicación del muestreo sistemático para poblaciones periódicas.
Las necesidades de tamaño de muestra para estimar g , r y p son
determinadas usando las fórmulas presentadas para el muestreo irrestricto
aleatorio.
El muestreo sistemático replicado se estudió en la Sección 7.6; permite al
experimentador estimar la media o el total poblacionalesy la varianza del
estimador sin establecer ningún supuesto acerca de la naturaleza de la población.

ANÁLISIS s•n-m CASO


EVALUACION [E LA CALIDAD UN PRODUCTO
El problema de control de calidad que Involucro el porcentaje de cobre en una
pieza de bronce. expuesto al principio de este capítulo, presentó una muestra «e
máticade 16 medidones con y = 18. Amue la muestra fue seleccionada ss-
487
temáticamente, podemos esfimar la meaja poblacional por

suponiendo que N grande comparada con n. Rr b


tanto terwms
87
87
o de 85 a 89 como la mejor estimación de la media verdadera del proceso
de producción. Pue<o que la norma de 90, aparentemente el proceso no
está cumpliendo con la norma anunciada en este día. El supervisor
encargado querrá investigar las causas posibles de esta falla.
este caso el muestreo sistemático razonable puesto que fuerza a
que la muestra cubra la producción de todo el día. Si la calidad tiende a
dsmiruir (o incrementa] durante el día, este plan de muestreo puede
detectarlo. muestra irrestricta aleatoria podría concentrar todos artíçulos-
mtaestreados en hs horas de la manaro (ode la tarde).

7.1 Suponga que una compañía hipotecaria de casas tiene N hipotecas numeradas consecutivamen te
en el orden en que fueron otorgadas durante un periodo de X) años. Existe una tendencia de
incremento en los saldos sin pagar a causa del aumento en el costo de la vivienda a través de los años.
La compañía desea estimar la cantidad total de los saldos sin pagar. (Emplearía usted un muestreo
irrestricto aleatorio o un muestreo qué?
7.2 Una corporación lista a los empleados por grupos de ingresos (alfabéticamente dentro de grupos)
desde el más alto hasta el más bajo. Si el objetivo es estimar el ingreso promedio por
empleado, (deberá usarse el muestreo sistemático, el mueetreo estratificado o el muestreo
11Testricto aleatorio? Suponga que los costos son equivalentes para los tres métodos y que
usted puede estratificar por grupos de ingreso. Analice las ventajas y desventajas de los tres
métodos.
7.3 Una tienda de ventas al menudeo con cuatro departamentos tiene las cuentascorrientesordenadas
por departamento, con las cuentas vencidas al principio de la lista de cada departamento.
Suponga que cada departamento tiene en promedio alrededor de 10 cuentas, con
aproximadamente el 40% vencidas. Para un día específicolas cuentas podrían aparecer como
se muestra en la tabla adjunta (con números de cuenta del 1 al 40). La tienda desea estimar la
proporción de cuentas vencidas por muestreo sistemático.

1—11 Números de cuenta


12-20
Cuentasvencidas 1, 2, 3, 4 12, 13,14 21,22, 23, 24, 25 29, 30, 31, 32
7 MUESTREO SISTEMÂTCO

(a) Liste todas las posibles muestras„sistemáticas de 1-en-10, y calcule la varianza exacta de
la proporción muestral. (Nótese ue hay IO valores posibles, no todos distintos, para la
propor ción muestral, cada uño con de probabilidad de ocurrir.)
(b) Liste todas las posibles muestras sistemáticas de 1-en-5, y calcule la varianza exacta de la
proporción muestral.
(C) Compare los resultadosde la parte (a) con la varianza aproximada que habría sido obtenida
con una muestra irrestncta aleatoria de tamaño n 4 de esta población. Asimismo compare
los resultados de la parte (b) con los que se obtendrían según una muestra irrestricta alea.
tona con n = 8. ¿Qué conclusiones generales pueden establecerse?
7.4 La gerencia de una compañia privada 3tá interesada en estimar la proporción de empleados que
favorecen una nueva política de inversión. Una muestra sistemática de 1-en-10 es obtenida de
los empleados que salen del edificio al final de un día de trabajo en particular. Use los datos de
la tabla adjunta para estimar p, la proporción a favor de la nueva política, y establezca un límite
para el error de estimación. Suponga N = 2000.

Empleado

muat
reado

7.5 Para la situación referida en el Ejercicio 7.4, determine el tamaño de muestra requerido para estimar
p, con un límite para el error de estimación de 0.01 unidades. ¿Qué tipo de muestra sistemática
deberá obtenerse?
7.6 La sección de control de calidad de una empresa usa el muestreosistemáticopara estimar la cantidad
promedio de llenado en latas de 12 onzas que sale de una linea de producción. Los datos de la
tabla adjunta representan una muestra sistemática de I -en-50 de la producción de un día.
Estime g, y establezca un Ifmite para el error de estimación. Suponga que N = 1800.
Cantidad de llenado (en onzas)

12.00 11.97 12.01 12.03 12.01 11.80


11.91 11.98 12.03 11.98 12.00 11.83
11.87 12.01 11.98 11.87 11.9011.88
12.05 11.87 11.91 11.93 11.94 11.89
11.72 11.93 11,95 1 1.97 11.93 12.05
11.85 11.98 11.87 12.05 12.02 12.04
7.7 Use los datos del Ejercicio 7.6 para determinar el tamaño de muestra requerido para estimar dentro
de 0.03 unidades.
7.8 Expertos en edafología quieren determinar la cantidad de calcio intercambiable (en partes por
millón) en una parcela de terreno. Para simplificar el esquema de muestreo, en el terreno se
sobrepone una malla rectangular. En cada punto de intersección en la malla se toman
muestrasde suelo (véase diagrama). Use los datos siguientes para determinar la cantidad
promediode calcio intercambiable en la parcela de terreno. Establezca un limite para el error de
estimación.
EJERCCOS 189

n = 45

Yi = 90 , 320 calcio intercambiable


E y? = 148, 030, 000

7.9 La patrulla de caminos de un estado en particular está interesada en la proporción de


automovilistas que portan su licencia. Se instala un puesto de verificación en una carretera
principal y se detiene al conductor de cada séptimo automóvil. Use los datos de la tabla anexa
para estimar la proporción de conductores que portan su licencia. Establezca un límite para el
error de estimación. Suponga que N = 2800 autos pasan por el puesto de verificación durante
el periodo de muestreo.

Automóvil

7.10 La patrulla de caminos espera que pasen cuando menos N = 3000 automóviles por el puestode
verificación. Determine el tamaño de muestra requerido para estimar p con aproximación de
B = 0.015 unidades.
7.11 Un colegio está interesado en mejorar sus relaciones con una comunidad vecina. Una muestra
sistemfitica de 1-en-150de los N = 4500 estudiantes listados en el directorioes tomada para
estimar la cantidad total de dinero gastado en ropa durante un trimestre del año escolar.
resultados de la muestra están listados en la tabla anexa. Use los datos para estimar , y
establezca un límite para el error de estimación.

1 30 16 32
7 MUESTREO SISTEMÂTCO

2 22 17 14
3 10 18 29
4 62 19
5 28 20 50
6 31 21 9
7 40 22 15
29 23 6
10 7 MUES REO SISTEMÁTICO
9 17 24 93
10 51 25 21
11 29 26 20
12 21 27 13
13 13 28 12
14 15 29 29
15 23 30 38

7.12 ¿Qué tamaño de muestra es


necesario para estimar r en el
Ejercicio 7.11, con un límite
para el error de estimación
aproximadamente igual a
$IO,OOO? ¿Qué esquema de
muestreo sistemático
recomendaría?
7.13 En una comunidad se realiza
un censo. Además de la
información usual que se
obtiene de la población, los
investigadores preguntan a los
ocupantes de cada vigésima
casa cuánto tiempo la han
habitado. Estos resultados se
resumen a continuación.

n = 115
E = 2011.15
Yi = 407.1 (años)
N = 2300
Use estos datos para estimar
la cantidad promedio de
tiempo que las personas han
vivido en su casa actual.
Establezca un límite para el
error de estimación.
7.14 Un grupo de consejeros está
interesado en la colegiatura
promedio anual para los
estudiantes que radican fuera
del estado en 371 escuelas de
estudios universitarios de
primero y segundo años. A
partir de una lista en orden
alfabéticode estas escuelas se
extrae una muestra
sistemática de 1-en-7. Los
datos referentes a las costos
de la colegiaturafuera del
estado para un año escolar
(septiembre a junio) son
obtenidos de cada escuela en
la muestra. Sea y, la cantidad
requerida por colegiatura para
la i-ésima escuela en la
muestra. Use los datos
siguientes para estimar g , y
establezca un límite para el
error de estimación.

E = SI 1,950
E=

7.15 Los funcionarios de un museo


están interesados en el
número total de personas que
visitan el lugar durante su
periodo de 180 días cuando
una costosa colección de
antigüedades está en
exhibición. Puesto que el
control de visitantes en el
museo cada dfa es muy
costoso, los funcionarios
deciden obtener estos datos
cada décimo día. La
información de esta muestra
sistemática de 1 en-10 se
resume en la tabla adjunta.
Use estos datos para estimar
T, el número total de personas


m
e
r
o

d
e

p
e
r
s
o
n
a
s

q
u
e

v
i
s
i
t
a
n

e
l

m
u
s
e
o

3 160
13 350
23 225

173 290

EJERCICIOS
494

que visitan el museo durante


el periodo específico.
Establezca un límite para el
error de estimaclón.
7.16 Los guardabosques están
interesados en determinar el
valumen medio de madera por
acre para 520 parcelas de un
acre (N = 520). Se obtiene una
muestra sistemática de 1-en-
25. Usando los datos
presentados en la tabla
adjunta, estime g , el volumen
promedio de madera por
parcela, y establezca un límite
para el error de estimación.

Parcela Volumen
muestreada (en pies de tabla)
muestreada

4 7030 279
29 6720 304
54 6850 329
79 7210 354
104 7150 379
129 7370 404
154 7000 429
179 6930 454
204 6570 479
229 6910 504
254 7380
7.17 Los funcionarios de cierta
sociedad profesional desean
determinar la proporción de
miembros que apoyan varias
enmiendas propuestas en las
prácticas de arbitraje. Los
funcionarios conducen una
muestra sistemática de 1-en-
l(), a partir de una lista en
orden alfabético de los N =
650 miembros registrados.
Sea y, = 1 si la i-ésima persona
muestreada favorece los
cambios propuestos y y, = O si
se opone a los cambios. Use
los siguientes datos de la
muestra para estimar p, la
proporción de miembros en
favor de los cambios
propuestos. Establezca un
límite para el error de
estimación.

=
4
8

7.18 En una encuesta sociológica una


muestra sistemática de 1-en-
50 se extrae de los registros
de impuestos municipales
para determinar el número
total de familias en la ciudad
que alquilan sus casas. Sea 1 si
la familia en la i-ésima casa
muestreada alquila y sea y, 0
si no alquila. Hay N =
15,200casas en la comunidad.
Use lo siguiente para estimar
r, el número total de familias
que alquilan. Establezca un
límite para el error de
estimación.

S
0
4

[Sugerencia: Si = fracción
estimada que alquila,
entonces NF es una
estimación del número total
que alquila; Ü(NF) = N2
7.19 Un granjero desea estimar el peso
total de fruto que producirá
un terreno de zuchini
(calabaza), muestreando
antes de la cosecha. La
parcela consiste de 20 hileras
con 400 plantas por hilera. El
vendedor delas semillas dice
que cada planta puede
producir hasta 8 libras de
fruto. Describa un plan de
muestreo sistemático para
este problema a fin de estimar
el peso total de fruto con
aproximación de 2000 libras.
492 7 VIIJESTPEO SISTEMÁTICO

7.20 La tabla anexa muestra el


número de
nacimientosy la tasa
de natalidad por cada
1000 individuos para
Estados Unidos
durante seis años
seleccionados
sistemáticamente.
(a) Estime el número
promedio de
varones nacidos
por año para el
periodo 1955-
1980, y establezca
un límite para el
error de
estimación.
(b) Estime la tasa
promedio anual de
natalidad para el
periodo 1955-
1980, y establezca
un límite para el
error de
estimación.
(c) ¿Cree usted que el
muestreo
sistemáticoes
mejor que el
muestreo
irrestrictoaleatorio
para los problemas
de las partes (a) y
(b)? ¿Por qué?

Fuente: The
World Almanac
& Book of
Facts, 1984
edition,
çopyright@
Newspaper
Enterprise
Asociation, Inc.,
1983, New
York, NY 10166.
7.21 En la tabla anexa se
presentan los datos
sobre las tasas de
divorcio (por cada
1000 personas) en
Estados Unidos para
una muestra
sistemática de los años
de 1900. Estime la tasa
de divorcio promedio
anual para tal periodo
y establezca un límite
para el error de
estimación. ¿E en este
caso el muestreo
sistemático mejor o
peor que el muestreo
irrestricto aleatorio?
¿Por qué?

Tus Aho Tus

1900 0.7 1945' 3.5


1905 0.8 1950 2.6
1910 0.9 1955 2.3
1915 1.0 1960 2.2
1920 1.6 1965 25
1925 1.5 1970 3.5
1930 1.6 1975 4.8
1935 1.7 1980 5.2
1940 2.0
F
u
e
n
t
e
:

T
h
e

W
o
r
l
d

A
l
m
a
n
a
c

&

B
o
o
k

o
f

F
a
c
t
s
,

1
9
8
4

e
d
i
t
i
o
n
.

c
o
p
y
r
i
g
h
t

N
e
w
s
p
a
p
e
r
E
n
t
e
r
p
r
i
s
e

A
s
s
o
c
i
a
t
i
o
n

I
n
c
.
,

1
9
8
3
,

N
e
w

Y
o
r
k
,

N
Y

1
0
1
6
6
.
7.22 Un inspector de control
de calidad debe
maestrear obleas de
silicio. con las cuales
se fabricarán circuitos
integrados para
computadoras
después de haberse
horneado. En el horno
se colocan
consecutivamentechar
olas ranuradas que
contienen muchas
obleas durante todo el
día. La colocación de
la charola y la hora del
día pueden tener
efectos importantes
en la calidad de la
oblea. Sugiera un plan
de muestreo con el fin
de estimar la
proporción de obleas
defectuosas.
7.23 Un almacén contiene
estibas de
acumuladarespara
automóvilesque
deben ser
muestreados para la
inspección de calidad.
Cada estiba tiene
anotada una fecha de
producción diferentey
se ordeEXPERIENCIAS
CON DATCS FEAS
na cronológicamente. Los de
las estibas son
aproximadamente iguales.
Sugiera un plan de muestreo
para estimar la proporción de
acumuladores defectuosos.
724 Un auditor se enfrenta a una larga
lista de cuentas por cobrar de
una empresa. El auditor debe
verificar las cantidades con
base en un 10% de esas
cuentas, y estimar la diferencia
promedio entre los valores
revisados y los asentados en el
libro.
(a) Suponga que las cuentas
están ordenadas
cronológicamente,
teniendo las cuentas más
antigüas una tendencia a
tomar valores más
pequeños. Para seleccionar
la muestra, ¿escogerla
usted un diseño de
muestreo sistemático o un
muestreo irrestricto
aleatorio?
(b) Suponga que las cuentas
están colocadas
aleatonamente. Para
seleccionar la muestra,
¿usaría usted un diseño de
muestreo sistemático o un
muestreo irrestncto
aleatorio?
(c) Suponga que las cuentas
están agrupadas por
departamentos y que
dentro de éstos están
listadas en orden
cronológico. Nuevamente
las cuentas más antigüas
tienden a tomar valores
más pequeños. Para
seleccionar la muestra,
¿escogerla usted un diseño
de muestreo sistemático o
un muestreo irrestricto
aleatorio?
7.25 La participación en el mercado de
cierto producto alimenticio
será estimada registrando las
compras almacenadas del
producto durante algunas
semanas seleccionadas del
año. Analice las ventajas y
desventajas de una selección
sistemática de las semanas
para este estudio.
7.26 La producción de trigo para un
extenso terreno será estimada
muestreando parcelas
pequeñas dentro del terreno en
tanto que el cereal madura. El
terreno está en declive con
mayor fertilidad en el lado
más bajo.
(a) Sugiera un
diseño de
muestreo
sistemático
para las
parcelas
pequeñas. (b)
Podrían
usarse
eficazmente
otros diseños
de muestreo
en este caso?

7.1 Localice los resúmenes del precio


de las acciones durante la
semana én el periódico
semanal de su localidad. Estos
resúmenes usualmente listan
los precios alto y bajo de cada
acción durante la semana,
junto con la diferencia entre el
precio de cierre para la semana
en curso y el de la semana
pasada.
(a) Seleccione una muestra
sistemática de acciones, y
estime la proporción de
acciones que tienen en
esta semana un precio de
cierre más bajo que el que
tuvieron en la semana
pasada. Establezca un
límite para el error de
estimación.
(b) ¿En este caso, cómo cree
usted que podría
compararse el muestreo
sistemático con el
muestreo irrestricto
aleatorio o el muestreo
aleatorio estratificado?
7.2 La Tabla 4.7 lista los datos de la
temporada 1982-1988 para los
equipos de la Asociación
Nacional de Baloncesto.
Suponga que un cronista de
deportes desea estimar el total
de puntos anotados en la liga,
seleccionandouna muestra
sistemática de los equipos en
la lista.
(a) {Debe utilizarse una muestra
sistemática de 1-en-6? ¿Por qué?
(b) ¿Podría ser mejor una muestra
sistemática de 1-en-4 que una
muestra de 1-en-61 {Por qué?
73 Los datos de la Tabla 5.4 muestran
la altura de los edificios altos
para ciudades seleccionadas de
Estados Unidos. Analice la
validez y deficiencia de usar
una muestra sistemática de
edificios de esta lista para
estimar la altura promedio de
los edificios. Para este
problema, ¿podría ser mejor el
muestreo sistemático que el
muestreo irrestricto aleatorio?
7.4 De acuerdo con una lista de
nombres, semejante a la de un
directorio estudiantil,
seleccione una muestra
sistemática y entrevistea las
personas seleccionadas para
averiguar si están a favor de un
cierto tema de importancia
actual (tal como una propuesta
de acción del gobierno o una
deciSión pendiente en el
recinto universitario). Estime
la proporción de la población
que apoya la propuesta y
establezca un límite para el
error de estimación.
7 MUESTREO SISTEMÁTICO

Repita el procedimientodescrito tres


veces más, de manera que se tengan
disponibles cuatro muestras
sistemáticas independientes. Compare
los resultados de las muestras
individuales con el resultado
combinado de las cuatro muestras
analizadas de acuerdo con los métodos
de la Sección 7.6. Si se desea trabajar
con alguna otra cosa en lugar de listas
de personas, use en forma similar un
listado de registros. Por ejemplo usted
podría muestrear sistemáticamente los
nombres de los empleados según un
archivo y estimar la edad promedio,
ingreso promedio, etcétera.
MUE
STREO
caa-
OMERA
DOS
O DE CASO
¿CUÁLES SON CARACTERÍSTICAS a-E
BARRIO?
que una empresa quiere establecer negocio en barrio.
puede esta ernpresa encontrar informadón sobre características
gente que ahí vive realizar s.] propia encuesta? manera consultar d
as estadísficas de Howes o manzanas de la Oficina de de IJn
estadísticas de manzanas proporcionan información demográfic
como número total de residentes, rúrneto en ciertos grupos minor
rúmeto de persor— mayores de 65 ans de edad y número de dL
arrendatarios— scbre regmes pequenas que suebn concord
rnaruanas de la ciudad. datos por de mercados, planificadores de vi
y transporte y asociadones cornunitarias, entre otros.
La emresa que está considerandoponer un local en barrio aba
que fienen una edad de 65 afns o más. esta empresa quiere esfi
proporción de resaentes de esta edad que viven en área de 40 ma
La empresa decide muestrear 5 de hs 40 maruanas y obtener dato
de manzanas. La forman conglomer
personas, y entonces debe utiÍzarse la técnica de muestre
problema una vetS5n de problema real a rnernr
Usualrrvte, el rúmero de y d tamaño de rnuestra mucho mayores.)

195
496
8.4 INTRODUCCIÓN

Se recordará que el
objetivo del diseño
de encuestas por
muestreoes obtener
una cantidad
especificada de
información acerca
de un parámetro
poblacional a un
costo mínimo. H
muestreo aleatorio
estratificado es
frecuentemente más
adecuado para esto
que el muestreo
irrestricto aleatorio,
debido a los tres
principios indicados
en la Sección 5.1. H
muestreo sistemático
frecuentemente da
resultados al menos
tan exactos como el
muestreo irrestricto
aleatorio y es más
fácil de llevar a cabo,
según se trató en la
Sección 7.1. Este
capitulo introduce un
cuarto diseño,
muestreo por
conglomerados, el
cual algunas veces
proporciona más
información por
unidad de costo que
cualquier otro de los
tres diseños
estudiados
previamente.

DEFINICION
8.1 Una
muestra por
conglomerados
es una muestra
aleatoria en la
cual cada
unidad de
muestreo es
una colección,
o
conglomerado,
de ele. mentos.

El muestreo por
conglomerados es
menos costoso que el
muestreo aleatorio
estratificado o
irrestricto, si el costo
por obtener un marco
que liste todos los
elementos
poblacionales es muy
alto o si el costo por
obtener
observaciones se
incrementa con la
distancia que separa
los elementos.
Para explicarlo,
supóngase que
deseamos estimar el
ingreso promedio por
hogar en una gran
ciudad. ¿Cómo
debemos seleccionar
la muestra? Si
usamos muestreo
irrestricto aleatorio,
se requiere un marco
que liste todos los
hogares (elementos)
en la ciudad, y este
marco puede ser muy
costoso o imposible
de obtener. No
podemos evitar

497

este problema al utilizar muestreo


aleatorio estratificado porque
incluso se requiere un marco para
cada estrato en la población. En
lugar de extraer una muestra
irrestricta aleatoria de elementos,
podríamos dividir la ciudad en
regiones tales como manzanas (o
conglomerados de elementos) y
seleccionar una muestra irrestncta
aleatoria de ellas. Esta tarea se
realiza con facilidad mediante el uso
de un marco que liste todas las
manzanas de la unidad. Entonces se
podría medir el ingreso de cada
familia dentro de cada manzana
muestreada.
Para ilustrar el segundo
principio de la aplicación de
muestreo por conglomerados,
suponga que se cuenta con una lista
de hogares de la ciudad. Podríamos
seleccionar una muestra irrestricta
aleatoria de hogares, la cual
probablemente estará dispersa en
toda la ciudad. H costo por realizar
entrevistas en los hogares dispersos
va a ser grande debido al tiempo de
transporte de los entrevistadores y
otros gastos relacionados. El
muestreo
aleatorioestratificadopodría reducir
estos gastos, pero el uso de
muestreo por conglomerados un
método más efectivo para reducir
los gastos de transporte. Los
elementos dentro de un
conglomerado deben estar
geográficamente cerca uno de otro,
y entonces los gastos de transporte
se reducen. Obviamente el
transporte dentro de un bloque de
la ciudad sería mínimo si se
comparara con el transporte
asociado al muestreo irrestricto
aleatorio dentro de la ciudad.
Para resumir, el muestreo por
conglomerados es un diseño
efectivo para obtener una cantidad
especificada de información al costo
mínimo bajo las siguientes
condiclones:

1. No se encuentra disponible o es
muy costoso obtener un buen
marco que liste los elementos de
la población, mientras que se
puede lograr fácilmente un
marco que liste los
conglomerados.
2. El costo por obtener
observaciones se incrementa con
la distancia que separa los
elementos.
Las manzanas de la ciudad son
usadas frecuentemente como
conglomerados de hogares o de
personas, porque la Oficina de
Censos de Estados Unidos reporta
estadísticas de manzana muy
detalladas. En los datos censales
una manzana puede ser una
manzana de ciudad estándar o un
área de forma irregular con límites
políticos o geográficos
identificables. Las estadísticas de
manzana contienen información de
todas las áreas urbanas y lugares
con concentraciones de 10,000 0
más personas. En total las
estadísticas de manzana cubren el
77% de la población nacional. Los
datos reportados para cada
manzana incluyen la población
total, mezcla racial y número de
unidades habitacionales, y pueden
incluir el valor en dólares de la
propiedad, si la casa es alquilada o
propia y si tiene todos los servicios
de plomería.
Las estadísticas de manaana
de la Oficina de Censos son
ampliamente usadas en muestreo
por conglomerados por empresas
de investigación de mercados, las
cuales pueden desear estimar el
mercado potencial de un producto,
las ventas potenciales si se abre un
nuevo almacén en el área, o el
número potencial de clientes para
un nuevo servicio, tal como una
instalación de emergencias
médicas.
H gobierno estatal y local
muestrean manzanas
(conglomeradosde unidades
habitacionales o personas) a fin de
planear nuevos métodos y medios
de transporte y además los
desarrollos habitacionales.
Asimismo organizaciones
comunitarias, tales como iglesias,
utilizan estadísticas de manzanas
para determinar sitios óptimos de
ampliación.
Hay muchos otros ejemplos
comunes del uso de muestreo por
conglomerados. Las mismas
unidades habitacionalesson
conglomeradosde personas y
pueden formar
8

198 cacnv1ERADOS
unidades de muestreo convenientes al muestrear, por ejemplo, estudiantes
universitarios. Los hospitales forman conglomerados convenientes de pacientes con
ciertas enfermedades para estudios del tiempo promedio de hospitalización o
número promedio de recurrencias de padecimientos.
Otros elementos diferentes de personas son frecuentemente muestreados en
conglomerados. Un automóvil forma un buen conglomerado de cuatro llantas para
estudios de uso y seguridad de llantas. Un tablero de circuitos fabricado para una
computadora forma un conglomerado de semiconductores para prueba. Un
naranjo forma un conglomerado de naranjas para la investigación de infestación
por insectos. Una parcela en el bosque contiene un conglomerado de árboles para
la estimación de volúmenes de madera o proporción de árboles enfermos. Como
usted puede ver, la lista de posibles conglomerados, que son unidades
convenientes de muestreo, es infinita.
Ahora analizaremos los detalles de la selección de una muestra por conglomerados.

COh.anv1ERADOS
La primera tarea en muestreo por conglomerados es especificar los conglomerados
apropiados. Los elementos dentro de un conglomerado están
frecuentementejuntos ffsicamente, por lo que tienden a presentar características
similares. Dicho de otra manera, la medición en un elemento en un conglomerado
puede estar altamente correlacionada con la de otro elemento. Entonces la
cantidad de información acerca de un parámetro poblacional puede no
incrementarsesustancialmente al tomar nuevas mediciones dentro de un
conglomerado. Ya que las mediciones cuestan dinero, un experimentador podría
desperdiciar presupuesto si es que selecciona un conglomerado de gran tamaño. Sin
embargo pueden ocurrir situaciones en las cuales los elementos dentro de un
conglomerado son muy diferentes entre sí. En tales casos una muestra que
contenga pocos conglomerados grandes puede producir una estimación muy buena
de un parámetro poblacional, tal como la media.
Por ejemplo supóngase que los conglomerados están formados por cajas de
componentes que van saliendo de una línea de producción, un conglomeradode
componentes por llnea. Si todas las líneas tienen aproximadamente la misma tasa
de componentes defectuosos, entonces cada conglomerado (caja) es
aproximadamente tan variable con respecto a calidad como la población completa.
En este caso se puede obtener un buen estimador de la proporción de productos
defectuosos con base en uno o dos conglomerados.
En contraste, supóngase que los distritos escolaresse especifican como
conglomerados de hogares para estimar la proporción de familias que apoyan un
plan de rezonificación. Ya que los conglomerados contienen muchos hogares, los
recursos permiten únicamente el muestreo de un número pequeño de
conglomerados, dos o tres, por ejemplo. En este caso en un distrito la mayoría de
las familias puede estar satisfecha con sus escuelas y no apoyar la
rezonificación,mientras que en otro distritola mayoría puede estar inconforme con
sus escuelas y favorecer decididamente la rezonificación. Una muestra pequeña de
distritos escolares puede no contener a uno u otro de estos grupos, produciendo
por esto un estimador muy deficiente. Se puede obtener mayor información
muestreando un número grande de conglomerados de menor tamaño.
8.2 CÓMO POR 199

El problema de elegir un tamaño apropiado del conglomerado puede ser aún


más complicado cuando se dispone de un número infinito de posibles tamaños de
conglomerados, como en la selección de parcelas forestales para la estimación de la
proporción de árboles enfermos. Si existe variabilidad en la densidad de árboles
enfermos a lo largo y ancho del bosque, entonces muchas parcelas (conglomerados)
pequeñas, localizadas aleatoria o sistemáticamente, pueden ser lo deseable. Sin
embargo, localizar aleatoriamente una parcela en el bosque consume mucho tiempo,
y una localizada, el muestreo de muchos árboles es económicamente conveniente.
Entonces muchas parcelas pequeñas son ventajosas para controlar la variabilidad,
pero pocas parcelas grandes son económicamente recomendables. debe encontrar un
equilibrio entre el número y tamaño de las parcelas. No existen buenas reglas que
funcionen siempre para tomar esta decisión. Cada problema debe ser estudiado
separadamente; pero las encuestas piloto pueden ayudar al experimentador a
encontrar la dirección correcta.
Nótese la principal diferencia entre la construcción óptima de estratos (Capitulo
5) y la construcción de los conglomerados. Los estratos deben ser tan homogéneos
(semejantes) entre ellos, como sea posible, pero un estrato debe diferir tanto como
sea posible de otro con respecto a la característica que está siendo medida. Los
conglomerados, por otro lado, deben ser tan heterogéneos (diferentes) entre ellos
como sea posible, y un conglomerado debe ser muy similar a otro para poder
aprovechar las ventajas económicas del muestreo por conglomerados.
Una vu que los conglomerados han sido especificados se debe conformar un
marco que liste todos los conglomerados de la población. Entonces se selecciona una
muestra irrestricta aleatona de conglomerados de este marco mediante el uso de los
métodos de la Sección 4.2. Se ilustra con el siguiente ejemplo.

EJEMPLO 8.4

Un sociólogo quiere estimar el ingreso promedio por persona en cierta ciudad


pequeña. No existe una lista disponible de adultos residentes. ¿Cómo se debe diseñar
la encuesta por muestreo?

SOLUCIÓN
El muestreo por conglomerados parece ser la elección lógica para el diseño de la
encuesta porque no se encuentrg disponible una lista de elementos. La ciudad es
8

dividida en bloques rectangulares, excepto las dos áreas industriales y los tres
parques que contienen pocas casas. El sociólogo decide que cada bloque de la ciudad
va a ser considerado como un conglomerado, las dos áreas industriales van a ser
consideradas como otro, y, finalmente, los tres parques van a considerarse un
conglomerado más. Los conglomerados son numerados sobre un mapa de la ciudad,
con los números del 1 al 415. El experimentador tiene tiempo y dinero suficientes
para muestrear n = 25 conglomeradosy entrevistar a cada hogar dentro de cada uno.
Entonces se seleccionan 25 números aleatorios entre 1 y 415 de la Tabla 2 del
Apéndice, y los conglomerados con esos números son marcados en el mapa. Después
se asignan los entrevistadores a cada uno de los conglomerados seleccionados.
MUESTREO cncnv1ERADOS

8.3 ESTIMACIÓN DE UNA MEDIA Y UN TOTAL


POBLACIONALES

El muestreo por conglomerados es muestreo irrestricto aleatorio con cada unidad


de muestreo conteniendo un número de elementos. Por esto los estimadores de la
media poblacional g y el total son similaresa los de muestreo irrestricto aleatorio. En
particular la media muestral es un buen estimador de la media poblacional p .En
esta sección se estudian un estimador de g y dos estimadores de T, En este capitulo
se utiliza la siguiente notación:

número de conglomerados en la población n número de conglomerados


seleccionados en una muestra irrestricta aleatoria m, =
número de elementos en el conglomerado i, i = 1 N m,
= tamaño promedio del conglomerado en la muestra

m, = número de elementos en la población

= tamaño promedio del


conglomerado en la población y, = total de todas las
observaciones en el i-ésimo conglomerado
El estimador de la media poblacional g es la media muestral , la cual dada por

Entonces la media toma la forma de un estimador de razón, como se ha


desarrollado en el Capftulo 6, con mi tomandoel lugar de Xi. Entonces la varianza
estimada de toma la forma de la varianza de un estimador de razón, dada por la
Ecuación (6.2) .
Estimador de la media poblacional :

(8.1)
Varianza estimada de :

(8.2)
8.3 ESTIMACICN CE MEDIA Y TOTAL POBLACIONALES

Límite para el error de estimación

La varianza estimada en la Ecuación (8.2) es sesgada y seria un buen estimador


de V(F) únicamente si n fuera grande, digamos n 20. El sesgo desaparece cuando los
tamaños de los conglomerados m, , m, , . . . , m son iguales. Vamos a ilustrar el uso
de la fórmula con un ejemplo.

EJEMPLO 8.2

Se realizan entrevistas en cada uno de los 25 bloques muestreados en el Ejemplo 8.1


datos sobre ingresos se presentan en la Tabla 8.1. los datos para estimar el
ingreso promedio por persona en la ciudad y establezca un límite para el error de
estimaclón.

TABLA 8.1 ingreso por persona

1 8 $ 96,000 14 10 649,000
2 12 121,000 15 9 53,000
3 4 42,000 16 3 50,000
4 5 65,000 17 6 32,000
8

5 6 52,000 18 5 22.000
6 6 40,000 19 5 45,000
7 7 75,000 20 4 37 ,000
8 5 65,000 21 6 51,000
9 8 45,000 22 8 30,000
10 3 50,000 23 7 39,000
11 85,000 24 3 47,000
12 6 43,000 25 8 41,000

13 5 54.000

SOLUCIÓN
H mejor estimador de la media poblacional ges dado por la Ecuación (8.1) y se
calcula como sigue:
caxa-avERADOS

= $8801
Pam calcular Off), necesitamos las siguientes cantidades:
25

(8)2 + (12)2 + + (8)2 = 1,047

La siguiente igualdad es fácilmente establecida:

Sustituyendo en esta ecuación los datos de la Tabla 8.1


2 —

Ya que M es desconocido, que aparece Ecuación (8.2) debe la estimada


por ñ, donde

6.04
El Ejemplo 8.1 nos da N 415. Entonces de la Ecuación (8.2)

= 653,785
POBLACIONALES 220
83 ESTIMACONCEI-NA TOTAL

Entonces la estimación de g con un límite para el error de estimación, es dada por


osea 8801 ± 24653,785,
osea 8801 ± 1617

La mejor estimación del ingreso promedio por persona es $8801 , y el error de


estimación debe ser menor que $ 1617 con una probabilidad cercana a 0.95. Ete límite
para el error de estimación es bastante grande; podría ser reducido mediante el
muestreo de más conglomerados y, consecuentemente, incrementando el tamaño de
muestra.

El total poblacional r es ahora Mg porque M denota el número total de elementos


en la población. Por ende, como en muestreo irrestricto aleatorio, Mi proporciona un
estimador de T.

Estimador del total poblacional r :

(8.4)
Varianza estimada de MI :

t(MF) = M 2 t(F) = N2 (8.5)


Límite para el error de estimación:

(8.6)

Nótese que el estimadorMPes útil únicamente si conoceel número de elemen-


tos M en la población.

EJEMPLO 8.3

Utilice los datos de la Tabla 8.1 para estimar el ingreso total de todos lo residentes de
la ciudad, y ponga un límite para el error de estimación: Existen 2500 residentes en la
ciudad.

SOLUCIÓN
Y POBLACONALES 221
La media muestral se calcula de $ 8801 en el Ejemplo 8.2. Entonces la estimación de T
es
= 2500(8801) = $22, 002, 500
MUESTREO

La cantidad V(l) se calcula con el método usado en el Ejemplo 8.2, excepto que M ahora puede ser
usado en lugar de ñ. La estimación de T con un límite para el error de estimación es

± 4,042, 848

nuevo este límite para el error de estimación es grande, y podría ser reducido incrementando el
tamaño de muestra.

Frecuentemente el número de elementos en la población no es conocido en problemas donde el


muestreo por conglomerados es apropiado. Entonces no podemos usar el estimador MI, pero podemos
formar otro estimador del total poblacional que no depende de M. La cantidad Ft, dada por

Pt-- E y, (8.7)
es el promediode los totales de conglomerados para los n conglomerados muestreados. Es por esto que
es un estimador insesgado del promedio de los N totales de conglomerados en la población. Por el
mismo razonamiento empleado en el Capítulo 4,'Njt es un estimador insesgado de la suma de los
totales de conglomerados o, equivalentemente, del total poblacional T.
Por ejemplo es altamente improbable que se conozca el número de adultos varones en una
ciudad, por lo que el estimador Nit tendrá que ser usado en lugar de Mi para estimar T.

Estimador del total poblacional T, el cual no depende de M

(8.8)
Nit=- E Y

Varianza estimada de NS' : 2

= N2 f'(yt)

(8.9)
222 8
Límite para el error de estimación:

Si existe una gran cantidad de variación entre los tamaños de los conglomerados y si los tamaños
están altamente correlacionadoscon los totales de conglomerados, la
83 ESTIMACIÓN [E
varianza de [Ecuación (8.9)) es generalmente mayor que la varianza de MI [Ecuación
(8.5)]. El estimadorNjt no usa la información proporcionada por los tamaños de los
conglomerados mp m,, . . . , m n y por esto puede ser menos preciso

EJEMPLO 8.4

Use los datos de la Tabla 8.1 para estimar el ingreso total de todos los residentes de la
ciudad si M no es conocido. Establezca un límite para el error de estimación.

SOLUCIÓN
H Ejemplo 8.1 nos da N 415. la Ecuación (8.8) y la Tabla 8.1, la estimación del ingreso
total es

(1 329,000) =
Esta cantidad es bastante similar a la estimación dada en el Ejemplo 8.3.
Para fijar un límite al error de estimación, primero calculamos

Entonces la estimación del ingreso total de todos los residentes de la ciudad, con un
límite para el error de estimación, es

Sustituyendo en la Ecuación (8.10), calculamos


Y POBLACONALES 223

El límite para el error de estimaciónes levemente más pequeñoque el límite para el


estimador (Ejemplo 8.3), debido parcialmente a que los tamaños de los conglomerados
no están altamente correlacionados con los totales de los conglomerados en este
ejemplo. En otras palabras, los tamaños de los conglomerados proporcionan poca
información referente a los totales de conglomerados; por lo que el estimador
insesgado Ni parece ser mejor que el estimadorbfl.

etimadore de g propiedades especiales cuando todos los tamaños


de conglomerados son iguales (esto es, m, = = • • • —— "IN). Primero, el estimador
224
B MIJESTPEO pop CONGLOMERADOS

Ñ, dado por la Ecuación (8. l), es insesgado de la media poblacional V. Segundo, ü(j), dado
por la Ecuación (8.2), es un estimador insesgado de la varianza de Finalmente, los dos
estimadores, Mi y Ni, del total poblacional r son equivalentes.

EJEMPLO 8.5

El gerente de circulacidn de un periódico desea estimar el número promedio de ejemplares


comprados por familia en determinada comunidad. Los costos de transporte de un hogar a
otro son sustanciales. Es por eso que se listan los 4,000 hogares de la comunidad en 400
conglomerados geográficos de IO hogares cada uno, y se selecciona una muestra irrestricta
aleatoria de 4 conglomerados. Se realizan las entrevistas con los resultados que se muestran
en la tabla anexa. Etime el número promedio de periódicos por hogar en la comunidad y
establezca un límite para el error de estimación.
Número de periaicos Total

1 2 3 3 2 4
19
2 3 2 2 3 4
20
1 2 16
3 2 3 2 1 3 20
4 1 3 2 5 2 3

SOLUCIÓN
De la Ecuación (8. l)

Cuando m, = m2 — la forma •••

= 1.875
ntn 4(10)
También puede mostrarse que

Sustituyendo, obtenemos
Y POBLACONALES 225
2 2 2 2 2
E (Yi — Fmi) = (19) + (20) (16) + (20)
= 10.75
8.4 ESTIMACIÓN DE MEDIAS TOTALES

Entonces de la Ecuación (8.2),

0.0089

Por lo tanto el mejor estimador del número promedio de periódicos por familia, con un
límite para el error de estimación, es

o sea o sea 1.88 ± ().19


De modo que la mejor estimación del número promedio de periódicos por hogar es
1.88, con una probabilidad alta de que el límite del error de estimación sea menor que
0.19.

8.4 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA


LA ESTIMACIÓN DE MEDIAS Y TOTALES
POBLACIONALES

La cantidad de información en una muestra por conglomerados es afectada por dos


factores, el número y el tamaño relativo de los conglomerados. No se ha presentado el
último factor en ninguno de los procedimientos de muestreo ya analizados. En el
problema de estimación del número de casas en un estado, con un seguro contra
incendios inadecuado, el conglomerado puede ser un municipio, distritos de votación,
distritos escolares, comunidades, o cualquier otro agrupamiento conveniente de casas.
Como ya hemos visto, el tamaño del limite para el error de estimación depende
crucialmente de la variación entre los totales de conglomerados. Entonces, al intentar
obtener límites pequeños para el error de estimación, debemos seleccionar
conglomerados con la mendr variación posible entre estos totales. Ahora vamcx a suponer
que el tamaño del conglomerado (unidad de muestreo) ha sido elegido y vamos a
considerar únicamente el problerna de seleccionar el número de conglomerados, n.
De la Ecuación (8.2), la varianza estimada de es

NnM2
226

(8.11)
La varianza real de es aproximadamente
V(j) = (02) (8.12)
NnÜ2

donde es la cantidad poblacional estimada por Sc.2


8 MUESTREO POR CONGLOMERADOS

Debido a que no conocemos o el tamaño promedio del conglomerado, la elección del tamaño
de muestra, esto es, el número de conglomerados neceario para comprar una cantidad especificada
de información concerniente a un parámetro poblacional, es complicada. Eliminamos esta
dificultad utilizando el mismo método usado para la estimación de razón. Eto es, usamos un
estimador de y disponibles de una encuesta previa, o una muestra preliminar de n elementos. Las
estimaciones de y pueden calcularse de la muestra preliminar y utilizarse para obtener un tamaño
de muestra total aproximado n. Entonces, como en todos los problemas de selección de un tamaño
de muestra, igualamos dos desviaciones estándar de nuestro estimador, con un Ifmite para el error
de estimación B. Este límite es elegido por el experimentador y representa el máximo error que
desee tolerar. Esto es

Usando la Ecuación (8.12), podemos despejar n.


Obtenemos resultados similares cuando usamos MI para estimar el total poblacional r,
porque V(MÍ) = M 2 V(j).
Tamaño de muestra aproximado requerido para estimar con un límite B para el error de
estimación:

ND (8.13)
donde Tc es estimado por Se
B2M2

para estimar el ingreso promedio por persona con un límite de $500 para el error de
estimación?
p
Y POBLACONALES 227
SOLUCION
Para utilizar la Ecuación (8.13), debemos estimar ; el mejor estimador disponible es Sc, el cual
puede ser calculado mediante el uso de los datos de la Tabla 8.1. Usando los cálculos del Ejemplo
8.2, tenemos

24
Y 228

8 4 ESTIMACIÓN DE MEDAS TOTALES POBLACIONALES

La cantidad puede ser estimada por = 6.04 calculada con los datos de la Tabla 8. I.
Eüonces D es aproximadamente

B2m2
4 4
Usando la Ecuación (8.13) tenemos

= 166.58
Entonces se deben muestrear 167 conglomerados.

Tamaño de muestra aproximado requerido para estimar T, usando Mi, con un


límite B para el error de atimación:

(8.14)
donde es estimada por Sc y

EJEMPLO 8.7

Usando nuevamente los datos de la Tabla 8.1 como una muestra preliminar de ingresos
en la ciudad, señale ¿qué tan grande se necesita una muestra para estimar el ingreso total
de todos los residentes, T, con un límite de para el error de estimación? Hay
2500 residentes en la ciudad (M = 2500)

SOLUCION
mediante
Usamos la Ecuación (8.14) y estimamos
como en el Ejemplo 8.6. Cuando estimamos T, usamos

ND
4(415)
Entonces, usando la Ecuación (8.14) nos da
= 212.88
Luego se deben muestrear 213 conglomerados para estimar el ingreso total con un
240 8 MIJES PEO POR CONG ov1ERADOS

El estimador Nit, que se muestra en la Ecuación (8.8), se usa para estimar cuando
M es desconocido. La varianza estimada de Ni que se muestra en la Ecuación
(8.9), es

f(NFt) = N

donde(8.15)
Entonces la varianza poblacional de Nit es
2
2 2 (8.16)
V(Njt) = N V(Ft) = N
donde es la cantidad poblacional estimada por st.
La estimación de T con un límite de B unidades para el error de estimación nos
lleva a la siguiente ecuación:

Tamaño

de
muetra aproximado requerido para estimar usando límite B para el error de
estimación:
Not2
ND (8.17) donde se estima mediante % , y

EJEMPLO 8.8
Supóngase que los datos de la Tabla 8. I provienen de un estudio preliminar de ingresos
en la ciudad y que no se conoce M. ¿Qué tan grande se debe tomar la muestra para
estimar el ingreso total de todos los residentes, r, con un límite de $l para el
error de estimación?
SOLUCION
La cantidad debe ser estimada por st , que se calcula con los datos de la Tabla 8.1.
Usando los cálculos del Ejemplo 8.4 nos da

24
8.5 CE PR)POPCON POBLACIONAL 241

El limite para el error de estimación es B - —


2
4N2 4(415)
De la Ecuación (8.17)

+ = 182.88
Entonces se debe tomar una muestra de 188 conglomerados para tener un límite de $l
el error de estimación.

8.5 ESTIMACIÓN EE uu PROPORCIÓN POBLACIONAL

Supóngase que un experimentadordesea estimar una proporción poblacional, o


fracción, tal como la proporción de casas en un estado con inadecuado servicio de
plomería, o la proporción de presidentes de corporación que son universitarios
graduados. El mejor estimador de la proporción poblacionalP es la proporción muestral
p. Sea ai el número total de elementos en el conglomerado i que poseen la
característica de intera Entonces, la proporción de elementos en la muestra de n
conglomerados que poseen la característica de interés es dada por

donde mi es el número de elementos en el i-ésimo conglomerado, i = tese que p tienela


misma forma de [véase Ecuación (8. excepto que es reemplazado por a,. La varianza
estimada de p es similar a la de y'.

Estimador de la proporción poblacional p:


(8.18)
Varianza estimada de F:

Nnü2 (8.19)

8
Límite para el error de atimación:

La fórmula de varianza (8.19), es un buen estimador únicamente cuando la muestra


de tamaño n es grande, digamos n 20. Si m, = = • • • r» entonces p es un estimador
insesgadodep, y la V(F), que se muestra en la Ecuación (8.19) es un estimador insesgado
de la varianza real de p para cualquier tamaño de muestra.

EJEMPLO 8.9

Además de la pregunta sobre su ingreso, se interroga a los residentes, de la encuesta


muestral del Ejemplo 8.2, acerca de si son dueños o alquilan la casa donde viven. Los
resultadosse presentanen la Tabla 8.2. Utilicelos datos de la tabla 8.2 para estimarla
proporción de residentes que viven en casas de alquiler. Establezca un limite para el
error de estimación.
TABLA8.2
8.6 SELECCIÓN LA ESTIVIACON CE 243

SOLUCIÓN
El mejor estimador de la proporción poblacional de arrendatarios F, que se muestra en la
Ecuación (8.18), donde

72

-- 0.48
calcular
z

151

Para estimar la varianza

ai — 2F ami

y de la Tabla 8.2

(at — pmi =262 — 12.729


La cantidad es estimada por ñ, donde
mi
151
= — = 6.04
n 25
Entonces, de la Ecuación (8.19),

_ (415 — 25)(12.729)
= 0,00055
La estimación de p con un límite para el error de estimación

osea 0.48 ± 0.05


Entonces la mejor estimación de la proporción de personas que alquilan casa 0.48. El error de
estimación debe ser menor que 0.05 con probabilidad de aproximadamente 0.95.

La estimación de la proporción poblacional p, con un límite de B unidades para el error de


estimación, implica que el experimentador quiere

214 8 ca-anvERADOS

Esta ecuación puede ser resuelta para n, y la solución es


similar a la Ecuación (8.13).
Esto es

donde D =B2 M 2/4, y se estima por


2

(8.21)

La Ecuación (8.21) es la misma que la (8.11) con Yi


reemplazada por y por p.

EJEMPLO 8.40
Los datos en la Tabla 8.2 son obsoletos. Se va a realizar
un nuevo estudio en la misma ciudad con el propósito de
estimar la proporción p de residentes que alquilan la casa
en que viven. ¿Qué tan grande se debe tomar la muestra para
estimar p, con un limite de 0.04 en el error de estimación?

SOLUCIÓN
El mejor estimador de (Yc es Sc, el cual es calculado
usando los datos de la Tabla 8.2:

2
Fmi)

12.729
0.530 24
La cantidad M es estimada por ñ = 6.04. También D es
aproximada por

B2m2
=0.0146
4 4

Entonces = 33.40
De modo que se deben muestrear 34 conglomerados para
estimar p, con un límite de 0.04 para el error de
estimación.

8. MUESTREO
7
Asf como en el caso de todos los demás métodos de muestreo,
el muestreo por conglomerados puede ser combinado con
muestreo estratificado, con objeto de que la pobla-
8.7 caviBlNADOCON ESTRATIFICACÕN

ción pueda ser dividida en L estratos y se pueda seleccionar entonces una muestra por
conglomerados en cada estrato.
Recuérdese que la Ecuación (8.1) tiene la forma de un estimador de razón y puede ser
considerada como la razón de un estimador del promedio de totales de conglomerados, con
respecto al estimador del tamaño promedio de conglomerados. Entonces, pensando en
términos de un estimador de razón, tenemos dos modos para formar el estimador de una
media poblacional a través de los estratos: el estimador separado y el estimador combinado.
Un poco de investigación nos mostrará que si se emplea el estimador separado, se debe
conocer el número total de elementos en cada estrato para poder asignar las ponderaciones
adecuadas por estrato. Ya que estas cantidades son comúnmente desconocidas, únicamente
analizaremos la forma combinada del estimador de razón en el contexto de muestreo por
conglomerados.
En lugar de presentar fórmulas generales que parezcan formidables, vamos a
ilustrar la técnica con un ejemplo numérico.

EJEMPLO 8.44

Consideremos los datos de la Tabla 8.1 como la muestra del estrato 1, con N, = 415 y
— 25, como en el Ejemplo 8.2. Se toma una ciudad vecina más pequeña como el estrato
2. Para el estrato 2, n = 10 bloquessevanamuestreardeN, = 168. Estimeel ingreso
promedio por persona en las dos ciudades combinadas, y establezca un límite para el
error de estimación, dados los datos adicionales que se muestran en la tabla anexa.

Número de Ingr• tc*al


Conglomerado residente, conglomerado,

2 $ 18,000
2 5 52,000
3 7 68, 000
4 4 36, 000
5 3 45,000
6 8 96, 000
7 6 64, 000
8 10 115, 000
9 3 41, 000

SOLUCIÓN
H promedio de los totales de conglomerados en las respectivas muestras son 53,
160y yt2 = 54, 700. H promedio de los tamaños de los conglomeradosen las respectivas
muestras es 6 .04 y ñ2 = 4.9(). El estimador del promedio poblacional del total por
conglomerado es entonces
1
— + N2Ft2)
246 8 VUESTPEO POR cotE1-orv1ERADOS

mientras que el estimador del promedio del tamaño de conglomerados es

1
— (NIñ1 + N2ñ2)

Un estimador de la media poblacional por elemento es entonces

N2ñ12

y esta ecuación tiene la forma de un estimador de razón combinada. Análogamente a la


varianza usada en la Sección 6.6, la varianza de puede ser estimada por

pt2(n2 —
Fa) —
1) —

donde M es el número total de elementos en la población y puede ser estimado por N,


ñ, + N2ñ2 si no es conocido. La primera suma en la expresión de la varianza es sobre
todas las observaciones de la muestra en el estrato 1 , y la segunda suma es sobre
todas las observaciones del estrato 2.
Para los datas presentados en la tabla,

= 9385
415(6.04) + 168(4.90)
Para el estrato I

y para el estrato 2

Ya que= 3329.8 +
por lo que = 412,563.8
"F) = 1285
Entonces, el ingreso promedio por penona para las dos ciudades combinadas es

$9385 ± $1285

Vemos que el límite para el error de estimación es un poco más pequeño que el Ifmite
para el estrato l, como se encontró en el Ejemplo 8.2.

8.8 MUESTREO CONGLOMERADOS CON RNBLDADESPROPORCO\IAI-ES AL TAMAÑO 247


8.8
En la Sección 4.6 vimos que algunas veces es posible reducir la varianza de un estimador
mediante el muestreo de unidades con probabilidades proporcionales a una medida del
tamaño de la unidad. El muestreo por conglomerados suele proporcionar una situación ideal
para el uso de muestreo con ppt, ya que el número de elementos en un conglomerado, mi
representa una medida natural del tamaño del conglomerado. El muestreo con probabilidades
proporcionala a m, paga grandes dividendos en términos de la reducción del limite para el
error de estimación, cuando el total del conglomerado está altamente correlacionado con el
número de elementosen el conglomerado, lo cual ocurre frecuentemente.
En la notación de la sección 4.6, sean;. la probabilidad de que la i-ésima unidad de
muestreo aparezca en la muestra, la cual es dada por

(8.22)

Entonces, el estimador de un total poblacional toma la


forma [véase la Ecuación (4.20))

donde es el promedio de las observaciones en el i-ésimo


conglomerado. La varianza estimada de r tiene una
forma particularmente simple, como se verá después.
Ya que ahora hay M elementosen la población, el estimadorde la media poblacional,
pppt, es simplemente

I
*F-- E Fi
La varianza estimada de ,uppa es también fácil de calcular

Estimador de la media poblacional g

(8.23)
donde es la media del i-ésimo conglomerado.

Varianza estimada de
(8.24)

Límite para el error de estimación:


248

Estimador del total poblacional f :

n(n — 1)
(8.26)

Varianza estimada de T

(8.27)

Límite para el error de estimación:

Ahora ilustramos la técnica de muestreo con probabilidades proporcionales al


tamaño de los conglomerados y el uso de las fórmulas —ya presentadas— en los
siguientes ejemplos.

EJEMPLO 8.42

Un auditor desea muestrear los registros de ausencias por enfermedad de una gran
empresa, para estimar el número promedio de días de ausencia por enfermedad por
empleado en el cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes
números de empleados por división. Ya que el número de días de ausencia por
enfermedad dentro de cada división debe estar altamente correlacionado con el número
de empleados, el auditor decide muestrear n = 3 divisiones con probabilidad
proporcional al número de empleados. Muestre cómo seleccionar la muestra si los
respectivos númerosde empleadosson 1200, 450, 2100, 860, 2840, 1910, 290, 3200.

SOLUCIÓN
Primero listamos el número de empleados y el intervalo acumulado para cada diviSión,
como slgue•

División Número de empleadu Intervalo acumulado


1,200
450 1201-1650
2,100 1651-3750
860 3751—4610
2,840 4611—7450
1,910 7451-9360
390 9361-9750
3,200 9751-
12,950

12,950
8.8 MUESTREO POR CONGLOMERADOSCON PROBABILIDADESPROPORCONALESAL TAMAÑO 219

Ya que se van a muestrear n = 3 divisiones, debemos seleccionar tres números aleatorio


entre 00001 y 12,500. Podemos hacer esta selección empezandoen cualquier lugar de la
tabla de números aleatorios y seleccionando números de cinco 'tos, pero nosotros
elegimos empezar en la línea 1, columna 4 de la Tabla 2 del Apéndice. primeros tres
números entre 00001 y 12,950 que aparecen al dirigirnos hacia abajo en la columna son,
02011 , 07972, y 10281. El primero aparece en el intervalo acumulado de la división 3 ,
el segundo aparece en el intervalo de la división 6 y el tercero aparece en el intervalo de
la división 8. Entonces las divisiones 3, 6 y 8 constituyen la muestra. (Nótese que una
división puede ser seleccionada más de una vez En tal caso el dato resultante se trata
como dos valores muestrales separados pero iguales.)

EJEMPLO 8.4 3

Supóngase que el número total de días de ausencia por enfermedad registrados en las
tres divisiones muestreadas durante el cuatrimestre pasado son, respectivamente,

h = 4320, = 4160, = 5790

Estime el número promedio de días de ausencia por enfermedad requeridos por persona,
de toda la empresa, y establezca un límite para el error de estimación.

SOLUCIÓN
Primero debemos calcular las medias de los conglomerados muestreados, las cuales

4320 4160 5790


= 2.06, 2.18, 1.81
2100 1910 3200
(Nótese que los números de empleados para los conglomerados muestreados provienen
de los datos del Ejemplo 8.12)
Ahora por la Ecuación (8.23)
Yi 1
Pppt 3 + 2.18 + 1.81) = 2.02

También, por la Ecuación (8.24)

1
[(2.06 - 2.02)2 + (2.18 — 2.02) 2 + (1.81 — 2.02)21 3(2)
—0.0119
Entonces el límite para el error de estimación es
Nuestra estimación del número promedio de días de ausencia por enfermedad
utilizados por los empleados de la empresa es

2.02 ± 0.22

Ahora tenemos tres estimadores del total poblacional en muestreo por


conglomerados: el estimador de razón (8.4), el estimador insesgado (8.8) y el estimador
ppt (8.26). ¿Cómo sabemos cuál es el mejor? Ahora presentamos algunas pautas acerca
de cómo contestar esta pregunta: si no está correlacionadocon mi, entonces el
estimador insesgado es mejor que cualquiera de los otros dos. Si está
correlacionadocon mi, entonces el estimador de razón y el ppt son más precisos que el
estimador insesga• do. El estimador ppt es mejor que el estimador de razón si la
variación dentro del conglomerado no cambia con un sesgo en m, El estimadorde razón
es mejor que el estimador ppt si la variación dentro del conglomerado se incrementa
con el aumento en

En los Ejemplos 8.12 y 8.13, el número de días de ausencia por enfermedad


utilizados debe incrementar* con el número de empleados. Entonces, el estimador
insesgado es aquí una elección ineficaz. Pero la variación de días de ausencia por
enfermedad dentro de las divisiones puede permanecer relativamente constante a
través de las divisiones. En tal caso, el estimador ppt es la mejor elección.

8.9 RESUMEN

Este capftulo introduce un tercer diseño de encuestas por muestreo. En este diseño
cada unidad de muestreo es un grupo, o conglomerado de elementos. El muestreo por
conglomerados puede proporcionar la máxima información al mínimo costo cuando no
se tiene un marco que liste los elementos de la población o cuando el costo por obtener
observaciones se incrementa con la distancia entre los elementos.
H estimador de la media poblacional g es la media muestral j, dada por la Ecuación
(8.1). La varianza estimada de es dada por la Ecuación (8.2). Se presentan dos
estimadores del total poblacional con'sus respectivas varianzas estimadas. Se presenta
el estimador MP en la Ecuación (8.4); el cual se usa cuando se conoce el número de
elementos M en la población. H estimador [véase la Ecuación (8.8)] usa cuando no se
conoce M.
En la Sección 8.4 se estudió un tamaño de muestra apropiado para estimar o r con
un límite especificado para el error de estimación.
En muestreo por conglomerados el estimador de una proporción poblacional p es
la proporción muestralF, dada por la Ecuación (8.18). La varianza estimada de F se
242 8

presenta en la Ecuación (8.19). El problema de la selección de un tamaño de muestra


para estimar una proporción es similar al problema de la estimación de una media.
H muestreo por conglomerados se puede usar también dentro de los estratos en
una población estratificada, y se presentó un ejemplo en la Sección 8.7.
224

ANÁLISIS Da ESTUDIO DE caso


A estdstbasLAS CARACTERÍSTICAS eso datos de
mayor la Ofidna
principi
de este capítulo sugirió de manzanael de 40 de la
de CaH:s
o sobre paro o igual a ams en un muestreadasesfima
y proporci
edad aleatoriamente de r áreo
fueron de ón de
Personas con res&ntes
m, 65 años o más. a, prnl -6.60 con una
Número 0.32 40
residentes 15 2.72
,
21.a 3.00 manza
8 7.68 0.16 nas. La
14 11.28
9
6.00
n = 5
0 9
4 3.u rnarua
3
2 nas
4 obtuvi
7 eron
2
5
1 datos:
6
de
210
'a
210
rnejor esfimadón de la proporción
límite 0.24.
43.56m
oaro el error de estimación 0.1024
73984
Nnm 9.0000
0.0256
—1
60.0864
2

Así que
65 verdadera
ams la
estimación de la Proporción bien O. 16a
0.080
tiene 0.32.Tavms una edad igual o rnaycx a
anos.
65 co
n edad
igual o
rnayxy a
El

- (60.0864)

para
d área de 40
Ert)mes confianzaen
0.24 que del
dentes 16%de

EJERCICIOS

8.1 Una experimentadora que trabaja en un área urbana desea estimar el valor promedio de variable
altamente corrzlacionada con raza. Ella piensa que debe usar muestreo pm• conglomerados,
con manzanas como conglomerados y adultos dentm de manzanas elementos.
COCLav1ERADCS
Explique por qué se debería o no usar muestreo por conglomerados en cada una de las siguientes
situaciones.
(a) La mayoría de los adultos en ciertas manzanas son blancos y la mayoría son no blancos en otras
manzanas.
(b) La proporción de no blancos es la misma en cada bloque y no está cercana a 1 0 a O.
(c) La proporción de no blancos difiere de manzana a manzana en la manera que se podría esperar si los
conglomerados fueran hechos asignando aleatoriamente los adultos de la población a los
conglomerados.
Un fabricante de sierras de cinta quiere estimar el costo de reparación promedio mensual para las sierras
que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparación para cada
sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada
industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado.
El fabricante selecciona una muestra irrestricta aleatoria de n = 20 de N = 96 industrias a las que da
servicio. I_ns datos sobre costo total de reparaciones por industria y el númerode sierras por industria se
presentan en la tabla anexa. Estime el costo promedio de reparación por sierra para el mes pasado, Y'
establezca un límite para el error de estimación.

de (Eto total de
reparación
reparación para
para el r—
el pasado
pasado
(en dólara) (en dólares)
Industria Número de Número de
1 3 50 11 8 140
2 7 110 12 6 130
3 11 230 13 3 70
244 8

4 9 140 2 50
5 2 60 15 1 10
6 12 280 16 4 60
7 14 240 17 12 280
8 3 45 6 150
18
9 5 60 19 5 110
10 9 230 20 8 120

8.3 Para los datos en el Ejercicio 8.2, estime la cantidad total gastada por las 96 industrias en la reparación de sierras.
Establezca un límite para el error de estimación.
8.4 Después de verificar sus registros de ventas, el fabricante del Ejercicio 8.2 percata de que ha vendido un
total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada
en reparación de sierras por estas industrias, y establezca un límite para el error de estimación.
El mismo fabricante (Ejercicio 8.2) quiere estimar el costo de reparación promedio por sierra para el mes
siguiente. {Cuántos conglomerados debe seleccionar en la muestra si quiere que el límite para el error de
estimación sea menor que $2.001
8.6 Un politólogodesarrolla una prueba para medir el grado de conocimiento sobre acontecimientos actuales. Él
quiere estimar la calificaciónpromedio que obtendrán en su prueba todos los estudiantes de una escuela
preparatoria. La administración de la escuela no le permitirá seleccionar aleatoriamente a los estudiantes
fuera de clases, pero sí interrumpir un pequeño número de clases con el propósito de aplicarla prueba a
cada miembro de la clase. Entonces el experimentador selecciona al azar 25 clases de un total de 108 a
una hora determinada. Se aplica la prueba a cada miembro de las muestreadas, con los resultadosque se
presentan en la tabla anexa.
245
EJERCCOS
Estime la calificación promedio que sería obtenida para prueba por todos los estudiantesen la
escuela. Establezca un límite para el error de estimación.
Número de Número de — Calificaci6n
total Cla• tudiante toul

1 31 14 40 1980
15 38 1990
2 29 28 1420
16
3 25 1590 17 17 900
1510 18 22 1080
4 35
1490 41 2010
19
5 15 1610 20 32 1740
800 21 35 1750
6 31
19
1720 22 890
7 22 1310 23 29 1470
1427 24 18 910
8 27
1290 31
25 1740
9 25 860
1620
10 19 710
11 30 1140
12 18
13 21
8.7 El politólogo del Ejercicio 8.6 quiere estimar la calificación promedio en la prueba para una escuela
preparatoria similar. Él quiere que el límite para el error de estimación sea menor que 2 puntos.
(Cuántas clases debe tomar en la muestra?Supóngaseque la escuela tiene 100 clasesdurante cada
hora en este periodo escolar.
88 Una industria está considerando la revisión de su política de jubilación y quiere estimar la pro porción
de empleados que apoyan la nueva política. industria consiste de 87 plantas separadas
localizadasen todo Estados Unidas. Ya que resultados deben ser obtenidosrápidamente Con
poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un
conglomerado. Se selecciona una muestra irrestricta aleatoria de 15 plantas y se obtienen las
opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados presentan
en la tabla anexa. Estime la proporción de empleados en la industria que apoyan la nueva
política de jubilación y establezca un iímite para el error de estimación.
Número de empleada
Número de empleada
Númem de que apoyan la nueva Número de que apyan nueva
empleada Planta

1 51 42 9 73 54
2 62 53 10 61 45
49 40 11 58 51
3 73 45 12 52 29
4
101 63 65
246 8
5 13 49 37
6 48 31 14 55 42
65 38 15
7
49 30
8
8.9 La industria del Ejercicio 8.8 modificó su polltica de jubilación después de obtener los resultados de
la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la polftica
modificada. (Cuántas plantas deben ser muestreadas para tener un limite de 0.08 para el error de
estimación? Use los datos del Ejercicio 8.8 para aproximar los resultados de la nueva encuesta.
MUESTREO CO.anvERADOS
8.10 Se diseña una encuesta económica para estimar la cantidad promedio gastada en servicios para el
hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo
por conglomerados, con divisiones (barrios) formando los conglomerados. Se selecciona una
muestra aleatoria de bamos de la ciudad de un total de 60. Ins entrevistadoresobtienen el costo
de los servicios de cada hogar dentro de los bamos seleccionados; los costos totales se muestran
en la tabla anexa. Estime la cantidad promedio de gastos en servicios por hogar en la ciudad y
establezca un límite para el error de estimación.

Barrio Número de Cantidad Barrio Cantidad tO pgada


muetreado hogares gastada en zrviciu muatreado N de en Ervici«

1 55 $2210 11 73 $2930
2 60 2390 12 64 2470
3 63 2430 13 69 2830
4 58 2380 14 58 2370
5 71 2760 15 63 2390
6 78 3110 16 75 2870
7 69 2780 17 78 3210
8 58 2370 18 51 2430
9 52 1990 19 67 2730
71 2810 70 2880
10 20
8.11 En la encuesta del Ejercicio 8.10 se desconoceel número de hogares en la ciudad. Estime la cantidad
total Ostada en servicios por todos los hogares de la ciudad y establezca un límite para el error de
estimación.
8.12 La encuesta económica del Ejercicio 8. IO se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada m servicios por los hogares de la ciudad,
con un Umite de $5000 para el error de estimación. los datos del Ejercicio 8.10 para encontrar el
número aproximado de conglomerados que se necesitan para obtener este límite.

8 . 1 Un inspector quiere estimar el peso promedio de llenado para cajas de cereal empacadas en una
fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspectorseleccionaalea.
tonamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los
resultados (en onzas) que se muestran en la tabla acompañante. Estime el peso promediode
llenadopara las cajas empacadas por esta fábrica, y establezca un límite para el error
247
desestimación. Suponga que el número total de cajas empacadas por la fábrica es lo
suficientemente grande para que no se tome en cuenta la corrección por población finita.

1 16.1 15.9 16.1 16.2 15.9 15.8 16.1 16.2 16.0 15.9 15.8 160
2 15.9 16.2 15.8 16.0 16.3 16.1 15.8 15.9 16.0 16.1 16.1 15.9
3 16.2 16.0 15.7 16.3 15.8 16.0 15.9 16.0 16.1 15.0 15.9 16.1
4 15.9 16.1 16.2 16.1 16.1 16.3 15.9 16.1 15.9 15.9 16.0 16.0
5 16.0 15.8 16.3 15.7 16.1 15.9 16.0 16.1 15.8 16.0 16.1 15.9

E-EfuX)S
8.14 Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato , candidato
A, en una elección estatal. Ya que la selección y entrevista de una muestra irrestricta aleatona de
votantes registrados es muy costosa, utiliza muestreo por conglomerados, con distritos como
conglomerados. Se selecciona una muestra irrestricta aleatoria de 50 distritos de un total de 497
que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de
que haya hecho la cuenta final de los votos. Es por que los reporteros son enviados a lugares
de votación de cada distritoen la muestra, para obtener la información pertinente directamente de
los votantes. Tm resultados se muestran en la tabla acompañante. Estime la proporción de
votantes que apoyan al candidato A, y establezca un Ifmite para el error de estimación.

Número de Número de Número que Número de Número


Número que
que
por A
por A

1290 680 1893 1143 843 321


1170 631 1942 1187 1066 487
840 475 971 542 1171 596
1620 935 1143 973 1213 782
1381 472 2041 1541 1741 980
1492 820 2530 1679 983 693
1785 933 1567 982 1865 1033
2010 1171 1493 863 1888 987
974 542 1271 742 1947 872
832 457 1873 1010 2021 1093
1247 983 2142 1092 2001 1461
1896 1462 2380 1242 1493 1301
1943 873 1693 973 1783 1167
798 372 1661 652 1461 932
1020 621 1555 523 1237 481
1141 642 1492 831 1843 999
1820 975 1957 932
248 8
8.15 El periódico del Ejercicio 8.14 quiere realizar una encuesta similar durante la siguiente elección.
¿Qué tan grande necesitará la muestra para estimar la proporción de votantes que favorecen un
candidato similar, con un límite de 0.05 para el error de estimación?
8.16 Un guardabosques desea estimar la altura promedio de los árboles en una plantación. I_a
plantación se divide en parcelas de un cuartode acre. Se selecciona una muestra irrestricta
aleatoria de 20 parcelas de un total de 386 parcelasen la plantación. Se miden todos los árboles
en las parcelas muestreadas, con los resultados que se muestran en la tabla anexa. Estime la
altura promedio de los árboles en la plantación y establezca un límite para el error de estimación.
(Sugerencia: el total para el conglomerado i se puede encontrar tomando m veces el promedio
del conglomerado.)

Númeo de Altura promedio Altura promedio


árWe (en pie) de árbole (en pie)

42 6.2 60 6.3
51 52 6.7
49 6.7 61 5.9
55 4.9 49 6.1
oc»a-av1ERADCS
47 5.2 57 6.0
58 6.9 63 4.9
43 4.3 45 5.3
59 5.2 46 6.7
48 5.7 62 6.1
41 6.1 58 7.0
817 Para rmar la seguridad, una compañía de taxis quiere estimarla proporción de llantas inseguras en sus
175 taxis. (No considere las llantasde refacción.) La selección de una muestra alea. toria de
llantases impráctica, que se usa muestreo por conglomerados, con cada taxi como un
conglomerado. Una muestra irrestricta aleatoria de 25 taxis nos da los siguientes números de
llantas inseguras por taxi:

Estime la proporción de llantas inseguras que están usando en la compañía de taxis. y establezca
un límite para el error de estimación.
8.18 Los comercios solicitan frecuentemente a los contadores la realización de Inventarios. Ya que un
inventario completo es costoso, a través del muestreo se pueden realizar inventarios cada cuatro
meses. Supóngase que una empresa abastecedora de artículos de plomería desea un inventario
para muchos artículos pequeños en existencia. La obtención de una muestra aleatoria de articulos
muy difícil. Sin embargo, los artículos encuentran dispuestosen anaqueles, y la selección de una
muestra aleatoria de anaqueles es relativamente fácil, considerando a cada anaquel como un
conglomerado de artículos. Una muestra de 10 anaquelesde un total de 48 dio los resultados que
se muestran en la tabla siguiente. Estime la
cantidad total de dólares de los en los
anaqueles y establezca un límite para el error
de estimación.
249
42 83
2 27 62
3 38 45
4 63 112
5 72 96
6 12 58
7 24 75
8 58
9 32 67
10 41 80

8.19 Una empresa especializada en la fabricación y venta de ropa de descanso tiene 80 almacenes en
Florida y 140 en California. Con cada estado como un estrato, la empresa desea estimar el
tiempo promedio de ausencia por enfermedad por empleado durante el año pasado. Cada
almacén puede ser considerado como un conglomerado de empleados, y se puede determinar de
los registros el tiempo total de ausencia por enfermedad para cada almacén. Muestras inutrictas
aleatorias de 8 almacenes de Florida y IO almacenes de Califomia nos dan los resultados que
muestran en la tabla acompañante (m, denota el número de empleados y denota el total de días
de ausencia por enfermedad para el i-aimo almacén). Estime la cantidad promedio de ausencia
por enfermedad por empleado, Y' calcule un estimador de la varianza de su estimador.
EJERCICIOS

51
52 32
30 11
36 10
71 12 33
15 48 39
10 39 24 61
21 30 37
21
41
250 8
8.20 Las estadísticas de manzana reportan el número de unidade habitacionale, el número de residentes y
el número total de cuartos dentro de las unidades habitacionala para una muestra aleatona de
ocho manzanas seleccionadas de una gran ciudad. (Suponga que el número de manzanas en la
ciudad es muy grande.) datos se preentan m la tabla acompañante.

(a) Estime el número promedio de residentes por unidad habitacional y establezca un límite para
el error de estimación.
(b) Estime el número promedio de cuartos por residente y establezca un límite para el error de
estimación.
8.21 Cierto tipo de tableros de circuitos fabricados para su instalación en computadoras tiene 12
microcircuitospor tablero. Durante la inspección de control de calidad de IO de tableros, el
número de microcircuitos defectuosos por tablero fue como sigue:

Estime la proporción de microcircuitos defectuosos en la población de la cual se extrajo la


muestra y establezca un límite para el error de estimación.
8.22 Considere la situación del Ejercicio 8.21. Suponga que la muestra utilizada proviene de un embarque
de 50 de tales tableros. Estime el número total de microcircuitos defectuosos en este embarque y
establezca un Emite para el error de estimación.
823 Una empresa grande tiene sus inventarios de equipo listados separadamente por departamento.
De los 15 departamentosen la empresa, se van a muestrear aleatoriamente5, por un auditor que
ccnanvFV.DOS

va a verificar que todo el equipo esté identificado y localizado apropiadamente. La proporción


de artfcul« del equipo que no estén identificadospropiamente es de interés al auditor. Los datos
se dan en la tabla siguiente. Estime la proporción de artículos del equipo en la empresa que no
están identificados propiamente y establezca un límite para el error de estimación.

Número de

15
2 27 3
251
3 9
4 31 1
5 16 2

824 Suponga que para la empresa del Ejercicio 8.23, los 15 departamentos tienen el número de
artlculos del equipo que se da en la tabla acompañante. Seleccione una muestra de 3
departamentos, con probabilidades proporcionales al número de artículos del equipo.
Número de N de
arúul«

1 12 9 31
2 9 10 26
27 11 22
3
4 40 12 19
5 35 13
14 33
6 15
15 6
7 18
8 10
8 25 Suponga que los tres departamentos seleccionados en el Ejercicio 8.24 tienen cada uno cbs artfculos
del equipo identificadosinapropiadamente. Estime el número total de artlculosimpro• piarnente
identificados en la empresa y establezca un límite para el error de estimación.
8.26 Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada uno
veinticuatro paquetes de 5 libras. Hay cien cajas en el embarque. Un inspector del gobierno
determina el —o total (en libras) de mariscos dañados para cada una de cinco cajas muestreadas.
datos son como sigue:

9, 6, 3, 10, 2

Estime el total de mariscos en el embarque y establezca un limite para el error de


estimación.
8.27 los datos del Eje1Cicio 8.26, estime la cantidad promedio de mariscos dañados por
paquete de 5 libras y establezca un límite para el error de estimación.
8.28 Un politólogo de*a muestrear a los estudiantes residentes de una universidad. Las unidades
pueden ser convenientemente usadas como conglomerados de estudiantes, o c0-
EXPERIENCIAS CON DATOS REALES

lecciones de unidades habitacionales (dormitorios para estudiantes de primer año, C"" de fra•
temidad, y así sucesivamente) pueden ser usadas como estratos. Analice los méritos de muetreo
por conglomeradoscontra muestreo aleatorio estratificado , si el objetivo es estimar la
proporción de estudiantes que fhvorecen a cierto candidato en los siguientes tipos de elecciones.
(a) Una elección de dirigentes estudiantiles. (b)
Una elección del presidente del país.
8.29 ¿En qué condiciones el muestreo por conglomerados produce un límite más pequeño para el
error de estimación de una media que el muestreo irrestricto aleatorio?
252 8
8.30 Sin considerar los costos de muestreo, ¿qué criterio usaría usted para seleccionar conglomerados
apropiados en un problema de muestreo por conglomerados?

8.1 En la
Tabla S del Apéndicese muestra el ingreso por persona en Unidos (durante 1977). Se presentan
también valores para la población de 1980. Tratando a cada estado como un conglomerado de
personas, seleccione una muestra aleatoria de estados y estime el ingreso personal total para
Estados Unidos. Establezca un límite para el error de estimación.
8.2 Trate de realizar un estudio económico, tal vez considerando los en cierta área fija (tal unas
cuantas manzanas de la ciudad) como conglomerados de personas. Seleccione una muestra de n
hogares y, después de obtener el permiso para la entrevista, registre la cantidad total semanal
que se gasta en alimentos por todos los individuos en el hogar, y el número de individuos.
Entonces estime la cantidad promedio gastada en alimentos por persona entre los hogares de esta
población. Aun si todo el dinero es realmente gastado por una persona (digamosla madre), la
cantidad total es la misma que se hubiera registrado si cada individuo hubiera comprado su
propia alimentación. Entonces, dispone del total para el conglomerado, aun cuando puede no
contarse con las observaciones por elemento.
MUESTREO
COBIGLOMERADOS
DOS ETAPAS
ESTUDIO DE CASO

¿CUÁNTO GASTAN LOS ENTRETNMENTO?


la cantidades de dinero para entretenimiento importantes para negodos en una ciudad
que cuenta con una universidad. ¿Córno podemos stimar la cantidad promedio por
estudiante gastada mensualmente en entretenimiento? Es difícil localizar a estudiantes
que pueden selecdonados aleatoriamente de un directorio, pero relafivamente fácil
localizar sabr— de dase seleccionados aleatoriamente, cuales contendrán estudiantes en
una primera hora de clase, como a d 0 00 A. M de Unes. que hs
dases pueden posble obtener suficiente informadón
muestreando un subconjunto de diantes en cada dase
muestreada El resultado una mue<ra por conglomerados en cbs etapas.
Cierta universidad de tamano medio tiene 12,000 estLdiantes divididos en K)
bs una a 4 0 A. M. La mayoría de estuciantes debe en clase a sa hora. CCXI d fin de
estirnar la cantidad promedio gastada mensualmente en entretenimiento, selecciona
aleatoriamente 4 y entrevista promedio de 10%de estudiantes en cada clase. d análisis
ufilizan méto&s de muestreo por conglomerados en cbs etapas.

234
M-BTFK)POR CO,anv1ERADOS ETAPAS
232 9

9.4 INTRODUCCIÓN

El muestreo por conglomerados en dos etapas es una extensión del concepto del
muestreo por conglomerados. Usted recordará, de la explicación del muestreo por
conglomerados en el Capltulo 8, que un conglomerado es usualmente una
colección conveniente o natural de elementos, tal como manzanas de casas o cajas
de bombillas de magnesio. Un conglomerado frecuentemente contiene
demasiados elementos para obtener una medición de cada uno de ellos, o éstos
son tan semejantes que la medición de sólo unos cuantos proporciona
información sobre un conglomerado completo. Cuando cualquiera de las dos
situaciones ocurre, el experimentador puede seleccionar una muestra aleatoria de
conglomeradosy después tomar una muestra aleatoria de los elementos dentro de
cada conglomerado. H resultado es una muestra por conglomerados en dos
etapas.
DEFINICIÓN 9.1 Una muestra por conglomerados en dos etapas se obtiene
seleccionando primero una muestra aleatoria de conglomerados y
posteriormen• te una muestra aleatoria de los elementos de cada
conglomerado muestreado.

Por ejemplo puede realizarse una encuesta nacional sobre las opiniones de
los estudiantes universitarios seleccionandouna muestra irrestricta aleatoria de
universidades de entre todas aquellas en el país y posteriormente seleccionando
una muestra irrestricta aleatoria de los estudiantes de cada universidad
seleccionada. Por lo tanto una universidad corresponde a un conglomerado de
estudiantes. Asimismo la cantidad total de las cuentas por cobrar para una
empresa con una cadena de tiendas. puede ser estimada tomando primero una
muestra irrestricta aleatoria de tiendas y
233
posteriormente seleccionando una muestra aleatoria de las cuentas de cada tienda
seleccionada. Por lo tanto tienda en la cadena pmporóna un de cualtas, El muestreo por
conglomerados en dos etapas se usa comúnmente en las encues tas grandes que involucran el
muestreo de unidades habitacionales. Mencionamos en el Capltulo 4 que la encuesta de Gallup
muestrea aproximadamente trescientos distritos electorales en todo Estados Unidos. En la segunda
etapa esta encuesta selecciona aleatoriamente (o sistemáticamente) aproximadamente cinco casas
por distrito, para tener un tamaño de muestra total de alrededor de mil quinientas casas. En otras
encuestas las estadlsticas de manzana de la Oficina del Censo de Estados Unidos forman
conglomerados de casas, como se explicó en el Capltulo 8, los cuales posteriormente son
submuestrados antes de realizar las entrevistas.
El muestreo con propósitos de control de calidad frecuentemente involucra dos (o más)
etapas de muestreo. Por ejemplo, cuando un inspector muestrea productos empaquetados, tal como
alimentos congelados, el inspector comúnmente muestrea cajas y después muestrea paquetes
dentro de cajas. Cuando uno está muestreando artículos producidos en diversas etapas de proceso,
uno podría muestrear etapas de proceso y posteriormente muestrear artículos producidos en cada
etapa muestreada. Cuando el muestreo requiere una investigación detallada de los componentes de
los productos, tal como medir el grosor de las placas en los acumuladores de automóvil, un
6.3

procedimiento completamente natural es muestrear algunos de los productos (acumuladores) y


después muestrear los componentes (placas) de los productos muestreados.
Existe una cierta similitud entre el muestreo por conglomerados y el muestreo aleatorio
estratificado. Piense en una población que es dividida en grupos de elementos sin traslapes. Si estos
grupos se consideran como estratos, entonces se selecciona una muestra irrestricta aleatoria de cada
grupo. Si estos grupos se consideran como conglomerados, entonces selecciona una muestra
irrestricta aleatoria de grupos, y los grupos muestreados posteriormente son submuestreados. El
muestreo aleatorio estratificado proporciona estimadores con una varianza pequeña cuando hay
poca variación entre los elementos dentro de cada grupo. El muestreo por conglomerados funciona
bien cuando los elementos dentro de cada grupo son altamente variables y los grupos son bastante
similares entre ellos.
Las ventajas del muestreo por conglomerados en dos etapas sobre otros diseños son las
mismas que las listadas en el Capltulo 8 para el muestreo por conglomerados. Primero, un marco
que liste todos los elementos de la población puede ser imposibleo costoso de obtener, mientras
que obtener una lista de todos los conglomerados puede ser fácil. Por ejemplo, reunir una lista de
todos los estudiantes universitarios en el país podría ser costoso y se ocuparía mucho tiempo, pero
una lista de universidades podría ser adquirida rápidamente. Segundo, el costo por Obtener los
datos puede incrementarse por los costos de viaje si los elementos muestreadosestán muy dispersos
sobre una gran área geográfica. Por lo tanto muestrear conglomerados de elementos que se
encuentran juntos físicamente suele ser económico.

9.2
El primer problema en la selección de una muestra por conglomerados en dos etapas es la elección
de conglomerados apropiados. Dos condiciones son deseables: (l)proxi•
COCI-avERADOS cr:s

midad geográfica de los elementos dentro de un conglomerado y (2) tamaños de


conglomerado convenientes para su manejo.
La selección de los conglomerados apropiados también depende de si
queremos muestrear pocos conglomerados y muchos elementos de cada uno, o
muchos conglomerados y pocos elementos de cada conglomerado.
Fundamentalmentela selección se basa en los costos. Los conglomerados grandes
tienden a contener elementos heterogéneos, y, en consecuencia, se requiere una
muestra grande de cada uno para lograr estimaciones precisas de los parámetros
de la población. En contraste, los conglomerados pequeños frecuentemente
contienen elementos relativamente homogéneos, en cuyo caso puede obtenerse
información precisa sobre las características de un conglomerado seleccionando
una muestra pequeña de cada uno.
Considérese el problema de muestrear los ingresos personales en una gran
ciudad. La ciudad puede ser dividida en grandes conglomerados, por ejemplo
barrios, los cuales contienen una distribución heterogénea de los ingresos. Por lo
tanto un número pequeño de barrios puede producir una sección representativa
de los ingresos dentro de la ciudad, pero se requerirá una muestra bastante
grande de elementos de cada conjunto para una estimación precisa de su media
(debido a la heterogeneidad de los ingresos dentro del conglomerado). En
contraste, la ciudad puede ser dividida en pequeños conglomerados relativamente
homogéneos, digamos manzanas de una ciudad. Entonces una muestra pequeña
de personas de cada manzana dará información adecuada sobre la media de cada
234 9

conglomerado, pero para obtener información precisa sobre el ingreso medio de


toda la ciudad se requierirán muchas manzanas.
En otro ejemplo, considere la encuesta sobre la opinión de los estudiantes
universitarios. Si los estudiantes dentro de una universidad tienen opiniones
similares sobre la pregunta de interés, pero difieren ampliamente de una
universidad a otra, entonces la muestra deberá contener pocos representantes de
muchas universidades. Si las opiniones varían grandemente dentro de cada
universidad, entonces la encuesta deberá incluir muchos representantes de cada
una de las pocas instituciones.
Para seleccionar la muestra, primero obtenemos un marco que liste todos
los conglomeradosen la población. Posteriormente seleccionamos una muestra
aleatoria de conglomerados, aplicandolos procedimientos de muestreo aleatorio
presentados en el Capftulo 4. Como tercer paso, obtenemos marcos que listen
todas las unidades de cada uno de los conglomerados seleccionados. Finalmente,
seleccionamos una muestra aleatoria de los elementos de cada uno de estos
marcos.

9.3 ESTIMACION INSESGADA DE UNA MEDIA Y


UN TOTAL POBLACIONALES

Como en los capftulos previos, estamos interesados en estimar una media


poblacional o un total poblacional y en establecer un límite para el error de
estimación. utiliza la siguiente notación:
N = el número de conglomerados en la población n = el número de
conglomerados seleccionadosen una muestra irrestricta aleato-
9.3 ESTiMACÓN MEDIA
INSESGADA CE UNA Y TOTA POBLACIONALES 235

Mi = el número de elementos en el conglomerado i


m, = el número de elementos seleccionadosen una muestra aleatoria del
conglomerado i
M, = el número de elementos en la población

— el tamaño de conglomerado promedio para la


población y, = laj-ésima observación en la 'muestra del i-

ésimo conglomerado y, = la media muestral para el i-


ésimo conglomerado
En la construcción de un estimador de la media poblacional g , podemos
proceder en forma paralela a como se hizo en el Capítulo 8 para el muestreo por
conglomerados en una sola etapa. La Ecuación (8.8) da

como un estimador insesgado de T. Por lo tanto si dividimos entre M,

Mn

se llega a un estimador insesgadode p. Pero ahora no podemos evaluar este


estimador puesto que no conocemos los totales de conglomerados, Yi. Sin
embargo, es posible estimar con Mi, y, sustituyendoMÑi en lugar de y, , tenemos
un estimador insesgado de p, el cual podemos calcular con base en nuestros datos
de la muestra.

Estimador insesgado de la media poblacional g :

(9.1)

Varianza
estimada
de g :

(9.2)
236 9
donde(9.3)

mi

(9.4) mi — 1
CCNYOv1ERADOS DCS EVPBSS

Límite para el error de estimación:

El estimador que se muestraen la Ecuación (9.1) depende de


M, el número de elementos en la población. Un método para
estimar cuando se desconoce M se presenta en la siguiente
sección.
Nótese que s i es la varianza muestral para la muestra
seleccionada del conglomerado i.

EJEMPLO 9.4

Un fabricante de prendas de vestir tiene 90 plantas localizadasen


todo Estados Unidos y quiere estimar el número promedio de
horas que las máquinas de coser estuvieron sin funcionar por
reparación en los meses pasados. Debido a que las plantas están
ampliamente dispersas, el fabricante decide utilizar un muestreo
por conglomerados, especificandocada planta como un
conglomerado de máquinas. Cada planta contiene muchas
máquinas, y el verificar los registros de reparación de cada
máquina implicarla consumir tiempo. Por lo tanto el fabricante usa
un muestreo en dos etapas. Se dispone de tiempo y dinero
suficientes para muestrearn = IO plantas y aproximadamente un
20% de las máquinas de cada planta.

TABLA 9.1
Ternpo Sn funcionar para máquinas de coser

50 10 5, 7, 9, o, 11, 2, 8, 4, 3, 5 5.40
11.38
2 65 13 4, 3, 7, 2, 11, O, i, 9, 4, 3, 2, 1, 5 4.00
10.67
3 45 9 5, 6, 4, 11, 12, o, 1, 8, 4 5.67 16.75
4 48 10 6, 4, o, 1, o, 9, 8, 4, 6, 10 4.80
13.29
9.3 ESTiMACÓN MEDIA
5 52 10 11, 4, 3, 1, o, 2, 8, 6, 5, 3 4.30
11.12
6 58 12 12, 11, 3, 4, 2, q q 1, 4, 3, 3.83
14.88
7 42 85.00 5.14
8 66 133.85 4.31
9 40 84.88 6.13
10 56 11 6, 7, 5, 10, 11, 2, 1, 4, o, 5, 4 5.00
11.80

Usando los datos de la Tabla 9.1, estime el tiempo sin


funcionar promedio por máquina y establezca un límite para el
error de estimación. El fabricante sabe que tiene un total de 4500
máquinas en todas las plantas

SOLUCIÓN
El mejor estimador de g es p, que se muestra en la Ecuación (9. l),
el cual produce

E Miñ
Mn
INSESGADA UNA Y CNALES
237

90

Para estimar la varianza de E, debemos calcular

= 768.38
238 9

11.80
11
= 21,990.96
Luego de la Ecuación (9.2)

(21,990.96)
= 0.037094
La estimación de g con un Ifmite para el error de estimación esta dada por

0 bien O bien 4.80±0.38


Por lo tanto el tiempo promedio sin funcionar se estima que es 4.80 horas. El error
de estimación será menor que 0.38 horas con una probabilidad de
aproximadamente

Un estimador insesgado de un total poblacional puede encontrarse tomando


un estimador insesgado de la media poblacional y multiplicándolo por el número
de elementos la población, de una manera similar a la usada en muestreo
irrestricto aleatorio. Así Mg es un estimador insesgadode para el muestreo por
conglomerados en

Estimación del total poblacional

E Miñ

(9.6)
239 9 MUESTREO
POR CONGLOMEPADOS EN DOSEYÃPAS

Varianza estimada de

donde Sb está dada por•la Ecuación (9.3) y Si está dada por la Ecuación (9.4). Límite para
el error de estimación:
(9.8)
Nótese we no necesitamos conocer M yara calcular T o la varianza estimada de
puesto que lasM se cancelan en las fórmulas para r y V(â) [véanse las Ecuaciones (9.6) y
(9.7)].

EJEMPLO 9.2

Estime la cantidad total de tiempo sin funcionar durante el mes pasado para todas las
máquinas propiedad del fabricante del Ejemplo 9.1. Establezca un límite para el error de
estimación.

SOLUCIÓN
La mejor estimación de T es
90
- (2400.59) = 21,605.31
La varianza estimada de se encuentra usando el valor de V(E) calculado en el Ejemplo 9.1
y sustituyendo como sigue:

06) = M 2 t(Ê) =
La estimación de r, con un límite para el error de estimación, es
o sea 21,605.31 o sea 21 ,
605.31 1733.4
Por lo tanto la estimación del total de tiempo sin funcionar es horas.
Tendremos bastante confianza en que el error de estimación sea menor que 1733.4
horas.
9 MUESTREO
9.4 ESTIMACIÓN DE RAZÓN DE UNA MEDIA
POBLACIONAL
El estimador g, dado por la Ecuación (9.1), depende del número total de elementos en la
población, M. CuandoM es desconocido, como es frecuentementeel caso, en-
9.4 RAZÓN Uu POBLACIONAL 239
tonces debe ser estimadocon base en los datos de la muestra. Obtenemos un estimador de
M multiplicandoel tamaño de conglomerado promedio, Mi/ n, por el número de
conglomeradosen la población, N. Si reemplazamos M por su estimador. obtenemos un
estimador de razón, denotado por debido a que tanto el numerador como el denominador
son variables aleatorias.

Varianza

Límite para el error de estimación:

EJEMPLO 9.3

Usando los datos de la Tabla 9.1, estime el tiempo promedio por máquina sin funcionar, y
establezca un límite para el error de estimación. Suponga que el-fabricante no sabe
cuántas máquinas hay en todas las plantas.
ESTIMACIÓN MEDIA
SOLUCIÓN
Ya que se desconoceM, debemos usar gr, dado por la Ecuación (9.9), para estimar.p.
Nuestros cálculos producen

2400 59
• = 4.60
522
CChKN-CTv,ERADOSff-Q DOS EIPPPS

Para encontrar la varianza estimada de gr, debemos calcular

,978)]
= 1236.57
Nótese que como en la Ecuación 9.1,

Podemos estimar M usando el tamaño de conglomerado promedio para la muestra:

52.2
Sustituyendo en la Ecuación (9.10)se obtiene la varianza estimada de Pr:

t(fir)

(21,990.96)

= 0.049306
9 MUESTREO
La estimación del tiempo promedio sin funcionar, con un Ifmite para el error de
estimaclón, es

r , 0 bien 0 bien 4.60±0.44


Por lo tanto la media estimada del tiempo sin funcionar por máquina es 4.60 horas con
un límite para el error de estimación de 0.44 horas.

9.5 ESTIMACIÓN DE IN PROPORCIÓN POBLACIONAL

Considérese el problema de estimar una proporción poblacional p tal como la


proporción de estudiantes universitarios en favor de una ley o la proporción de
máquinas que no han tenido tiempo sin funcionar durante el mes pasado. Una
estimacióndep puede obtenerse usando D, dada en la Ecuación (9.1), o bien gr, dada en
la Ecuación (9.9), y haciendo y, = I o bien O dependiendo desi cae o no elj-ésimo
elemento del i•ésimo conglomerado en la categoría de interés.
Debido a que M usualmente es desconocida, presentamoslas fórmulas para
estimar p con un estimador de razón análogo a Er, dado en la Ecuación (9.9). Sea Pi la
9.5 ESTIMACIÓN CE ITA POBLACIONAL 244

proporcidn de elementos muestreados del conglomerado i que caen e» la categoría de


interés.

Estimador de una proporción poblacional p:

E Mi

(9.14)

Varianza
estimada
de p:

(9.15)

donde(9.16)

Límite para el error de estimación:

2sTF) (9.17)

EJEMPLO 9.4

El fabricante del Ejemplo 9. I quiere estimar la proporción de máquinas que han sido
retiradas del proceso debido a reparaciones mayores (aquellas reparaciones que
requieren piezas que se surten fuera de la fábrica). Las proporciones muestrales de las
máquinas que requieren reparaciones presentan en la Tabla 9.2. Los datos

TABLA 9.2 Proporción de de coser que requieren reparaciones rnayors


9 MUESTREO

Proporción de máquinas

requieren reparacione mayora,


p,

50 10 0.40
2 65 13 0.38
3 45 9 0.22
4 48 10 0.30
5 52 10 0.50
6 58 12 0.25
7 42 8 0.38
8 66 13 0.31
9 40 8 0.25
10 56 11 0.36

son para las máquinas muestreadas en el Ejemp109.1. Estimep, la proporción de máquinas que
involucran reparaciones mayores para todas las plantas, y establezca un límite para el error de
estimación.

SOLUCIÓN
La mejor estimación de p :está dada por

176.08
= 0.34
522
Para estimar la varianza de p, calculamos

= &13381.4688 —
= 18.4482
= 509.4881
Entonces la varianza estimada de p cuando M es estimada por el promedio muestral,
52.2, es

(509.4881)
= o .00081
La mejor estimación de la proporción de máquinas que han requerido reparaciones mayores es

F o bien 0.34± obien 0.34± 0.056


Estimamos que la proporción de máquinas involucradas en reparaciones mayores es
0.34, con un límite para el error de estimación de 0.056.

9.6 SELECCIÓN 243

El problema de la
selección de tamaños de muestra mucho más difícil en el muestreo por conglomerados en dos etapas
que en los estudiados antes, en los cuales solamente se involucró una etapa de muestreo. Tenemos
que seleccionar los valores para n y todas las m,; además, la mejor selección de estos valores depende
de dos fuentes de variación, la que existe entre los conglomerados y la que se encuentra entre los
elementos dentro de conglomerados. El princípo general es asignar los recursosd e la muestra a la
componente con la variación más grande. Esto es, si las mediciones en los conglomerados son
homogéneas, pero las medias de éstos varían grandemente de un conglomerado a otro, muestreamos
muchos conglomerados con pocas mediciones de cada uno. Sin embargo, si las medicionesen
conglomeradosvarían grandemente, pero las medias de éstos son homogéneas, muestreamos pocos
conglomerados y muchas mediciones de cada uno. Estableceremos este enunciado en forma más
precisa para una situación de muestreo simplificada.
Suponga que todos los conglomerados contienen M elementos, y que serán submuestreados m
elementos de cada uno de los n conglomerados seleccionados. Esto es,

En estas condiciones la Ecuación (9.1) da

(9.18)
que es equivalente al promedio general de todas las mediciones de la muestra. También en estas
condiciones y la suposición de que todas las cpf pueden omitirse, la varianza teórica de es de la forma
9 MUESTREO

V(fi) (9.19)

donde = varianza estre las medias verdaderas de conglomerados


= varianza entre los elementos dentro de los conglomerados
Como en el caso de muestreo aleatorio estratificado, ahora queremos encontrar los tamaños de
muestra, m y n, que minimicen V(g) para un costo fijo, oque minimicen el costo total de muestreo
para una V(g) fija. Para llevar a cabo esta minimización, debemos introducir una función de costo.
Supóngase que el costo asociado con el muestreo de cada conglomeradoes Cl y que el costo asociado
con el muestreo de cada elemento dentro de un conglomerado es Entonces el costo total es

C = nc, + nmc2 (9.20)


El valor de m que minimiza V(g) para una C fija, o que minimiza C para una V(ô) fija, está dado
por

(9.21)
9

Después de que se ha determinado m, n se encuentra mediante (9.19) si V(g) es fija o con


(9.20) si C es fija.
Nótese que m aumenta cuando se incrementa, y m disminuye cuando aumenta.
Por lo tanto cada vez más elementos de los conglomeradosserán muestreados a medida
que/ sea mayor en comparación con
Aún permanece un problema. ¿Cómo pueden ser estimados con base en
los datos de la muestra?La Ecuación(9.4) da una expresión para una estimaciónde la
varianza dentro de conglomerados para un solo conglomerado. Cuando consideramos los
n conglomerados muestreados,

(9.22)

será un estimador insesgado de la varianza dentro de conglomerados 2


Puesto que es la varianza de las medias de conglomerados, parecería natural
estimar esta varianza por

(9.23)
la varianza muestral calculada según las estimaciones observadas de las medias de
conglomerados, ñ. Puesto que cada ji es solo una estimación de la media verdadera de un
conglomerado, la Ecuación (9.23) mide una combinación de la variación de un
conglomerado a otro y la variación de un elementoa otro. De hecho, SI es un estimador
insesgado de

Puesto que sw estima a un estimador está dado por

(9.24)

Por lo tanto si tenemos los valores de s, y sw, quizás de un estudio piloto, entonces tanto
como Tb pueden ser estimados. Estas estimaciones pueden ser usadas en (9.21) para
encontrar el valor óptimo de m, y posteriormente en (9.19) para encontrar el valor óptimo
de n para una V(g) fija.

EJEMPLO 9.5

Un plan para asegurar la calidad en una fábrica de acumuladores para automóvilrequiere


muestrear n acumuladoresy luego muestrear m placas con polaridad positiva de cada
acumulador seleccionado. La medición de interés es el grosor de las placas positivas, en
9 MUESTREO

milésimas de pulgada. El investigador desea seleccionarn y m de manera que la varianza


de la estimación del grosor medio por placa sea 0.5. El costo por seleccionar un
acumulador y dividirlo es seis veces el costo de medir una placa.
Estudios preliminares con acumuladores similares producidos en esta fábrica dieron.
para n = 40 ym = 5, sw = 3.0 y = 3.4. Use estos datos para determinar una m y una n que
satisfagan la condición de varianza dada.
9.7 WESTREO CON PRCBABLIDADES PROPOQCONALES PL TAMAÑO 245

SOLUCIÓN
Antes de que podamos usarla Ecuación (9.21), debemos estimar Ahora está estimada
por

Bw- = 3.0
y b es estimada por [véase la Ecuación (9.24)]
w
3.0 = 3.4 — = 2.8
5
Puesto que c, es —is veces '2, entonces = 6. (Nótese que sólo la razón de costos es
necesaria en la selección de m.)
De la Ecuación (9.21) tenemos

(6)
= 2.53 0 sea 3
Por lo tanto 3 placas positivas deben ser muestreadas de cada acumulador seleccionado.
Para encontrar n sustituimos las estimaciones y y m, en la función de varianza, Ecuación
(9.19), la cual es igual a 0.5. Esta sustitución da

2.8 3.0
0.5 + n

n (2.8 + 1.0) = 7.6 osea 8


Q5
Por lo tanto el plan para asegurar la calidad requerirá del muestreo den = 8 acumuladores y m
= 3 placas positivas de cada uno. La estimación de /.L tendrá entonces una varianza de
aproximadamente 0.5.

MUESTREO CONGL
OMERADOS
DOS ETAPAS CON PROBABILIDADES PROPORCIONALES A-
TAMAÑO
Dado que el número de elementos en un conglomerado puede variar grandemente de un
conglomerado a otro, una técnica frecuentemente ventajosa es muestrear conglomerados con
probabilidades proporcionales a sus tamaños, como se explicó en la Sección 8.8.
Generalmente, el muestreo ppt solamente se utiliza en la primera etapa de un procedimiento
de muestreo en dos etapas, debido a que los elementos dentro de conglomerados tienden a
ser algo similaresen tamaño. Por lo tanto presentaremoslos estimadoresde g, y T para el
muestreopor conglomeradasen dos etapas, en el cual la primera etapa de muestreo se lleva a
cabo con probabilidadesproporcionalesal tamaño.
La Ecuación (8.23) proporciona un estimador de , en el caso del muestreo por
conglomeradoscon una sola etapa, de la forma
CONGLOvlERADOS DOS ETAPAS

(9.25)

En el Capftulo 8, ji fue calculado con base en todos los elementos del conglomerado i y
fue exactamente la media del conglomerado. En este capítulo es calculada de una muestra
de elementos del conglomerado i y es solamente una estimación de la media del
conglomerado. No obstante, la Ecuación (9.25) forma un estimador insesgado de B, con
una varianza estimada dada en la Ecuación (8.24).
Para formar un estimador insesgado de T, sólo se tiene que multiplicar la Ecuación
(9.25) por M, el número de elementos en la población.
Estimador de la media poblacional

(9.26)

Varianza estimada de g
(9.27)

Límite para el error de estimación:

Varianza estimada de T

Límite
9 MUESTREO

Ilustraremos este procedimiento de ppt con los ejemplos siguientes:

EJEMPLO 9.6

Un investigador desea muestrear tres hospitales de entre los seis que existen en una
ciudad, con el propósito de estimar la proporciónde pacientes que han estado (oestarán)
en el hospital por más de dos días consecutivos. Puesto que los hospitales varlan en
tamaño, éstos serán muestreados con probabilidades proporcionales al número
9.7 CON PRCBABLIDADSPROPORCONALESALTNMÑO 247

sus pacientes. En los tres hospitales muestreados se examinara un 10% de los registros de
los pacientes actuales para determinar cuántos pacientes permanecerán por más de dos
días en el hospital. Con la información sobre los tamaños de los hospitales dada en la
tabla adjunta, seleccione una muestra de tres hospitales con probabilidades proporcionales
al tamaño.
Número de Intervalo
Hospital acumulado

1-328
1 328 329-437
2 438—869
109 870—
3 432 1089
4 220 1090-
5 280
1369
190
6 1370-
1559

SOLUCIÓN
Puesto que serán seleccionados tres hospitales, tres números aleatorios entre el 0001 y el
1559 deben ser seleccionados de la tabla de números aleatorios. Nuestros números
elegidos son 1505, 1256 y 0827. Localizar estos números en la columna del intervalo
acumulado nos conduce a la selección de los hospitales 3,5 y 6.

EJEMPLO 9.7

Supóngase que los hospitales muestreados en el Ejemplo 9.6 dieron los siguientes datos
sobre el número de pacientes con permanencia de más de dos días:

permanencia

3 43 25
5 28 15
6 19 8

Estime la proporción de pacientes con permanencia de más de dos dfas, para los seis
hospitales, y establezca un límite para el error de estimación.

SOLUCIÓN
La proporción de interés para cada hospital es simplemente la media muestra] y, por la
Ecuación (9.26), la mejor estimación de la proporción el promedio de las tres medias
muestrales. Así

+ k + ib + 0.54 + 0.42) =
0.51
cc»anv1ERADOSô.u DOS
De la Ecuación (9.27)
1
= —[(0.58 - 0.51)2 + (0.54 - 0.51)2 + (0.42 - 0.51)2] 3(2)
= 0.0025
Por lo tanto el lúnite para el error de estimación es

y nuestra estimación de la proporción poblacional es


0.51 ±0.10

A continuación se presenta un comentario más acerca de cuándo uno usa el


muestreo ppt. Si la variación medida por Sb es pequeña en comparación con la variación
medida por s? [esto es, si domina el segundo término de la varianza en la expresión
(9.2)], entonces prodríamos seleccionar pocos conglomerados y muchos elementos de
dentro de cada conglomerado muestreado. En tal caso cualquier plan de muestreo para
los conglomerados funcionaría bien.
Sin embargo, si los términos Si son pequeños en comparación con Sb [la Ecuación
(9.2) está aominada por el primer término], entonces deberá tenerse bastante cuidado
al planear la selección de los conglomerados. En este caso los comentarios hechos al
final de la Sección 8.8 aún son válidos, y el método ppt funciona bien si los tamaños de
los conglomerados varían significativamente.

9.8 RESUMEN
9 MUESTREO

El concepto del muestreo por conglomerados puede extenderse al muestreo en dos


etapas tomando una muestra aleatoria de los elementos de cada conglomerado
muestreado. El muestreo por conglomeradosen dos etapas es ventajoso cuando desean
tener elementos de muestreo con proximidad geográfica debido a los costos de
traslado.
El muestreo por conglomeradosen dos etapas elimina la necesidad de muestrear
todos los elementos de cada conglomerado seleccionado. Por lo tanto el costo del
muestreo frecuentemente puede reducirse con poca pérdida de información.
Se presentó un estimador insesgado de g para el caso en que se conoce M, el
número total de elementos en la población. Cuando se desconoce M, se emplea un
estimador de razón. También se presentaron estimadores para un total poblacional r 'y
para una proporción poblacional p.

ANÁLISIS Da
ESTUDIO
LA ESTIMACION [E
El plan de muestreo para <innar gastos promedio para entretenimiento entre
estudiantes, descrito al principio de este capítulo, involucra la selec-
249
cón de n 4 salones de Clase de entre N h 50 y el sbnt_pstreo de estudiantesen
cada sabn seleccionado. ID datos como sigtE (prornedios en dólares]:

No. de Na. estudiantes


muestreados, m

80 8 16 9 1280 518,400
47 5 30 15 1410 55,225
62 6 21 22 1302 61,504
39 4 45 18 1755 608,400

228 5747 1,243,529

M = 57

— A)?
=

414,510
= 31,275

La mejor esfimadón de la cantidad promedio gastada rnensualrnente en


entretenimiento entre estuciantes de la universidad s = S25 El límite para el enor de
estimación

(31,275) =
(414,510) 11

promedio
que la mensual verdadera
b tanto = + '14 = $36
terwnos de d
redidrse en en cantidad e dase o más
tamano sabn decanfianza 25 - $14y estudiantes
25 pa
clases ¿Cuál procedimiento
muestreando recomendaríausted?]

EJERCICIOS
Suponga que una gran tienda de ventas' al menudeo tienecuentas
partamento. listada por
por La empresa desea usar el
muestreo para estimar en un día especffico el toál de las cuentas por cobrar. Analice
relativos del muestreo akatorio estradficado, del muestreo por conglomeradosen una etapa, del
sistemático y del muestreo por conglcy merados en dos etapas. ¿Qué información adicional le
gustaría tener sobre estas cuentas de seleccionar el diseño de muestreo?
250 CONGLOWERADOS EIPPPS

9.2 El dueño de un vivero quiere estimar la altura de los arbolitos en un extenso terreno que está di
vidido en 50 lotes que varían levemente en tamaño. El dueño cree que las alturas son bastante
homogéneas en cada lote pero pueden variar considerablemente de un lote a otro. Por lo tanto decide
muestrear un 10% de los árboles dentro de cada uno de los IO lotes usando una muestra por
conglomeradosen dos etapas. Los datos se dan en la tabla adjunta. Estime la altura promedio de los
arbolitos en el terreno y establezca un limite para el error de estimación.

Número de

1 52 5 12, 11, 12, 10, 13


2 56 6 10, 9, 7, 9, 8, 10
3 60 6
4 46 5
5 49 5 10, 11, 13, 12, 12
6 51 5 14, 15, 13, 12, 13
9 MUESTREO

7 50 5
8 61 6 9, 10, 8, 9, 9, 10
9 60 6 7, 10, 8, 9, 9, 10
10 45 6 12, 11, 12, 13, 12, 12

9.3 En el Ejercicio 9.2, suponga que el dueño del viverosabe que hay aproximadamente 2600 arbolitos en
el terreno. Use esta información adicional para estimar la altura promedio y establezca en límite
para el error de estimación.
9.4 Una cadena de supermercados tiene tiendas en 32 ciudades. Un director de la compañía quiere
estimar la proporción de tiendas en la cadena que no satisfacen un criterio de limpieza
específico. Las tiendas dentro de cada ciudad al parecer poseen caracterfsticassimilares; por lo
tanto el director decide seleccionar una muestra por conglomerados en dos etapas conteniendo
la mitad de las tiendas dentro de cada una de 4 ciudades. El muestreo por conglomerados es
conveniente en esta situación debido al costo de traslado. Los datos recolectados se presentan
en la tabla adjunta. Estime la proporción de tiendas que no satisfacen el criterio de limpieza y es•
tablezca un límite para el error de estimación.

25
2 10 5 1
3 18 9 4
4 16 8 2

9.5 Repita el Ejercicio 9.4 dado que la cadena contiene 450 tiendas.
9.6 Para mejorar el servicio telefónico, el ejecutivo de cierta compañia quiere estimar el número total de
llamadas por teléfono realizadas por las secretarias de la compañía durante un día. compañfa
tiene 12 departamentos, efectuandocada uno aproximadamenteel mismo númerode llamadas por
día. Cada departamento emplep un promedio. de 20 secretarias y el número de llamadas varía
considerablemente de una secretaria a otra. El ejecutivo decide aplicar un
EJERCiC10S 254

muestreo por conglomerados en dos etapas, usando un número pequeño de departamentos


(conglomerados) y seleccionando un número bastante grande de secretarias (elementos) de cada
departamento seleccionado. Se muestrean IO secretarias de cada uno de los 4 departamentosen la
muestra. Los datos están concentrados en la tabla adjunta. Estime el número total de llamadas
efectuadas por las secretarias de esta compañía, y establezca un Ifmite para el error de estimación.

Número de

1 21 10 15.5 2.8
2 23 10 15.8 3.1
3 20 10 17.0 3.5
4 20 10 14.9 3.4

9.7 La comisión de zonificación de una ciudad quiere estimar la proporción de dueños de bienes inmuebles en
cierta sección cle la ciudad que apoyan un cambio de zonificación propuesto. 141 sección está dividida
en siete áreas residenciales distintas, cada una conteniendo residentes similares. A causa de que los
resultados deben ser obtenidos en un periodo de tiempo cono, se usa un muestreo por conglomerados
en dos etapas. Tres de las siete áreas son seleccionadas al azar y un 20 % de los dueños de bienes
inmuebles son muestreados en cada una. I_a cifra de 20% parece razonable porque la gente que vive
dentro de cada área parece estar en la misma clase socioeconómica y por lo tanto tiende a tener
opiniones similares sobre el tema de la zonificación. Los resultados se presentan en la tabla adjunta.
Estime la proporción de dueños de bienes inmuebles que favorecen el cambio de zonificación propuesto
y establezca un límite para el error de estimaclón.

Número de Número de dueñ« Núnrro


que apoya el cambio de

46 9
2 67 13 2
3 93 20 2

Un guardabosques quiere estimar el número total de árboles en un condadoinfestadospor una


enfermedad en particular. En el condado hay diez áreas bien definidas; éstas pueden ser subdivididas
en lotes de aproximadamente el mismo tamaño. Se dispone de cuatro cuadrillas para realizar la
encuesta, la cual debe ser completada en un día. Por lo tanto utiliza un muestreo por conglomerados en
dos etapas. Cuatro áreas (conglomerados) son seleccionadas con seis lotes (elemen-

Número de
Número de Número de árboles
Área lote

1 12 6 15, 14, 21, 13, 9,


10
2 15 6 4, 6, 10, 9, 8, 5
t
14
3 6 10, 11, 14, 10, 9,
15
4 21 6 8, 3.4, 1,
252 9 CO.anv1ERADOS DOS ETA*S

tos) escogidos aleatoriamente de cada una. (Cada cuadrilla puede inspeccionar un área por
dfa. ) Los datos se presentan en la tabla adjunta. Estime el número total de árboles
infestados en el condado y establezca un límite para el error de atimación.
9.9 Una compañfa está probando una nuwa emboteliadora. Durante un ensayo la máquina llena 24
cajas, cada una con 12 botellas. La compañía desea estimar el número promedio de onzas
de contenido por botella. Se emplea un muestreo por conglomerados en dos etapas usando
6 cajas (conglomerados) con 4 botellas (elementos) seleccionadas aleatoriamente de cada
caja. Los resultados se presentan en la tabla adjunta. Estime el número de onzas promedio
por botella y establezca un límite para el error de estimación.

7.9
2 8.0 0.12
3 7.8 0.09
4 7.9 0.11
5 8.1 0.10
6 7.9 0.12

9.10 Cierta planta industrial tiene 40 máquinas y todas producen el mismo artículo (por ejemplo,
cajas de cereal). Se desea estimar la proporción de productos defectuosos (por ejemplo,
cajas con menor contenido) u n día Analice los méritos relativos del muestreo por
conglomerados en dos etapas (las máquinas como cajas) y el muestreo aleatorio
estratificado (las máquinas como estratos) como posibles para este estudio.
Una empresa de investigación de mercados ideó un plan de muestreo para estimar las ventas
manales de un cereal de la marca A en un área geogr Ca. La empresa decidió
muestrearciudades dentro del área y luego supermercados dentro de ciudades. La medición
de interés es el número de cajas vendidas del cereal de la marca A en una semana
específica. Cinco ciudades son muestreadas de entre las 20 en el área. Usando los datos
presentados en la tabla adjunta, estime las ventas promedio de todos los supermercadosen
el área para la semana específica. Establezca un límite para el error de estimación. ¿E
insesgado el estimador que se utilizó?

Número de

1 45 9 102 20
2 36 7 90 16
3 20 4 76 22
4 18 4 94 26
5 28 6 120 12
9.12 el Ejercicio 9.11 , ¿se tiene suficiente información para estimar el número total de cajas de
cereal vendidas en todos los supermercados del área durante la semana?Si es así, explique
cómo estimaría usted este total, y establezca un limite para el error de estimación.
9.13 Si un estudio semejante al descrito en el Ejercicio 9.11 se llevara a cabo nuevamente,
(recomendarla usted que las ciudades se muestrearan con probabilidades proporcionales al
número de sus supermercados?¿Por qué?
EXPERIENCIAS CON DATOS REALES 253

9.14 Suponga que un quiere estimar el número total de personasjubiladas que viven en una ciudad. El
sociológo decide muestrear manzanas y después casas dentro de las manzanas. (Las estadísticas de
manzana de la Oficina del Censo ayudan en la determinación del número de casas en cada manzana.)
Cuatro manzanas son seleccionadas aleatoriamente de entre las 300 de la ciudad. De acuerdo con
datos de la tabla adjunta, estime el número total de residentesjubilados en la ciudad y establezca un
límite para el error de estimación.

9.15 Usando ICY; datos del Ejercici09.14, estime el número promedio de residentes jubilados por casa y
establezca un límite para el error de estimación.
9.16 De acuerdo con los datos del Ejercicio 9.14, ¿puede usted estimar el número promedio de residentes
jubilados por manzana? ¿Cómo puede realizarse esta estimación y establecer un límite para el error
de estimación?
9.17 la estimación de la cantidad de impulezas en un producto a granel, como el azúcar, el procedimiento de
muestreo puede seleccionar costales de azúcar de un almacén y luego seleccionar muestras de
prueba pequeñas de cada costal. Las muestras de prueba son analizadas para la cantidad de
impurezas. Analice cómo podría seleccionar el número de costales a muestrear y el número y
tamaño de las muestras de prueba tomados de cada costal.
9.18 Un programa para asegurarla calidad de productosfabricados requiere del muestreo de éstos tal como
vienen en las Ifneas de montaje de una planta de producción. Se podría tratar las unas de montaje
como conglomerados o como estratos. Analice los méritos relativos de estas dos opciones, y diseñe
un plan de muestreo para cada caso.

9.1 Refiérase a los datos de la población de Estados Unidos en el Apéndice. Planee un muestreo por
conglomerados en dos etapas para estimar la población rural total de Estados Unidos en 1980,
muestreando primero divisiones y luego estados dentro de éstas. Muestree cuatro de las nueve
divisiones y al menos dos estados dentmde cada división muestreada. Efectúe una estimación de la
varianza vinculada al estimador. ¿E recomendable este procedimiento sobre el muestreo aleatorio
estratificado? ¿Por qué?
9.2 Generalmentecuando muestrea gente, las marcos naturales involucran pelsonas agrupadas en
conglomerados. Por lo tanto el muestreo por conglomerados en dos etapas suele utilizarsecomo una
cuestión de conveniencia económica. Por ejemplo, trate de estimar el número total de libros de
biblioteca comúnmente tomados en préstamo por 106 estudiantes de una '.miversidad. (Cualquiera
otra variable numérica de interés puede ser su*ituida por el número de libros de biblioteca.)
conglomerados de estudiantes que ocurren en forma natural se dan en residencias estudiantiles,
salones de clases, fraternidadesy hermandades, y en directoriosestudiantiles. ((Puede pensar usted en
otros ?)Estime el total de interés y establezca un límite para el error de estimación usando los
siguientes procedimientos :
9 CONGLOMERADOS

(a) Muestreando residencias y estudiantes dentro de residencias.


(b) Muestreando salones se clase en uso y estudiantes dentro de salones de clase.
(c) Muestreandopáginas del directorio de estudiantes y nombres de estudiantes dentro de pági-

Cualquiera que sea el método que usted seleccione, piense cuidadosamente acerca de ICF tamaños de
muestra relativos para la primera y segunda etapas. Si el experimento no es aplicable para tal situación, un
problema más simple de llevar a cabo es estimar el número de palabrasen este (o cualquier otro) libro
muestreando aleatoriamente páginas y luego líneas dentro de cada página. ¿Debe ser diferente el esquema de
muestreo en dos etapas para un libro de estadística con fórmulas y tablas del esquema para una novela?
ESTIMACIÓN Da
TAMAÑO DE LA
POBLACIÓN
ESTUDIO DE CASO

¿CUÁNTAS AL
reportera de cierto periódico quiere e<imar el número de que aSsEn a
cn concierto gratuito de rock y sohcita entonces el consejo de un
estadísfico. observa we d periódico esá obsequiando color naranja a
algunos tentes y pregunta cuántos han sich obsequiados. Sabierxdo esto,
sugiere el sig.liente escuerna de estimación:
Si4)órvase que subgrupo de N asstentes usand) t somtxeros.
de que empieza el concierto selecdonan aleatoriamente n personas, y
Óserva d número s de q-lienes usan sonbreros. Ahora la proporción
muestral de aquelbs que portan somb-eros,p = s/n, es un de la proporción
çoblacional t/N. palabras,

nN

nt
o bien
S

El d Capítulo 10 desamollan detalles de este

255
10 ESTIMACÕN CE LA POBLACIÓN
40.4 INTRODUCCIÓN

En los capítulos precedentes estimamos medias, totales y proporciones, suponiendo


que el tamaño de la población se desconocía o era de tamaño tan grande que podría
omitirse si no se necesitaba expresamente para calcular un estimador. Sin embargo,
frecuentemente el tamaño de la población no es conocido y es importante, a pesar de
su importancia para los objetivos del estudio. hecho, m algunos estudios la
estimación del tamaño de la población es el objetivo principal. El estudio del
crecimiento, evolución y mantenimiento de poblaciones salvajes depende
crucialmente de estimaciones exactas del tamaño de la población, y en la estimación
del tamaño de tales poblaciones se centrará en gran parte el tema de este capítulo.
Las técnicas pueden utilizarse también para la estimación del número de personas
que asisten a un concierto o a un evento deportivo; la cantidad de piezas defectuosas
en un lote de piezas de material, y muchas situaciones similares. Vamos a presentar y
discutir cuatro métodos para la estimación de tamaños de poblaciones.
El primer método es muestreo directo. Este procedimiento consiste en
seleccionar una muestra aleatoria de una población salvaje de interés, marcar cada
animal muestreado y retornarlo a la población. Posteriormente, se selecciona otra
muestra aleatoria (de tamaño fijo) de la misma población y se observa el número de
animales marcados. Si N representa el tamaño total de la población, t representa el
número de animales marcados en la muestra inicial, y p representa la proporción de
animales marcados en la población, entonces

En consecuencia N — — t/P. Podemos obtener un estimador de N porque conocemos t y


10.2

ESTIMACIÓNCR 257
p puede ser estimado por p, la proporción de animales marcada en la segunda muestra.
Entonces el número de animales marcados la proporción de animales marcados en la segunda
muestra o bien,

La segunda técnica es muestreo inverso. Es similar al muestreo directo, pero esta muestra
no es fija. Esto es, se continúa el muestreohasta que se observa un número fijo de animales
marcados. Mediante este procedimiento podemos también obtener una estimación de N, el
tamaño de la población, usando

Ñ=—
La tercera técnica depende de estimar en primer lugar la densidad de elementos en la
población y luego multiplicar ésta por una medida apropiada del área. Si estimamos que ha
animales por unidad de área y el área de interés contiene A unidades, entonces nos proporciona
una estimación del tamaño de la población.
El cuarto método es similar al tercero pero depende expresamente de la capacidad para
identificar la presencia o ausencia de animales en las parcelas muestreadas. Entonces, con
ciertas condiciones, la densidad y el número total de animales pueden aún ser estimados.

El muestreo directo puede ser usado para estimar el tamaño de una población móvil. Primero, se
selecciona una muestra aleatoria de tamaño t en la población. Días después se selecciona una
muestra de tamaño n. Por ejemplo, supóngase que un ecologista interesa por la evidente
disminución del número de focas en Alaska. Se dispone de estimaciones del tamaño de la
población en años previos. Para determinar si ha ocurrido o no una reducción, se captura una
muestra aleatoria de t = 200 focas, se marcan y luego se retornan a la población. Al mes se
obtiene una muestra de tamaño n = 100. Usando estos datos (frecuentementellamadosde
recaptura), podemos estimar N, el tamaño de la población.
Sea S el número de focas marcadas que se observa en la segunda muestra. La proporción
de animales marcados en la muestra es
Sn
Un estimador de N es dado por

ESTIMACIÓN TAMAÑO DE IA POBLACIÓN

Varianza estimada de N:
(10.2)
S
Límite para el error de.estimación:

Nótese que s debe ser mayor que cero para que las Ecuaciones (10.1), (10.2)
y (10.3) sean bien definidas. Vamos a suponer que n es lo suficientemente grande
para que S sea mayor que cero con elta—robabilidad.
También debe notarse que N , que se presenta en la Ecuación (IO. l), no es un
estimador insesgado de N. Para s > 0

nt
Por lo que, para tamaños de muestrasuficientementegrandes, esto es, t y n grandes,
el termino

nt

es pequeño y el sesgo del estimador N se aproxima a O. El estimador Ñ tiende a


sobreestimar el valor real de N. Chapman (1952) da otro estimador de N, junto con
su varianza aproximada, el cual es casi insesgado para la mayoría de las situaciones
de muestreo directo.

EJEMPLO 10.4

Antes de anunciar el calendario de la próxima temporada de cacerla, la comisión


cinegética de un municipio determinado desea estimar el tamaño de la población de
venados. Se captura una muestra aleatoria de 3(1) venados (t = 300); se marcan y
regresan a la población. Dos semanas después se toma una segunda muestra de 200
(n = 200). Si se recapturan 62 venados marcados en la segunda muestra (s = 62),
estime N y establezca un límite para el error de estimación.

SOLUCIÓN
la Ecuación (10. l), tenemos

A nt

200(300)= 967.74
62
o bien N = 968
10.2

ESTIMACIÓN CE 259

Un límite para el error de estimación es dado por

(62)3 = 204.18
Entonces la comisióncinegética estima que el número total de venados es 968, con un límite para
el error de estimación de aproximadamente 205 venados.

Usted puede estar interesado en la magnitud del límite para el error de estimación en este
ejemplo; pero podemos obtener un estimador más exacto de N mediante el incrementode los
dos tamanosde muestra (n y t). En la Sección 10.4 se presenta más información acerca de la
elección de n y t.

El muestreo inverso es el segundo método para la estimación de N, el tamaño total de la


población. Nuevamente suponemos que se toma una muestra inicial de t animales, se marcan y
se regresan a la población. Después se efectúa muestreo aleatorio hasta que se recapturan
exactamente s animales marcados. Si la muestra contiene n ejemplares, la proporción de
ejemplares marcados en la muestraes dada por p s/n. Usamos esta proporción muestral para
estimar la proporción de animales marcados en la población.
Nuevamente, el estimador de N es dado por

pero

Estimador de N :
nt
(10.4) s
Varianza atinada de N: t2 n(n — s) 2 (10.5)
s(s l)
Límite para el error de estimación:

Nótese que las Ecuaciones (10.4), (10.5) y (10.6) son validas únicamente para S > O. Esta
restricción no ofrece ninguna dificultad, simplemente especificamos que n debe ser mayor que
0, y muestreamos hasta que se recapturan s animales marcados.
10 ESTiMACiÕN
260 Da POBLAC(X
El estimador N = nt/s, obtenido por muestreo inverso, nos provee de un estimador
insesgado de N, y la varianza dada por la Ecuación (10.5)es un estimador insesgado de
la varianza verdadera de N.
La varianza (10.5)para el caso inverso es muy parecida a la varianza (10.2) para el
caso directoy los estimadoresN parecen ser idénticos. Sin embargo, el
muestreoinverso ofrece las ventajas de poder fijar s de antemano, el Ñ es insesgado y
se dispone de un estimador insesgado de la varianza verdadera de N .

EJEMPLO 40.2

Los encargados de una gran reservación de animales están interesados en el número


total de pájaros de una especie particular que allí viven. Se atrapa una muestra
aleatoria de t = 150 pájaros, se marcan y luego se sueltan. En el mismo mes toma una
muestra aleatoria hasta que recapturan 35 pájaros marcados (s = 35). En total se
recapturan 100 pájaros para encontrar los 35 marcados (n = 100). Estime N, y
establezca un límite para el error de estimación.

SOLUCIÓN
Mediante la Ecuación (10.4), estimamos N con

A nt 100(150)
= 428.57
35
Un límite para el error de estimación se encuentra usando la Ecuación (10.6) como
sigue:
t 2 n(n —
s)
s 2(s + 1)

= 115.173
Por lo que estimamos que hay 429 pájaros de esta especie en la reservación. Es
bastante probable que nuestra estimación esté cercana aproximadamente a 116
pájaros del tamaño verdadero de la población.
10.2
Hemos estado estudiandolas técnicas de muestreo directo y de muestreoinverso.
Seguramente se pregunta cuál es mejor. Se puede usar cualquier método. El muestreo
inverso nos proporciona información más precisa que el muestreo directo, siempre y
cuando el segundo tamaño de muestra n —requerido para recapturar S elementos
marcados— sea pequeño con respecto al tamaño de la población N. Sin embargo, si
desconoce todo acerca del tamaño N, una elección deficiente de t podría hacer n
bastante grande cuando se use muestreo inverso. Por ejemplo si N = 10,000 y se
extrae
264

una primera muestra de t = 50 ejemplares, se necesitará una segunda muestra grande


para obtener exactamente S = 10 animales marcados.
La Tabla 10.1 es útil para determinar los tamaños de muestra (t y n) que requieren
para estimar N con un límite fijo para el error de estimación. Sin embargo, para usar
estos datos se requiere de algún conocimiento previo acerca de la magnitud de N. Los
valores en la Tabla 10.1 son V(N)/N para muestreo directo. Si usted conoce el tamaño
aproximado de N, puede determinar la varianza del estimador para valores fijos de los
tamanosde muestra t y n. En la Tabla 10.1 se expresan estos tamaños de muestra como
fracciones de N. Éstas, dadas por

son llamadas fracciones de muestreo.

TABLA Valores de V (Ñ)/N para muestreo directo


Pl t/N
0.001 0.01 01 0.25 0.50 1.0
0.001 999,000 99,000 9000 3000
0.01 99,000 9,900 900 300 100
0.1 9, 990 990 90 30 10
0.25 3,996 396 36 12 4
0.50 1,998 198 18 6 2
1.0 99 9 3
Es convenientedisponer de una gráfica de los valores en esta tabla. Sin embargo,
los número son tan grandes que sólo podemos mostrar una parte de la Tabla 10.1. En la
Figura 10.1 mostramos los valores de V(Ñ)/ N para diversos valores de las fracciones
muestrales p, = t/ N P2 = n/ N. Nótese que en la medida en que p, o P2 se incrementa,
la varianza de N dividida entre N se reduce; consecuentemente, V(N) decrece para un
valor fijo de N. Se comprende que este resultado sea razonable, ya que debemos tener
un estimador más exacto de N tomando tamaños de muestra grar&s.

EJEMPLO 40.3
10 ESTiMACiÕN
La comisión cinegética del Ejemplo 10.1 cree que el tamaño de la población de
venados este año es aproximadamente la misma que el año pasado, cuando hubo entre
800 y 1000 venados. Determine el límite para el error de estimación asociado con las
fracciones de muestreode Pl = 0.25 y = 0.25.

SOLUCIÓN
Tomamos el mayor de los dos números ( N aproximadamente 1000) para obtener una
estimación conservadora de V(N) (una mayor de lo que podría esperarse). Vemos en
CE

FIGIJRA 40.4 Gráfica

la figura 10.1 (o dela Tabla loa ) que las fracciones demuestreo dep, —— t,'N = 0.25
= 0.25 nos dan

= 12
Al tomar N = 1000, tenemos

El límite correspondiente al ermr de estimación es


10.2

p, = 0.25 y P2 = 0.25: esta e, podrfa extraer una muestra inicial de


t = PIN = = 250
y una segunda de
n = = (0.25)0000) = S50
10 ESTIVACION POBIACIÕN
10.4

Podría entonces estimar N mediante el de los datos de la encuesta. El limite para el


error de estimación debe ser aproximadamente igual a 220, siempre que el intervalo
original de N sea exacto.
Si el límite para el error de N noes aceptable para las fracciones de muestreo de
Pl = P2 = 0.25, el investigador puede trabajar con la Tabla 10.1 (o con la Figura 10.1)
para determinar las fracciones de muestreo requeridas para obtener un límite aceptable
en el error de estimación.
Podemos examinar la V(N) para muestreo inverso en la misma forma que para
muestreo directo. Las entradas en la Tabla 10.2 son los valores de V(N)/N para
diversas fraccionesde muestreo = t/ N y = S/N cuando se usa muestreoinverso.
Recuérdese que en muestreo inverso fijamos S en lugar de n; por lo que la segunda
fracción de muestreo está en términos de s. Una representación gráfica de estos datos
será de gran ayuda, pero nuevamente los números son muy grandes para graficarlos
convenientemente. Una parte de la Tabla 10.2 se presenta en la Figura 10.2.

TABLA 0.2 V±res de VIÑ)/N para muestreo invaso

Pz=s/N 0.001 0.01 0.1 0.25 05 1.0

0.001 999 990 900 750 500


0.01 99 90 75 50
0.1 9 7.5 5
0.25 3 2
0.5 1
1.0 0
Nótese que V(N)/N [o, equivalentemente, V(N) para un valor dado de N] decrece
cuando p, y P2 aumentan. Si el experimentadortiene un intervalo aproximado para N,
puede usar la Figura 10.2,- o bien la Tabla 10.2, para determinar las fracciones de
muestreo (p, = t/ N, = S/N) necesarias para obtener un límite razonable. Entonces el
experimentador puede conducir una encuesta con una muestra inicial de t = PIN
El experimentador empezará una segunda muestra en un tiempo futuro y continuara
hasta que

s = P2N
animales marcados sean recapturados. Los correspondienteslímites del error de
estimación para N serán aceptables siempre que el estimador original de N haya sido
razonable.
Las anteriores técnicas de marcado-recaptura pueden ampliarse a más de dos
etapas. En la segunda etapa puede marcarse los (n — s) animales no marcados y
retornarse todos los n a la población. En fecha posterior puede tomar una tercera
CE TAMAÑO LA
269

9.0

8.0

7.0

6.0

5.0

4.0

3.0

2.0

1.0

o 0.1 0.2 0.3 0.4 0.5

FIGURA 10.2 Gráfica de valores de la Tabla 10.2

muestra, y repetir las operaciones de conteo y marcado. Este esquema de múltiples


etapas producirá un mejor estimador de N y es especialmente útil en estudios
continuos, donde las muestras podrían tomarse cada semana o en forma similar.

40.5 ESTIMACIÓN DE LA DENSIDAD Y EL


TAMAÑO
DE LA POBLACIÓN USANDO MUESTREO
POR CUADROS

La estimación del número de elementos en un área definida puede realizarse


estimando primero el número de elementos por unidad de área (esto es, la densidad
de los elementos) y luego multiplicando la densidad estimada por el tamaño del
área en estudio. Por ejemplo, si un telar produceen promediodos defectos por metro
cuadrado de material, entonces una pieza con 40 metros debe contener
aproximadamente80 defectos. Analizaremos estimaciones tanto de la densidad
como del número total de elementos. Sin embargo, nuestro argumento no tiene que
limitarse a las áreas, porque los mismos métodos trabajan para estimar el número
total de bacterias en un volumen fijo de líquido o el número total de llamadas
10 ESTIVACION POBIACIÕN
telefónicasque llegan a un conmutador en un intervalo fijo de tiempo. Hablar en
términos de áreas es conveniente para propósitos ilustrativos.
Suponga que se va a muestrear un área total A seleccionando aleatoriamenten
parcelas, cada una de área a. Por conveniencia, suponemosqueA = Na. Cadaparce-
10.5 ESTIMACIÓN

la se denominará cuadro (aun en el caso de no ser cuadrada). En base a la terminología presentada


en capftulos anteriores, un cuadro puede ser considerado como un conglomeradode elementos. Sea
m, el número de elementosen el cuadro i, y hacemos que M, dado por

sea el número total de elementos en la población (con área A). Sea también

la densidad de elementos, o el número de elementos por unidad de área. Nuestro objetivo es


estimar A y luego M = AA. Nótae que en esta explicación los mi son variables aleatonas. ya que
son los números de elementos que encuentran en un cuadro de área fija localizado aleatoriamente.
El estimador de A que se presenta aquí supone que los elementos mismos están dispersos
aleatoriamente dentro de la población. Si hablamos de defectos en materiales suponemos que los
defectos no se encuentran en grupos, sino dispersos en todo el material, sin orden aparente. (El
lector que ha estudiado teoría de probabilidadpuede reconocer que esta suposición es equivalente a
aquella que señala de que las m, tienen una distribución de Poisson.)
Los n cuadros seleccionados aleatoriamenteson examinadoscon cuidado y determina un
conteo exacto de elementos mi para cada cuadro. Si define m=-i m1

tenemos los siguientes estimadoresde A y M.

Estimador de la densidad X:

(10.7)

Varianza estimada de A :

(10.8)
Límite para el error de estimación:

Estimador del total M :


(10.10)
ESTIMACION POBLACIÓN
DEL DE

Varianza estimada d M:
t(ú) = A2 t(Â) = (10.11)
Límite para el error de estimación:

Ilustramos el uso de estos estimadores en los siguientes


ejemplos:

EJEMPLO 40.4
En una plantación de pino de 200 acres en el sur del país, va a
estimar la densidad de árboles que presentan hongos parásitos. Se
toma una muestra den = 10 cuadros de 0.5 acres cada uno. Las diez
parcelas muestreadas tuvieron un promedio ñ de 2.8 árboles
infectados por cuadro. Estime la densidad de árboles infectados y
establezca un límite para el error de estimación.

SOLUCIÓN
Mediante la Ecuación (10.7) con a = 0.5, determinamos la
densidad estimada como
A ñ 28
5.6
árboles por
acre a 0.5
El límite para el error, usando la Ecuación (10.9), es

5.6
2 = 2.1
Entonces estimamos que la densidad es de 5.6 ± 2.1, o bien de 3.5 a 7.7
árboles infectados por acre. Este intervalo es grande debido a que el tamaño de
muestra es relativamente pequeño.

EJEMPLO 40.5
72 10 ESTIMACÕN POBLACiÕN
Para la situación y datos en el Ejemplo 10.4, estime el total de
árboles infectados en los 200 acres de la plantación. Establezca un
límite para el error de estimación.

SOLUCIÓN
Mediante la Ecuación (IO. IO), vemos que el total estimado es

19 = ÑA = = 1120
árboles
10.6 ESTIMACIÓN USANDO WADRDSCARGADOS

El límite para el error, usando la Ecuación (10.12) es

Nótese que el limite para el error de estimación, tanto para


A como para M, contiene a y n en el denominador. Por lo que este
límite decrece cuando se incrementa a o se incrementa n. Se
puede determinar un tamaño de muestra útil mediantela fijación
de a a un cierto nivel deseable para conveniencia del trabajo de
campo y luego seleccionar n para producir el límite deseado,
suponiendo algún conocimiento preliminar de À . En la siguiente
sección se dará una regla aproximada para determinar a de
manera óptima para un estimador de A levemente diferente.

40.6 ESTIMACION DE LA DENSIDAD Y EL


TAMAÑO DE
LA POBLACIÓN USANDO CUADROS CARGADOS

En muestreo por cuadros de plantas o animales, el conteo exacto del


número de especies en investigación es a menudo difcil. En contraste,
la detección de la presencia o ausencia de las especies de interés
suele ser fácil. Ahora vamos a mostrar que basta el conocimiento de
la presencia o no de las especies en el cuadro para obtener un
estimador de la densidad y del tamaño de la población.
273
Los guardabosques se refieren a un cuadro que contiene las
especies de interés diciendo que está cargado. Vamos a adoptar
esta terminología. Para una muestra d e n cuadros, cada uno con
área a, de una población con área A, sea y el número de cuadros
que no están cargados. En la suposición de aleatoriedad de los
elementos, introducida en la Sección 10.5, la proporción de
cuadros no cargados en la población es aproximadamente e ¯
Sabemos, de nuestras discusiones sobre la estimación de
proporciones en el Capítulo 4, que la proporción muestral de
cuadros no cargados es un buen estimador de la proporción
poblacional. Entonces (y/' n) es un estimador de Este resultado
nos lleva a los siguientes estimadores de A y M.
Estimador densidad

In
C) e) (10.1
(In denota logaritmo natural.)

Varianza estimada de A :

ê(Â) = —h (eia (10.1


LA

Límite para el error de etimación:

(10.16
Varianza estimada de M:

ü(â) = A2 f(Â) =— (10.17)


Límite para el error de estimación:

El siguiente ejemplo ilustra el uso de estos


estimadores:
74 10 ESTIMACÕN POBLACiÕN
EJEMPLO 4 0.6

Nuevamente considere los 200 acres de plantación de árboles del


Ejemplo 10.4. Ahora, para la estimación de la densidad de árboles
infectados por hongos parásitos, se van a muestrearn = 20
cuadros de 0.5 acres cada uno, pero únicamentese va a registrar
la presencia o ausencia de árboles infectados para cada cuadro.
(Ya que esta tarea es m" fácil que el conteo de los árboles, se
puede incrementar el tamaño de la muestra.) Suponga que y = 4
de los 20 cuadros no presentan signos de hongos parásitos.
Estime la densidad y el número de árboles infectados,
estableciendo límites para el error de estimación en ambos casos.

SOLUCIÓN
la Ecuación (10.13) vemos que la densidad es estimada por

(al )
In
e)
1 4
— In — = 3.2 árboles por
acre (0.5) 20

El límite para el error, de acuerdo con la Ecuación (10.15), es

1)
= 1.8

Estimamos que la densidad es de 3,2 ± 1.8, o bien de 1.4 a 5


árboles infectados por acre.
De la Ecuación (10.16) tenemos

ú = 640
y el límite para el error, usando la Ecuación (IO. 18), es
275
Nuestra estimación del número total de árboles infectados e; 640
± 360, o bien de 280 a 1000.

Generalmente, el estimador basado solamente en los


cuadros cargados es menos preciso que el basado en datos reales
de conteo. Sin embargo, ya que la medición es más fácil cuando se
buscan solamente los cuadros cargados, el tamaño de muestra
puede ser bastante grande. El estimador que usa cuadros
cargados no trabaja siy = 0 o bien .y = n. Entonces la elección del
tamaño del cuadro a es muy importante. Swindel (1983) da una
regla aproximada para la elección de a como

1.6

cuando se disponede cierto conocimiento preliminar de À Si, por


ejemplo, esperamos ver aproximadamente4 árboles infectados
por acre, entoncescada cuadro muestreado debe ser de 1.6/4 =
0.4 acres.
La técnica de cuadro cargado puede utilizarse también con
muestrasde volumen o tiempo. Cochran (1950) presenta el uso de
esta técnica, y modificaciones de ella, para estimar la densidad de
bacterias en líquidos.
Se dispone de muchas otras técnicas para estimar los
tamaños de poblaciones. Una referencia excelente es el manual
de técnicas de investigación de vida salvaje (Mosby, 1969) que se
lista en la Bibliograffa, en el Apéndice.

40.7 RESUMEN

La estimación del tamaño de una población es a menudo muy


importante, especialmente cuando se estudian poblaciones de
plantas o animales. Este capitulo presenta cuatro procedimientos
para estimar el tamaño de la población total N.
La primera técnica es el muestreo directo. De una población
se selecciona una muestra aleatoria de t unidades y después se
marcan. Posteriormente se selecciona una muestra de tamaño n
fijo, observa el número de unidades marcadas. Usando estos
datos podemos estimar N y establecer un límite para el error de
estimación.
76 10 ESTIMACÕN POBLACiÕN
La segunda técnica, muestreo inverso, es similar al muestreo
directo, excepto que continuamos muestreando hasta que un
número S de animales marcados ha
DEL

sido recapturado en la segunda muestra. Los datos muestralesse


usan para estimar N y establecer un límite para el error de
estimación.
Cuando podemos seleccionar entre el muestreo inverso y el
directo, el primero parece proporcionar resultados más exactos.
Sin embargo, en algunas situaciones, particularmente cuando se
conoce poco o nada acerca del tamaño relativo de N, el
procedimiento de muestreo directo es la mejor elección.
En el tercero y cuarto métodos se usa el muestreo de
cuadros, volúmenes o intervalos de tiempo, y luego se efectúa el
conteo de elementos de interés dentro de esas unidades
relativamentepequeñas. Este procedimiento nos lleva a
estimaciones de densidad de elementos y del número total de
elementos en la población.

ANÁLISIS
s•n-D0 CASO
ESTIMACIÓN A IN CONCIERTO
el ejemplo planteado para introducir este capítulo, la reportera del
periódico dice al estadísfico que dieron t = 500 color naranja.
Desde asientos en balcón, el estadísficoy la reportera localizan n = 200 de
una manera aleatoria. 200 asientos observan s = 40 de kE sont:xetos
anaranjados.
Ahora, el tamano de la multitud, N estima que
nt 200<500)
- 2500
S 40
El límite para el error de dado por esfimadón

= 707

Con sufidente confianza estinarms que el


tamano de la multitud entre 2.500 707 = 1.793y 2.500 + 707 =
grandey podría sa reducido mediante el
277
incremento de n. [Nótese que este estimador supone que person
que llevan bs sombreros anaranjados están o menos dispers
aleatoriamente entre la multitud.)

EJERCICIOS

10.1 Explique las diferencias entre muestreo directo y muestmo inverso.


102 Nombre restiicción implícita en el uso de (a)muestreo directo o (b) muestreo
inverso. ¿Cómo se puede satisfacer esta restricción en cada caso?
EEFCCOS
10.3 Si se supone que el costo de muestreo no es significativo, ¿cómo puede mejorar el
límite para el error de estimación, usando ya sea muestreo directo o muestreo
inverso?
10.4 Un club deportivo exclusivo para hombres se interesa en el número de truchas de rfo
en un arroyo. Durante un periodo de varios días, atrapan t = 100 truchas, se
marcan y regresan al arroyo. Nótese que la muestra 100 pece; ya que cualquier
atrap& en días, que ya había sido marcado, se devolvía inmediatamente.
Varias semanas después se atrapó una muestra de n = 120 peces y se observó el
número de peces marcados. Supóngase que este número fue de 27 (s = 27) en la
segunda muestra. Estime N, el tamaño total de la población, y establezca un
límite para el error de estimación.
10.5 Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la
población de codorniz común en una sección del sur de Florida. Se usa una serie
de 50 trampas. En la primera muestra se atrapan t = 320 codornices. Después de
ser capturadas, cada ave es retirada de la trampa y marcada con una banda de
metal en su pata izquierda. Luego se sueltan todas las aves. Varios meses más
tarde se obtiene una segunda muestra de n = 515 codornices. Suponga que s = 91
de estos pájaros están marcados. Estime N y establezca un límite para el error de
estimaclón.
10.6 Una comisión cinegética está interesada en estimar el número de lobinas boca grande
de una reservación. Se atrapa una muestra aleatoria de t = 2876 lobinas. Cada
una es marcada y soltada. Un mes despuésse atrapa una segunda muestra de n =
2562. Suponga que S = 678 tienen marcas en la segunda muestra. Estime el
tamaño de la población total y establezca un límite para el error de estimación.
10.7 Un equipo de ecólogos está interesado en estimar el tamaño de la población de
faisanes en un área particular, antes de la época de cacería. El equipo cree que el
tamaño real de la población está entre 2000 y 3000. Si se supone que N 3000, las
fracciones de muestreop, y p2 iguales a 0.25 deben dar un límite para el error de
estimación aproximadamente igual a 2(189.74) = 379.48 (Figura 10.1). Los
ecólogos piensan que este límite para el error de estimación razonabley deciden
seleccionart = 750 y n = 750. Medianteel uso de trampasobtienen 750 faisanes
para la primera muestra. Cada uno de estos e*mplares es marcado y soltado.
78 10 ESTIMACÕN POBLACiÕN
Varias semanas después se obtiene la segunda muestra de n = 750. Supóngase
que 168 de estos faisanes tienen marcas (S = 168). Estime el tamaño de la
población y establezca un límite para el error de estimaclón.
10.8 Los regentes de la ciudad están preocupados por las molestias que causan las
palomas alrededor de la casa del ayuntamiento. A fin de enfatizar el problema
contratan un equipa de investigadores para que estime el número de palomas que
ocupan el edificio. Con varias trampas diferentes se captura una muestra de t =
60 palomas, se marcan y sueltan. Un mes después se repiteel proceso, usando n
= 60. Suponga que observan S = 18 palomas marcadas en la segunda muestra.
Estime N, y establezca un Ilmite para el error de estimación.
10.9 Los expertos en recursos animales de cierta reservación desean conocer la población
de conejos, cuya disminución es evidente. En un estudio realizado hace dos años,
el tamaño de la población resultó ser de N = 2 500; supóngase que éste sigue
siendo de la misma magnitud, y utilice la Figura 10.1 para determinarlos tamaños
de muestra aproximados (t y n) que se requieren para estimar N con un límite
igual a 356.
10.10 Una zoóloga desea estimar el tamaño de la población de tortugas en determinada
área geografi• Ca. Ella cree que el tamañode la población está entre 500 y 1000;
por loque una muestra inicial de 100 (10%) parece ser suficiente. Las t = 100
tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un
mes después y decide continuar muestreando hasta que se recapturen S = 15
tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15 marcadas (n =
160, s = 15). Estime N y establezca un límite para el error de estimación.
10.11 Debido a un invierno particularmente riguroso, los directores de un parque están
preocupados por el número de ardillas que habitan en el parque. Se atrapa una
muestra inicial de t = 100 ardillas, se marcan y se sueltan. Tan pronto como se
completa la primera muestra, los oficiales em-
279 10 POBLACIÓN

ESTIOMCIÓNCE CELA

piezan a trabajar en una segunda muestra den = 75. Atrapan 10 ardillas que fueron marcadas
previamente. Estime N, y establezca un límite para el error de estimación.
10.12 Suponga que los costos por tomar una observación son los mismos en la primera y en la segunda
muestras. Determine qué es lo más deseable: tener t > n, t n, o t < para un costo fijo de obtención de las
dos muestras. (Sugerencia: consulte las Figuras 10.1 y 10.2.)
10.13 Un equipo de ecólogos de vida en estado salvaje está interesado en la efectividad de un fármaco contra la
fertilidad para controlar el crecimiento de la población de palomas. Para medir la efectivídadse va a
estimar el tamaño de la población de este año y comparar con el tamaño estimado el año anterior. Se
construyó una gran trampa para el experimento. Ésta fue entonces cebada con alimento de maíz
mezclado con una cantidad fija del fármaco. Se atrapó una muestra inicial de t = 120 palomas y se les
permitió comer del alimento preparado. Cada ave es entonces marcada en su pata y liberada. En fecha
posterior se atrapa una segunda muestra den = 100 palomas. Supóngase que 48 tienen marcas (S = 48).
Estime el tamaño de la población de palomas y establezca un límite para el error de estimación.
10.14 Se toman periódicamente muestras de 100 centímetros cúbicos del aire en una área industrial de la
ciudad. La densidad de cierto tipo de partícula dañina es el parámetrode interés. Supóngase que 15
muestras dieron un promedio de 210 partículas por muestra. Estime la densidad de la partícula por
centímetro cúbico y establezca un límite para el error de estimación.
10.15 Suponga que en el muestreo de aire del Ejercicio 10.14 es fácil detectar la presencia o ausencia de las
partículas, pero que el conteo de las mismas es difícil. De entre 500 de esas muestras, 410 mostraron la
presencia de la partícula. Estime la densidad de la partícula y establezca un límite para el error de
estimación.
10.16 Se contaron los automóviles que pasaron a través de una intersección —durante intervalos de diez
minutos— seleccionados aleatoriamente durante el periodo de trabajo de un día. En veinte de estas
muestras hubo un promedio de 40 automóviles por intervalo. Estime, con un límite para el error, el
número de vehículcx que usted espera pasarán por la intersección en un periodo de ocho horas.
10.17 ¿Recomendaría usted el uso del método de cuadros cargados para contar los automóviles del Ejercicio
10.162
10.18 Analice el problema de la estimación de poblaciones de animales altamente migratorios mediante el uso
de muestreo por cuadros.
10.19 Tm datos de la tabla acompañante muestran el número de colonias de bacterias observadas en 240
campos microscópicos. Estime, con un límite para el error de estimación, la densidad de coIonias por
campo. ¿Qué suposiciones son necesarias para este procedimiento?

11
37
2 64
3 55
4 37
6 24
6 12

Fuente: C. I. Bliss y R. A. Flsher, "F1tting the


Negative Binomial Distribution to Biblogical Data",
Biometrics, vol. 9, 1953, p. 176-200,Cm permiso de The
Biometric Society.
EXPERIENCIASCON DATOS REALES

1020 Describa cómo puede estimar el número de automóvilesque transitan en una ciudad durante las horas de
trabajo de un día. Compare cuatro métodos diferentes para realizar esta estimación. ¿Cuál de los cuatro
considera que es el mejor? ¿Por qué?

EXPERIENCIAS CON DATOS REALES

10.1 Simule la técnica de marca-recaptura para poblaciones animales en la realización del siguiente
experimento. Ponga un número conocido N de bolitas en una jarra. Marque t de ellas de modo que se
puedan distinguiry mézclelas bien. Entonces muestree n bolitas, registre el númerode las "marcadas", y
estime N con el método directo. fijando un límite para el error de estimación. (Incluye el intervalo
resultante su N conocido?
Reemplace las n bolitas y repita el muestreo, usando el método inverso (continúe muestreando
hasta que tengas bolitas marcadas), y establezca un límite para el error. ¿Incluye este intervalo a N?
Pueden realizarse vanos tamaños de muestras y vanos grados de mezcla. ¿Cómo escogería usted
un tamaño de muestra apropiado? ¿Qué piensa usted que pasará si las bolitas marcadas no son
completamente mezcladas con las otras ? ¿Cree usted que esta cuestión sugiere una dificultad práctica
con el método de marca-recaptura?
102 La estructura de los problemas tratados en este capítulo requiere que haya t unidades marcadas, distribuidas
aleatoriamente entre las N de una población. Si t es conocido, una muestra aleatoria de n proveerá
información para estimar N. siempre que aparezcan algunas unidades marcadas en la muestra. Las
marcadas pueden ser incorporadas a la poblaciónsin tomar una muestra inicial.
Trate la siguiente técnica para la estimación del tamaño de una multitud que asiste a un evento
deportivo, conferencia, cine u otro espectáculo. Obtenga los nombres y descripcionesde t personas que
usted sabe que van a asistir a él. Solicíteles que se distribuyan aleatoriamente entre la multitud.
Entonces, tome una muestra aleatoria de n personas, quizás al tiempo que las personas abandonan el
edificio. Cuente el número de las t personas seleccionadasoriginalmenteque aparecen en su muestra, y
estime N. (Aquítambién se puede usar el método de ir—.)
10.3 Estimeel número de palabras de tres letras que hay en este libro, estimando inicialmentela densidad de
palabras de tres letras por página. Establezca un límite para el error de estimación. Trate dos técnicas
diferentes para efectuar esta estimación. ¿En su opinión qué método es mejor? ¿Qué suposicionesson
necesarias para que estos métodos sean adecuados?

TEMAS
281

En los capítulos precedentes se han estudiado cuatro diseños de muestreo: muestreo


irrestricto aleatorio, estratificado, por conglomerados y sistemático. Para cada diseño
de muestreo se ha supuesto que los datos fueron registrados correctamente y
proporcionan una representaciónexacta de los n elementos muestreadosde la
población. Según estas suposiciones fuimos capaces de estimar ciertos parámetros
poblacionales y establecer un límite para el error de estimación.
Hay muchas situaciones en las cuales las suposiciones fundamentales de estos
diseños no son satisfechas. Primero, las mediciones registradas no son siempre una
representación exacta de los datos deseados, debido a sesgos de los entrevistadores
o al equipo de medición. Segundo, el marco no es siempre adecuado y por lo tanto la
muestra puede no haber sido seleccionada de la población completa. Tercero, la
obtención de los datos muestrales puede ser imposible debido a la índole delicada de
las preguntas.
En este capítulo se presentan algunos métodos para el análisis de datos cuando
errores de medición o se utiliza un marco inadecuado.

4 1 .2 SUBMUESTRAS INTERPENETRANTES

Un experimentador está interesado en obtener información a partir de una muestra


irrestricta aleatoria de n personas seleccionada de una población de tamaíio N.
Dispone de k encuestadores para realizar el trabajo de campo, pero éstos tienen
diferente modo de entrevistar y por ello obtienen respuestas levemente diferentes a
partir de sujetos idénticos. Por ejemplo, supóngase que el entrevistador va a calificar
la salud de 275
276

un entrevistado en una escala de 0 a 5, con O denotando mala salud. La obtención de este tipo de
información requiere habilidad para hacer la entrevista y un juicio subjetivo por parte del
entrevistador. Puede ser que un entrevistador no obtenga suficiente información y tienda a calificar
muy alto la salud de un individuo, mientras que otro puede obtener información detallada y
calificar muy bajo la salud.
Se puede obtener una buena estimación de la media poblacional aplicando la siguiente
técnica. Divida aleatoriamente los n elementos muestralesen k submuestras de m elementos cada
una, y asigne un entrevistadora cada una de las k submuestras. Nótese que m = n/k y n puede ser
siempreelegido de tal manera que m sea entero. Consideramos a la primera submuestra como una
muestra irrestricta aleatoria de tamaño m seleccionada de los n elementos en la muestra total. La
segunda submuestra es entonces una muestra irrestricta aleatoria seleccionada de los (n - m)
elementos restantes. Se continúa este proceso hasta que los n elementos han sido divididos
aleatoriamente en k submuestras. A estas últimas se les llama algunas veces submuestras
interpenetrantes.
Esperamos que algunos entrevistadoresden mediciones que son muy pequeñas y algunas muy
grandes, pero que el promedio de todas las mediciones esté cercano a la media poblacional. Es
decir, esperamos que los sesgos de los entrevistadores tengan una media que esté muy cercana a
cero. Entonces la media muestral y es el mejor estimador de la media poblacional g, a pesar que los
mediciones estén sesgadas.
Usamos la siguiente notación. Sea y, la j-ésima observación en la i-ésima muestra, j = l , 2, .
1, 2, . . . , k. Entonces ji, dada por

(11.1)

es el promedio de todas las observaciones en la i-ésima muestra. La media muestral es el


promedio de las k medias submuestrales.

Estimador de la media poblacional :

(11.2) Varianza estimada de y:

(11.3) Límite para el error de estimación:

La técnica de submuestras interpenetrantes nos da un estimador de la varianza de F, dado en


la Ecuación (11.3), el cual toma en cuenta los sesgos de los entrevistado-
11.2 SUBMUESTRASIMERPENETRANTES 277

res. Esto es, la varianza estimada dada en la Ecuación (11.3) es comúnmente mayor que el
estimador estándar de la vananza de la media muestral obtenida en muestreo irrestricto
aleatorio debido a los sesgos presentes en las mediciones.
Un sociólogo quiere estimar la estatura promedio de los varones adultos en una comunidad
que tiene 800 hombres. Cuenta con diez asistentes. cada uno con su propio equipo para
tomar las medidas. Ya que el experimentador cree que sus asistentes obtendrán mediciones
ligeramente sesgadas. decide tomar una muestra irrestricta aleatoria de n = 80 varones y
dividir aleatoriamente la muestra en diez submuestras de ocho personas cada una. Cada
asistente es entonces asignado a una submuestra. Las mediciones producen las siguientes
medias submuestrales (mediciones en pies):
ñ = 5.9 ñ = 5.7
ñ = 5.8 17= 5 8
ñ = 6.1 5.6
6.0 5.9
ñ = 6.1 ño = 6.0
Estime la estatura media de los varones adultos en la comunidad y establezca un límite
para el error de estimación.

SOLUCIÓN
El mejor estimador de la media poblacional es la media muestral f. Entonces, de la
Ecuación (11.2),

(5.9 + 5.8 + . + 6.0) = 5.89

Debemos estimar ahora la varianza de usando la Ecuación (ll, 3), Se puede establecer la
siguiente identidad:

Al sustituir, obtenemos

(58.9)2
=347.17- —
0.25
10
11 corviPLHv1ffffARlOS

Entonces
278

= 0.0025

La estimación de la estatura media de los varones adultos, con un límite para el


error de estimación, es dada por

0 sea 5.89±2Gõ25, o sea 5.89 ± 0.10


En resumen. la mejor estimación para la estatura media es 5.89 pies, y es
razonable que el error de estimación menor que 0.10 pies.

44.3 ESTIMACIÓN DE nac.ô.s Y


SUBPOBLACIONES

La obtención de un marco que liste únicamente los elementos en la población es


frecuentemente imposible. Por ejemplo, podemos desear una muestra de los
hogares que tienen niños, pero el mejor marco disponible puede ser una lista de
todos los hogares en la ciudad. Podemos estar interesados en las cuentas
atrasadas de una empresa, pero el único marco disponible puede listar todas las
cuentas por cobrar de la empresa. En este tipo de situaciones deseamos estimar
parámetros de una subpoblación de la población representada en el marco. El
muetreo es complicado porque no sabemos si un elemento pertenece a la
subpoblación sino hasta después de que éste ha sido muestreado.
El problema de la estimación de una media de la subpoblación es resuelto
esencialmente de la misma manera que en el Capítulo 4. Sea N el número de
elementos en la población y Nt el número de elementos en la subpoblación. Se
selecciona una muestra irrestricta aleatoria de n elementos de la población de N
elementos. Sea el número de elementos muestrales de la subpoblación. Sea laj-
ésima observación muestral que cae en la subpoblación. Entonces la media
muestral de los elementos en la subpoblación, denotada por FI, dada por

La media muestral es un estimador insesgado de la media de la subpoblación


Estimador de la media de la subpoblación g, :

(11.5)
nt FI
11.3 ESTWIAO(X CE SUBPOBLACIONES 279 Varianza
estimada de n:

(11.6)
Límite para el error de estimación:

(11.7)

La cantidad (NI — nt)/ NI puede ser estimada por (N — n)/ N si se desconoce Ni .

Un economista desea estimar la cantidad promedio semanal gastada en comida por


familias con niños, en cierto municipio clasificadocomo área de pobreza. Se dispone de
una lista completa de las 250 familias del municipio, pero la identificación de las familias
con niños es imposible. El economista selecciona una muestra irrestricta aleatoria den =
50 familias y encuentra que 'ti = 42 familias tienen al menos un hijo. Se entrevista a las 42
familias con niños y se obtiene la siguiente información

2
=$1720 72,200
Estime la cantidad promedio semanal gastada en comida por todas las familias con niños
y establezca un límite para el error de estimación.

SOLUCIÓN
El estimador de la media poblacionales ñ , dado por la Ecuación (11.5). los cálculos
producen

1
Ytj =—(1720) = 40.95 42
Tenemos la igualdad

y sustituyendo nos da
280

E (yu — = 72,200 = 1762


42
44

La cantidad (N, — nt)/ NI debe ser estimada por (N — n)/ N, ya que N, es


desconocido• La varianza estimada de ñ, dada en la Ecuación (11.6), toma el valor

250 - 50
1762
250 42(41)
— 0.819

Entonces la estimación del promedio de la población, con un Ifmite para el error de


estimación. está dada por

o sea 40.95 26719, o sea 40.95 ± 1.81


La mejor estimación de la cantidad promedio semanal gastada en víveres por las
familias con niños es $40.95. El error de estimación debe ser menor que $1.81 con
probabilidad aproximadamente igual a 0.95.

Si el número de elementosen la subpoblación NI es conocido, el total de la sub-

Estimador del total de la subpoblación Tl :


NIF, (11.8)

Varianza estimada de N, j t:

= N, t(jl) = N? (11.9)
Límite para el error de estimación:

EJEMPLO 44.3
Un estudio preliminar reciente del municipio del Ejemplo 11.2 revela que N, = 205
familias con niños. Usando esta información y los datos del ejemplo mencionado,
estime la cantidad semanal total gastada en comida por estas familias. (Nota: N , va
a variar con el tiempo. Suponerrws que el valor de N, usado en este análisis es
correcto.)
11.3 ESTIMACIÓN CE 284

SOLUCIÓN
El mejor estimador del total es NIFt, dado en la Ecuación (11.8), el cual da una estimación
de

= 205(40.95) = 8394.75

La cantidad ( Ylj — es calculada en el Ejemplo 11.2 con un valor de 1762.


Entonces, la varianza estimada de NIF, es [de la Ecuación (11.9)]

f(N1ñ)

= 34.191.19

La estimación de la cantidad total que las familias gastan en comida por semana, dada
con un límite para el error de estimación, es

8394.75 ± 369.82

A menudo el número de elementos en la subpoblación, N, , es desconocido. Por


ejemplo, el número exacto de los hogares que tienen niños en una ciudad puede ser
dificil de determinar; mientras que el número total de hogares puede quizás ser obtenido
de un directorio de la ciudad. Aunque N, es desconocido, se puede obtener un timador
insesgado de T.
Estimador
282

Varianza estimada de fl :

(11.12)

Límite para el error de estimación

1 IHvPS COvR-HVñJTP.ROS

EJEMPLO 4 4.4

Suponga que el experimentadordel Ejemplo 11.3 duda de la exactitud del valor


preliminar de N, Use los datos de ese ejemplo para estimar la cantidad total semanal
gastada en víveres por las familias con niños, sin usar el valor dado de

SOLUCION
El estimador del total que no depende de Npes Ti, dado por la Ecuación (11.11).
Entonces

250
Ylj=
(1720) = 8600
Sustituyendo en la Ecuación (11.12) nos da la varianza estimada de :

= 265,960
Entonces la estimación de la cantidad total semanal gastada en comida, con un
límite para el error de estimación, es

0 sea
o sea 8600 ± 1031.44
Este intervalo es un límite grande para el error de estimación y debe ser reducido
mediante el incremento del tamaño de muestra n.
Nótese que la varianza de r 1 , calculada en el Ejemplo 1 1.4, es mucho mayor
que la de Ni FI, calculada en el Ejemplo 11.3. La varianza de Tl mayor porquela
información proporcionada por Ni es usada en pero no en Tl. Entonces, si conocido,
o si puede determinarse con poco costo adicional, se debe usar el estimador NIñ.

1.— personas que son entrevistadas a menudo se niegan a contestar o dan una
respuesta incorrecta a preguntas inconvenientes que las ponen en aprietos o que les
pueden
RESPUESTAALEATORIZADA

ser dañinas en algún sentido. Por ejemplo, algunas personas pueden no respondercon la
verdad a cuestiones políticas, tales como: " ¿Es usted fascista?" En esta sección vamos
a presentar un método para estimar la proporción de personas que tienen alguna
característica de interés, sin obtener respuestas directas de las personas entrevistadas. H
método es debido a S. L. Warner (1965).
Designe a las personas de la población que tienen o no alguna característica de
interés, como grupos A y B, respectivamente. Entoncescada persona está en uno de los
grupos A o B. Sea p la proporción de personasen el grupo A. El objetivo es estimar p
sin preguntar a cada persona directamente si pertenece o no al grupo A. Podemos
estimar p usando un artificio llamado modelo de respuesta aleatorizada. Empezamos
con un mazo de cartas idénticas, excepto que una fracción de ellas, 6, está marcada con
una A yla fracción restante, (1 — 9), con B. Se selecciona una muestra irrestricta
aleatoria de n personas de la población. A cada una se le solicita que seleccione
aleatoriamente una carta del mazo y que diga "sí" cuando la letra en la carta
seleccionada concuerdecon el grupo al cual pertenece, o '"no" cuando la letra en la
carta seleccionada no concuerde con el grupo al cual pertenece. La carta es
reemplazada antes de que la siguiente persona seleccione la suya. El entrevistadorno ve
la carta y simplemente registra si la respuesta es "4" o "no". Sea n, el número de
personasen la muestra que responden "d" . Un estimador insesgado F de la proporción
poblacionalP es dado en la Ecuación (11.14).

Estimador de una proporción poblacional p:

(11.14)

Varianza estimada de p:

(11.15)

Límite para error de estimación:

Las Ecuaciones (11.14), (11.15) y (11.16) están basadas en la suposición de que


el tamaño de la población es grande en relación con n , así que la correcciónpor
población finita puede ser omitida. La fracción 6 de cartas marcadas con A puede ser
elegida arbitrariamente por el experimentador, pero no debe ser igual a i, No se debe
usar un valor de = 1 porque el entrevistado se daría cuenta que se le está preguntandosi
perteneceo no al grupo A, osea lo que no quiere responder. Un valor de 6 entre y 1, por
ejemplo a, es usualmente adecuado.

EJEMPLO 41.5
285

Se diseña un estudio para estimar la proporción de personas que dieron información


falsa en su declaración de impuestos, en cierto distrito. Ya que los entrevistadosno ad-
2u TEMAS COMPLEMENTARIOS
mitirán que falsearon su declaración, se usa una técnica de respuesta aleatorizada. El
experimentador prepara un mazo de cartas de las cuales de ellas son marcadas con
una F, denotando una declaración falsa, y son marcadas con C, denotando una
declaracióncorrecta. Se selecciona una muestra irrestricta aleatoriaden = 400
personas de una población grande de contribuyentesen el distrito. entrevistas
separadas se le pide a cada uno que elija una carta del mazo y que responda "sí"
cuando la letra de la carta concuerde con el grupo al cual pertenece. El experimento
originan, 120 respuestas "sf'. Estime p, la proporción de contribuyentes en el distrito
que han falseado su declaración y establezca un límite para el error de estimación.

SOLUCIÓN
la Ecuación (11.14)

La varianza estimada

400
La estimación de p, con un límite para el error de estimación, es entonces

Este método requiere generalmente un tamaño de muestra muy grande para


obtener una varianza del estimador razonablemente pequeña. Se necesita un tamaño
de muestra grande porque cada respuesta origina poca información sobre la
proporción poblacional p.
La técnica de respuesta aleatorizada que se ha presentado aquí es la más simple
de estas técnicas. Para mayor información sobre ellas vea los artículos de Campbell y
Joiner (1973) y de Leysieffery Warner (1976).
Las técnicas de respuesta aleatorizada pueden ser usadas más ampliamente que
en el tipo de situación que se ha empleado aquf. Para conocer cómo se desarrolla
esta técnica vea el artículo de Greenberg, Kuebler, Abemathy y Horvitz (1971).

44.5
Como se explicó anteriormente, la no respuesta es un problema importante que se
debe considerar en cualquierencuesta. Si en una muestra aleatoria de tamaño n se ob
tienen Unicamente ni(ttl < n) respuestas, entonces los dos grupos (respuesta y no
11.5 SELECCIÓN PEENTPEVISTAS

respuesta) pueden ser manejados como una muestra aleatoria estratificada con dos
estratos. Nótese que esta situación no propiamente un muestreo aleatorio estratificado,
ya que n, y = fi — n, son variables aleatorias, cuyos valoresson determinados
únicamente después de que el muestreo inicial es completado. cualquier manera,
pensando en términos de muestreo estratificado, nos pennite encontrar reglas óptimas
aproximadas para la asignación de recursos a las reentrevistas.
Supóngase que de entrevistados con no respuesta, decidirnos hacer entrevistas
intensivas en r de ellos, donde r = nz/k para la constante k > 1. Suponga también que se
tiene un costo de C 1 dólares para obtener una respuesta estándar y C dólares ('2 > ct)
para una respuesta de reentrevista, con co denotando el costo inicial del muestreo de
cada elemento. Entonces el costo total es

C = nco + rc2
Si denota el promedio de las respuestas iniciales y el promedio de las r respuestas
de reentrevista, entonces

1
(11.17)
es un estimador insesgado de la media poblacional
Se puede derivar una expresión teórica para la varianza de y entonces podemos
encontrar los valores de k y n , que minimizan él costo esperado del muestreo para un
valor fijo deseado de V(y ), por ejemplo Vo. Los valores óptimos de k y n son
aproximadamente, para N grande,

(11.18)

n(11.19)
2
NVo + cr

donde W2 es la tasa de no respuesta para la población, W, - W2, y a las varianzas


para la población completa y para el grupo de no respuesta, respectivamente. La
varianza de puede ser estimda por
287

donde estima la varianza del grupo de no respuesta y s estima la varianzaen toda la


población.

EJEMPLO 44.6

Se va a usar un cuestionario por correo para recolectar datos a fin de estimar a la


cantidad promedio por semana que un grupo de 1000 estudiantes gasta en diversión.
expe286 -rHvps COvR-HVñJTP.ROS

riencias pasadas se anticipa que la tasa de no respuesta es alrededor del . Se piensa que
120 y 80. (El grupo de no respuesta tiende a ser aquellos que no están interesadosen
diversionesy por eso gastan menos y tienen una menor variación en sus hábitos de
gastos.) Suponga co = 0, Cl = l, y c2 = 4y que se usa inicialmente una muestra
irrestricta aleatoria. Encuentren y k de tal manera que la varianza del estimador
resultante sea aproximadamente igual a cinco unidades.

SOLUCIÓN
Obsérvese que W2 = 1 — WI = 0.4. Entonces de las Ecuaciones (11.18) y (11.19)

- 2.71
1000[120 +
= 34.1 0 bien 35
1000(5) + 120
Ya queE(n2) = n W2 = 35(0.4) = 14, podemosesperar que aproximadamente21
personas respondan inicialmente, y

14 — 5.2 0 bien 6
k 2.71
reentrevistasse van a tener que hacer.

44.6 RESUMEN

En este capftulo se presentaron tres técnicas útiles para estimar parámetros


poblacionales cuando no son válidas las suposiciones fundamentalesde los diseños
elementales de encuestas por muestreo.
El efecto de sesgo del entrevistador puede reducirse mediante el uso de
submuestras interpenetrantes. En este caso el estimador de la media poblacionales dado
por la Ecuación (11.2) y la varianza estimada de este estimador es dada por la
Ecuación (11.3).
Un marco inadecuado genera el problema de estimar medias y totales de
subpoblaciones. El estimador de la media de una subpoblación es dado por la Ecuación
(11.5) y los estimadores del total por las Ecuaciones (11.8) y (11.11).
Cuando las personas que están siendo entrevistadas no dan respuestas correctas a
preguntas inconvenientes, se puede utilizar algunas veces una técnica de respuesta
aleatorizada. En la Sección 11.4 se explica el método para la estimación de una
proporción poblacional p mediante el tso de este procedimiento.
Algunas veces, con el de elegir un núrnero óptimo de reentrevistas, se pueden tratar las
no un estrato separado, como en la Secci&) 11•5•
EERCCOS

EJERCICIOS

11.1 Un investigador está interesado en estimar el promedio anual de gastos médicos por familia. en
una comunidad de 545 familias. El investigador tiene disponibles ocho asistentes para hacer el
trabajo de campo. Se requiere habilidad para obtener información exacta porque algunos
entrevistados se rehúsan a proporcionar información detallada sobre su salud. Ya que los
asistentes difieren en habilidades para entrevistar, el investigador decide usar ocho
submuestras interpenetrantes de cinco familias cada una, con un asistente asignado a cada
submuestra. Es por esto que se selecciona una muestra irrestricta aleatona de 40 familias y se
divide en ocho submuestras aleatorias. Se realizan las entrevistas y se obtienen las resultados
que se indican en la tabla acompañante. Estime el promedio de gastos médicos por familia del
año pasado, y establezca un límite para el error de estimación

11.2 Se diseña un experimento para medir la reacción emocional provocada por una decisión
gubernamental sobre desegregación escolar. Se entrevista una muestra irrestricta aleatoria de
50 personas y se obtienen las reacciones emocionales en términos de registros de I a IO. La
escala sobre la cual se asignaron los registros va de enojo extremo hasta alegría extrema.
emplean diez entrevistadores para hacer las preguntas y el registro, con cada entrevistador
trabajando una submuestra aleatona (submuestra interpenetrante) de cinco personas. Las
submuestras interpenetrantesson usadas debido a la naturaleza flexible de los registros. Los
resultados se dan en la tabla siguiente. Estime el registro promedio por persona en la ciudad y
establezca un límite para el error de estimación.
289

288

11.3 Un tendero quiere estimar la cantidad promedio de todas las cuentas vencidas. La lista disponible
es obsoleta porque algunas cuantas han sido pagadas. Pero, debido a que es costosa la
elaboraci&-l de una nueva lista, la tienda usa esta lista. Se selecciona una muestra
aleatoria de 20 cuentas de la lista que contiene 95. De las 20 cuentasmuestreadas, 4 han sido
pagadas. Las 16 vencidas contienen las siguientes cantidades (en dólares): 3.65, 15.98, 40.70,
2.98, 50.00, 60.31, 67.21, 14.98, 10.20, 14.32, 1.87, 32.60, 19.80, 15.98, 12.20, 15.00. Estime
la cantidad promedio de las cuentas vencidas para la tienda y establezca un límite para el error
de estima-

11.4 Para el Ejercicio 11.3, estime la cantidad total de las cuentas vencidasde la tienda y establezca
un límite para el error de estimación.
11.5 Un empleado de la tienda del Ejercicio 11.3 decide revisar la lista de las cuentas vencidas y marcar
aquellas que han sido pagadas. Encuentra que 83 de las 95 están vencidas. Estime la cantidad
total de las cuentas vencidas usando esta información adicional y los datos del Ejercicio 11.3.
Establezca un límite para el error de estimación.
11.6 Se realiza un estudio para estimar el número promedio de millas que hay de la casa al trabajo de
jefes de familia que viven en cierta área suburbana. Se selecciona una muestra irrestricta
aleatoria de 30 jefes de familia de los 493 del área. Al realizar las entrevistas, el
experimentador encuentra que gunosjefes dé familia no son apropiados para el estudio porque
están retirados o no acuden al trabajo por diversas razones. De los SO muestreados, 24 son
apropiados para el estudio, y los datos que indican las millas de distancia son los siguientes:
8.5 10.2 25.1 5.0 6.3 7.9 15.8 2.1
9.2 4.2 8.3 4.2 6.7 10.1 15.6 22.1
10.0 6.1 7.9 1.5 8.0 11.0 20.2 9.3
Etirne la distancia promedioentre la casa y el lugar de trabajo para los jefes de familia que
asisten a su trabajo. Establezca un límite para el error de estimación.
11.7 Para los datos del Ejercicio 11.16 estime la distancia total de viaje entre la casa y el lugar de
trabajo de todos los jefes de familia del área suburbana. Establezca un límite para el error de
estimacón.
11.8 Suponga que usted sabe que 420 de las 493 jefes de familia (Ejercicio 1 1.6) trasladan hasta su
trabajo. Estime la distancia total de viaje para todos los jefes de familia en esta área suburbana
haciendo uso de esta información adicional. Establezca un límite para el error de estimación.
11.9 Un perito en salud pública quiere estimar la proporción de dueños de perrX que han llevado a sus
animales a vacunar contra la rabia, en una ciudad. Él sabe que estos señores frecuentemente
dan información incorrecta por temor a que algo pueda pasar a sus ERrrossi no se han aplicado
las vacunas. Entonces el perito decide usar una técnica de respuesta aleatorizada. Dispone de
un mazo de barajas con 0.8 de las cartas marcadas A para el grupo que tiene las vacunas y 0.2
marcadas B para el grupo que no las tiene. selecciona una muestra irrestricta aleatoria de 200
dueños de perros. Cada uno es entrevistado y se le pide extraer una carta del mazo y responder
"sí" cuando la letra en la carta coincida con el grupo a que pertenece. El perito obtuvo 145
lespuestas "sí". Estime la proporción de dueños de perros que tienen vacunados a sus animales
y tablezca un límite para el error de estimación. Suponga que el número de dueños de perros
en la ciudad es muy grande.
11.10 Un ejecutivo de cierta corporación quiere estimar la proporción de empleados que han sido
convictos de un delito menor. Ya que ellos no contestarían directamente la pregunta, el
ejecutivo usa una técnica de respuesta aleatorizada. Se selecciona una muestra irrestricta
aleatoria de 300 personas de un gran número de empleados de la corporación. En entrevistas
separadas, cada empleado extrae una carta de un mazo que tiene 0.7 de las cartas marcadas con
' 'convicto" y 0.3 marcadas con "no convicto". El empleado responde "sí" cuando la carta
concuerda con su categoríao "no" cuando difiere. El ejecutivoobtiene 105 respuestas '"si".
Estime la proporción de empleados que han sido convictos de un delito menor, y establezca un
límite para el error de estimaclón.
EXPERIENCIAS DATOS REALES

Seleccione una muestra irrestncta aleatoria de la población apropiada en al menos una de las
situaciones mencionadas abajo. Estime la proporción o promedio indicado y establezca un para el
error usando los resultados apropiados de la Sección 11.3 que trata subpoblaciones. En cada caso
suponga que los objetos en la subpoblación no pueden ser clasificados como tales hasta después que
han sido observados.
11.1 Estime la proporción de votantes que favorecen cierta proposición del gobierno local entre aquellos que
votaron en la más reciente elección.
11.4 Estime la proporción de estudiantes en su escuela que favorecen el sistema trimestral entre aquelkx que
han sido estudiantes de la universidad en el sistema y al menos otro sistema.
11.3 Estime la cantidad promedio gastado en durante el mes pasado por dueños de en un vecindario.
11.4 el número promedio de palabras por página entre las páginas que no contienen enmarcadas o
tablas en este libro.
291

RESUMEN
42.4 RESUMEN DE LOS DISEÑOS Y
MÉTODOS

Como se recordará, el objetivo de la estadlstica es hacer inferencias acerca de una


población con base en la información contenida en una muestra. En este texto se
analiza el diseño de encuestas por muestreo y métodos asociados de inferencia para
poblaciones que tienen un número finitc de elementos. Los ejemplos prácticos han
sido seleccionados principalmente de los campoa de los negocios y las ciencias
sociales, donde las poblacionesfinitas de respuestas humanas son frecuentementeel
objetivo de las encuestas. También se incluyen ejemplos sobre el manejo & recursos
naturales.
El método de inferencia empleadoen la mayoría de las encuestas por
muestreoes el de estimación. Por lo tanto se consideran estimadores apropiados para
los parametros de la población y el límite de desviacionesatándar para el error de
estimación asociado. En muestreo repetido el error de estimación será menor que su
Emite, con una probabilidad aproximadamente igual a ().95. Análogamente, se
construyen intervalos de confianza que, en muestreo repetido, incluyen al parámetro
verdadero de la población, en aproximadamente 95 veces de 100. La cantidad de
información rele vante para un parámetro dado es medida por el límite para el error
de estimación.
En este texto el material se presenta en cmco partes. La primera es una revisión
de los conceptos básicos, la segunda contiene diseños de encuestas por muestreo
útiles, la tercera considera un estimador que utiliza la información obtenida de una
variable auxiliar, la cuarta trata métodos para estimar el tamaño de poblaciones
salvajes, y la quinta considerá métodos para hacer inferencias cuando una o más de
las suposiciones básicas no se satisfacen mediante las técnicas comunes.
La primera parte, presentada en los 1, 2 y 3, revisa el objetivo de la
estadística y las características peculiares de los problemas que surgen en las ciencias
294
42

sociales, negocios, y manejo de recursos naturales que los hacen diferentes del tipo tradicional de
experimento realizado en el laboratorio. Estas peculiaridades principalmente involucran el muestreo de
poblaciones finitas junto con ciertas dificultades que ocurren en la selección de muestras de poblaciones
humanas. El muestreo de poblaciones finitas requiere la modificación de las fórmulas de los límites para el
error de estimación que se encuentran en un curso introductorio de estadística. Las dificultades asociadas
con el muestreo de poblaciones humanas sugieren diseños específicos de encuestas por muestreo que
reducen el costo de adquisición de una cantidad especifica de información.
En los Capítulos 4, 5, 7 , 8 y 9 consideramos los diseños específicos de encuentas por muestreo y sus
métodos de estimación asociados. H diseño de encuestas por muestreo básico, muestreo irrestncto
aleatorio, se presenta en el Capftulo 4. Para este diseño la muestra es selecionada de manera que cada
muestra de tamaño n en la población tiene una misma probabilidad de ser seleccionada. El diseño no
pretende reducir de modo concretoel costo de la cantidad deseada de información. Es el tipo de diseño de
encuestas por muestreo más elemental y todos los otros diseños se contrastan con él.
El segundo tipo de diseño, muestreo aleatorio estratificado (Capftulo 5), divide a la población en
grupos homogéneos denominados estratos. Este procedimiento usualmente produce un estimador que
posee una varianza más pequeña que la que puede ser obtenida por muestreo irrestricto aleatorio. Por lo
tanto el costo de la encuesta puede reducirse seleccionando pocos elementos a fin de alcanzar un límite
equivalente para el error de estimación.
H tercer tipo de diseño experimental es el muestreo sistemático (Capitulo 7), el cual generalmente se
aplica a los elementos de la población que están disponibles en una lista o sucesión, tal como los nombres
en tarjetas ordenadas en un archiveroo personas que salen de una fábrica. Se selecciona un punto de inicio
aleatorio y posteriormente se muestrea cada k-ésimo elemento. El muestreo sistemático suele realizarse
cuando recolectar una muestra irrestricta aleatoria o una muestra aleatoria estratificada es extremadamente
costoso o imposible. Una vez más, la reducción en el costo de la encuesta se relaciona principalmente con
el costo de recolección de la muestra.
El cuarto tipo de diseño de encuestas por muestreo es el muestreo por conglomerados, el cual se
presenta en los Capftulos 8 y 9. El muestreo por conglomerados puede reducir el costo porque cada
unidad de muestreoes una colección de elementos usualmente seleccionados con el fin de que estén juntos
fisicamente. El muestreo por conglomerados suele realizarse cuando no se dispone de un marco que liste
todos los elementos de la población o cuando los costos de transporte de un elemento a otro son
considerables. El muestreo por conglomerados reduce el costo de la encuesta principalmente reduciendo
el costo de recolección de los datos.
En la tercera parte del material, Capitulo 6, se presenta un análisis de los estimadores de razón,
regresión y diferencia, los cuales utilizan la información de una variable auxiliar. El estimador de razón
ilustra cómo la información adicional, frecuentemente adquirida a bajo costo, puede ser usada para reducir
la varianza del estimador y, consecuentemente, para reducir el costo global de la encuesta. También
sugiere la posibilidad de obtener estimadores más sofisticados usando la información en más de una
variable auxiliar. Este capitulosobre estimación de razón sigue naturalmente al análisis sobre el muestreo
irrestricto aleatorio del Capftulo 4. Esto es, usted puede tomar una medición de y, la respuesta de interés,
para cada elemento de la
12.2 COMPARACIONES ENTRE LOS DISEÑOS Y MÉTODOS 293

muestra irrestricta aleatoria y utilizar los estimadores tradicionales del Capítulo 4. O,


como se sugiere en el Capitulo 6, usted podlfa tomar una medición sobre y y una variable
auxiliar x para cada elemento y utilizarla información adicional proporcionada por la
variable auxiliar para obtener un mejor estimador del parámetro. Por lo tanto, aunque no
PESUVEN

se ha destacado, en lo particular los estimadores de razón pueden ser empleados con


cualquiera de los diseños estudiados en este texto.
El Capítulo 10 trata problemas espedficos para estimar el tamaño de pobla ciones.
Dos estimadoresempleadosutilizanla recaptura de datos, lo cual requiere que el muestreo
se efectúe en al menos dos etapas.
La quinta y última parte del libro está contenida en el Capltulo 11, el cual se refiere a
cuatro situaciones en donde algunas de las suposiciones básicas de los procedimientos
comunes no pueden ser satisfechas. Las situaciones son (l) sesgos del entrevistador, que
algunas veces pueden ser minimizados usando submuestras interpenetrantes, (2) un
marco inadecuado, que algunas veces puede contrarrestarse usando un estimador para
subpoblacionesde la población muestreada. (3) información sobre temas delicados, que
puede obtenerse mediante un modelo de respuesta aleatorizada, y (4) no respuesta, la
cual puede ser planeada y diseñada dentro de la encuesta tratando a los no
respondientes como un estrato separado
En resumen, hemos presentado varios diseños elementales de encuestas por
muestreo junto con sus métodos de inferencia asociados. La consideración de los temas
se ha encauzado hacia las aplicaciones prácticas, de manera que pueda apreciarse cómo
puede ser empleado el diseño de encuestas por muestreo para hacer inferencias al
mínimo costo cuando se muestrean poblaciones finitas sociales, de negocios o de
recursos naturales.

42.2 COMPARACIONES ENTRE LOS DISEÑOS Y


MÉTODOS

Mediante un arreglo de los diseños de muestreo y los métodos de análisis disponibles,


ahora concretamos las explicaciones anteriores s&re cómo seleccionar un diseño
apropiado para un problema en particular. .
El muestreo irrestricto aleatorio es el fundamento y el punto de referencia para
todos los demás diseños estudiados en este texto. Sin embargo pocas encuestas a gran
escala usan solamente el muestreo irrestricto aleatorio, debido a que frecuentemente
otros diseños proporcionan Aayor precisión o eficiencia o ambas cosas.
El muestreo aleatorio estratificado produce estimadores con varianza más pequeña
que aquellos del muestreo irrestricto aleatorio, para el mismo tamaño de muestra,
cuando las mediciones en estudio son homogéneas dentro de los estratos pero las medias
por estrato varían entre ellas mismas. La situación ideal para el muestreo aleatorio
estratificado es tener todas las mediciones iguales dentro de cualquier estrato, pero que
ocurran diferencias conforme se pasa de un estrato a otro.
El muestreo sistemático a menudo se utiliza simplemente como una conveniencia.
Es relativamente fácil de realizar. Pero realmente esta forma de muestreo puede ser
mejor que el muestreo irrestricto aleatorio, en términos de los límites para el error de
estimación, si la correlación entre pares de elementos dentro de la misma muestra
294 12
sistemática es negativa. Esta situación ocurrirá, por ejemplo, en datos periódicos si la
muestra sistemática incluye a los puntos altos y a los bajos de la periodicidad. Si, en
contraste, la muestra sistemática incluye solamente los puntos altos, los resultados serán
muy deficientes. Las poblaciones que presentan una tendencia lineal en los datos o que
tienen una estructura periódica que no es completamentecomprensiblepueden ser
muestreados mejor usando un disão estratificado. Series de tiempo económicas, por
ejemplo, pueden ser estratificadaspor trimestres o meses, con una muestra aleatoria
seleccionada de cada estrato. La muestra estratificada y la sistemática fuerzan a que el
muestreosea llevado a cabo a lo largo de todo el conjunto de datos, pero el diseño
estratificado ofrece una mayor selección aleatoria y frecuentemente produce un Mmite para
el error de estimación más
Él muestreo por conglomerados generalmente se emplea en razón de la efectividad y
el cost o porque no se dispone de un marco adecuado para los elementos. Sin embargo, el
muestreo por conglomerados puede ser mejor que el muestreo irrestricto aleatorioo que el
aleatorio estratificadosi las mediciones dentro de los conglomerados son heterogéneas y sus
medias son aproximadamente iguales. La situación ideal para el muestreo por
conglomeradoses, entonces, tener conglomeradoscon mediciones tan diferentes como sea
posible, pero tener medias iguales. Esta situación se contrapone a la del muestreo aleatorio
estratificado, en el cual los estratos son homogéneos pero las medias de los estratos son
diferentes.
Otra manera de contrastar los últimos tres diseños es como sigue. Supóngase que una
población consiste de N=nk elementos, la cual puede considerarse como k muestras
sistemáticas cada una de tamaño n. Los nk elementos pueden considerarse como n
conglomerados de tamaño k, y la muestra sistemática tinicamente selecciona un
conglomerado. En este caso los conglomerados deben ser heterogéneos para el muestreo
sistemático óptimo. En constraste, los nk elementos también pueden ser considerados como
n estratos de k elementos cada uno, y la muestra sistemática selecciona un elemento de
cada estrato. Así, los estratos deben ser tan homogéneos como sea posible, pero las medias
de estrato deben diferir tanto como sea posible. Este diseño es consistente con la
formulación del problema por conglomerados y una más produce una situación óptima para
el muestreo sistemático. esta forma vemos que los tres diseños de muestreo son diferentes,
y no obstante son consistentes entre sí con respecto a principios básicos.
Algunos comentarios finales se refieren a cómo hacer uso de una variable auxiliar X
para obtener más información sobre la variable de interés y. La estimación de razón es
óptima si la regresión de y sobre x produce una línea recta que pasa a través del origen y si
la variación en las y aumenta con el incremento de x. La estimación de regresión es mejor
que la estimación de razón si la regresión de y sobre X no pasa a tra del origen y si la
variación en las y permanece relativamente constante cuando varía X. La estimación de
diferencia es tan buena como la estimaciónde regresión si el coeficiente de regresión es
aproximadamente igual a la unidad.
Ahora presentaremos algunos ejercicios para los cuales usted puede decidir el método
de análisis apropiado.

ciones fabricante, acumuladoresque Irsan aproximadamente69 libras cada um y tienen un


295
gr.or en las placas positivas de 120 milésimas de pulgada. De ata remesa se Eleccionaron alea. toriamente
treinta acumuladores que probados. Los datos se registran en la Tabla 12, I ¿Considera usted que las
PESUVEN

especificaciones del fabricante se satisfacen en esta remesa? (Cada acumulador contiene 24 placas
positivas.)

12.4 acumuladores. TABLA

64.5 109.9 1.25 10


11 66.5 16 107.8 3.19
12 63.5 110.2 1.22
13 63.8 12 112.0 1.81
14 63.5 12 108.5 1.57
15 64.0 12 110.4 1.68
16 64.0 12 111.8
63.2 12 111.9 1 68
18 66.5 12 112.5 1.00
19 63.0 12 109.2 2.44
20 .62.0 12 106.1 2.23
21 63.0 12 112.0 0.95
63.5 12 112.8 1.75
64.0 12 110.2 2.05
24 63.5 12 108,0 2.37
25 66.5 112.4 0.79

26 67.0 12 106.6 2.47


27 66.5 12 110.5 1.62
28 65,5 12 113.3 1.23
29 66.5 12 112.7 1.23
30 66.0 12 110.6 1.68

12.2 El Departamento de Rentas Públicas en un estado cuidaduamente lu cifra del ünpuesto sobre ventas de
las tiendas con ventas al menudm. Si el departamentoconsidera que una empre ea e-gtá reportando menos
de sus ventu grayabl", puede ordenar una auditorfa de lu cuenta de
296 12
la empresa. Una auditoria semejante fue ordenada para una empresa con muchas sucursales de
ventas al menudeo a trave del estado. Los datos sobre las ventas gravables fueron conservados para
cada tienda. Por lo tanto los auditores decidieron muestrear aleatoriamente las ventas por meses-
tienda. Esto es, los datos de las ventas fueron obtenidos para los meses seleccionados
aleatoriamente en las tiendas seleccionadas aleatoriamente. Luego los auditores registraron el total
de las ventas gravables para compararlo con las ventas gravables reportadas por la tienda. El
Departamento de Rentas Públicas quiere estimar el incremento proporcional en las ventas gravables
revisadas sobre las ventas gravables reportadas. ¿Cómo puede usted hacer esta estimación, con un
límite para el error, según los datos que se presentan en la tabla adjunta para 15

meses-tienda?(Las cifras están en miles de dólares.)

Ven Venta.

1 31.5 23.2

2 31.8 22.9

3 21.1 17.6

4 34.7 29.8

5 21 .o 16.8

6 40.8 35.1

7 21.3 23.3

8 31.3 26.1

9 19.9 18.8

10 30.9 25.7

11 32.2 29.6

12 32.4 27.1

13 31.7 29.9

14 28.8 31.5

15 30.7 28.4
PESUVEN

12.8 La Oficina de Estudios del Departamento de Asuntos Internos de Estados Unidos mo. nitorea
el flujo de agua en los ríos de Estados Unidos. Los datos que se presentan en la Tabla 12.2
muestran las proporciones medias del flujo diario, en pies cúbicos por segundo, para una estación
de control específica en cierto río de Florida para un pediodo de dos años, 1977-1979. (a) Tome
una muestra de 20 medicionesde los datos para calcular una estimación rápida de la proporción
promedio del flujo diario para el periodo de dos años. Establezca un límite para el error de
estimación.
(b) Estime la razón de la proporción promediode flujo en abril con la proporción promedio de flujo
m septiembre, y establezca un límite para el error de estimación. ¿Considera que aquí necesita
datos de más años para hacer una buena etimación?
12.4 Los guardabosques estiman el volumen neto de los arboles en pie midiendo el diámetro a la altura del
pecho y la altura del arbol y, posteriormente, observando los defectos visibles y otras
caracteristicas del árbol. H volumen real de madera útil solamente puede encontrarse después de
que el árbol es dembado y procesado en tablazón. Para una muestra de 20 arboles, los datos el
volumen estimado y el volumen real están registrados, junto con la especie del árbol, en la tabla
adjunta. El volumen total estimado para todos los 180 arboles es 60,000 pies de tabla. Use los datos
de la tabla para resolverlos problemas siguientes.
(a) Estime el total real de pies de tabla para los 180 árboles.
(b) Estime la proporción de arboles de abeto balsámico para el sitio completo.
TABLA 42.2 cb agua [en pes cúbicos por segundo), de octubre 1977 a septiembre de 1978 (valores medios]
1977-1978

Dic. Feb. May. JuL

51 3.6 13 37 9.8 16 3.6 9.3 26 127


45 11 3.6 14 26 18 4.1 3.4 47 122
42 11 4.0 5.7 17 26 18 3.6 2.5 48 126
38 11 3.3 4.8 16 54 8.0 25 132
35 9.5 2.9 14 55 8.7 27 12 34 136
32 3.5 5.3 45 19 12 33 139
2.6 5.9 12 37 9.2 50 12 2.6 36 143
28 5.5 2.6 12 34 9.5 49 2.2 38 133
28 5.5 2.8 31 111 9.9 28 126
10 27 6.3 3.1 8.8 47 216 10 22 5.3 123
11 26 6.0 44 134 11 20 6.8 6.6 78 120
12 27 4.8 2.8 35 91 11 18 6.8 11 85 116
13 4.7 2.6 11 28 77 12 18 6.8 88 114
24 5.0 2.6 15 25 13 17 6.8 114
15 23 5.5 2.8 12 24 13 15 6.1 98

16 23 5.5 5.4 9.3 35 12 14 6.8 38 96 86


17 23 6.0 6.2 112 50 13 13 6.8 7.7 98 81
18 22 6.0 5.6 17 234 42 14 19 103 77
19 21 5.7 4.7 18 243 14 4.7 78
21 4.0 138 30 17 14 65 127 75
21 20 4.1 125 27 17 13 4.1 35 119 60
22 19 5.6 4.2 29 113 21 16 12 3.3 20 104 49
16 7.5 4.9 26 98 16 14 9.6 4.1 17 96
24 82 14 14 4.1 14 93 31
25 17 4.8 5.0 23 69 13 14 7.1 3.7 13 91 24
ΤΑΚΑΙ2.2

26 16 4.4 6.1 23 58 12 16 6.9 3.0 22 90 24


27 15 4.3 5.9 23 12 17 29 91 19
28 14 3.6 5.0 19 41 11 12 27 24 98 13
29 13 3.8 52 18 11 9.5 2.8 22 95 9.6
30 13 3.8 54 16 9.5 16 4.6 7.9 19 100 85
31 12 6.8 14 9.6 26 20

0.56
Ι9-7&Ι979
11 4.6 0.70 3.0 7.5 16 44 275 14 6.2 150 150
12 5.6 0.76 3.4 27 16 37 12 6.8 490 145
13 0.74 3.1 59 15 33 9.9 185 11 11 379 226

0.80 49 15 31 185 9.6 14 296 314


15 5.7 0.87 3.5 30 15 160 8.6 296 287

16 5.0 0.96 3.1 22 15 25 7.8 140 12 264 333


17 3.0 19 15 21 6.4 126 7.3 14 281 324
18 4.5 1.1 2.6 17 14 21 116 6.4 11 261
19 1.1 3.1 14 95 10 228 276
5.8 1.1 13 13 16 78 5.9 10 337 254
21 6.6 1.1 5.6 12 16 6.8 76 5.8 16 331 235
22 7.9 19 12 5.9 74 5.6 14 281 472
23 9.6 8.6 17 12 17 4.8 62 5.2 14
472
24 10 33 13 20 5.0 5.1 19 321 897
25 5.6 2.2 11 56 18 5.9 82 4.7 764

2.0 12 106 16 4.8 70 3.7 17 296


5.8 2.0 15 62 13 60 3.9 12 328 786
28 7.6 24 36 12 54 7.2 11 305
3.8 2.6 19 12 3.7 49 14 10 580
2.7 .93 12 11 3.6 45 11 465
31 8.8 12
41 12492
197.6 33.44 651 887 214.0 357.2 7189 11867

3
F.E•te: U. S. Dcprtmcnt of Interior, Gcologial Survcy.
300 12 RESUMEN

(c) Estime el total real de pies de tabla de abeto balsámico en el sitio.


(d) Estimeel total real de pies de tabla de abeto balsámico si hay 1 IO arboles de abeto
balsámico en el sitio.
Establezca límites para el error de estimación en los cuatrot casos.

130 141 s 450 474 s 268 301


227 215
190 210
432 s 501 487 397 368 248
262
s 184 195
s 230 280 287 243
312 255 260 282
s 410 375 s 325 280
422 490 s 268 325 250

210
195 236

125 La Agencia de Protección del Medio Ambiente y la Universidad de Florida recientemente


cooperaron en un amplio estudio sobre los efectos posibles del agua potableen el
padecimiento de litiasis renal. En las regiones de las Carolinas y las fueron
muatreabs pacientes con litiasis renal.
Tamaño de muestra 363 467 259 191
Edad 42.2 (10.9) 45.1 (10.2) 42.5 (10.8) 46.4 (9.8)
Calcio (en partes por
millón) 11.0 (15.1) 11.3 (16.6) 42.4(31.8) 40.1 (28.4)
Proporción de fumadores 0.93 0.78 0.57 0.61
Se muestrearon pacientes con litiasis renal en los estados de las Rocallosas y las
Los pacientes fueron divididos en "con cálculos recientes" (el incidente actual es su
primer contacto con el padecimiento de litiasis renal) y "con cálculos recurrentes". En la
tabla adjunta están registradas las mediciones sobre tres variables de interés: edad del
paciente, cantidad de calcio en el agua potable de su casa y actividad de fumar. (Las
mediciones son promedioso proporciones; las desviaciones estándar se indican entre
paréntesis.)
EJEFCCOS 301
(a) Estime la edad promedio de todos los pacientes con el padecimiento en la población y
tablezca un límite para el error de estimación.
(b) Estime la concentración de calcio promedio en el agua potable suministrada para los pacientes
con la enfermedad en las Carolinas. Establezca un límite para el error de estimación.
(c) Estimela concentración de calcio promedioen el agua potable suministrada para los pacientes
con el padecimiento en las Rocallosas. Establezca un límite para el error de estimación.
¿Difiere considerablemente la respuesta de esta parte de la dada a la parte (b)?
(d) Estime la proporción de fumadores en los pacientes con cálculos recientes y establezca un
5mite para el error de estimación.
12.6 En el Ejercicio 12.5 los datos fueron recolectados muestreando primero los hospitales de las dos
regiones y posteriormente muestreando a los pacientes con litiasis renal dentro de los hospitales.
Explique cómo realizaríael análisis solicitadoen el Ejercicio 12.5 con los datos suministradospor
los hospitales. ¿Qué datos adicionales necesitaría?
12.7 Suponga que en el Ejercicio 12.6 los hospitales dentro de las regiones varían significativamente en
tamaño. (Cómo puede usar ventajosamente la información sobre el tamaño del hospital en su
diseño de muestreo?
128 Los efectos tóxicos de substancias químicas en peces son medidos en el laboratorio sometiendo a cierta
especie de kr:z a diversas concentracionesde una sustancia químicaañadida al agua. La
concentración de la sustancia química que es letal para el 50% de los peces, en el periodo de
prueba, denomina la CL 50. Las pruebas en un tanque donde el agua no es renovada durante el
proceso de prueba se llaman Si constantemente fluye agua nueva hacia el tanque, la prueba se
llama de flujo continuo. Las pruebas estáticasson más baratas y fáciles de llevar a cabo, pero las
pruebas de flujo continuo aproximan mejor a la realidad. Por lo tanto los experimentadores
frecuentemente estiman un factor de conversión de estática a flujo continuo. De acuerdo con los
datos que se presentan en la tabla adjunta sobre 12 pruebas estáticas y de flujo continuo (las
mediciones están en miligramos por litro), estime un factor por el cual debe ser multiplicado el
resultado de una prueba estática para hacerlo comparable con el resultado de una prueba de flujo
continuo. Establezca un límite para el error de estimación.

CL n,
CL 50,
Malathion 0.5 0.9
DDT 0.8 1.8
Parathion 4.5 2.1
Endrin 5.5 1.3
Azinphosrriethyl 1.2 0.2
DDT 3.5 2.3
Parathion 5.0 1.5
Endrin 0.5 3.2
Zectran 83.0 12.0
Chlordane 4.0 10.0
Fenthion 5.8 12.0
Malathion 12.0 90.0

Fuente: Federal Rqister, Vol. 43. No. 97; mayo, 18, 1978.
12.9 Remítase al Ejercicio 12.8. ¿Puede usted sugerir algunas mejoras en el muestreo para obtener una
mejor estimación del factor de conversión?
12.10 Vuelva al Ejercicio 12.2. {Puede usted sugerir un mejor diseño para el muestreo de las tiendas con
ventas al menudeo? Tenga presenteque las ventas varfan de una tienda a otra y de un mes a otro.
302 12 RESUMEN

12.11 Un agricultor entrega a un ingenio azúcar bruto a granel, transportado en grandes camiones
tanque. La cantidad que el ingenio paga por la carga de azúcar de un camión depende del
contenido de azúcar puro en la carga. Este contenido de azúcar puro se determina
mediante el análisis de muestras pequeñas de prueba en el laboratorio; cada muestra de
prueba contiene su ficiente azúcar bruto para llenar un tubo de ensayo. Analice los
diseños de muestreo posibles para obtener estas muestras de prueba. (Solamente
pueden realizarse unos pocos muestreos de prueba por carga de azúcar de un camión.)
14.12 La lana de Australia es inspeccionada tal como llega a Estados Unidos y se paga un impuesto
de importación con base en el contenido de lana pura. De la parte central de fardos se
toman muestras que son analizadas para determinarla proprci6n de lana pura en el fardo.
Analice los diseños de muestreo posibles para la estimación del contenido de lana pura
en un cargamento de fardos.
1213 La Comisión de Servicios Públicos de Florida exige a las compañías expendedoras de gas
natural asegurarse de que los medidores conectados a las casas y edificios comerciales
estén operando correctamente. Sin embargo, las compañías aprueban un plan de
inspección por muestreo más bien que un anual detallado de cada medidor.
Suponga que un 20% de los medido• res propiedad de una compañía deben ser
inspeccionados cada año, y la proporción de los medi dores de la compañfa que etán
operando correctamente debe ser estimada. (Si la proporción es baja, se obligara a la
empresa a revisar más medidores.) Sugiera un plan de muestreo para esta política de
inspección, teniendo en cuenta los puntos siguientes: (1 ) Los medidores son de años
variables; (2) el consumo de gas varía considerablementede un usuario a otro y (S) los
medidores son conectadas y desconectados continuamente.
APÉNDICE
BIBLIOGRAFIA

Bailey, A. D. 1981. Statistical Auditing. New York: Harcourt Brace Jovanovich.


Bailey, N. T. J. 1951. "On Estimating the Sized Mobile Populations from
Recaptive Data". Biometrika,
Bergsten, J. W. 1979. "Some Methodological Results from Four Statewide
Telephone Surveys Using Random Digit Dialing". American Statistical
Association Pro. ceedings of the Section on Survey Research Methods. pp.
239—243.
Bryson, M. C. 1976. "The Literary Digest Poll: Making of a Statistical Myth.
Ameri• can Statistician, 30 (4): 184— 185.
Bureau (f Labor Statistics, Handbook of Methods, vols. I y Il. 1982. Washington,
D.C.: U.S. Department of Labor.
Campbell, C. yJoiner, B. 1973. "How to Get the Answer Without Being Sure You
Asked the Question". American Statistician, 27:229—231.
Caners in Statistics. 1980. Washington, D.C.: American Statistical Association.
Chapman, D. G. 1952. "Inverse, Multiple and Sequential Sample Censuses
Biometrics, 8:286—306.
Cochran, W. G. 1959. "Estimationof Bacterial Densities by Means of the 'Most
Probable Number' . Biometrics, 6:105.
1977. Sampling Techniques. 3a. ed. New York: Wiley.
Deming, W. E. 1960. Sample Design Business Research. New York: Wiley.
Frankel, L. R. 1976. "Statisticians and People—The Statistician's Responsibility".
Journal of the American Statistical Association, 7:9—16.
Gallup, George. 1972. The Sophisticated Poll Watcher'sGuide. Princeton, N.J. prin.
ceton Opinion Press.
Greenberg, B. G.; Kuebler, R. R.; Abernathy, J. R.: yHorvitz, D. G. 1971.
"Application of Randomized Respnse Technique in Obtaining Quantitative
Data". Journal of the American Statistical Association, 66:245—250.
303
Hansen, M. H.; Hurwitz, W. N.; y Madow, W. G. 1953. Sample Survey Methods and Theoy, vol.
1. New York: Wiley.
Harper, W. B.; Westfall, R.; y Stasch, S. F. 1977. Marketing Research. Homewood, Ill.: Irwin.
Jessen, Raymond T. 1978. Statistical Survey Techniques. New York: Wiley.
Jones, H. L. 1956. "lnvestigation of the Properties of a Sample Mean by Employing Random
Subsample Means". Journal of the American Statistical Association,
Kinnear, T. C. y Taylor, J. R. 1983. Marketing Research, An Applied Approach. New York:
McGraw-Hill.
Kish, L. 1965. Survey Sampling. New York: Wiley.
Levy, P. S. y Lemeshow, S. 1980. Samplingfor Health Hofessionals. Belmont, Calif. : Lifetime
Learning.
Leysieffer, F. y Wamer, S. 1976. "RespondentJeopardy and Optimal Designs in Randomized
Response Models". Journal of the American Statistical Association,

Mendenhall, W. 1983. Zntroduction to Bobability and Statistics. 6a. ed. Boston: Duxbury Press.
Mosby, H. S. , ed. 1969. Wildlife Investigational Techniques. 3a. ed. Washington, D.C.: Wildlife
Society.
Raj, Des. 1968. Sampling Theory. New York: McGraw-Hill.
Ray, A. A. , ed. 1982. SAS Users Guide: Statistics. Cary, N.C.: SAS Institute.
Roberts, D. 1978. Statistical Auditing. New York: American Institute of Certified Accountants.
Ryan, T. A.; Joiner, B. L.; y Ryan, B. F. 1976. Minitab Student Handbook. Boston: Duxbury
Press.
Schuman, Howard y Presser, Stanley. 1981. Questions and Answers in Attitude Surveys. New
York: Academic Press.
Stephan, Frederick F. y McCarthy, Philip M. 1958. Sampling Opinions, An Analysis of Survey
Procedure. New York: Wiley.
Sudman, Seymour. 1976. Applied Sampling. New York: Academic Press.
Swindel, B. F. 1983. "Choice of Size and Number of Quadrats to Density from Frequency in
Poisson and Binomially Dispersed Populations". Biometrics, 39:455.
Tanur,J. M.; Moste11er,F.•, Kruskal, W. H.; Pieters, R. S.; yRising, G. R. eds. 1972. Statistics: A
Guide to the Unknown. San Francisco: Holden—Day.
Wamer, S. L. 1965. "Randomized Response: A Survey Technique for Eliminating Evasive
Answer Bias". Journal of the American Statistical Association,

Weeks, M. F.; Jones, B. L.; Folsom, R. E.; y Benrud, C. H. 1980. "Optirna_l Times to Contact
Sample Households". Public Opinion Quaterly, 44:101— 114 Williams, B. 1978. A Sampler on
Sampling. New York: Wiley.
TABLAS 305

T ABlAS
TABLA 1 Areas de h curva normal

ο. οο 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 ο.οοοο 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 01103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 α 1915 0.1950 0.1985 0.2019 0.2054 0.2088 02123 0.2157 0.2190 0.2224
0.6 02257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.261 ι 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 ύ62Ι
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 03907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.41 15 0.4131 0.4147 0.4162 0.4177
0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4645
1.7 0.4554 0.4564 0.4573 0.4682 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4867
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.8 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4919 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4982 0.4984 0.4984 0.4985 0.4986 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

VersiOnabreviada de Ια Tabla Ι de Slalistical Tablesand Formlllas, pm• Α. Hald York;


John Wlley & Soru, lnc., 1952). Reprodudda con autorizaci(inde Α. l--lald y de Ια
editorial,lohd Wiley & Sons, lnc.
TABLA 2 Nürneros aleatfflos
Reng16n/ col. (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
(11) (12) (13) .(14)

1 10480 15011 01536 02011 81647 91646 69179 14194 62590 36207 20969 99570 91291 90700
2 22368 46573 25595 85393 30995 89198 27982 53402 93965 34095 52666 19174 39615 99505

3 24130 48360 22527 97265 76393 64809 15179 24830 49340 32081 30680 19655 63348 58629

4 42167 93093 06243 61680 07856 16376 39440 53537 71341 57004 00849 74917 97758 16379
5 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 14110 06927 01263 54613

6 77921 06907 11008 42751 27756 53498 18602 70659 90655 15053 21916 81825 44394 42880

7 99562 72905 56420 69994 98872 31016 71194 18738 44013 48840 63213 21069 10634 12952
8 96301 91977 05463 07972 18876 20922 94595 56869 69014 60045 18425 84903 42508 32307
9 89579 14342 63661 10281 17453 18103 57740 84378 25331 12566 58678 44947 05585 56941

10 85475 36857 53342 53988 53060 59533 38867 62300 08158 17983 16439 11458 18593 64952

11 28918 69578 88231 33276 70997 79936 56865 05859 90106 31595 01547 85590 91610 78188
12 63553 40961 48235 03427 49626 69445 18663 72695 52180 20847 12234 90511 33703 90322
13 09429 93969 52636 92737 88974 33488 36320 17617 30015 08272 84115 27156 30613 74952
14 10365 61129 87529 85689 48237 52267 67689 93394 01511 26358 85104 20285 29975 89868

15 07119 97336 71048 08178 77233 13916 47564 81056 97735 85977 29372 74461 28551 90707

16 51085 12765 51821 51259 77452 16308 60756 92144 49442 53900 70960 63990 75601 40719
17 02368 21382 52404 60268 89368 19885 55322 44819 01188 65255 64835 44919 05944 55157

18 01011 54092 33362 94904 31273 04146 18594 29852 71585 85030 51132 01915 92747 64951

19 52162 53916 46369 58586 23216 14513 83149 98736 23495 64350 94738 17752 35156 35749

20 07056 97628 33787 09998 42698 06691 76988 13602 51851 46104 88916 19509 25625 58104

21 48663 91245 85828 14346 09172 30168 90229 04734 59193 22178 30421 61666 99904 32812
22 54164 58492 22421 74103 47070 25306 76468 26384 58151 06646 21524 15227 96909 44592

23 32639 32363 05597 24200 13363 38005 94342 28728 35806 06912 17012 64161 18296 22851

24 27001 87637 87308 58731 00256 45834 15398 46557 41135 10367 07684 36188 18510

25 33062 28834 07351 19731 92420 60952 61280 50001 67658 32586 86679 50720 94953
2681525 72295 04839 96423 24878 82651 66566 14778 76797 14780 13300 87074 79666 95725
2729676 20591 68086 26432 46901 20849 89768 81536 86645 12659 92259 57102 80428 25280
2800742 57392 39064 66432 84673 40027 32832 61362 98947 96067 64760 64584 96096 98253
2905366 04213 2%69 26422 44407 44048 37937 63904 45766 66134 75470 66520 34693 90449
3091921 26418 64117 94305 26766 25940 39972 22209 71500 64568 91402 42416 07844 69618
3100582 04711 87917 77341 42206 35126 74087 99547 81817 42607 43808 76655 62028 76630
3200725 69884 62797 56170 86324 88072 76222 36086 84637 93161 76038 65855 77919 88006
33690M 65795 95876 55293 18988 27354 26575 08625 40801 59920 29841 80150 12777 48501
3425976 57948 29888 88604 67917 48708 18912 82271 65424 69774 33611 54262 85963 03547
3509763 83473 73577 12908 30883 18317 28290 35797 05998 41688 34952 37888 38917 88050
3691567 42595 27958 30134 04024 86385 29880 99730 55536 84855 29080 09250 79656 73211
3717955 $349 90999 49127 20044 59931 06115 20542 18059 02008 73708 83517 36103 42791
3846503 18584 18845 49618 02304 51038 20655 58727 28168 15475 56942 53389 20562 87338
3992157 89634 94824 78171 84610 82834 09922 25417 44137 48413 25555 21246 35509 20468
4014577 62765 81263 39667 47358 56873 56307 61607 49518 89656 2mö3 77490 18062
4198427 07523 33362 64270 01638 92477 66969 98420 04880 45585 46565 04102 46880 45709
4234914 63976 88720 82765 34476 17032 87589 40836 32427 70002 70663 88863 77775 69348
4370060 28277 39475 46473 23219 53416 94970 25832 69975 94884 19661 72828 00102 66794
4453976 54914 06990 67245 68350 82948 11398 42878 80287 88267 47363 46634 0654 L 97809
4576072 29515 40980 07391 58745 25774 22987 80059 39911 96189 41151 14222 60697 59583

4690725 52210 83974 29992 65831 38857 83765 55657 14361 31720 57375 $228 41546
4764364 67412 33339 31926 14883 24413 59744 92351 97473 89286 35931 04no 23726 51900
4808962 00358 31662 25388 61642 34072 81249 35648 56891 69352 48373 45578 78547 81788
4995012 68379 93526 70765 10592 04542 76463 54328 02349 17247 28865 14777 62730 92277
5015664 10493 20492 38391 91132 21999 59516 81652 27195 48223 46751 22923 32261 85653
5116408 81899 04153 53381 79401 21438 83035 92350 36693 31238 59649 91754 72772
5218629 81953 05520 91962 04739 13092 97662 24822 94730 06496 35090 04822 86774 98289
5373115 35101 47498 87637 99m6 71060 88824 71013 18735 20286 23153 72924 35165 43040
5457491 16703 23167 49323 45021 33132 12544 41035 80780 45393 44812 12515 98931 91202
5530405 83946 23792 14422 15059 45799 22716 19792 09983 74353 68668 30429 70735
Continüa
TABLA 2 Continuaciön

Reng16n/ col. (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13)
(14)

16631 35006 85900 98275 32388 52390 16815 69298 82732 38480 73817 32523 41961 44437
57 96773 20206 42559 78985 05300 22164 24369 54224 35083 19687 11052 91491 60383 19746
58 38935 64202 14349 82674 66523 44133 00697 35552 35970 19124 63318 29686 03387 59846
59 31624 76384 17403 53363 44167 64486 64758 75366 76554 31601 12614 33072 60332 92325
60 78919 19474 23632 27889 47914 02584 37680 20801 72152 39339 34806 08930 85001 87820
61 03931 33309 57047 74211 63445 17361 62825 39908 05607 91284 68833 25570 38818 46920
62 74426 33278 43972 10119 89917 15665 52872 73823 73144 88662 88970 74492 51805 99378
63 09066 00903 20795 95452 92648 45454 09552 88815 16553 51125 79375 97596 16296 66092
64 42238 12426 87025 14267 20979 04508 64535 31355 86064 29472 47689 05974 52468 16834
€5 16153 08002 26504
29820
66 21457 40742
02050
67 21581 57802 83197
68 55612 78095 99324
69 44657 66999 46949
70 91340 84979
31935
71 91227 21199 66321
72 50001 38140 72958
73 65390 05224 83944
74 27504 96131 39117
75 37169 94851
76 11508 70225 06694
77 37449 30362 85922
78 46515 70331 42416
30986 46583
79 81223
80 63798 64995
41744 81959 65642 74240 56302 00033 67107 77510 70625 28725 34191
96783 29400 21840 15035 34537 33310 06116 95240 15957 16572 06004
89728 17937 37621 47075 42080 97403 48626 68995 43805 33386 21597
33732 05810 24813 86902 60397 16489 03264 88525 42786 05269 92532
51281 84463 60563 79312 93454 68876 25471 93911 25650 12682 73572
81973 37949 61023 43997 15263 80644 43942 89203 71795 99533 50501
27022 84067 05462 35216 14486 29891 68607 41867 14951 91696 85065
19924 72163 09538 12151 06878 91903 18749 34405 56087 82790 70925
28609 81406 39147 25549 48542 42627 45233 57202 94617 23772 07896
41575 10573 08619 64482 73923 36152 05184 94142 25299 84387 34925
89632 00959 16487 65536 49071 39782 17095 02330 74301 00275 48280
38351 19444 66499 71945 05422 13442 78675 84081 66938 93654 59894
54690 04052 53115 62757 95348 78662 11163 81651 50245 34971 52924
38329 57015 15765 97161 17869 45349 61796 66345 81073 49106 79860
58353 21532 30502 32305 86482 05174 07901 54339 58861 74818 46942
09785 44160 78128 83991 42865 92520 83531 80377 35909 81250 54238
8182486 84846 99254 67632 43218 50076 21361 64816 51202 88124 41870 52689 51275 83556
8221885 32906 92431 09060 64297 51674 64126 62570 26123 05155 59194 52799 28225 85762
8360336 98782 07408 53458 13564 59089 26445 29789 85205 41001 12535 12133 14645 23541
8443937 46891 24010 25560 86355 33941 25786 54990 71899 15475 95434 98227 21824 19585
8597656 63175 89303 16275 07100 92063 21942 18611 47348 20203 18534 03862 78095 50136
8603299 01221 05418 38982 55758 92237 26759 86367 21216 98442 08303 56613 91511 75928
8779626 06486 03574 17668 07785 76020 79924 25651 83325 88428 85076 72811 22717 50585
8885636 68335 47539 03129 65651 11977 02510 26113 99447 68645 34327 15152 55230 93448
8918039 14367 61337 06177 12143 46609 32989 74014 64708 00533 35398 58408 13261 47908
9008362 15656 60627 36478 65648 16764 53412 09013 07832 41574 17639 82163 60859 75567
9179556 29068 04142 16268 15387 12856 66227 38358 22478 73373 88732 09443 82558 05250
9292608 82674 27072 32534 17075 27698 98204 63863 11951 34648 88022 56148 34925 57031
9323982 25835 40055 67006 12293 02753 14827 23235 35071 99704 37543 11601 35503 85171
9409915 96306 05908 97901 28395 14186 00821 80703 70426 75647 76310 88717 37890 40129
9559037 33300 26695 62247 69927 76123 50842 43834 86654 70959 79725 93872 28117 19233
9642488 78077 69882 61657 34136 79180 97526 43092 04098 73571 80799 76536 71255 64239
9746764 86273 63003 93017 31204 36692 40202 35275 57306 55543 53203 18098 47625 88684
9803237 45430 55417 63282 90816 17349 88298 90183 36600 78406 06216 95787 42579 90730
9986591 81482 52667 61582 14972 90053 89534 76036 49199 43716 97548 04379 46370 28672
10038534 01715 94964 87288 65680 43772 39560 12918 86537 62738 19636 51132 25739 56947

Veni6n abreviada de Handboohof Tablesfor hobabiEty and Statetics, Segunda Edici6n. editadopor William H. Beyer (Cleveland: The Chemical
Rubber Publishing Company. 1968). Reproducida con autorizaci6n. Copyright CRC Pre", Inc., Boca Raton. FL
TABLA 3 Poblaciön de Esta%s Lhüs

Estados Unidos 226,505 203,302 11.4 15.3 8.8 13.8 2.0 1.1.2 73 11.5 $5,751
Noreste 49.137 49.061 0.2 12.9 13.1 —3.7 12.1 9.2 5,882
Nueva 12,348 11.847 12.5 11.4 0.0 12.0 82 8.6 5.814
Maine 1,125 994 13.2 14.5 9.3 10.4 5.2 12.3 30 0.2 4,627
New Hampshire 921 738 24.8 14.3 8.5 10.4 14.3 11.10.2 5,365 Verrnont 511 445
15.0 14.613.6 5.0 11.30.2 4,770 Massachusetts 5,737 5,689 0.8 11.911.1 —1.6 12.33.3
5,826 Rhode Island 947 950 —0.3 12.413.6 -5.2 13.22.7 5,589 3,108 3.032 2.5
12.0 11.6 —1.2 92 6,564
Atlåntico Medio 36.788 37,213 —1.1 13.0 9.6 13.7 12.1 11.0 5,904
New York 17.557 18.241 -3.8 13.2 14.0 —7.1 12.0 88 12.5 5,849
New Jersey 7,364 7,171 12.8 9.0 13.0 11.5 10.8 6492
t 1,867 1 t,801 0.6 12.9 10.2 13.7 12.7 8.7
5,622
Norte Central 58,854 56,500 4.0 15.3 8.9 13.6 -2.8 11.25,868
N. Central 41,670 40.263 3.5 15.2 13.8 —3.7 10.6 77 10.4 6,003
Ohio 10,797 10,657 15.0 9.0 13.3 —5.3 10.6 co 9.4 5,796
5,490 5,195 5.7 15.5 8.8 13.1 —2.9 10.6 70 6.7 5.751
Illinois 11,418 11,110 2.8 15.5 9.2 15.7 10.9 81 15.4 6.358
Michigan 9,258 8,882 4.2 15.2 13.8 9.6 6,130
Wisconsin 4,705 4,418 6.5 14.7 11.2 1.2 11.8 63 3.2 5.660
N. Central Oeste 17,184 16,328 5.2 15.5 9.3 13.212.6 53 5.0
5.523 4,077 3,806 15.4 12.0 11.6 1.3 5,778 2,913
2,825 3.1 15.312.613.1 37 5.439 Missouri 4,917 4.678
10.
15.0 14.8 13.0 11.8 5.493 North Dakota 653 618 5.6 17.3
2

Nebraska 1,570 1,485 5.7 16.0 9.2 13.0 0.0 13.0 45 5.326
2,353 2.249 15.7 9.2 12.5 —0.2 12.7 46 5.6 5,861
Sur 75.349 62,893 20.0 16.0 9.0 15.3 6.6 11.3 18.8 5,289
Atlåntico Sur 36,943 30,679 20.4 14.6 15.5 7.8 11.9 20.8 5,516
13.5 12.1 35 0.3 4,856 South Dakota 690 3.6 17.713.5 —3.5 13.1 28
4,529
Delaware 595 548 8.6 14.9 13.2 13.4
5,883

i
Maryland 4.216 3,924 7.5 13.3 8.0 14.7 0.1 9.220.7 6,561 D. of Columbia 638 757 —15.7 14.0 10.5 27.3 — 17.4 11.171.7
7.074 Virginia 5,3464.651 14.9 14.2 7.9 13.815.9 5,883
West Virginia 1,950 1.744 11.8 15.7 10.6 15.1 2.7 12.0 36 4,851
N. Carolina 5,874 5,084 15.5 14.8 16.6 3.0 10.2 45 22.4 4,876
S. Carolina f 8.6
2.591 20.4 17.1 4.0 9.2 31.6 4,628

5,464 4,588 19.1 16.6 15.4 2.8 27.2 5,071


Florida 9, 740 6,791 43.3 13.1 11.0 14.1 27.2 18.1 15.5 5,761

S. Central Fste 14,663 12,808 14.5 t 6.4 15.4 11.9 52 20.6 €686
3,661 3.221 13.7 16.4 9.6 12.7 11.2 4,851
Tennessee 4,591 3.926 16.9 15.4 8.9 14.8 11 2 16.4 4,845
Alabama 3,890 3,444 12.9 16.2 9.3 16.1 2.2 11.2 26.7 4,712
Mississippi 2,521 2,217 13.7 18.4 9.7 18.7 0.3 35.6 4,120
S. Central Oeste 23,743 19,326 22.9 17.8 8.6 15.0 7.2 10.4 14.6 5,313
Arbnsas 2.286. 1,923 18.8 16.1 10.1 16.4 7.1 13.7 4,443
Louisana 4.204 3,645 15.3 18.8 17.3 28.6 4,790
Oklahoma 3,025 Z559 18.2 16.1 9.8 14.3 6.9 12.5 6.7 5245
Texas 14.22> 27.1 18.2 8.0 14.3 9.3 9.7 5,633
li.6
43,165 34,838 23.9 17.0 7.7 9.5 10.0 5.3 6,238
i2.i
Montana 11.368 8.290 37.1 19.5 7.2 12.2 16.6 9.5 61
Montana -787 694 13.3 17.4 11.6 10.6 24 5.288
Idaho 944 713 32.4 22.0 11.7 14.0 10.0 17 0.0 3.072
Wyoming 471 332 41.6 20.4 7.3 13.0 24.2 6,454
Colorado 2,889 2,210 30.7 16.3 6.8 11.2 15,8 8.6 6.118
New Mexico 1,300 1,017 27.8 19.8 7.0 14.1 1.7 4,Éy
2.718 1,775 53.1 18.2 13.1 26.1 11.8 75 5.545
Uåh 1,461 1059 37.9 29.5 6.0 11.4 7.6 7.7 0.7 5.135
Nevada 799 489 63.5 16.5 7.6 12.5 33.8 8.6 6.3 6,533
31.797 26.548 19.8 16.1 7.8 12.0 10.2
6,459
Washington 4,130 3,413 210 15.5 8.0 12.5 10.6 71 6.394
2,633 A092 25.9 15.9 12.9 14.6 11.6 59 1.3 6.018
Califomia 23.669 19.971 18.5 16.0 11.8 6.2 10.2 7.8
303 32.4 21.6 14.4 15.6 2.6 9.170
Hawaii 965 770 253 18.6 11.1 4.6 0.7

Fuente: Reproducido con autorizaci6n de Po*ion Reference Bureau, Inc„ Washington, D.C.
312 APÉNDICE
En esta sección presentamos la deducción matemática de algunas de las fórmulas
importantes usadas a través del texto. Suponemos que el lector tiene algún
conocimiento sobre teoría de la probabilidad, de manera que las esperanzas,
varianzasy covarianzas pueden ser manipuladas con poca explicación.
Sea y, una variable aleatoria con distribución de probabilidad p(y). Entonces
de la teoría elemental de la probabilidad tenemos la siguiente definición:
= E (y — = 0-2
donde E denota el valor esperado, V denota la varianza y g(y) es una función de y.
Suponga que y„ h, . . . , y, denota una muestra de tamaño n y que al, . . . , a,
son constantes. Si

entonces E(U)= E aiE(Yi)


Cov(y, Y.)
(A.2)

donde Cov denota las covarianzas. Si las son no


correlacionadas, entonces

(A.3)

MUESTREO IRRESTRICTO
Suponga que Y" • • • denota una muestra irrestricta aleatoria de una población
de valores {u„ u.z, . . • , Considerando por d misma (una muestra irrestricta
aleatoria de tamano uno), tenemos

Por la Ecuación (A. 1)


DEDUCClöN ALGUNOS

34,

Tambi&n, Cov(Yi, Yj)

AI aplicar esto y la Ecuaciön (A.2), podemos encontrar la varianza


de f. Tenemos

puesto que hay n (n - 1)/2 seleccionados de los enteros I, 2,


. , n de manera que i « j. Por 10 tanto

Ahora demostramos que [(N — n)/ insesgado de


V(f). Tenemos

E(s2) E
344
Por lo tanto

lo cual quería demostrarse.


Esta deducción resulta en las Ecuaciones(4.2), (4.3) y (4.4). Ahora = Ni es un
estimador insesgado de por la Ecuación (A.l). La Ecuación (4.6) se deriva de la
Ecuación (A.3) como ya se ha demostrado.
Puesto que p realmente es una para los datos {0, 1), p es un estimador insesgado
de p, y la Ecuación (4.16) se deriva directamente, después de observar que

para los datos (O, 1).

MUESTREO ALEATORIO ESTRATIFICADO

En muestreo aleatorio estr