Está en la página 1de 365

1

2
Índice
Pág.

Capítulo 1. Intrducción ....................................................................................................................................................................................... 13


Capítulo 2. Conceptos básicos de estadística.................................................................................................................................................... 16
2.1 Población y muestra ................................................................................................................................................................................ 17

2.2 Variables.................................................................................................................................................................................................... 18

2.3 ¿Qué es una medición? ............................................................................................................................................................................ 20

2.4 Escalas de medición ................................................................................................................................................................................. 21

Escala nominal.......................................................................................................................................................................................... 21

Escala ordinal ........................................................................................................................................................................................... 21

Escala de intervalo ................................................................................................................................................................................... 22

Escala de proporción ............................................................................................................................................................................... 22

2.5 Parámetros y estimadores ....................................................................................................................................................................... 23

2.6 Sumatorias ................................................................................................................................................................................................ 24

Propiedades de las sumatorias ............................................................................................................................................................... 25

2.7 Variable aleatoria ..................................................................................................................................................................................... 26

2.7.1 Variables Aleatorias Discretas ....................................................................................................................................................... 29

2.7.2 Variables Aleatorias Continuas ..................................................................................................................................................... 35

2.8 Teorema Central del Límite .................................................................................................................................................................... 38

2.9 La distribución t-Student ........................................................................................................................................................................ 39

2.10 Tipos de muestreo .................................................................................................................................................................................. 40

2.11 El marco de muestreo ............................................................................................................................................................................ 43

2.12 Pasos a seguir en el diseño de una encuesta ....................................................................................................................................... 45

2.13 Ventajas y desventajas del muestreo ................................................................................................................................................... 49

2.14 Características de una investigación por muestreo............................................................................................................................ 50

2.15 Errores de las encuestas......................................................................................................................................................................... 52

2.16 Muestra preliminar o piloto .................................................................................................................................................................. 53

2.17 Precisión y Exactitud ............................................................................................................................................................................. 53

2.18 Elementos para elegir la precisión o margen de error ....................................................................................................................... 56

2.19 Uso de tablas para la distribución normal estándar y t -Student ..................................................................................................... 59

Distribución normal estándar para n > 30 ........................................................................................................................................... 59

Distribución t-Student para n ≤ 30........................................................................................................................................................ 62

2.20 Filosofía AIPE ......................................................................................................................................................................................... 63

Fundamentos del enfoque AIPE y la importancia de estimaciones exactas ..................................................................................... 65

Pasos del enfoque AIPE........................................................................................................................................................................... 66

Capítulo 3. Muestreo aleatorio simple .............................................................................................................................................................. 73

3
3.1 Definición y tipos de muestreo aleatorio simple .................................................................................................................................. 74

3.2 Selección de una muestra aleatoria simple ........................................................................................................................................... 75

3.3 Estimación de parámetros de interés para promedio bajo MAS ........................................................................................................ 77

Estimación de la media poblacional ......................................................................................................................................................... 77

Estimador de la media y del total muestral .......................................................................................................................................... 77

Estimación de la varianza ....................................................................................................................................................................... 78

Estimador de lavarianza de la media poblacional ............................................................................................................................... 78

Estimadores del total y la varianza del total poblacional.................................................................................................................... 79

Estimadores del total y de la varianza del total muestral ................................................................................................................... 79

Estimación por intervalo ......................................................................................................................................................................... 80

Intervalo de confianza para la estimación del total ............................................................................................................................. 81

Tamaño de la muestra para estimar la media bajo población infinita ............................................................................................... 81

Tamaño de muestra óptimo .................................................................................................................................................................... 84

Aproximación del tamaño de muestra .................................................................................................................................................. 87

Función de densidad de probabilidades del tamaño de muestra para estimar el promedio.......................................................... 88

Comparación de los métodos propuestos ............................................................................................................................................. 90

Tamaño de la muestra para estimar la media bajo población finita .................................................................................................. 92

EJEMPLOS ...................................................................................................................................................................................................... 93

EJERCICIOS .................................................................................................................................................................................................... 99

3.4 Estimación de parámetros de interés para proporción bajo MAS.................................................................................................... 100

Estimación de una proporción poblacional ........................................................................................................................................ 100

La medición ............................................................................................................................................................................................ 101

El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional ................................... 101

La varianza de la población para una proporción ............................................................................................................................. 102

Estimación de la varianza y el error estándar..................................................................................................................................... 103

Media y varianza del estimador de P .................................................................................................................................................. 103

Total poblacional y varianza del estimador de τ................................................................................................................................ 104

Los intervalos de confianza .................................................................................................................................................................. 104

El intervalo de confianza para la estimación de la proporción poblacional ................................................................................... 104

El intervalo de confianza para la estimación del total poblacional .................................................................................................. 104

Varianza acotada de una proporción................................................................................................................................................... 105

Tamaño de muestra bajo población infinita........................................................................................................................................ 105

Derivación del tamaño de muestra óptimo ........................................................................................................................................ 107

El tamaño de muestra para estimar p en poblaciones finitas........................................................................................................... 109

EJEMPLOS .................................................................................................................................................................................................... 110

EJERCICIOS .................................................................................................................................................................................................. 116

4
3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS .................................................................................... 117

Estimación de una proporción poblacional con pruebas imperfectas (Se y Sp menores a uno) ................................................... 117

EJEMPLOS .................................................................................................................................................................................................... 119

EJERCICIOS .................................................................................................................................................................................................. 127

Capítulo 4. Muestreo aleatorio estratificado................................................................................................................................................... 129


4.1 Ventajas de utilizar el MAE .................................................................................................................................................................. 130

Notación .................................................................................................................................................................................................. 131

4.2 ¿Cómo seleccionar una muestra aleatoria estratificada? ................................................................................................................... 132

4.3 Estimación de parámetros de interés para promedio bajo MAE...................................................................................................... 132

Estimación de la media poblacional .................................................................................................................................................... 132

El estimador de la media estratificada................................................................................................................................................. 133

El intervalo de confianza para la estimación de la media estratificada ........................................................................................... 133

El estimador del total estratificado ...................................................................................................................................................... 134

La varianza del estimador del total estratificado ............................................................................................................................... 134

El intervalo de confianza ....................................................................................................................................................................... 134

Determinación del tamaño de la muestra ........................................................................................................................................... 135

El tamaño de muestra para estimar la media estratificada ............................................................................................................... 136

El tamaño de muestra modificado para estimar la media estratificada .......................................................................................... 136

La asignación de la muestra.................................................................................................................................................................. 137

Selección de estratos .............................................................................................................................................................................. 137

EJEMPLOS .................................................................................................................................................................................................... 139

EJERCICIOS .................................................................................................................................................................................................. 149

4.4 Estimación de parámetros de interés para una proporción bajo MAE ............................................................................................ 151

Estimación de la proporción poblacional ............................................................................................................................................ 152

Los estimadores de la proporción y total poblacional ....................................................................................................................... 152

Los estimadores de la varianza de la proporción y total poblacional.............................................................................................. 153

Los intervalos de confianza para la proporción y total poblacional ................................................................................................ 153

El tamaño de muestra para estimar la proporción estratificada ...................................................................................................... 153

Asignación de la muestra ...................................................................................................................................................................... 154

EJEMPLOS .................................................................................................................................................................................................... 155

EJERCICIOS .................................................................................................................................................................................................. 165

4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas bajo MAE ................................................ 166

EJEMPLOS .................................................................................................................................................................................................... 168

EJERCICIOS .................................................................................................................................................................................................. 178

Capítulo 5. Muestreo Sistemático .................................................................................................................................................................... 180


5.1 Tipos de población por su estructura .................................................................................................................................................. 182

5
Población aleatoria ................................................................................................................................................................................. 182

Población ordenada ............................................................................................................................................................................... 182

Población periódica................................................................................................................................................................................ 183

5.2 ¿Cómo seleccionar una muestra sistemática? ..................................................................................................................................... 184

5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático .......................................................................... 186

Estimación de la media y el total de la muestra sistemática ............................................................................................................. 186

La varianza de la media y del total ...................................................................................................................................................... 187

Los intervalos de confianza para la media y para el total ................................................................................................................. 187

La selección del tamaño de la muestra ................................................................................................................................................ 188

El tamaño de muestra para estimar la media ..................................................................................................................................... 188

El tamaño de muestra modificado ....................................................................................................................................................... 188

EJEMPLOS .................................................................................................................................................................................................... 189

EJERCICIOS .................................................................................................................................................................................................. 196

5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático .................................................................... 198

Estimación de la proporción poblacional ............................................................................................................................................ 198

El estimador de la proporción y el total .............................................................................................................................................. 199

La varianza estimada de la proporción y el total sistemático ........................................................................................................... 199

El intervalo de confianza para la proporción y el total sistemático ................................................................................................. 199

El tamaño de muestra para estimar la proporción ............................................................................................................................. 200

El tamaño de muestra modificado ....................................................................................................................................................... 200

EJEMPLOS .................................................................................................................................................................................................... 201

EJERCICIOS .................................................................................................................................................................................................. 208

5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo sistemático. ....................................................... 211

Estimación de la proporción poblacional (Se y Sp) y el total ............................................................................................................ 211

La varianza estimada de la proporción ............................................................................................................................................... 211

El intervalo de confianza para la proporción ..................................................................................................................................... 211

El tamaño de muestra sin aseguramiento para estimar la proporción ............................................................................................ 212

El tamaño de muestra modificado ....................................................................................................................................................... 212

EJEMPLOS .................................................................................................................................................................................................... 212

EJERCICIOS .................................................................................................................................................................................................. 220

Capítulo 6. Muestreo por conglomerados en una etapa ............................................................................................................................... 224


6.1 ¿Qué puede ser un conglomerado?...................................................................................................................................................... 226

6.2 Una comparación con el muestreo estratificado ................................................................................................................................ 227

6.3 Acerca del tamaño del conglomerado ................................................................................................................................................. 228

Notación .................................................................................................................................................................................................. 228

6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados ............................................................................ 229

6
Cálculo de la media y el total poblacional con M conocida .............................................................................................................. 229

El estimador de la media poblacional.................................................................................................................................................. 230

El estimador del total poblacional........................................................................................................................................................ 230

La varianza estimada de ys y τs ............................................................................................................................................................ 230

El intervalo de confianza de la media y el total .................................................................................................................................. 231

La determinación del tamaño de muestra........................................................................................................................................... 231

El tamaño de muestra para estimar el promedio ............................................................................................................................... 232

El tamaño de muestra modificado para estimar el promedio .......................................................................................................... 232

EJEMPLOS .................................................................................................................................................................................................... 233

EJERCICIOS .................................................................................................................................................................................................. 241

6.5 Estimación de parámetros de interés con M desconocida bajo muestreo por conglomerados ..................................................... 243

¿Qué sucede cuando se desconoce el tamaño de la población M? ................................................................................................... 243

El estimador de la media y el total poblacional.................................................................................................................................. 243

La varianza estimada de la media y del total ..................................................................................................................................... 244

El intervalo de confianza de la media y del total ............................................................................................................................... 244

El tamaño de muestra para estimar la media ..................................................................................................................................... 244

El tamaño de muestra modificado para estimar la media ................................................................................................................ 244

6.6 La estimación de una proporción poblacional ................................................................................................................................... 245

EJEMPLOS .................................................................................................................................................................................................... 245

EJERCICIOS .................................................................................................................................................................................................. 254

Capítulo 7. Muestreo basado en el método de respuesta aleatorizada ....................................................................................................... 257


7.1. ¿Cuándo se utiliza esta técnica? .......................................................................................................................................................... 259

7.2. Ventajas y desventajas .......................................................................................................................................................................... 259

7.3. El modelo de respuesta aleatorizada bajo el MAS ............................................................................................................................ 260

El estimador de la proporción y el total poblacional ............................................................................................................................... 262

La varianza estimada de los estimadores de la proporción y del total ................................................................................................. 263

El intervalo de confianza de la proporción y el total ............................................................................................................................... 263

El tamaño de la muestra para la proporción y el total ............................................................................................................................ 263

El tamaño de muestra para estimar la proporción ............................................................................................................................. 263

El tamaño de muestra para estimar el total ........................................................................................................................................ 264

7.4 El modelo de respuesta aleatorizada bajo el MAE ............................................................................................................................. 264

El estimador de la proporción y el total poblacional ......................................................................................................................... 265

La varianza de los estimadores de la proporción y total poblacional.............................................................................................. 265

El intervalo de confianza para el promedio y total poblacional ....................................................................................................... 266

El tamaño de muestra para estimar la proporción ............................................................................................................................. 266

El tamaño de muestra para estimar el total ........................................................................................................................................ 266

7
7.5 Alternativa al modelo de respuesta aleatorizada ............................................................................................................................... 267

7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS ..................................................................................................................... 268

Estimadores para la proporción y el total ........................................................................................................................................... 268

Varianza del estimador de la proporción y el total ............................................................................................................................ 269

Intervalos de confianza para la proporción y el total ........................................................................................................................ 269

Tamaño de muestra para estimar la proporción ................................................................................................................................ 269

Tamaño de muestra modificado para estimar la proporción. .......................................................................................................... 270

¿Cuál método de respuesta aleatorizada es mejor? ................................................................................................................................. 270

EJEMPLOS .................................................................................................................................................................................................... 270

EJERCICIOS .................................................................................................................................................................................................. 278

7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE ..................................................................................................................... 280

Estimador de la proporción y el total estratificado ............................................................................................................................ 280

Varianza de la proporción y el total estratificado .............................................................................................................................. 280

Intervalo de confianza para la proporción y el total .......................................................................................................................... 281

El tamaño de muestra para estimar la proporción ............................................................................................................................. 281

El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 281

EJEMPLOS .................................................................................................................................................................................................... 282

EJERCICIOS .................................................................................................................................................................................................. 293

Capítulo 8. Pruebas por grupos ....................................................................................................................................................................... 296


8.1 Pruebas por grupo bajo MAS ............................................................................................................................................................... 297

La proporción muestral ......................................................................................................................................................................... 297

El estimador de la varianza Sp2 .............................................................................................................................................................. 297

El estimador del total ............................................................................................................................................................................. 297

Los intervalos de confianza para la proporción y el total ................................................................................................................. 297

El estimador del tamaño de muestra (pools) ...................................................................................................................................... 298

EJEMPLOS .................................................................................................................................................................................................... 299

EJERCICIOS .................................................................................................................................................................................................. 306

8.2 Pruebas por grupo en pruebas imperfectas bajo MAS ...................................................................................................................... 306

Proporción muestral .............................................................................................................................................................................. 307

El estimador de la varianza................................................................................................................................................................... 307

El estimador del total ............................................................................................................................................................................. 307

Los intervalos de confianza para la proporción y el total ................................................................................................................. 307

Estimación del tamaño de muestra (pools) ......................................................................................................................................... 308

Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 308

EJEMPLOS .................................................................................................................................................................................................... 309

EJERCICIOS .................................................................................................................................................................................................. 317

8
8.3 Prueba por grupos bajo MAE ............................................................................................................................................................... 317

La proporción estratificada ................................................................................................................................................................... 318

El estimador de la varianza estratificada ............................................................................................................................................ 318

El estimador del total estratificado ...................................................................................................................................................... 318

Los intervalos de confianza para la proporción y el total ................................................................................................................. 318

Estimación del tamaño de muestra (pools) ......................................................................................................................................... 319

Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 319

EJEMPLOS .................................................................................................................................................................................................... 320

8.4 Prueba por grupo con Se y Sp bajo MAE....................................................................................................................................... 331

La proporción estratificada ................................................................................................................................................................... 331

El estimador de la varianza................................................................................................................................................................... 332

El estimador del total ............................................................................................................................................................................. 332

Los intervalos de confianza para la proporción y el total ................................................................................................................. 332

Estimación del tamaño de muestra (pools) ......................................................................................................................................... 332

Estimación del tamaño de muestra modificado (pools) .................................................................................................................... 333

EJEMPLOS .................................................................................................................................................................................................... 333

EJERCICIOS .................................................................................................................................................................................................. 345

Capítulo 9. Muestreo inverso ........................................................................................................................................................................... 347


9.1 Estimación de parámetros de interés bajo muestreo inverso............................................................................................................ 348

El estimador de la proporción .............................................................................................................................................................. 348

La varianza y desviación estándar de la proporción muestral. ........................................................................................................ 348

El estimador del total verdadero. ......................................................................................................................................................... 349

Los intervalos de confianza para la proporción y el total ................................................................................................................. 349

El tamaño de muestra para estimar la proporción ............................................................................................................................. 349

El tamaño de muestra modificado para estimar la proporción ........................................................................................................ 349

EJEMPLOS .................................................................................................................................................................................................... 350

EJERCICIOS .................................................................................................................................................................................................. 356

Apéndice. Tablas de la distribución normal y la distribución t-Student .................................................................................................... 358


Referencias bibliográficas ................................................................................................................................................................................. 363

9
Prologo

Un objetivo común en las sociedades modernas es conocer las características generales y


particulares de una población, entendiendo a esta como un conjunto de unidades que
tienen valores o cualidades de interés. Por ejemplo, desde 1977 el gobierno mexicano ha
mantenido el interés en conocer la actividad económica empresarial para evaluar la
percepción que los directivos empresariales tienen sobre el estado económico del país y
la toma de decisiones en sus empresas. Los dirigentes de la industria automotriz
procuran estar al tanto de los tipos de servicios tradicionales, nuevos e innovadores que
demandan sus clientes y conocer los factores prioritarios que los consumidores emplean
a la hora de comprar un automóvil. Las instituciones financieras se desviven por conocer
como sus clientes valoran sus servicios. Los ejemplos son innumerables y abarcan todas
las áreas del conocimiento.

Pero, ¿qué hace no tan sencillo conocer las características generales y particulares de
una población? La respuesta está en la variabilidad. Si los elementos de la población de
interés fueran exactamente los mismos, bastaría examinar uno de ellos para
caracterizarlos completamente. Sin embargo, las poblaciones son bastantes heterogéneas;
esta es la realidad. La presencia de la variabilidad en los elementos de una población es
la razón principal por la cual cultivamos la estadística.

Una forma de caracterizar a las poblaciones es mediante parámetros, los cuales son
funciones definidas sobre el conjunto población. El valor más pequeño, el valor más
grande, la suma de los cuadrados de los valores, el valor que más se repite, el promedio
de los valores, la proporción de elementos que tienen cierta cualidad, son sólo algunos
ejemplos de parámetros. Por diversas razones plenamente argumentadas, el
conocimiento aproximado de estos parámetros, como la prevalencia de drogadictos en
una ciudad, el promedio de hijos por familia, el ingreso promedio por familia, el
promedio de años de estudios por persona, entre muchos otros, ha ayudado para tener
un mejor desempeño en el proceso administrativo de organizaciones tanto públicas como
privadas.

10
Para tener un conocimiento pleno de los parámetros poblacionales se necesita de la
enumeración o medición de todas las unidades de la población. Sin embargo, realizar
esta actividad, en general, es imposible o impráctico. Por ejemplo, en un lote de semillas
se desea conocer la proporción que tienen la capacidad de germinar. Germinar todas las
semillas no tendría sentido pues nos quedaríamos sin material. También el conocer la
opinión de la población mexicana sobre los organismos genéticamente modificados
demandaría varias decenas de millones de pesos, además de que no localizaríamos a
todas las personas para preguntarles su opinión.

Así pues, dado que efectuar el censo es costoso, impráctico, tardado o imposible, una
alternativa consiste en usar información parcial de la población pero seleccionada
aleatoriamente. Este método es conocido como muestreo probabilístico, el cual tiene dos
características: a) cada unidad de la población tiene una probabilidad positiva y conocida
de ser seleccionada y b) cada unidad tiene una probabilidad positiva y conocida de ser
parte de la muestra. Con la muestra seleccionada aleatoriamente se tendrán argumentos
científicamente defendibles para usar el razonamiento inductivo y concluir que la
evidencia encontrada en la muestra también es válida para la población.

La disponibilidad de literatura sobre muestreo probabilístico es vasta y a diferentes


niveles, acorde a la orientación teórica y práctica del lector. Los libros de Cochran (1977),
Cassel, Sarndal, & Wretman (1977) y Sarndal (1992) son obras clásicas para adentrarse en
el entendimiento de esta disciplina.

En la literatura sobre muestreo probabilístico se proporciona la forma en que las


unidades de muestreo deben elegirse hasta conformar la muestra y la teoría para estimar
los parámetros de interés de manera exacta y precisa, procurando el menor costo. Este
último punto implica, en general, que se busque un tamaño de muestra mínimo pero
suficiente para obtener un intervalo de estimación del parámetro con la precisión deseada
estableciendo de antemano cierta confiabilidad.

Cuando se determina el tamaño de muestra se requieren los valores de algunos


parámetros, usualmente involucrados en la varianza del estimador. En la práctica estos
11
parámetros son desconocidos y usualmente se estiman de estudios previos o muestreos
pilotos. Estas estimaciones son consideradas como los verdaderos valores de los
parámetros, ocasionando que con el tamaño de muestra calculado el intervalo de
estimación no tenga la precisión deseada (Wang, Chow, & Chen, 2005).

Ante esta tesitura, Kupper & Hafner (1989) y Kelley (2007) señalan que en la
estimación de parámetros por intervalos debe considerarse la naturaleza estocástica de
la amplitud del intervalo para no subestimar el tamaño de muestra. Esta forma de
abordar el proceso de estimación, es decir, considerando la naturaleza estocástica del
intervalo de estimación, no se considera en la gran cantidad de libros que existen sobre
muestreo probabilístico.

A diferencia de los textos con enfoque tradicional, este libro presenta las técnicas
clásicas del muestreo estadístico pero considerando la naturaleza estocástica de los
intervalos de estimación. A lo largo del texto se opera con el concepto de nivel de
aseguramiento, el cual se define como la probabilidad de lograr la precisión deseada, es
decir, como la probabilidad, preestablecida de antemano, de que la amplitud del
intervalo de estimación sea menor o igual a la deseada. Explícitamente, en los capítulos
3, 4, 5 y 6 se expone la metodología del muestreo aleatorio simple, estratificado,
sistemático, y por conglomerados en una etapa, respectivamente. También se presentan
los muestreos de respuesta aleatorizada, por grupos e inverso en los capítulos 7, 8 y 9,
respectivamente.

Agradecimientos

En especial nuestros estudiantes por apoyo brindado en las revisiones preliminares del
presente libro.

12
Capítulo 1. Intrducción

CAPÍTULO 1

Introducción

L as nuevas tecnologías de información y telecomunicaciones han generado una gran


cantidad de información sin precedentes. La tecnología cambió el mundo en que
vivimos, una transformación que se compara a las ocurridas por las revoluciones
industriales de los siglos XVIII y XIX. En las dos últimas décadas, el Internet y las
tecnologías de información han transformado el funcionamiento de las empresas, los
métodos de aprendizaje de los estudiantes, los métodos de investigación de los científicos
y la forma en que los gobiernos prestan sus servicios a los ciudadanos. Las tecnologías
digitales demuestran ser un potente motor del crecimiento económico y de la
competitividad. En general, estos cambios continuos transforman a la sociedad, de una
basada en la producción de objetos físicos a una donde el énfasis principal es la
producción e intercambio de información mediante medios digitales. Por consiguiente,
se ha alterado no sólo la interacción humana con la información, sino también el
comportamiento individual y colectivo de los individuos (Danger, Huizing, Walker,
Rowland, Anderson, & Sciaccaluga, 1996).

Gobiernos, empresas privadas, instituciones y ciudadanos generan día a día gran


cantidad de información. Además, ya se tiene conciencia que el valor de esta información
es de gran importancia para la toma de decisiones acertadas. Sin embargo, dado que el
costo de analizar toda la información mediante una evaluación exhaustiva es muy alto,
por ello se recurre al muestreo estadístico para ayudar a toma de decisiones en
circunstancias de gran complejidad e incertidumbre usando una fracción de la
información disponible. El uso de una muestra en la mayoría de las circunstancias se

13
justifica principalmente por la carencia de recursos y porque en muchos casos el
producto a analizar se tiene que destruir. Por ello, gran parte de los conocimientos,
actitudes y decisiones humanas está basado en el análisis de información parcial, o mejor
dicho, en el uso del muestreo. Al hacer la evaluación con solamente una fracción de la
población o del recurso, se espera que las conclusiones también pertenezcan a la
población; sin embargo para que esta suposición sea válida y la muestra elegida
represente a la población es importante tomar la muestra usando los métodos de
muestreo estadístico apropiados.

El uso del muestreo como un medio para obtener conocimiento y tomar decisiones es
normal y cotidiano en las actividades humanas. En estudios de mercado, el muestreo
sirve para conocer las preferencias y actitudes de los consumidores hacia determinado
producto o servicio; en tiempos electorales para saber la preferencia de los ciudadanos
hacia los candidatos que desean representarlos; en los estudios demográficos y sociales,
para conocer los niveles de empleo y desempleo, los ingresos y niveles de escolaridad en
los habitantes de una ciudad o país, la prevalencia y la incidencia de la drogadicción, en
la industria, para el control de calidad en el proceso de producción. En conclusión, el
muestreo se utiliza prácticamente en todas las áreas del conocimiento.

Elegir el esquema de muestreo, calcular el tamaño de la muestra y realizar las


estimaciones correspondientes no es una tarea fácil para personas con poca formación en
estadística. Por ello, en este libro se pretende ayudar a investigadores, estudiantes y
profesionales de las distintas áreas del conocimiento para que calculen la muestra de una
forma apropiada y eficaz. Además, el enfoque para la determinación de los tamaños de
muestra en el presente libro asume que los parámetros involucrados colectados ya sea
por un muestro piloto o estudios previos son estocásticos, lo que garantiza que los
tamaños de muestra no sean subestimados. Este enfoque garantiza cortos intervalos de
confianza debido a que considera la naturaleza estocástica del intervalo de confianza a
partir del cual se obtiene el tamaño de muestra requerido. Este enfoque de estimación
está ganando gran aceptación y ya existen varias publicaciones al respecto, sin embargo
no se ha abordado todavía en ningún libro de muestreo. Por ello, el presente libro es el
primero en abordar los esquemas de muestreo más comunes bajo este enfoque, y
14
consideramos que es lo suficientemente didáctico para que pueda ser utilizado sin
dificultad tanto por estudiantes de cualquier licenciatura, maestría y doctorado ya que
no supone conocimientos profundos sobre matemáticas o probabilidad. Asimismo,
puede ser de utilidad para aquellos estudiantes de estadística que deseen entender este
enfoque de estimación de una forma sencilla sin el uso de demostraciones formales.

Por lo antes expresado los objetivos centrales son del presente libro son: a) exponer el
nuevo paradigma para la estimación de tamaños de muestra, b) exponer con claridad la
importancia de la aleatorización y cada uno de los esquemas de muestreo, así como las
circunstancias donde cada uno de ellos es de gran utilidad, c) exponer sin formalidad
matemática la derivación de cada una de las fórmulas para determinar el tamaño de
muestra bajo cada uno de los esquemas de muestreo, d) proporcionar ejemplos y
ejercicios para cada uno de los esquemas de muestreo para facilitar la compresión y
estimación correcta. Es importante resaltar que los datos utilizados en los ejemplos son
ficticios y en ningún momento se deben de considerar estimaciones válidas.

15
Capítulo 2. Conceptos básicos de estadística

CAPÍTULO 2

Conceptos básicos de estadística


Que la estadística es bella
No lo vengo a presumir.
Sólo requiere de entrega,
Para poderla sentir.
OAML

E n la literatura existen numerosas definiciones del concepto estadística. En lugar de


hacer acopio de diversas definiciones y darnos a la tarea de compararlas, señalando
su ambigüedad o insuficiencia, aceptaremos la siguiente:

Estadística

La estadística es la ciencia que se ocupa de los métodos y procedimientos para


recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así
como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma
de decisiones y, en su caso, formular predicciones (Johnson, 1996).
La estadística sirve para:
 Describir las diferentes medidas en un conjunto de objetos mediante el
análisis de algunos de sus elementos.
 Tomar decisiones sobre opciones diversas con información parcial contenida
en un conjunto de datos.
 Predecir el comportamiento de una medida o característica, en condiciones
no observadas.

Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden resumir en
algunos de los puntos ya descritos con la finalidad de inferir sobre la población

16
(estimación y prueba de hipótesis). Como en todas las áreas del conocimiento, el
muestreo emplea una terminología específica que define de manera apropiada los
conceptos que se utilizan, por lo que es conveniente revisar algunos de ellos, en particular
de la estadística, y presentar la simbología que se emplea en las técnicas de muestreo.

Conjunto

Es una colección de objetos definidos y distinguibles cuya única propiedad


indispensable es que sean identificados como pertenecientes a dicho conjunto. A
cada uno de los objetos que lo constituyen se le llama elemento.

Por ejemplo, las computadoras dentro de una empresa o laboratorio pueden constituir
un conjunto; también los estudiantes y las sillas dentro de un salón de clases lo integran.
Cabe mencionar que no es un requisito que los objetos sean de la misma naturaleza,
aunque la mayoría de los casos que involucran las técnicas de muestreo los objetos suelen
ser de la misma clase, o al menos muy semejantes.

2.1 Población y muestra

Como se dijo, las técnicas de muestreo y en general los métodos estadísticos se aplican a
un conjunto de datos propios de un conjunto de objetos. Denominamos población al
conjunto de objetos y de valores. El segundo es una función del primero y, aunque con
frecuencia no se distinguen explícitamente, el contexto en que se usa el término de
población deja en claro la referencia. En este libro se usará población para referirse al
conjunto de mediciones que se hacen sobre una característica de interés en todos y cada
uno de los elementos del conjunto de objetos. La población es el conjunto que incluye
todas las partes constitutivas de un recurso; así mismo la población es un conjunto de
números que tienen las unidades en que se hace la medición.

En general, el análisis no suele incluir las unidades de medición de los valores de una
variable, es decir, éstos se analizan simplemente como números. Sin embargo, resulta
conveniente recordar que los valores de una variable siempre representan dimensiones
17
físicas o de otra naturaleza, como peso, volumen, longitud, etcétera, y que éstas son
medidas en unidades como kilogramos, metros cúbicos, centímetros, etcétera, por lo que
los resultados del análisis son coherentes si se usan las unidades de medición, lo cual
facilita enormemente su interpretación.

Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima y la


característica de interés es su estatura promedio, la población original la conforman todos
los estudiantes, pero la población a la que las técnicas de muestreo se referirán es el
conjunto integrado por las estaturas de esos estudiantes, que estarán medidas por un
número; por ejemplo, 1.75 metros podría ser uno de los elementos constitutivos del
conjunto población.

Población y muestra

Población. Es una colección de objetos o entes que se caracterizan por poseer o


compartir ciertas características (propiedades) en común.
Muestra. Es un subconjunto de elementos o unidades seleccionados con alguna
técnica, de la población bajo estudio.

El muestreo, en un sentido amplio, es un proceso que tiene como propósito obtener


conocimientos de las características generales de una población mediante una muestra.
En contraste, el censo es un proceso de revisión exhaustivo de la población, es decir, mide
la característica de interés de todas las unidades de la población.

2.2 Variables

Una variable es una característica de los elementos de una población y se obtiene con una
medición o calificación. La altura de los estudiantes es una variable, lo mismo que la
marca de computadoras portátiles que se encuentran en el mercado actual. El peso de
cada silla o cada estudiante también es una variable.

Una variable continua, como su nombre lo indica, es aquélla donde son posibles todos
los valores dentro de un intervalo de los números reales, al menos teóricamente, ya que
por limitaciones de los instrumentos de medición, muchos valores en ese intervalo no
18
son observables. En general, este tipo de variables incluye mediciones en kilogramos,
centímetros, etcétera, cuya precisión puede incrementarse indefinidamente para afinar
gradualmente el instrumento de medición.

Una variable discreta se puede medir en una escala que no incluya todos los valores
posibles dentro de un intervalo de los números reales. Ejemplos de este tipo de variables
son los conteos, el número de personas de un lugar, el número de libros en una biblioteca,
entre otros.

Las variables por atributos permiten la clasificación en función de la presencia de cierta


propiedad en el elemento que desea evaluarse. La pertenencia a un grupo étnico es un
ejemplo de atributo; podría haber muchos atributos, como tener varios grupos étnicos, lo
que permitiría hacer diversos grupos y cada elemento pertenecería solamente a uno de
esos grupos o clases.

Las técnicas de muestreo se aplican directamente a conjuntos de valores medidos en


escalas apropiadas para variables continuas, discretas o de atributos. Digamos que se
quisiera describir económica y socialmente las familias del estado de Colima, y para ello
se aplica un cuestionario a cada familia con preguntas sobre su situación socioeconómica:
ingreso mensual, número de integrantes, número de individuos que trabajan, tipo de
ocupación, entre otras. El conjunto de mediciones de cualquiera de estas variables
medidas es el sujeto de aplicación de las técnicas de muestreo. Otro ejemplo sería la
determinación de la calidad del aire en la ciudad de México; para ello se toman
mediciones de diferentes contaminantes: el conjunto de estas es la variable a la que se
aplican los conceptos del muestreo. Pueden ser muchas las variables que se midan, pero
el muestreo que aquí estudiaremos es univariado, es decir, se toma solamente una variable
a la vez; aunque el estudio incluya varias, el proceso se realiza sobre todas y no más de
una al mismo tiempo.

Función es otro terminó muy usado. Matemáticamente, el concepto de función consta


de tres elementos, dos conjuntos y una regla que asocia o vincula a cada elemento del
primer conjunto con uno y sólo uno de los elementos del segundo conjunto. Una lista de
19
nombres y un grupo de estudiantes pueden ser una función si cada nombre de la lista
corresponde a uno y sólo uno de los estudiantes. Nótese que incluso todos los elementos
del primer conjunto pueden estar vinculados al mismo elemento del segundo conjunto,
pero no es válido que un elemento del primer conjunto esté vinculado con más de un
elemento del segundo. Las funciones que comúnmente abordaremos en este texto son
funciones matemáticas, las cuales contienen conjuntos de números y donde la regla de
asociación es una ecuación.

Hemos mencionado que en el muestreo nos interesan los valores medidos del
subconjunto muestra, que son seleccionados del conjunto población. A estos valores se les
denomina datos, es decir, un dato es el valor específico que tiene la característica de interés
de un elemento de la población. Conviene mencionar que dato se puede referir a un valor
conocido o existente pero que aún no ha sido determinado. En este libro un dato es un
valor que ya ha sido determinado. En este contexto, el experimento es el procedimiento
que permite obtener un dato. Este procedimiento incluye dos puntos: la forma de elegir
el objeto, y la determinación del valor mediante algún método.

Es prioritario considerar la forma en que se elige el elemento que se observará. La


determinación del valor de la característica es la medición o la calificación, que algunas
veces representa un problema difícil y requiere tratamientos específicos. Este es el tema
que abordaremos a continuación.

2.3 ¿Qué es una medición?

La medición es una tarea en la que la estadística no interviene directamente, pero influye


mucho en los resultados. Para hacer una medición deben usarse las técnicas adecuadas.
En general, la medición es la determinación del valor de la característica de interés de un
elemento de la muestra.

Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que
miden la longitud de un virus o una bacteria; aunque los métodos estadísticos para
analizar los datos de ambos casos pueden ser los mismos.
20
Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. Su
instrumentación, selección y validez son temas de estudio de otras disciplinas, pero la
comparación entre técnicas de medición sí es un motivo de aplicación de los métodos
estadísticos. En este libro no abordaremos las técnicas de medición.

2.4 Escalas de medición

Las reglas que clasifican los datos en distintas categorías se denominan escalas de
medición: nominal, ordinal, intervalo y proporción (Siegel, 1977).

Escala nominal

La escala nominal se utiliza para clasificar a la población en categorías. Por ejemplo, los
seres humanos se clasifican en hombres y mujeres; los colores se clasifican en rojo, azul,
verde, etcétera. En este tipo de datos no existe una relación de orden ni se pueden realizar
operaciones aritméticas como suma, multiplicación, división o resta. Sin embargo, se
pueden establecer frecuencias y proporciones, así como calcular la moda y establecer
relaciones de equivalencia.

Las propiedades de las relaciones de equivalencia son: reflexión: 𝑋 = 𝑋; simetría: si


𝑋 = 𝑌, entonces 𝑌 = 𝑋; y transición: si 𝑋 = 𝑌 y 𝑌 = 𝑍, entonces 𝑋 = 𝑍. Para esta escala de
medición se usan las pruebas estadísticas no paramétricas o modelos lineales
generalizados.

Escala ordinal

La escala ordinal clasifica y ordena las observaciones. Sin embargo, no puede definirse
una distancia entre las observaciones. Las relaciones admisibles en esta escala son: >, < o
=. Por ejemplo, la frecuencia con que un grupo de personas lee una revista científica
podría clasificarse en: regularmente, a veces, pocas veces, casi nunca y nunca. Otro
ejemplo es la definición de la jerarquía militar de un regimiento: teniente> subteniente>

21
sargento 3ro.> sargento 1ro.> cabo. Otro ejemplo es la llegada a la meta de un corredor
en una competencia de 20 participantes: su clasificación C es tal que 𝐶 ∈ {1,2,...,20}. La
popular escala tipo Likert corresponde a esta escala de medida.

Las medidas que se pueden calcular en esta escala son: moda, frecuencia, coeficiente
de contingencia y mediana. Las pruebas estadísticas no paramétricas se usan para este
tipo de datos, en particular las estadísticas de rango, así como los coeficientes de
correlación con base en rangos, es decir, el coeficiente de Sperman y el de Kendall.
Además, actualmente son muy populares los modelos lineales generalizados para
estudios de asociación y predicción cuando la variable dependiente es de tipo ordinal, en
particular la regresión logística y multinomial.

Escala de intervalo

Esta escala incluye las dos anteriores, es decir, clasifica, ordena y además establece la
proporción entre dos intervalos contiguos. Necesita una unidad de medida y un punto
cero arbitrario (no es el cero que pertenece a los reales). En esta escala, además, la
proporción de dos intervalos cualesquiera es independiente de la unidad de medida y
del punto cero. Por ejemplo, la temperatura en grados Celsius o Fahrenheit se mide en
una escala de intervalo, ya que la unidad de medida y el punto cero son arbitrarios.

Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Las
técnicas paramétricas incluyen el cálculo de medias, la desviación estándar, el coeficiente
de correlación de Pearson, etcétera. Las pruebas estadísticas admisibles son la t-Student
y la F de Snedecor, etcétera. Las únicas medidas que no se pueden obtener son el
coeficiente de variación y la media geométrica, pues necesitan el cero de los números
reales.

Escala de proporción

Además de todas las características anteriores, la escala de proporción ubica al punto cero
en el origen. En esta medida, además de conocer la proporción, se debe conocer la

22
distancia entre dos puntos. Admite también todas las operaciones matemáticas y de igual
manera se pueden establecer relaciones de igualdad y orden. Las pruebas estadísticas
admisibles son todas las pruebas paramétricas, así como todas las pruebas estadísticas
anteriores más el coeficiente de variación y la media geométrica. Un ejemplo es el peso
en kilogramos de los estudiantes del primer semestre en alguna universidad. Otro
ejemplo es el diámetro en metros de una plantación de parotas localizadas en Tecomán,
Colima.

2.5 Parámetros y estimadores

Existe un número infinito de parámetros para una población dada. Sin embargo, muchos
no tienen utilidad, en cambio otros manifiestan el interés de la evaluación. Por ejemplo,
la suma de todos los valores correspondientes al gasto de agua por familia en una
localidad (población). El promedio, el total, la varianza, la desviación estándar, el
coeficiente de variación, la moda, la mediana, el porcentaje o la proporción son algunos
ejemplos de parámetros.

Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es una


función de los datos que sirve para calcular (en un censo) o estimar (en un muestreo) un
parámetro. Una definición general de parámetro es la siguiente: es una constante que
describe a la población, usualmente en forma numérica, mientras que un estimador es
una función de los datos disponibles (muestra o censo) que se usa para estimar o calcular
los parámetros.

Parámetros y estimadores

Parámetros
Sobre el conjunto población se pueden definir funciones muy diversas como el valor
más pequeño, el más grande, el que ocupa la posición central una vez que los valores
han sido ordenados ascendente o descendentemente, la suma de todos los valores
después de elevarlos al cuadrado, el valor que se repite el mayor número de veces y
muchos otros más. Todas esas funciones son parámetros. Los parámetros suelen ser
representados por letras griegas como 𝜇, 𝜏 o 𝜎.

23
Estimadores
Son funciones que se pueden proponer para calcular o estimar los parámetros. Un
parámetro es cuando las funciones se definen sobre el conjunto población; pero si
esas funciones se definen para los datos de una muestra, entonces se trata de una
estimación del parámetro. Además, a cada parámetro le corresponde uno o más
estimadores. Existe un número infinito de estimadores, pero sólo algunos tienen
interés práctico.

2.6 Sumatorias

La sumatoria es muy importante para comprender mejor los conceptos detrás del
muestreo. Algunos parámetros y estimadores incluyen en su definición la suma de varios
valores o datos. Si 𝑦𝑖 es cualquiera de esos datos, digamos el i-ésimo de ellos, y se tienen
𝑛 datos, la suma de esos datos se simboliza con el operador de sumatoria (Σ):

𝑛
𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 = ∑ 𝑦𝑖
𝑖=1

Se puede combinar otras operaciones matemáticas con la sumatoria; por ejemplo, si se


desea sumar el cuadrado de cada dato, la simbología apropiada es:

𝑦12 + 𝑦22 + ⋯+ 𝑦𝑛2 = ∑ 𝑦𝑖2


𝑖=1

El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una
lista. Es importante hacer notar que el subíndice puede emplear cualquier símbolo,
aunque convencionalmente se emplean letras intermedias minúsculas como i, j, k,
etcétera; incluso, los mismos datos pueden usar subíndices diferentes para indicar las
operaciones apropiadas. Asimismo, un símbolo de dato como y puede tener más de un
subíndice cuando los datos tienen más de dos criterios o sentidos de clasificación, como
puede ser el caso de un cuadro o una matriz que tenga renglones y columnas, como 𝑦𝑖𝑗 ,
24
donde i es el renglón y j la columna, o al revés. Si existen más de dos criterios de
clasificación, podrán emplearse más de dos subíndices para identificar apropiadamente
cada dato.

En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de una
variable, un parámetro o un estimador, para señalar que ese símbolo pertenece al objeto
identificado con la etiqueta que se usa como subíndice. Por ejemplo, 𝜎𝑦 se refiere a la
desviación estándar (de los datos) de la variable 𝑦.

Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En los ejemplos,
i puede tomar valores entre 1 y 𝑛, mientras que 𝑦𝑖 puede ser cualquier valor de la variable
𝑦. Por decir, si estamos hablando de la variable ingreso familiar en el estado de Colima (𝑦),
entonces 𝑦𝑖 representa el ingreso de la familia i.

Propiedades de las sumatorias

∎ ∑ 𝑐 = 𝑐 + 𝑐 + 𝑐 + ⋯ + 𝑐 = 𝑛𝑐
𝑖=1
𝑛 𝑛

∎ ∑ 𝑐𝑦𝑖 = 𝑐(𝑦1 + 𝑦2 + 𝑦3 +· · · +𝑦𝑛 ) = 𝑐 ∑ 𝑦𝑖


𝑖=1 𝑖=1
𝑛

∎ ∑(𝑥𝑖 + 𝑦𝑖 ) = (𝑥1 + 𝑦1 ) + (𝑥2 + 𝑦2 ) + · · · +(𝑥𝑛 + 𝑦𝑛 )


𝑖=1

= 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + · · · +𝑥𝑛 + 𝑦𝑛
= (𝑥1 + 𝑥2 +· · · +𝑥𝑛 ) + (𝑦1 + 𝑦2 +· · · +𝑦𝑛 )
𝑛 𝑛

= ∑ 𝑥𝑖 + ∑ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑟 𝑛

∎ ∑ 𝑦𝑖 = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑟 es un número entero mayor que 1 y menor que 𝑛.


𝑖=1 𝑖=1 𝑖=𝑟+1

Por ejemplo:

25
5 2 5

∎ ∑ 𝑦𝑖 = (𝑦1 + 𝑦2 ) + (𝑦3 + 𝑦4 + 𝑦5 ) = ∑ 𝑦𝑖 + ∑ 𝑦𝑖 , donde 𝑦𝑖 = cualquier valor.


𝑖=1 𝑖=1 𝑖=2+1

2.7 Variable aleatoria

El concepto de variable aleatoria se relaciona con una característica o dimensión que


tienen las unidades muestrales de una población, y que puede tomar diferentes valores,
cada uno asociado a una unidad muestral. Esos valores posibles forman un conjunto que
se denomina espacio muestral. Así, una variable aleatoria 𝑌 es una función que va del
espacio muestral (constituido por las unidades muestrales) a un subconjunto de números
reales, que son todos los valores que puede tomar la variable bajo un experimento
aleatorio.

Para ser más explícitos, una variable aleatoria es una función, 𝑋(. ) donde a cada
resultado posible 𝑠 en el espacio muestral 𝑆 se le asigna un número real, 𝑋(𝑠).

La definición de variable aleatoria, 𝑋 puede verse como una regla que asocia a cada
resultado de 𝑠  𝑆 un número real 𝑋(𝑠). En la Figura 2.1 se aprecia una visualización
gráfica de una variable aleatoria.

Figura 2.1. Representación gráfica de una variable aleatoria 𝑋(𝑠).

En otras palabras, una variable aleatoria es una función cuyo dominio es el espacio
muestral del experimento aleatorio y tiene como rango el conjunto o un subconjunto de
los números reales.
26
Es de pensar que el concepto de variable aleatoria se genera por el hecho de que
estamos acostumbrados a contar o medir en números las variables que nos interesan. Por
ejemplo, considérese el lanzamiento de dos monedas balanceadas. Se tiene interés en el
número de águilas que resulten de tal experimento. Note que se pueden observar 0, 1 ó
2 águilas. Además, el espacio de resultados tiene cuatro elementos:

𝑆 = {𝑠𝑠, 𝑎𝑠, 𝑠𝑎, 𝑎𝑎}, donde 𝑠 es “sol” y 𝑎 “águila”.

Arbitrariamente podemos definir la variable aleatoria como la correspondencia entre


los puntos muestrales y los valores numéricos que asignamos al experimento, tal como
se ilustra a continuación.
𝑠𝑠 → 0
𝑠𝑎, 𝑎𝑠 → 1
𝑎𝑎 → 2

Lo anterior significa que al punto muestral de dos soles le corresponde el valor 0; al


punto muestral que tiene una águila el valor 1, y al punto muestral que tiene dos águilas
el valor 2.

A los elementos del rango de una variable aleatoria generalmente se representan por
letras minúsculas. De esta forma, la expresión 𝑋(𝑠) = 𝑥 representa la asignación del
número real 𝑥 al punto muestral 𝑠. En términos de funciones, 𝑋(𝑠) = 𝑥 representa a la
función 𝑋 evaluada en el elemento muestral s, cuya imagen es 𝑥.

Al analizar un experimento aleatorio por medio de variables aleatorias primero


debemos definir la función en turno, para posteriormente proceder a encontrar su
dominio y rango. Continuando con el ejemplo 1, definamos a 𝑋 de la siguiente manera:

𝑋: “águilas observadas al lanzar dos monedas balanceadas”.

Al evaluar la función en los cuatro puntos muestrales tenemos


27
𝑋(𝑠𝑠) = 0
𝑋(𝑠𝑎) = 𝑋(𝑎𝑠) = 1
𝑋(𝑎𝑎) = 2

Ahora, asignemos probabilidades a los puntos muestrales de tal forma que los cuatro
mismos tengan la misma probabilidad, es decir, si E1={ss}, E2 = {sa}, E3 = {as} y E4 = {aa},
entonces,

1
P(Ek) = , para 𝑘 = 0, 1, 2.
4

Si representamos por 𝑃(𝑋 = 𝑥) a la probabilidad de que la variable aleatoria 𝑋 tome el


valor 𝑥, entonces,
1
P(X=0) = P(E1) =
4
1 1
P(X=1) = P(E2UE3) = + , por ser E2 y E3 mutuamente excluyentes
4 4
1
P(X=2) = P(E4) =
4

En general, sea 𝑆 el espacio de sucesos de un experimento aleatorio sobre el cual se


define una variable aleatoria que toma valores en un conjunto R X. Si tomamos un
elemento x1 de RX podemos definir al evento A1 en 𝑆 de la siguiente forma

A1 = { s є 𝑆: X(s) = x1 }

de tal manera que P(A1) = P( X=x1).

El establecimiento de variable aleatoria permite introducir el concepto de función de


manera implícita y, por lo tanto, todas las propiedades de las funciones al cálculo de las
probabilidades. Tales propiedades como suma, resta, multiplicación, etc.

28
2.7.1 Variables Aleatorias Discretas

Note que podemos tener variables aleatorias que toman valores dentro de un conjunto
finito, infinito contable* o infinito. Para ejemplificar, consideremos las siguientes
situaciones:

a. X representa el número de artículos defectuosos en un lote de contiene cinco de


ellos. Entonces X puede tomar los valores X = 0, 1, 2, 3, 4, 5. Es decir, X toma valores
dentro del conjunto finito {0, 1, 2, 3, 4, 5}.
b. X representa el número de días que tienen que transcurrir para que el precio de la
acción “a” sea mayor o igual a 40 dólares dado que el precio de cierre actual es de
10 dólares. Es un hecho que X puede tomar los valores X = 1, 2, 3, …, es decir, X
toma valores dentro del conjunto infinito contable {1, 2, 3, … }.
c. Suponga que X representa el precio de cierre de la acción “a”. Entonces X toma
valores dentro del conjunto infinito [0, ∞).

Definición. Variable Aleatoria Discreta. Una variable aleatoria es llamada discreta si


toma valores dentro de un conjunto finito o infinito contable.

En otros términos, podemos decir que una variable aleatoria X es discreta si existe una
correspondencia uno a uno entre los valores que toma X y algunos o todos los números
enteros positivos.

Sea X una variable aleatoria. Defínase a la función Q(B) de la siguiente manera

Q(B) = P(X є B) = P( s є S: X(s) є B)

*
Un conjunto es llamado infinito contable si se puede establecer una correspondencia uno a uno con el conjunto de
los enteros positivos
29
Donde B es cualquier subconjunto de números reales. Llamaremos a Q(.) la distribución
de la variable aleatoria X. Q(B) nos proporciona la probabilidad de que X pertenezca al
conjunto B, es decir, Q(.) nos indica cómo se distribuye la probabilidad de los eventos.

La función Q puede determinarse por una clase de funciones, llamadas de densidad.

Distribuciones Discretas

Una función 𝑓 se llamará función de densidad discreta (o simplemente función de


densidad) si,

1. f (x)  0, para toda x  R


2. Existe un conjunto finito o infinito contable C={x1, x2, …} para el cual f (x)=0, para
toda x  C y  f ( x) =1.
C

La expresión  f ( x) denota la suma de los números f (x) para cada x  C.


C

Note que si X es una variable aleatoria discreta que toma valores en un conjunto finito o
infinito contable C, entonces la función f(x) = P(X=x) es una función de densidad discreta
y, por lo tanto, la distribución de X puede determinarse por:

P(X є B) =  f ( x)
BC

En tal caso, diremos que X es una variable aleatoria discreta con función de densidad
𝑓(𝑥).

Modelos Especiales para Variables Aleatorias Discretas

Los modelos que se presentan a continuación son de uso común debido a su derivación
inmediata de situaciones reales, o en todo caso, son muy utilizados para calcular las
probabilidades de eventos de situaciones cotidianas.

30
Distribución Uniforme Discreta. Una variable aleatoria tiene distribución uniforme
discreta con parámetro 𝑛 si y sólo si su función de densidad está dada por:

1
 para x  x1 , x 2 ,..., x n
f ( x)   n

 0 de otra forma

Ejemplo: Considere un experimento que consiste en seleccionar aleatoriamente a una


empresa de un total de seis para auditarla. Si X denota la selección de la empresa 𝑖, 𝑖 =
1, … , 6. Entonces la función de densidad de X está dado por:

1
 para x  1, 2,..., 6
f ( x)   6

0 de otra forma

es decir, X tiene distribución uniforme discreta con parámetro 6. Es común generar


variables aleatorias con distribución uniforme discreta cuando a cada punto del espacio
muestral (finito con 𝑛 elementos) se le asigna la misma probabilidad.

Distribución Binomial. Una variable aleatoria X se dice que tiene distribución binomial
con parámetros 𝑛, 𝑝 si y sólo si su función de densidad está dada por:

 n  x n  x
  p q para x  0, 1,..., n
f ( x)   x 
 0
 de otra forma

donde: 𝑛  1, 0  p  1 , 𝑞 = 1 − 𝑝

Generalmente una variable aleatoria binomial se deriva del hecho de representar los
éxitos de un experimento binomial, donde un experimento binomial tiene las siguientes
características:

1. El experimento consta de 𝑛 pruebas idénticas.

31
2. En cada prueba se pueden presentar dos resultados; al de interés se le llama éxito
y al otro fracaso.
3. La probabilidad de éxito es constante e igual a 𝑝 en cada prueba ( 0  p  1 ) y, la

probabilidad del fracaso es igual a 𝑞 = 1 − 𝑝.


4. Las pruebas son independientes.
5. La variable aleatoria X representa el número de éxitos en las 𝑛 pruebas.

Ejemplo: Suponga que una maquina llena “correctamente” cada botella con probabilidad
0.95. Se tiene interés en conocer la distribución de la variable aleatoria X: número de
botellas llenadas correctamente de un total de 𝑛.

El proceso puede verse como un experimento binomial donde el evento éxito


corresponde a llenar la botella correctamente con probabilidad 0.95 en cada ensayo. Si se
llenan un total de 𝑛 botellas, entonces la función de densidad de X está dada por:

 n 
 0.95 x 0.05 n  x para x  0, 1,..., n
f ( x)   x 
 0
 de otra forma

Distribución Geométrica. Una variable aleatoria X se dice que tiene distribución


geométrica con parámetro 𝑝 ( 0  p  1 ) si y sólo si su función de densidad está dada por:

 pq x 1 para x  1,2,...
f ( x)  
0 de otra forma

Variables aleatorias con distribución geométrica surgen al representar el número de


pruebas necesarias para que ocurra el primer éxito en ensayos binomiales.

Ejemplo: La probabilidad de que una maquina embotelladora falle en un día


determinado es 𝑝 = 0.05. Sea X el número de días que tienen que transcurrir hasta que
se presenta la primera falla. Entonces X puede tomar los valores X=1, 2, 3 …, con las
probabilidades

32
P(X=1) = q1-1p
P(X=2) = q2-1p
P(X=3) = q3-1p

P(X=x) = qx-1p

es decir, X tiene distribución geométrica con parámetro 𝑝.

Distribución Poisson. Una variable aleatoria X se dice que tiene distribución Poisson con
parámetro λ>0 si y sólo si su función de densidad está dada por:

 e   x
 para x  0, 1, 2,...,
f ( x)   x!

 0 de otra forma

La distribución Poisson se puede obtener como el límite de una distribución binomial


cuando el número de ensayos es relativamente “grande” y la probabilidad de éxito 𝑝 es
pequeña en cada uno, es decir

 n  x n x e   x
lim   p q  , si 𝑛𝑝→λ
n   x  x!

Como el número de ensayos “𝑛” es grande y la probabilidad de éxito es pequeña en cada


uno, tal distribución también es conocida como la ley de eventos raros.

La distribución Poisson es muy utilizada para modelar el número de eventos que ocurren
raramente en el tiempo, espacio, etc.

33
Ejemplo: El número de accidentes mensuales en una fábrica se distribuye de acuerdo a
una variable aleatoria Poisson con parámetro 𝜆 = 3. Determine la probabilidad de que
para un mes determinado ocurran 3, 4 o 5 accidentes.

Como X tiene distribución Poisson con parámetro 3, entonces la probabilidad de que para
un mes determinado se presenten 3, 4 o 5 accidentes es igual a

 33 34 35 
f(3)+f(4)+f(5) = e 3    
 3! 4! 5! 

Distribución Hipergeométrica. Una variable aleatoria X se dice que tiene distribución


hipergeométrica con parámetros 𝑚, 𝑛 y 𝑘; 0  m  n , 1  k  n , si y sólo si su función de
densidad está dada por:

  m  n  m 
   
  x  k  x  para x  0, 1,..., m
f ( x)   n (1)
  
 k 
 0 de otra forma

Variables aleatorias del tipo hipergeométrico surgen al interesarse en el número de


bolas de una clase particular contenidas en una muestra de tamaño 𝑘, extraídas
desordenadamente de una urna que contiene m bolas rojas y n-m bolas blancas, 𝑘 ≤ 𝑛.
Bajo este escenario, si X representa el número de bolas rojas que contiene la muestra,
entonces la función de densidad de X está dada por (1).

El término de urna y bolas es utilizado para referirnos a experimentos de tal


naturaleza, conocidos como modelos de urnas.

Ejemplo: Una caja contiene 20 focos, de los cuales 5 son defectuosos y, se extrae una
muestra desordenada (aleatoria) de tamaño 8.

34
La caja puede verse como la urna, los focos defectuosos como las bolas rojas, y los
focos no defectuosos como las bolas blancas. Si se extrae una muestra de tamaño 8,
entonces la probabilidad de que la muestra contenga exactamente x = 0, 1, …, 5 focos
defectuosos esta dado por:

  5  15 
   
  
x 8  x 
para x  0, 1,..., 5
f ( x)    20 
  
 8
0 de otra forma

Es decir, si X representa el número de focos defectuosos contenidos en la muestra


extraída, entonces X tiene distribución hipergeométrica con parámetros 5, 20, 8.

2.7.2 Variables Aleatorias Continuas

La distribución normal

La distribución normal es muy importante debido a que es un modelo adecuado para


fenómenos de diversa índole, como naturales, sociales y financieros, y por su
sobresaliente papel en la teoría estadística (Teorema Central del Límite) puesto que sirve
como punto de partida para el desarrollo de muchas técnicas de inferencia (Mood,
Graybill, & Boes, 1974). Es importante mencionar que debido a que la distribución normal
es continua, solamente pueden calcularse probabilidades para intervalos que pertenecen
al espacio muestral de 𝑌, ya que para cualquier posible valor 𝑘 de 𝑌, 𝑃(𝑌 = 𝑘) = 0,
aunque con la corrección por continuidad es posible calcular probabilidades para
cualquier posible valor k (Mood et al., 1974). Decimos que una variable aleatoria Y se
distribuye normal si su función de densidad es:

1 (𝑦−𝜇)2 1 (𝑦−𝜇)2
− −
si 𝑦 ∈ ℝ0.00
2𝜎2 𝑒 2𝜎2
𝑓𝑌 (𝑦) = {√2𝜋𝜎 2 𝑒 √2𝜋𝜎 2
000000000000 de otra forma00000000000
donde: 𝐸[𝑌] = 𝜇 −<𝜇 <
𝑉𝑎𝑟[𝑌] = 𝜎 2 𝜎2 > 0

35
𝑒 y 𝜋 son constantes conocidas con valores aproximadamente iguales a 2.7183 y 3.1416,
respectivamente. El lector debe notar que 𝜇 y 𝜎 2 son los parámetros de la distribución,
es decir, 𝑌~𝑁(𝜇, 𝜎 2 ).

Para ejemplificar la forma de la distribución normal, supóngase que se mide la estatura


(𝑌) en centímetros a una población de niños de cinco años de edad y se encuentra que su
promedio es de 90 cm con una desviación estándar (𝐷𝐸) de 5 cm, es decir,
𝑌~𝑁(𝜇 = 90, 𝜎 2 = 25). La forma de la distribución se presenta en la Figura 2.2.

La distribución normal tiene forma acampanada con un sólo pico o moda que es igual
a la mediana y media porque es una distribución simétrica. Además, cuando 𝑌~𝑁(𝜇 =
90, 𝜎 2 = 25) el porcentaje de niños con una estatura de entre 80 y 100 cm es de 95.45%
(área sombreada en la Figura 2.2). Los puntos en que cambia la dirección de la concavidad
de la campana se llaman puntos de inflexión, y están situados a una distancia de 𝜎
unidades por encima y por debajo de la media μ. El área total bajo la curva es de 1 o 100%,
ya que es una distribución de probabilidad completamente definida.

Figura 2.2. La distribución normal para la variable estatura (𝑌) y una media de 90 cm y
𝐷𝐸 = 5 cm.

La distribución normal estándar

36
Sea Y una variable aleatoria distribuida 𝑁(𝜇, 𝜎 2 ). Definamos la variable aleatoria 𝑍 =
(𝑌 − 𝜇)/𝜎. Esta nueva variable aleatoria tiene distribución 𝑁(0,1). A una variable
aleatoria normal que tiene media cero y varianza uno se le llama normal estándar. Su
función de densidad es:

1 𝑧2
𝑒 − 2 𝑧 ∈ 𝑠𝑖 𝑧 ∈ ℝ = ⋯ si 0000
𝑓𝑍 (𝑧) = {√2𝜋
. 0 = ⋯ 0000de otra forma0 … . .00

La forma de la variable aleatoria 𝑍 se ilustra en la Figura 2.3. En ella se aprecia que los
valores con mayor ocurrencia de la variable aleatoria 𝑍 están entre -3.6 y 3.6, la media
(igual a la mediana) es igual a cero y su 𝐷𝐸 (igual a la varianza) es uno. La importancia
de esta función de densidad radica en que las probabilidades en cualquier miembro de
la familia, es decir, cualquier normal con media 𝜇 y varianza 𝜎 2 , puede calcularse con la
distribución normal estándar. La ventaja estriba en que tiene media cero y varianza uno
(Mood et al., 1974) y facilita el cálculo de probabilidades porque la variable aleatoria
normal original es una función no integrable, por lo que la integración se obtiene con
tablas de la normal estándar o un software estadístico.

Figura 2.3. La distribución normal estándar (𝑍).

37
2.8 Teorema Central del Límite

El Teorema Central del Límite es importante porque en él se basa gran parte de los
métodos estadísticos. Este teorema provee de una aproximación efectiva a las
probabilidades determinadas por sumas de variables aleatorias independientes y explica
la gran importancia de la distribución normal en la teoría de probabilidades. Su
enunciado preciso es el siguiente: sean 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria de una función
de probabilidades 𝑓𝑌 (𝑦) (es decir, variables aleatorias independientes e idénticamente
2
distribuidas), con media 𝜇𝑌 y varianza 𝜎..𝑌 . Sea 𝑌̅ = (𝑌1 + 𝑌2 +· · · +𝑌𝑛 )/𝑛 la media
aritmética de las variables aleatorias que integran la muestra. Para un tamaño de muestra
𝑛, la distribución de la variable aleatoria 𝑌̅ es aproximadamente normal con media 𝜇𝑌 y
2
varianza 𝜎..𝑌 /𝑛, es decir,
2
Ȳ ∼ 𝑁(𝜇𝑌 , 𝜎..𝑌 /𝑛)
cuando 𝑛 → ∞

De acuerdo con el resultado anterior y estandarizando la variable aleatoria, la


expresión puede escribirse como:

Ȳ − 𝜇𝑌 Ȳ − 𝜇𝑌
= ∼ 𝑁(0, 1)
2 𝜎𝑦̅
√𝜎..𝑌
𝑛

El Teorema Central del Límite establece que para un tamaño de muestra grande, la
distribución de 𝑌̅ es aproximadamente normal, independientemente de la función de
probabilidades de la variable aleatoria 𝑌 (Mood et al., 1974).

Para casi todas las poblaciones, la distribución de muestreo de 𝑌̅ es aproximadamente


normal si una muestra simple al azar es lo suficientemente grande. Pero ¿qué significa una
muestra suficientemente grande? Esto dependerá de la naturaleza de la población
muestreada y del grado de aproximación a la distribución normal requerida.

38
Cuando la población muestreada tiene una distribución de probabilidad normal, no
se requiere el Teorema Central del Límite. En este caso, utilizamos otro teorema que
establece que si la población muestreada es una distribución de probabilidad normal, la
distribución de probabilidad de 𝑌̅ es exactamente normal para cualquier tamaño de muestra.

Puesto que a menudo no conocemos el tipo de población muestreada, el Teorema


Central del Límite nos dice la naturaleza de la distribución de muestreo de 𝑌̅ para una
muestra razonablemente grande, al margen del tipo de distribución que siga la población.

2.9 La distribución t-Student

La distribución t-Student fue publicada por primera vez en 1908 por el químico irlandés
W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba
la publicación de trabajos de investigación; por tal motivo publicó su trabajo con el
seudónimo Student. Por dicha razón esta distribución lleva el nombre de t-Student.

Si 𝑍 es una variable 𝑁(0,1) y 𝜒 2 es una variable 𝜒 2 (𝑣) (Ji-Cuadrada) independiente de


𝑍, entonces la variable aleatoria definida por:
𝑍
𝑡 =
√𝜒 2 /𝑣
tiene una distribución t-Student con 𝑣 grados de libertad (Mood et al., 1974). Su función
de densidad es la siguiente:

−(𝑣+1)/2
1 Γ[(𝑣 + 1)/2] 𝑡 2
𝑓𝑇 (𝑡) = { √𝑣𝜋 ( + 1) 𝑠𝑖 − ∞ < 𝑡 < ∞. .
Γ[𝑣/2] 𝑣
0 …. de otra forma … …

La función de densidad t-Student es simétrica con respecto a cero, como el caso de la


función de densidad normal estándar. Además, para 𝑣 > 1, el valor esperado de 𝑡 es cero,
es decir, 𝐸[𝑡] = 0; y para 𝑣 > 3, 𝑉𝑎𝑟[𝑡 ] = 𝑣(𝑣 − 2). Además, note que cuando 𝑣 → ,
𝑉𝑎𝑟[𝑡 ] → 1. De esta manera vemos que una variable aleatoria t-Student tiene el mismo
valor esperado y varianza que una variable aleatoria con distribución normal estándar

39
cuando 𝑛 es grande. Por ello, la forma de ambas distribuciones es muy semejante. No
obstante, una variable normal estándar siempre tiene varianza 1, mientras que la
varianza de una variable t-Student es superior a 1. Esto se puede apreciar en la Figura
2.4, donde se compara la distribución normal estándar con la distribución t-Student con
1, 3, 5 y 10 grados de libertad. Es decir, se observa que las dos funciones de densidad son
simétricas respecto al origen, pero la distribución t-Student posee mayor masa de
probabilidad en los extremos. Sin embargo, desde el punto de vista práctico, las
diferencias entre estas dos distribuciones son relevantes cuando el tamaño de muestra es
menor o igual a 30. En el presente libro sugerimos obtener los valores de las tablas que
se utilizan para los ejemplos y ejercicios de los capítulos posteriores a partir de la
distribución t-Student, cuando el tamaño de la muestra sea menor o igual a 30; de lo
contrario, obtenerlos de la distribución normal estándar.

Figura 2.4. Comparación entre las distribuciones normal estándar y t-Student con 1, 3,
5 y 10 grados de libertad.

2.10 Tipos de muestreo

A manera de definición, un método de muestreo es una forma objetiva, y comúnmente


científica, de seleccionar unidades que pertenecen a la población. En este sentido el
muestreo consiste en un conjunto de métodos, por medio de los cuales es posible hacer
aseveraciones sobre los parámetros de una población apoyándose en la muestra. Para

40
conocer una población con base en la muestra recurrimos a dos procedimientos
generales, que se diferencian en la manera de seleccionar las unidades de la población y
el método usado para determinar el tamaño de la muestra. Los procedimientos se llaman
muestreo probabilístico y muestreo no probabilístico (Rendón, 1997).

Muestreo probabilístico. Comprende los métodos que usan un mecanismo aleatorio para
la selección de las unidades de la muestra. Cada unidad de la población tendrá una
probabilidad conocida de ser seleccionada, así como una probabilidad de ser incluida en
la muestra; ninguna de tales probabilidades es igual a cero. Entonces, los métodos de este
tipo de muestreo establecen una estructura probabilística que es la base para desarrollar
la teoría del muestreo. Otra característica importante en estos métodos de muestreo es
que la calidad, el error o la precisión de los estimadores pueden ser determinados y
expresados en términos probabilísticos. Algunos métodos de muestreo probabilístico
son: el aleatorio simple, el aleatorio estratificado, el sistemático con iniciación aleatoria,
el por conglomerados, el de respuesta aleatorizada, etcétera (Bradburn, 1998). Este tipo
de métodos de muestreo se desarrollará más adelante.

Muestreo no probabilístico. Incluye los métodos de muestreo donde la selección de las


unidades de la muestra se realiza por medios subjetivos o procedimientos no aleatorios;
en consecuencia, no se tendrá una estructura probabilística para desarrollar una teoría de
muestreo, ni podrá averiguarse la bondad de las estimaciones muestrales en términos
cuantitativos. De hecho, la calidad de las estimaciones se establece con base en la
intuición y la experiencia, o a través de argumentos subjetivos, ya que la única manera
de cuantificar la bondad de los resultados sería teniendo la población total. Aunque el
muestreo no probabilístico resulta inadecuado para el desarrollo de la teoría, en
ocasiones es la única alternativa viable (Bradburn, 1998). Además, como los métodos de
muestreo son de fácil aplicación, los resultados se obtienen con mayor rapidez y no
implica mucho gasto. Veamos a continuación algunos ejemplos de muestreo no
probabilístico:

Muestreo de juicio. También se le conoce como muestreo de expertos o muestreo


dirigido. Su característica principal es la forma subjetiva con que son seleccionadas
41
las unidades de la población. Por el elemento subjetivo no hay una manera de
cuantificar la bondad de los resultados muestrales. En este caso, el investigador
observa toda la población o parte de ella, y después selecciona una muestra
compuesta por una o más unidades que en su opinión son típicas con respecto a
la característica que se desea estudiar. Está claro que el investigador, al medir las
unidades seleccionadas de esta forma, puede derivar estimaciones de los
parámetros de interés. Sin embargo, las estimaciones dependerán de la selección
subjetiva del investigador, de tal manera que otros investigadores podrían
seleccionar muestras distintas y calcular otras estimaciones. Sucede lo mismo con
las estimaciones que se apoyan en el análisis ocular de la población de interés,
porque no involucran la selección ni la medición objetiva de las unidades.
Asimismo, esto puede pasar cuando confiamos en la opinión de personas expertas
a quienes suponemos conocedoras de las características de una población dada
(Rendón, 1997).

Muestreo de cuota. Este método es ampliamente utilizado en las encuestas de


opinión. Para su aplicación, la población se divide en grupos tomando como base
ciertas características generales. Una vez hechas las divisiones, se tomará un
número preestablecido de unidades al cual se le denomina cuota y que satisfaga
las características del grupo de interés. De este modo, la muestra total quedará
integrada por la suma de todas las cuotas. Por ejemplo, un investigador del
observatorio vulcanológico de la Universidad de Colima está interesado en
conocer la opinión de la población sobre un posible plan de emergencia frente a
una eventual erupción volcánica. El investigador podría dividir la población en
grupos definidos según la edad, el sexo, el estado civil, etcétera; y después
entrevistar a cierto número (cuota) de personas de cada grupo, por ejemplo, en
parques, salidas de las tiendas de autoservicio, comunidades aledañas al volcán o
en áreas específicas de la ciudad (Rendón, 1997).

Muestreo de voluntarios. Este método se usa principalmente en aquellas situaciones


donde es difícil el proceso de medición de las unidades. Por ejemplo, si el proceso
de medición requiere de mucho tiempo, resulta penoso y desagradable, o implica
42
una gran concentración y esfuerzo mental, muchos individuos no desearán
participar en el estudio. Por estas razones, el método consiste en integrar una
muestra con aquellas unidades que acepten formar parte de ella, es decir, una
muestra de voluntarios (Rendón, 1997).

Muestreo de unidades accesibles. Este método se usa frecuentemente cuando es difícil


el acceso o la comunicación con las unidades de la población. En este caso, la
muestra se restringe a una parte de la población donde es fácil el acceso o
comunicación. Por ejemplo, para inspeccionar el maíz a granel que es transportado
en un barco, puede tomarse una muestra de maíz a cierta profundidad de la parte
superior del barco (Rendón, 1997).

Obsérvese que en los métodos de muestreo probabilístico, para fundamentar una


estructura probabilística y desarrollar la teoría de muestreo, se debe disponer de un
marco de muestreo que permita la elección de las unidades mediante un procedimiento
aleatorio. No contar con un marco por lo tardado e impráctico de su elaboración, lleva a
la necesidad de usar los métodos de muestreo no probabilístico, con las desventajas que
ya fueron mencionadas.

2.11 El marco de muestreo

El marco de muestreo, o marco muestral, está constituido por un listado, real o virtual,
de todas las unidades de muestreo.

Unidad de muestreo

Cada pieza acumulada constituye la población. A veces son colecciones de


elementos de la población que cubren la población completa. En ocasiones las
unidades de muestreo están naturalmente definidas; en otras, se definen
arbitrariamente por quien realiza el muestreo.

43
Idealmente, cada elemento de la población debe estar incluido en una y sólo una
unidad muestral. Por eso se dice que las unidades muestrales son excluyentes entre sí y
exhaustivas sobre la población. No siempre se satisface cabalmente esta condición ideal y su
aceptación depende de las condiciones en que se suscite.

A veces no todas las partes de la población quedan incluidas en alguna unidad


muestral, como en la evaluación de recursos mediante parcelas de muestreo circulares.
Podría ser intrascendente si las partes que quedan excluidas no presentan una
característica distintiva del resto de la población y las inferencias todavía se pueden
aceptar como aplicables a la población. Sin embargo, en otras aplicaciones puede ser
decisivo el hecho de no incluir algunas partes de la población en la muestra si esas partes
excluidas se distinguen de las incluidas en alguna unidad de muestreo, y, por lo tanto,
en el marco. En estas circunstancias las estimaciones serán sesgadas, o bien solamente
serán aplicables a la población definida por el propio marco de muestreo. Si en las
Ciencias Sociales se aplica una encuesta telefónica a determinada población, debe quedar
claro que los resultados solamente son aplicables a la población constituida por las
personas en hogares que tienen teléfono y no a toda la población, ya que tener teléfono
puede representar una diferencia importante.

Hacer el listado de las unidades muestrales que conforman la población parece una
labor simple, pero en la práctica es una tarea muy complicada, porque algunas
poblaciones tienen características que demandarán tareas particulares al momento de
obtener el marco de muestreo. El marco de muestreo es real o virtual porque en ocasiones
se puede tener físicamente la lista de todas las unidades, mientras que en otras bastaría
con tener la posibilidad de generarlo para lograr el objetivo propuesto.

Entenderemos que el marco de muestreo contiene una identificación única o etiqueta


para cada unidad de muestreo, como puede ser un número progresivo desde uno hasta
𝑁, donde 𝑁 representa el número total de unidades muestrales de la población. Además
es importante que se tenga el nombre completo, dirección, ocupación, sexo, localización
geográfica de cada unidad de muestreo para facilitar el levantamiento de la encuesta
cuando las unidades muestrales son individuos.
44
2.12 Pasos a seguir en el diseño de una encuesta

1. El planteamiento de objetivos

Al empezar a diseñar un plan de muestreo o una encuesta es importante que se definan


los objetivos, pues permitirán mantenerse en una línea de investigación sin perder
tiempo con demasiados detalles.

2. La población bajo muestreo

Es trascendental que se definan desde el principio las unidades muestrales que serán
tomadas en cuenta y se establezcan reglas claras para que el encuestador las
identifique al momento de ubicarlas y hacer la medición. Recuérdese que la población
que se quiere muestrear debe coincidir con la población sobre la cual se desea tener
información.

3. La característica de la realización de la encuesta o mediciones

Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y que
no se omitan datos esenciales. Particularmente, en el caso de poblaciones humanas
existe la tendencia a hacer un número excesivo de preguntas innecesarias. Nótese que
un cuestionario demasiado largo produce una baja general en la calidad de las
respuestas, tanto en las preguntas importantes como en las secundarias.

4. El grado de precisión deseado

Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de


incertidumbre porque sólo se mide una parte de la población. Esta falta de certeza se
puede reducir al aumentar la muestra y emplear mejores dispositivos de medición. Sin
embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación del
grado de precisión deseado es un paso decisivo en la preparación de la encuesta o

45
muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos, ya
que es quien suele entender la magnitud del error tolerable de una encuesta para
hacerla compatible con una buena decisión.

5. Los métodos de medición

Podemos escoger el método de medición y el método de inspección de la población.


Los datos del estado de salud de una persona se pueden obtener de sus declaraciones
o de un examen médico. La encuesta puede emplear un cuestionario
autoadministrado, en el que los entrevistadores simplemente lean el cuestionario
prescrito o una entrevista no estructurada. La inspección puede hacerse por correo,
visitas personales, teléfono o una combinación de los tres medios.

Una parte importante del trabajo preliminar es la construcción de las formas de


registro donde se asientan las preguntas y las respuestas. En los cuestionarios sencillos
a veces es posible precodificar las respuestas, es decir, colocarlas de tal modo que se
puedan transferir rutinariamente a una computadora. De hecho, para la construcción
de buenas formas de registro se necesita proveer de la estructura de las tablas de
resúmenes finales para obtener las conclusiones.

En seguida se enumeran algunos puntos que se deben tomar en cuenta para el


diseño de cuestionarios. Sin embargo, si se va a elaborar un cuestionario, consúltese a
Tanur (1983) y Blair y Presser (1993), dos referencias útiles sobre este tema, debido a
que los puntos que aquí se presentan son muy generales:

a) Decida lo que quiere escribir. Éste es el paso más importante para redactar un
cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se motive
a las personas de la muestra a responder sin problema alguno.
b) Siempre verifique sus preguntas antes de realizar la encuesta. Lo ideal es que las
preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferentes
versiones de las interrogantes y pregunten a los entrevistados en la prueba
preliminar la forma en que interpretaron las preguntas.
46
c) Elabore las preguntas de manera sencilla y clara. Las preguntas que a usted
pueden parecerle claras tal vez no lo sean para quien las escucha por teléfono o
para alguien que hable otro idioma. Con una muestra de 53 personas, Belson
(1981, 240) probó la pregunta ¿Qué proporción de tiempo que ve la televisión lo
dedica a ver noticias? Sólo 14 de ellas interpretaron de manera correcta la palabra
proporción como porcentaje, parte o fracción. Otras las interpretaron como cuánto
tiempo o cuáles programas de noticias ve.
d) Utilice preguntas específicas en lugar de preguntas generales.
e) Relacione las preguntas que elabore con el concepto de interés.
f) Decida si debe utilizar preguntas abiertas o cerradas.
g) Informe sobre la pregunta que se planteó realmente.
h) Evite preguntas que induzcan o motiven al entrevistado a decir lo que usted
quiere escuchar.
i) Utilice preguntas de opción forzosa.
j) Plantee sólo un concepto en cada pregunta.
k) Preste atención al efecto del orden de las preguntas.

6. El marco de muestreo

Antes de seleccionar la muestra, debemos dividir la población en unidades de


muestreo. Éstas deben cubrir toda la población y no traslaparse en el sentido de que
todo elemento de la población pertenezca a solamente una unidad. Algunas veces la
unidad apropiada es obvia, en otras no es sencillo escoger lo que será la unidad de
muestreo. En el muestreo de los residentes de una ciudad, por ejemplo, la unidad
puede ser una persona, los miembros de una familia o las personas que viven en una
manzana. En el muestreo de una cosecha de limón la unidad puede ser un lote, una
parcela o un área de terreno cuya forma y dimensiones son nuestra elección.

7. La selección de la muestra

Existe actualmente gran variedad de planes para seleccionar una muestra. Por cada
plan considerado se pueden hacer estimaciones del tamaño de la muestra partiendo

47
de un conocimiento del nivel de precisión deseado y la varianza de la población. Los
costos relativos y el tiempo empleado en cada plan se estudian antes de tomar una
decisión (Lohr, 2000).

8. La encuesta piloto

Es de gran utilidad para probar el cuestionario y los métodos de campo en pequeña


escala. Esto casi siempre ayuda a mejorar el cuestionario y puede evitar otros
problemas serios, como que el costo fuera más que el esperado.

9. La organización del trabajo de campo

Las encuestas extensas tienen muchos problemas administrativos. Se debe supervisar


al personal y entrenarlo para que aplique las encuestas y los métodos de medición
apropiadamente. De ahí que sea útil un procedimiento de verificación previo de la
calidad de las respuestas, es decir, tener un plan para considerar respuestas en blanco.
(Lohr, 2000).

10. Resumen y análisis de los datos.

Después de realizar la encuesta debe revisarse con la esperanza de corregir errores o,


cuando menos, desechar datos equivocados. Habrá que decidir respecto al cálculo en
caso de omisión de respuestas o la eliminación de datos durante la revisión.
Posteriormente se hacen los cálculos para las estimaciones. Como vimos, los mismos
datos pueden servir para diferentes métodos de estimación.

Un consejo práctico para la presentación de datos es informar sobre la magnitud


esperada del error en las estimaciones más importantes. Una ventaja del muestreo
probabilístico es que se pueden hacer tales enunciados (el error esperado).

11. La información para encuestas futuras

48
Cuanta más información de una población se tenga inicialmente, más fácil será el
diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida es
una guía potencial de futuros muestreos por los datos que revela sobre la media, la
desviación estándar y la naturaleza de la variabilidad de las medidas principales, así
como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente si
se prevé lo necesario para reunir y registrar ese tipo de información.

Hay otro aspecto importante en el que una muestra completa facilita la obtención
de otras posteriores: el encuestador habilidoso aprende a reconocer los errores de
ejecución y a evitar que se repitan.

2.13 Ventajas y desventajas del muestreo

Ventajas

El objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear
recursos mínimos para obtener determinada información, o bien en conseguir la máxima
información con recursos prefijados (Bradburn, 1998).

Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en
los siguientes puntos:

Se empleará el muestreo cuando la población sea tan grande que el censo exceda
las posibilidades del investigador.
Se tomarán muestras cuando la población sea suficientemente uniforme como
para que cualquier muestra dé una buena presentación de la misma.
Se tomarán muestras cuando el proceso de medida o investigación de los
caracteres de cada elemento sea destructivo (consumo de un artículo para juzgar
su calidad, determinación de una dosis letal, etcétera).
Se utilizará el muestreo cuando las personas respondan con desagrado y así
disminuir el número de elementos que serán encuestados.

49
Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el
costo absoluto como el costo relativo (con relación a la cantidad de información
obtenida).
Este criterio suele conocerse como el criterio de economía.
El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al
valor real de la característica en estudio) resulta ser muy buena. Este criterio suele
conocerse con el nombre de criterio de calidad.
El muestreo es conveniente cuando la formación del personal y la intensidad de
los controles y supervisión son onerosos.
En general, el muestreo será conveniente cuando constituya la solución de mayor
eficiencia en el sentido del costo-beneficio.

Desventajas

A veces, el muestreo no es muy conveniente (Bradburn, 1998). Por ejemplo:

Cuando se necesita información de todos los elementos que conforman la


población.
Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo
probabilístico. El muestreo exige menos trabajo material que una investigación
exhaustiva, pero más refinamiento y preparación (conocimientos adecuados de
los diseñadores y preparación de los entrevistadores, inspectores y supervisores),
lo que puede suponer un uso limitado.
Cuando el costo por unidad sea mayor en las encuestas que en los censos y
aconseje desestimar los métodos de muestreo.

2.14 Características de una investigación por muestreo

Las características óptimas a las cuales deberían ajustarse las investigaciones por
muestreo, son las siguientes:

50
Precisión. La proximidad al valor verdadero de las características poblacionales
estimadas.

Pertinencia. La capacidad de los resultados estadísticos obtenidos por muestreo


para completar la información faltante.

Oportunidad. La utilidad de un estudio estadístico en función de su disponibilidad


en el tiempo (puntualidad, rapidez y actualidad). En el caso de censos y grandes
encuestas es aconsejable la publicación de resultados preliminares basados en
muestras.

Accesibilidad. Aunque se disponga de un banco de datos informatizado, puede


haber dificultades legales para utilizarlo (la protección de la privacidad, el secreto
estadístico y la Ley de la Función Estadística Pública). La información obtenida
por muestreo ha de ser totalmente accesible, así como tener en cuenta la legislación
vigente al momento de diseñar un estudio por muestreo.

Detalle y cobertura. La población que posee datos extensos puede complementar


una investigación exhaustiva con una muestra.

Economía. Las consideraciones sobre costos en las diferentes etapas de


planificación, el levantamiento y procesamiento de datos, la evaluación, el análisis
y la publicación pueden indicar la inconveniencia de una investigación
exhaustiva. Luego, este criterio ha de tenerse siempre presente a la hora de
planificar una investigación por muestreo.

Integración. Hay que tener buena concepción global de la información y buena


comparabilidad. La información obtenida en la investigación por muestreo ha de
ser integrable y comparable con otras informaciones existentes o futuras.

51
2.15 Errores de las encuestas

En general, en las encuestas puede haber varias fuentes de error (Bradburn, 1998), como
las siguientes:

Error de muestreo o de estimación. Error que surge cuando sólo se miden las unidades
de una muestra de la población, es decir, cuando sólo se estudia una fracción de
la población. Este error es particular para cada una de las muestras posibles de
tamaño 𝑛, y se define como la diferencia entre el valor del estimador y el valor del
parámetro.

Error de marco. Se presenta debido a los problemas en la elaboración del marco de


muestreo. Tales problemas ocurren al construir marcos incompletos, al no incluir
todas las unidades de muestreo que son de interés, o bien al incluir unidades
ajenas a la población.

Error de respuestas en blanco. Se presenta a consecuencia de las fallas u obstáculos


para medir algunas unidades de la muestra seleccionada. Así, la respuesta en
blanco puede ocurrir por omisión o no localización de algunas unidades, así como
por la renuncia o imposibilidad de medir algunas unidades.

Error de medición. Ocurre al medir las características de una unidad. Se presenta


porque el método de medición puede estar sesgado o es impreciso y en ocasiones,
como en el caso de poblaciones humanas, algunas características son difíciles de
medir, ya sea porque la persona entrevistada no posee la información exacta o da
una respuesta incorrecta a la característica de interés. Tal es el caso en la medición
del ingreso familiar, el padecimiento de cierta enfermedad, el número de abortos
por persona, las ganancias obtenidas en el negocio anterior, etcétera.

Error de procesamiento. Es el error que se puede cometer en la edición, codificación


y tabulación de la información obtenida de la encuesta.

52
Cuando la información se recolecta mediante una enumeración total se está expuesto
a cometer los cuatro últimos errores. Si la recolección se realiza mediante un
muestreo, entonces estaremos expuestos a los cinco errores y en tal caso a los cuatro
últimos se les denomina errores no debidos al muestreo.

2.16 Muestra preliminar o piloto

Una muestra preliminar o piloto es una muestra que antecede a la definitiva, cuya
selección se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se
utilizará en el estudio definitivo.

La muestra preliminar juega un papel importante en el diseño de un estudio por


muestreo, ya que será la fuente de información más inmediata para:

1. Tener una primera aproximación de los costos que se involucran en el estudio.


2. Tener una primera aproximación del tiempo que llevará la realización del estudio.
3. Estimar los parámetros involucrados en la determinación del tamaño de muestra,
usualmente la varianza y el coeficiente de variación.
4. Probar la factibilidad de los métodos de selección de las unidades muestrales, la
medición de las variables y otros aspectos prácticos.
5. Probar la factibilidad del cuestionario y la calidad del marco de muestreo.

Definir la precisión de los estimadores cuando no se tiene idea de los valores entre los
cuales ésta (precisión) puede considerarse razonable. Algunos autores sugieren que la
muestra preliminar podrá considerarse como parte de la muestra definitiva solamente
cuando los métodos de selección, medición, incluyendo el cuestionario y el marco de
muestreo, no hayan sufrido cambios o modificaciones severas.

2.17 Precisión y Exactitud

53
En estadística se pone especial énfasis en los significados de exactitud y precisión ya que
estos conceptos son esenciales para un mejor entendimiento de esta disciplina.

Exactitud se refiere a estimar correctamente el valor verdadero del parámetro. En esta


tesitura, una estimación es exacta si está cerca del valor del parámetro (Figura 2.5,
cuadrantes b y d).

Precisión se refiere al grado de agrupamiento de las estimaciones o valores


muestrales alrededor de su propio promedio (Figura 2.5, cuadrantes c y d).

En la Figura 2.5 se ilustran estos conceptos estadísticos. Note que el peor escenario
(Figura 2.5, cuadrante a) consiste en tener estimaciones inexactas, es decir, sesgadas, e
imprecisas. En ocasiones se tienen estimadas exactas pero no son de utilidad pues son
muy imprecisas (Figura 2.5, cuadrante b). Imagine que alguien estime que su edad esta
entre un año y 100 años, la cual es exacta pero inservible por la enorme imprecisión. Un
tercer escenario consiste en disponer de estimaciones inexactas, es decir, sesgadas, pero
muy precisas (Figura 2.5, cuadrante c). Es precisamente la gran precisión lo que hace que
en ocasiones este tipo de estimadores, sesgados, sean preferibles que los insesgados,
además de que el sesgo tiende a cero conforme aumenta el tamaño de la muestra. El
estimador ideal es aquel que produzca estimadas exactas y precisas (Figura 2.5,
cuadrante d).

a) Estimaciones inexactas e imprecisas b) Estimaciones exactas pero imprecisas

54
c) Estimaciones inexactas pero precisas d) Estimaciones exactas y precisas

Figura 2.5. Visualización gráfica de precisión y exactitud en la estimación de parámetros.

Por ello, cuando realizamos un estudio por muestreo es importante preguntarnos cuál
es la cantidad de error tolerable o la precisión de la estimación. La persona que utilizará
los resultados del muestreo debe definir el error, pues conoce el fenómeno en cuestión y
lo delicado de las conclusiones que se desprendan del análisis. Así, en el muestreo
probabilístico es usual referirse a la precisión de la estimación en los términos siguientes:

a) Como un límite máximo que se fija de antemano para la varianza, la desviación


estándar o el coeficiente de variación del estimador. En este libro, este límite
máximo para todos los diseños de muestreo a estudiar se fijará en términos de la
desviación estándar del parámetro de interés.

b) Como un límite máximo de error y una confiabilidad, ambos establecidos de


antemano.

De igual manera en muestreo estadístico es común denominar al error máximo como


precisión del estimador, ésta se define como:

Precisión: es el alejamiento o distancia máxima que el investigador está dispuesto a


aceptar entre el estimador y el parámetro correspondiente (Cochran, 1985). De este modo,
si 𝜃 denota al parámetro y 𝜃̂ su estimador, entonces la precisión del estimador, denotada
por 𝑑, se define como:
55
𝑑 = |𝜃̂ − 𝜃|

Esto significa que debemos especificar que 𝜃 y 𝜃̂ difieren en valor absoluto en una
cantidad menor que 𝑑.

Confiabilidad: es el grado de seguridad deseado en la precisión, y se mide en términos de


probabilidad, aunque se interpreta con base en el muestreo repetido (Cochran, 1985). Así,

1−𝛼 = confiabilidad

donde 𝛼 toma valores entre 0 y 1. La confiabilidad, generalmente, se expresa en


porcentaje y los valores usuales son desde 80%, observándose con más frecuencia 90% y
95%.

El postulado probabilístico siguiente especifica la relación entre los términos precisión


y confiabilidad:

𝑃⌊|𝜃̂ − 𝜃| ≤ 𝑑⌋ = 1 − 𝛼

que es igual a:

𝑃⌊−𝑑 ≤ 𝜃̂ − 𝜃 ≤ 𝑑⌋ = 1 − 𝛼 (2.1)

La ecuación anterior indica que la probabilidad de que la diferencia entre el estimador


y el parámetro tome valores dentro de un intervalo delimitado por los valores −𝑑 y 𝑑, es
1 − 𝛼. La determinación de un límite específico con su confiabilidad asociada (1 − 𝛼) nos
ayuda a comparar diseños diferentes (métodos de selección de la muestra) para
especificar el procedimiento que dé la precisión deseada con un costo mínimo.

2.18 Elementos para elegir la precisión o margen de error

56
Para los investigadores inexperimentados en el diseño de encuestas donde se necesitan
muestras, fijar la precisión es una labor confusa. En muchas ocasiones los investigadores
no saben cuánto grado de precisión desean ni tienen idea alguna de la respuesta. Sin
embargo, la elección adecuada de la precisión es fundamental para la toma de decisiones
acertadas, por lo que a continuación damos algunos elementos para su determinación.

Si la variable a medir es dicotómica recomendamos una precisión menor de 8%. Por


ejemplo, si se desea estimar y comparar los porcentajes de personas que tienen diabetes
en dos estados de la república mexicana, podríamos elegir una precisión de 5%. Sin
embargo, si se tiene información de que los porcentajes en ambos estados son muy
similares, para poder tomar una decisión más certera sobre si el porcentaje de diabéticos
entre los estados es distinto, debemos de elegir un porcentaje de error más pequeño,
digamos 2.5%, para poder discriminar con mayor confiabilidad. Ahora, suponga que la
Secretaría de Economía desea estimar en el país el porcentaje de familias que tienen
ingresos menores de 2,000 pesos mensuales y así determinar el porcentaje de familias que
viven en extrema pobreza. En este caso se puede elegir una precisión de 7% y con los
resultados obtenidos se tendrá una imagen bastante clara del porcentaje de familias en
esta situación. Además, si la Secretaría de Economía persigue implementar un programa
para subsidiar con 1,000 pesos mensuales a cada una de las familias en este estrato, una
estimación con un error de 7% puede provocar que al momento de implementar dicho
programa el presupuesto para tal fin no alcance, por lo que se sugiere considerar un error
más pequeño.

Si la variable respuesta es continua, de igual manera se recomienda una precisión


menor de 8% del promedio verdadero o estimado. Esto significa que para poder estimar
la precisión del promedio o el total, se necesita tener idea del valor verdadero del
promedio o total. En caso de que no se tenga idea alguna, se pueden estimar a partir de
una muestra preliminar (piloto). Por ejemplo, suponga que un nutriólogo desea estimar
el promedio de calorías consumidas de niños de seis años en el estado de Colima, como
experto sabe que el consumo promedio de calorías por niño debe ser de 400. Por lo tanto,
él puede elegir una precisión de 20 calorías, que representa 5% del promedio de consumo
recomendado (𝑑 = 0.05*400 = 20). En este caso, el nutriólogo es un experto y tiene una
57
idea bastante clara del valor del promedio. Pero suponiendo que no tiene la más remota
idea de este valor, él puede estimar este promedio con una muestra piloto y obtener su
precisión también multiplicando 0.05 por el promedio de la muestra preliminar. Ahora,
suponga que un investigador desea conocer el consumo promedio en pesos de energía
eléctrica por hogar en el estado X. Si no tiene la mínima idea de ello, puede proceder a
consultar a un experto en el tema o realizar un muestreo piloto y con base en esto tener
una estimación tentativa del promedio. Suponga que ya obtuvo el promedio preliminar
(500 pesos mensuales por hogar), entonces la precisión que utilizará para calcular su
muestra definitiva será igual a 25, que equivale a 5% del promedio preliminar 𝑑 =
0.05*500 = 25. Si, además, el investigador desea comparar en dicho estado los consumos
promedios entre los distintos municipios que sabe tienen un desarrollo económico
similar, quizá sea necesario una precisión más pequeña. Por el contrario, si desea
comparar los municipios del norte, centro y sur que, de antemano, sabe que son distintos,
la precisión podría ser aceptable.

Por otro lado, si el parámetro que se desea estimar es el total, ya sea a partir de
variables dicotómicas o continuas, se procede de igual forma y se recomienda un error
menor de 8% del total preliminar. Por ejemplo, si se desea estimar el total de drogadictos
en el estado de Colima en el año 2015, para fijar la precisión necesitamos una estimación
tentativa del total. Si suponemos que éste es de 5,000, entonces la precisión será 𝑑 =
0.05*5,000 = 250, es decir, 5% del total preliminar. Esta forma de estimar la precisión del
total es exactamente la misma (𝑑=(porcentaje/100) × valor preliminar del parámetro a estimar)
que para estimar la precisión para una proporción o un promedio. El lector debe
recordar que la precisión se debe calcular para el parámetro de mayor interés en su
investigación, de lo contrario, debe determinar una precisión para cada parámetro y con
ello obtener más de un tamaño de muestra, lo cual, además de desgastarlo, lo puede
confundir. También hay que dejar claro que si se determina la precisión usando la
expresión que presentamos anteriormente, (𝑑=(porcentaje/100) × valor preliminar del
parámetro a estimar), el tamaño de muestra requerido usando el mismo porcentaje de error
para estimar la proporción o total será igual. Lo mismo ocurrirá con el tamaño de muestra
para el promedio y el total. A esta forma de fijar la precisión se le llama precisión relativa.

58
Por último, es importante mencionar que el nivel de precisión se decidirá por la
cantidad de recursos disponibles para el estudio, ya que se pueden obtener resultados
muy confiables con precisiones muy altas, pero ello implica mayores costos. Por otro
lado, para estimar la precisión sugerimos extraer una muestra piloto que permita obtener
estimaciones preliminares de los parámetros, conocer la calidad del cuestionario, las
dificultades de los encuestadores, los problemas del marco de muestreo y otros detalles
que nos auxilien en el diseño de la encuesta definitiva. Finalmente, también es importante
dejar claro que en la mayoría de encuestas donde se trabaja con personas, los márgenes
de error más usados son 3% y 5%, ya que garantizan resultados bastante confiables y
costos razonables.

2.19 Uso de tablas para la distribución normal estándar y t -Student

Distribución normal estándar para 𝒏 > 𝟑𝟎

Es conveniente mencionar que cuando el tamaño de la muestra es mayor a 30 elementos,


los valores de la distribución t-Student son muy cercanos a los de la distribución normal
estándar, por lo cual a menudo se utilizan los valores de esta última distribución en lugar
de la primera. Se debe tener presente que 𝑍 representa a una variable aleatoria que tiene
una distribución normal, con media cero (𝜇 = 0) y desviación estándar uno (𝜎 = 1), mejor
conocida como distribución de probabilidad normal estándar. Casi siempre se usa la letra
𝑍 para indicar esta variable aleatoria especial. Como con otras variables aleatorias
continuas, los cálculos de probabilidad con cualquier distribución normal se llevan a cabo
determinando las áreas bajo la gráfica de la función de densidad de probabilidad. Por
ejemplo, supongamos que se requiere encontrar:

a) La probabilidad de que una variable aleatoria de una distribución normal estándar


sea menor a 1.75, es decir, 𝑃(𝑍 < 1.75). Para encontrar tal probabilidad usamos el
Cuadro A.1 del apéndice. Para esto nos ubicamos en la hilera correspondiente al
valor 1.70 de 𝑍 sobre la primera columna y en la columna correspondiente al valor
0.05 de 𝑍 sobre la primera hilera. Interceptando la hilera y la columna encontramos
que la probabilidad correspondiente es igual a 0.9599 (Cuadro 2.1).
59
Cuadro 2.1. Primer ejemplo para el uso de las tablas de la normal estándar.
Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

b) La probabilidad de que una variable aleatoria normal estándar se encuentre entre


1.64 y 1.98 se representa por 𝑃(1.64 < 𝑍 < 1.98). Encontrar 𝑃(1.64 < 𝑍 < 1.98) es
relativamente sencillo solamente recordando la siguiente relación: 𝑃(1.64 < 𝑍 <
1.98) = 𝑃(𝑍 < 1.98) − 𝑃(𝑍 < 1.64), con la cual únicamente es necesario repetir lo
que se hizo en el inciso a) para cada componente de la resta. Al obtener de las
tablas 𝑃(𝑍 < 1.98) = 0.9761 y 𝑃(𝑍 < 1.64) = 0.9495 se tiene que 𝑃(1.64 < 𝑍 <
1.98) = 0.9761 − 0.9495 = 0.0266 (véase el Cuadro 2.2).

Cuadro 2.2. Segundo ejemplo para el uso de las tablas de la normal estándar.
Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

c) Ahora, supóngase que se requiere encontrar el valor de 𝑍0 tal que la probabilidad


de que una variable aleatoria normal estándar sea igual a 0.975, es decir, 𝑃(𝑍 >
𝑍0 ) = 0.975. En este caso, se procede de manera inversa al inciso a), es decir, ahora
se tiene la probabilidad y se busca el valor de 𝑍0 . Por lo tanto, se busca en el Cuadro
A.1 el valor de probabilidad más cercano a 0.975 y se encuentra que éste es
60
exactamente el mismo (0.975). En seguida se obtienen los valores de 𝑍 para este
valor de la columna e hilera en que se ubica. En este caso, el valor de 𝑍 en la
columna es de 0.06 y en la hilera 1.90, por lo que 𝑍0 = 1.90 + 0.06 = 1.96 (véase
un ejemplo en el Cuadro 2.2).

Sin embargo, hay que tener presente que en la práctica la confiabilidad es (1 −


𝛼), para la cual se debe encontrar el valor de 𝑍0 . Por ello, a continuación se muestra
cómo llegar a partir de una confiabilidad especificada al valor de 𝑍0 = 𝑍𝛼/2 .

Suponga que el investigador selecciona una confiabilidad de 90%. Así, el nivel


de significancia en términos de proporción será 𝛼 = 0.1, lo que implica que el valor
de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 , que expresado en términos de
probabilidad es equivalente a encontrar 𝑍0.05 tal que 𝑃(𝑍 < 𝑍0.05 ) = 0.95. Por lo
tanto, se busca en el Cuadro A.1 el valor de probabilidad más cercano a 0.95 y se
encuentra que es igual a 0.9495. Luego, para éste valor se obtienen los valores de
𝑍 de la columna e hilera en que se ubica; en este caso el valor de 𝑍 en la columna
es de 0.04 y en la hilera de 1.6, por lo que 𝑍0 = 𝑍𝛼/2 = 𝑍0.05 = 1.6 + 0.04 =
1.64 (véase un ejemplo en el Cuadro 2.3).

Cuadro 2.3. Tercer ejemplo para el uso de las tablas de la normal estándar.
Z

Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09


0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

Ahora suponga que el investigador selecciona una confiabilidad de 85%; esto implica
que 𝛼 = 0.15. Por lo tanto, el valor de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.075 . En
términos de probabilidad, buscamos 𝑍0 tal que 𝑃(𝑍 < 𝑍0 ) = 1 − 0.075 =
61
0.925. Nuevamente, en el Cuadro 2.3 se busca el valor de probabilidad más próximo a
0.925. En seguida se obtienen los valores de 𝑍 para este valor de la columna e hilera en
que se ubica. Para este caso el valor de 𝑍 en la columna es igual a 0.04 y el de la hilera 1.4.
De esta manera 𝑍0 = 1.4 + 0.04 = 1.44. Es importante enfatizar que al usar esta tabla no
se obtienen valores exactos sino aproximados.

Finalmente, para facilitar el uso del Cuadro A.1, en el Cuadro 2.4 se presentan los
valores de 𝑍𝛼/2 para los niveles de confianza más comunes.

Cuadro 2.4. Valores de 𝑍𝛼/2 .


Nivel de confianza 𝜶 𝜶/𝟐 𝒁𝜶/𝟐

90% 0.100 0.0500 1.6449


95% 0.050 0.0250 1.9600
97.5% 0.025 0.0125 2.2414
99% 0.010 0.0050 2.5758

Distribución t-Student para 𝒏 ≤ 𝟑𝟎

Si el investigador establece una confiabilidad de 1 − 𝛼 con un tamaño de muestra 𝑛, el


valor de tablas que se desea es 𝑡0 = 𝑡𝑛−1,1−𝛼/2 , que en términos de probabilidad equivale
a encontrar 𝑡0 = 𝑡𝑛−1,1−𝛼/2 tal que 𝑃(𝑡 < 𝑡0 ) = 𝑡𝑛−1,1−𝛼/2 = 1 − 𝛼/2. Para hallar este valor
se usa el Cuadro 2.5, cuyos valores corresponden a una distribución t-Student con 𝑣 =
𝑛 − 1 grados de libertad que deja una probabilidad a la derecha de ellos de 1 − 𝛼/2. Por
lo tanto, para usar la tabla se requiere únicamente los valores de 1 − 𝛼/2 y los grados de
libertad que se obtienen en función del tamaño de la muestra. Para los casos abordados
en este texto 𝑣 = 𝑛 − 1. Enseguida, en la primera columna se localizan los grados de
libertad 𝑣, en la segunda hilera el valor de 1 − 𝛼/2, y en la intercepción de esta hilera y
columna se obtiene el valor de 𝑡0 .

Por ejemplo, suponga que un investigador fija para su estudio una confiabilidad de
90% y cuenta con un tamaño de muestra de 𝑛 = 6; esto implica que 𝛼 = 0.1 (en términos
de proporción). Entonces, el valor de tablas que se desea es 𝑡0 = 𝑡6−1,1−0.05, es decir, se
busca el valor de 𝑡0 tal que 𝑃(𝑡 < 𝑡0 ) = 1 − 0.05 = 0.95. Para encontrar dicho valor de 𝑡0 ,

62
en el Cuadro 2.5 se busca en la primera columna los 𝑣 = 6−1 = 5 grados de libertad, en la
segunda hilera el valor 𝛼/2 = 0.05, y en la intercepción se obtiene el valor de 𝑡0 = 2.0150.

Para cerciorarnos de que no habrá dudas para obtener los valores 𝑡0 de tablas, damos
otro ejemplo: suponga que otro investigador fija para su estudio una confiabilidad de
98% y cuenta con un tamaño de muestra de 𝑛 = 16. Por lo tanto, 𝛼/2 = 0.01 y el valor de
tablas que se desea es 𝑡0 = 𝑡(15,1−0.01), que es equivalente a buscar el valor de 𝑡0 tal que
𝑃(𝑡 < 𝑡0 ) = 1 − 0.01. Para encontrar ese valor, en el Cuadro 2.5 se busca en la primera
columna los 𝑣 = 16 − 1 = 15 grados de libertad, en la segunda hilera el valor de 𝛼/2 =
0.01, y en la intercepción de éstas se obtiene el valor de 𝑡0 = 2.6025.

Cuadro 2.5. Ejemplo para el uso de las tablas de la distribución t-Student


𝜶/𝟐

𝒗 .25 .1 .05 .025 .01 .005 .0025 .001 .09


1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.211 318.3088 636.6192
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 05.8934 6.8688
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 03.7328 4.7028
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
180 0.6759 1.2863 1.65340 1.9732 2.3472 2.6034 2.8421 03.1361 3.3454
210 0.6757 1.2856 1.6521 1.9713 2.3442 2.5994 2.8370 03.1295 3.3375

2.20 Filosofía AIPE

Históricamente, los metodólogos han enfatizado la planeación del tamaño de la muestra


en la investigación empírica para obtener información útil de los estudios experimentales
y observacionales desde una perspectiva de potencia analítica pura. Aunque la estructura
de potencia analítica ha dominado la forma en que los investigadores conceptualizan la
planeación del tamaño de muestra, no es ni el único ni el mejor acercamiento que puede
tomarse para estimar el número apropiado de participantes a incluir en algún estudio de
interés. Aunque la potencia estadística es innegablemente importante para un dominio
de investigación, la simple obtención de la potencia adecuada no siempre provee
respuestas significativas para ciertas preguntas de investigación. La obtención de
63
parámetros estimados que sean exactos puede ser una meta aun potencialmente más
significativa que el obtener significación estadística. Por lo tanto, el método apropiado
para la planeación del tamaño de muestra, y el mismo tamaño apropiado de la muestra,
depende de las metas deseadas en una investigación.

Un enfoque alternativo, según Kelly (2007), para el marco de potencia analítica para
la determinación de tamaños de muestra es el que se basa en la exactitud en la estimación
de parámetros (AIPE). El objetivo de AIPE es obtener parámetros estimados que
correspondan con exactitud al valor de la población que representan. Conceptualmente,
la exactitud puede ser definida como la distancia observada entre la estimación del
parámetro y su valor verdadero poblacional. Precisión, sin embargo, es la
reproductibilidad de la estimación y se define como la variabilidad de la estimación
resultante. El sesgo es también un concepto importante en el contexto de exactitud y
precisión. El mantener precisión constante generalmente lleva a discrepancias más
grandes entre las estimaciones y el valor de la población, porque la estimación insesgada
(centrada) es una propiedad deseable en los estimadores (fórmulas para hacer las
estimaciones de parámetros).

La definición formal de exactitud es dada por la raíz cuadrada del error cuadrado
medio y puede ser expresada de la siguiente manera:

2 2 2
𝑅𝑀𝑆𝐸 = √𝐸 [(𝜃̂ − 𝜃) ] = √[𝐸(𝜃̂ − 𝐸[𝜃̂]) ] + (𝐸[𝜃̂ − 𝜃])

donde 𝜃 es el valor verdadero del parámetro de la población (Hellmann & Fowler, 1999;
Rozeboom, 1996). Se puede observar que la raíz cuadrada del error cuadrático medio se
puede desintegrar en dos componentes: la varianza, que es la medida de precisión, y el
cuadrado del sesgo. Por lo tanto, cuando el sesgo es cero (𝐸 [𝜃̂ - 𝜃] = 0), tanto la precisión
como la exactitud son equivalentes y se pueden utilizar indistintamente.

En la práctica, la precisión en la estimación de parámetros suele medirse en términos


de la amplitud del IC correspondiente, que se puede expresar como una proporción de

64
la desviación estándar o en la métrica de la variable dependiente. Cuanto más corta sea
la amplitud de un intervalo de confianza existe menor incertidumbre acerca de los
posibles valores del parámetro poblacional. Es decir, siendo este más estrecho aumenta
la probabilidad de que el punto obtenido represente con precisión el valor real de la
población. Por lo tanto, para que un investigador reduzca las principales fuentes de
incertidumbre debe tratar de desterrar la aleatoriedad e imprecisión (Casti, 1990). La
filosofía AIPE para la estimación del tamaño de muestra puede facilitar mejor el avance
del conocimiento científico que el método de pruebas de hipótesis que se reduce a un
método dicotómico de rechazo o no rechazo.

Lo anterior significa que la determinación de un tamaño de la muestra se puede lograr


a través de (o al menos) dos métodos conceptualmente diferentes, uno de ellos diseñado
para obtener potencia estadística (pruebas de hipótesis) y el otro diseñado para obtener
precisión estadística. Dependiendo de los intereses y los objetivos deseados de un
estudio, la planificación del tamaño de muestra debe abordarse desde el enfoque de
potencia analítica, el enfoque AIPE, o una combinación de ambos. Es importante resaltar
que la planificación del tamaño de muestra que se aborde desde algún tipo de enfoque
será diferente del otro. La distinción entre los dos tipos de enfoques es más que
conceptual, dado que las diferencias en los tamaños de muestra estimados pueden ser
substanciales dependiendo tanto del nivel de potencia, así como el ancho del IC deseado.

Ambos tipos de enfoques, tanto el de potencia analítica como el AIPE, pueden ofrecer
beneficios en ciertas situaciones, dependiendo de la(s) pregunta(s) de investigación. Está
claro que ambos enfoques son importantes y en muchas circunstancias pueden usarse en
conjunto para ayudar a producir estudios de calidad.

Fundamentos del enfoque AIPE y la importancia de estimaciones exactas

Aunque el análisis de potencia estadística (pruebas de hipótesis) ha dominado el campo


de la planificación del tamaño de muestra, otra alternativa que suele ser más adecuada a
las necesidades de algunos investigadores es AIPE. El objetivo de AIPE no es
necesariamente obtener estimaciones de parámetros estadísticamente significativos, si no

65
estimaciones que calculen con exactitud el parámetro de la población correspondiente.
En el marco de AIPE, la exactitud es relativa y se refiere a la correspondencia entre el
valor de la población y su estimado. Ambos, la precisión y entonces la exactitud de un
estimado, se refieren al ancho del IC formado alrededor del parámetro. La selección de
un tamaño de muestra se realiza para lograr que este intervalo sea estrecho y lleve a
estimaciones exactas si el estimador es insesgado. Probabilísticamente, mediante una
planeación del tamaño de muestra tal que el ancho del intervalo de confianza calculado
sea estrecho, los parámetros estimados tendrían mejor correspondencia al valor
poblacional, dado que habrá menor incertidumbre en los puntos estimados obtenidos. A
menudo, obtener los parámetros estimados exactos, lleva a un mejor entendimiento del
fenómeno estudiado que la decisión rechazo - no rechazo vía la prueba de la hipótesis
nula. En el campo de la investigación científica, la imprecisión es una característica de un
parámetro estimado que debe eliminarse tanto como sea posible. Porque la “predicción
y explicación son pilares en los cuales descansan las metas de la empresa científica”
(Casti, 1990). Lograr parámetros estimados exactos no sólo facilitaría la predicción del
parámetro de interés, sino que también podría ayudar cuando se formaran explicaciones
sobre por qué y cómo la(s) variable(s) dependiente(s) e independiente(s) están (o no
están) relacionadas entre ellas. Cuando las predicciones son exactas y las explicaciones
viables están disponibles para algunos fenómenos, la verosimilitud del conocimiento
puede ser realzada en un área en particular, lo cual puede tener mayores consecuencias,
dado que pueden desarrollarse y posteriormente probarse teorías más fuertes y precisas.

Pasos del enfoque AIPE

Como ya se mencionó, el cálculo de tamaños de muestra tradicionalmente se ha


efectuado bajo dos vías, que son la de potencia (prueba de hipótesis) y la de precisión
(estimación de parámetros).

Para estimar el tamaño de muestra bajo el MAS con enfoque tradicional se usan con
mayor frecuencia las siguientes fórmulas:

Para población finita cuando 𝑁 es conocida y no es muy grande (𝑁 < 5,000):


66
NZ 2 pq
n
Nd 2  Z 2 pq

Para población infinita 𝑁 es desconocida:

Z 2 pq
n
d2

Donde: 𝑁 es el tamaño de la población, 𝑑 es la precisión o margen de error, 𝑝 es la


proporción, 𝑞 = (1 − 𝑝) y 𝑍es el cuantil 1 − 𝛼 de una distribución normal estándar.

El estimar el tamaño de muestra bajo el enfoque tradicional tiene principalmente dos


ventajas. Una es que es ampliamente conocida y la otra es la facilidad de su cálculo. Como
desventajas se tienen que es altamente impreciso pues supone una variable normal
cuando en realidad es una variable Bernulli o Binomial, además de ser una aproximación.
Kupper & Hafner (1989), Kelley, Maxwell, & Rausch (2003) y Wang et al. (2005),
demostraron que produce una seria subestimación del tamaño de muestra requerido.

Por otra parte, existe una forma no tan popular para el cálculo de tamaño de muestra
pero que asegura exactitud en la estimación de parámetros (Kupper & Hafner, 1989;
Kelley et al., 2003; Kelley & Rausch, 2011; Montesinos-López, Montesinos-López, Luna-
Espinoza, Gaytán-Lugo, & Espinosa-Solares, 2012a). Desde el enfoque AIPE, el tamaño
de la muestra se determina de tal manera que la amplitud (anchura) esperada del IC será
suficientemente estrecha. El enfoque AIPE consta de dos pasos. El primero proporciona
el tamaño de muestra requerido bajo el enfoque tradicional de tal manera que la amplitud
esperada del IC será menor o igual al valor especificado a priori por el investigador. A
este valor se le conoce como precisión o margen de error. Sin embargo, la probabilidad
de que la amplitud del IC calculado con la muestra obtenida en el paso anterior sea menor
que el margen de error especificado a priori, está alrededor de 0.5 (50%) (Kupper &
Hafner, 1989; Kelley et al., 2003). Una vez obtenido el tamaño de muestra tradicional se
procederá a calcular un tamaño de muestra con mayor precisión; para esto es necesario
incrementarlo hasta asegurar que la anchura del IC sea menor o igual a la precisión
especificada a priori con una alta probabilidad. A esta probabilidad se le llama nivel de
67
aseguramiento (𝛾). Por ejemplo, si un investigador estima un tamaño de muestra bajo el
enfoque AIPE para estimar el promedio con un nivel de confianza de 95%, con una
precisión 0.5 y un nivel de aseguramiento del 99%, entonces el tamaño de muestra
resultante le asegurará que la amplitud del IC de 95% sea menor o igual 0.5 (precisión
fijada a priori) con una probabilidad de al menos 99%. Es decir, se tiene una probabilidad
de 1% de que no se cumpla la precisión fijada a priori en la amplitud del IC de 95%
(Kupper & Hafner, 1989; Kelley et al., 2003; Kelley, 2007).

Para ejemplificar el enfoque AIPE se utilizó un método para el cálculo de tamaños de


muestra para proporciones binomiales que asegura ICs cortos (Montesinos-López,
Montesinos-López, Santos-Fuentes, Valladares-Cellis, & Magaña-Echeverría, 2011) y
consiste en lo siguiente:

Primero debe hacerse la estimación puntual de la proporción:

pˆ  m / n

donde: 𝑚 es el número de éxitos observados y 𝑛 es el tamaño de la muestra.

La estimación por intervalo será (Ec. 2.2):

pL  B / 2 , y ,n  y  1
(2.2)
pU  B1 / 2 , y  1,n  y

donde: B / 2 , y ,n  y 1 y B / 2 , y ,n  y 1son el límite inferior y superior del intervalo de confianza


para la proporción (𝑝) con una confiabildad 1 − 𝛼.

Amplitud del intervalo de confianza:

w  pU  pL
68
donde: 𝑝𝑈 = Límite superior y 𝑝𝐿 = Límite inferior.

Amplitud relativa del intervalo de confianza (Ec. 2.3):

wr  ( pU  pL ) / p (2.3)

donde: 𝑝= proporción de interés.

Dado que no se conocen 𝑛 y 𝑚 no es posible calcular 𝑤𝑟 . Sin embargo, de acuerdo con


Vollset (1993) y Newcombe (1998), es posible determinar la amplitud relativa promedio
exacta con la siguiente expresión:

n
n  y
wr ( p, n)   wr   p  1  p 
n y

y 0  y

donde: 𝑤
̅𝑟 (𝑝, 𝑛) es la amplitud requerida del intervalo de confianza y es calculada
utilizando las fórmula anterior, para 𝑌 = 𝑦 dados 𝑝 y 𝑛.

Ahora se procederá a calcular el tamaño de muestra inicial (o preliminar), siendo éste


el paso 1:

Un algoritmo que garantiza encontrar el tamaño de muestra apropiado consiste en


comenzar con el tamaño de muestra inicial (𝑛0 =1), y se prosigue a encontrar el valor de
𝑛 que satisface:

n
n  y
wr ( p, n)   wr    p  1  p   re
n y

y 0  y

donde: 𝑟𝑒 es el error relativo, se sugiere que sea menor a 0.1 (10%), 𝑦 es el número de
éxitos observados, y 𝑛 es el tamaño de muestra preliminar requerido.

Después se aplicará la siguiente condición: Si la amplitud relativa promedio


observada del intervalo de confianza (CIRW) es más grande que la amplitud relativa
69
deseada (𝑟𝑒), el tamaño de muestra se incrementará en una unidad y el CIRW deberá
calcularse nuevamente. Este algoritmo se repetirá mientras 𝑤
̅ 𝑟𝑖 ≥ re.

donde: 𝑤
̅ 𝑟𝑖 = Amplitud relativa promedio observada e i = representa la iteración
respetiva.

Sin embargo, el paso anterior no garantiza que para cualquier IC en particular la


anchura observada sea lo suficientemente estrecha porque la media del CIRW, 𝑤
̅𝑟 , será
̂
una variable aleatoria (𝑤
̅𝑟 ) que fluctuará de muestra a muestra si no se conoce el valor
exacto de 𝑝. Para demostrar esto se necesita calcular la probabilidad de obtener CIRW’s
menores que el valor especificado (𝑟𝑒), el cual se calcula con la Ec. 2.4.

n
n  y
P( wˆ r  re)   I ( wr , y, p)  p  1  p 
n y (2.4)
y 0  y

donde 𝐼(𝑤𝑟 , 𝑦, 𝑝) es una función indicadora que muestra si el valor de CIRW, calculado
̂𝑟 es considerada una
con las ecuaciones 2.2 y 2.3, no es más grande que el valor de 𝑟𝑒, y 𝑤
̅
variable aleatoria porque no se conoce el valor exacto de 𝑝.

En el Cuadro 2.6 se muestra un tamaño de la muestra inicial ( n ) y tres incrementos


p

(𝑛𝑚100 , 𝑛𝑚300 y 𝑛𝑚800 ), cada uno con su correspondiente probabilidad de que la anchura
relativa del IC esperado (CIRW) sea menor que el valor especificado ( re  0.3 y
̂
̅𝑟 < 𝑟𝑒)). Para un IC del 95%, 𝑝 es la proporción en la población, 𝑟𝑒 = 0.3 es el CIRW
𝑃(𝑤
deseado, y el tamaño de la muestra preliminar es calculado usando la ecuación 𝑤
̅𝑟 (𝑝, 𝑛).
̂
̅𝑟 < 𝑟𝑒) es la probabilidad de que la media del CIRW sea menor que el valor
𝑃(𝑤
especificado ( re  0.3 ), donde 𝑟𝑒 = 0.3 es el error relativo o precisión relativa deseada.
Por lo tanto, se concluye que utilizando la Ec. 2.4 sólo se garantiza una probabilidad de
que se cumpla la amplitud del IC de alrededor de 50%.

Cuadro 2.6. Tamaños de muestra con enfoque tradicional.


𝑝 𝑛𝑝 ̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅ 𝑛𝑚100 ̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅ 𝑛𝑚300 ̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅ 𝑛𝑚800 ̂𝑟 < 𝑟𝑒)
𝑃(𝑤
̅
0.05 3374 0.4984 3474 0.6775 3674 0.9097 4174 0.9999

70
0.1 1600 0.4878 1700 0.8439 1900 0.9992 2400 1.00
0.15 1009 0.5094 1109 0.9607 1309 1.00 1809 1.00
0.2 713 0.5000 813 0.9982 1013 1.00 1513 1.00
0.25 536 0.4834 636 0.9999 836 1.00 1336 1.00
0.3 417 0.4773 517 1.00 717 1.00 1217 1.00
0.35 333 0.5000 433 1.00 633 1.00 1133 1.00
0.4 270 0.4769 370 1.00 570 1.00 1070 1.00
0.45 220 0.4211 320 1.00 520 1.00 1020 1.00
0.5 181 0.5522 281 1.00 481 1.00 981 1.00

Paso 2: Tamaño de muestra modificado que asegura cortos ICs.

Para que la probabilidad de la amplitud relativa del IC sea alta se usa la siguiente
expresión:

n
n  y
P( ŵr  re )   I ( wr , y , p )  p  1  p   
n y

y 0  y
donde: 𝛾= Nivel de aseguramiento (gama).

EL Cuadro 2.7 muestra los tamaños de muestra requerido (𝑛) para IC de 95% y
99%,donde 𝑝 es la proporción en la población, 𝛾 es el grado deseado de acercamiento a
un IC para 𝑝 que no sea más amplio que 𝑟𝑒, 𝑟𝑒 es el CIRW relativo deseado, y 𝑛𝑚 es el
tamaño de muestra modificado y requerido cuando se utiliza un nivel de aseguramiento
𝛾. Por lo tanto, se concluye que utilizando un nivel de aseguramiento (enfoque AIPE) se
garantiza que con una probabilidad previamente fijada 𝛾, se cumpla la amplitud del IC,
el cual depende del nivel de aseguramiento 𝛾 (comúnmente de 90 y 99%).

Cuadro 2.7. Tamaños de muestra con enfoque AIPE.


IC=95%.
𝑛𝑝 con  (  0.5) 𝑛𝑚 con   0.90 𝑛𝑚 con   0.99

p 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3
0.05 117577 29592 7496 3374 119370 30483 7937 3662 120820 31194 8280 3889
0.1 55714 14026 3554 1600 56509 14420 3747 1729 57154 14736 3899 1826
0.15 35093 8838 2240 1009 35558 9069 2353 1082 35932 9250 2442 1138
0.2 24782 6243 1583 713 25080 6391 1656 760 25321 6507 1711 796
0.25 18596 4687 1189 536 18795 4784 1238 567 18952 4862 1274 589
0.3 14472 3649 927 417 14604 3714 959 439 14708 3764 981 453

71
0.35 11526 2908 739 333 11610 2949 760 346 11677 2980 772 354
0.4 9316 2352 598 270 9366 2376 610 277 9402 2393 616 280
0.45 7598 1919 489 220 7619 1930 493 223 7634 1935 494 223
0.5 6223 1573 401 181 6224 1574 402 182 6224 1574 402 182
IC=99%.
𝑛𝑝 con  (  0.5) 𝑛𝑚 con   0.90 𝑛𝑚 con   0.99

P 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3
0.05 202500 50824 12805 5735 204867 52002 13380 6120 206774 52938 13840 6416
0.1 95939 24083 6068 2717 96991 24606 6325 2886 97834 25021 6525 3020
0.15 60419 15169 3823 1712 61029 15473 3974 1811 61524 15716 4090 1888
0.2 42659 10712 2700 1209 43053 10907 2796 1273 43369 11063 2870 1320
0.25 32003 8038 2026 907 32266 8168 2091 949 32474 8269 2140 980
0.3 24899 6255 1577 706 25074 6341 1619 734 25212 6408 1651 753
0.35 19825 4982 1256 562 19937 5037 1284 580 20025 5079 1302 591
0.4 16019 4027 1016 455 16084 4058 1032 465 16135 4081 1041 470
0.45 13059 3284 829 371 13088 3298 835 375 13108 3306 838 375
0.5 10691 2689 679 304 10692 2690 680 305 10692 2690 680 305

El método descrito anteriormente es para determinar tamaños de muestra exactos


para estimar una proporción, garantiza IC cortos a través de dos pasos, toma en cuenta
la naturaleza estocástica del IC (porque normalmente no se conoce el valor verdadero de
la proporción), no tiene relación con rechazar una hipótesis nula (ya que el enfoque que
utiliza es AIPE de 𝑝), y supone una prueba perfecta (sensibilidad y especificidad iguales
a uno).

72
Capítulo 3. Muestreo aleatorio simple

CAPÍTULO 3
Muestreo aleatorio simple
Que el muestreo es imperfecto,
No lo vengo a discutir.
Pero es el mejor amigo,
Que te ayuda a decidir.
OAML

E l muestreo sirve para determinar, de la mejor manera, las características que


describan a la población. La cantidad de información que la muestra aporte depende
del tamaño de ésta y de la variabilidad existente entre los elementos de la población en
cuanto a la característica o variable de interés. El evaluador decide la forma de seleccionar
la muestra y el número de unidades muestrales que se evaluarán, y con esto podrá
controlar la calidad de la información extraída y la precisión requerida.

Aunque es común en los estudios muestrales evaluar varias características o variables


simultáneamente en cada sujeto o unidad muestral, en el estudio del muestreo
probabilístico solamente se trabaja con una variable a la vez. Si se requiere se pueden
estudiar todas las variables pero una por una y al final unir los resultados. Puede ocurrir
el caso que de dos o más variables se obtenga otra variable que sea de interés. Esto debe
considerarse como una forma de medición y la variable generada simplemente será una
variable más.

Con la información proveniente de la evaluación de la muestra podemos hacer


inferencias sobre la población. La validez de tales inferencias depende
fundamentalmente del diseño de muestreo, es decir, de la forma en que se obtuvo la
muestra. Para que los principios de la probabilidad sean aplicables al hacer la inferencia,
es necesario que la selección de la muestra se haga mediante una técnica de muestreo
probabilístico.
73
El Muestreo Aleatorio Simple (MAS) es el más sencillo que veremos en este libro y nos
dará las bases para desarrollar diseños más elaborados.

3.1 Definición y tipos de muestreo aleatorio simple

La definición de MAS se refiere a que cada una de las unidades de la población tienen la
misma probabilidad de ser seleccionadas (Raj, 1972). Si sabemos que cada muestra
posible tiene la misma probabilidad de ser elegida, nos preguntamos ¿cuántas muestras
posibles existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la
selección con reemplazo y la selección sin reemplazo.

Definición y tipos de muestreo

Definición
Se denomina muestreo aleatorio simple o completamente al azar al diseño que,
habiendo decidido que el tamaño de la muestra será de 𝑛 unidades de muestreo
(o simplemente de tamaño 𝑛), le asigna la misma probabilidad de ser elegida a
cada una de todas las muestras posibles de ese tamaño. Es decir, cualquiera de las
muestras distintas que podemos obtener de la población tendrá la misma
probabilidad de ser elegida (Cochran, 1985).

Con reemplazo
En el muestreo con reemplazo, si el tamaño de la muestra es 𝑛 y el de la población
es 𝑁, existen 𝑁 𝑛 muestras diferentes. El procedimiento de selección consiste en
seleccionar una unidad que tiene la posibilidad de ser incluida nuevamente en la
muestra. Esta opción genera fórmulas de estimación más fáciles, pero en la
práctica tiene poco sentido medir en más de una ocasión la misma unidad
muestral, salvo en diseños específicos u otros más elaborados en los que las
complicaciones teóricas sugieren simplificar los supuestos en que se sustenta su
análisis.

Sin reemplazo
En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como
combinaciones se pueden hacer de N elementos de tamaño 𝑛 (𝑁 𝐶𝑛 ), cantidad que
se calcula con:
𝑁!
𝐶𝑁 𝐶𝑛 =
𝑛! (𝑁 − 𝑛)!

El procedimiento de integración de la muestra difiere en que una vez seleccionada


una unidad, ésta ya no podrá volver a ser seleccionada.

74
Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada
muestra posible, lo que haría suponer que todas las muestras posibles deberían
configurarse antes de seleccionarlas (sería imposible en poblaciones grandes).
Simplemente obsérvese que el número posible de muestras de una población con 100
unidades muestrales y una muestra de tamaño 15, sin reemplazo, es 100C15 =
100!/[15!(100−15)!] = 2.53338×1017, y con reemplazo es 10015 = 1×1030 muestras posibles.
Afortunadamente, la definición se satisface simplemente dejando que cada unidad
muestral tenga la misma oportunidad de ser incluida en la muestra; esa probabilidad es
𝑛/𝑁 y solamente necesitamos conocer una muestra, que será la que usaremos.

Cuando el tamaño de la población (𝑁) es muy grande con respecto al tamaño de la


muestra (𝑛) y el muestreo se lleva a cabo con reemplazo, la probabilidad de que una
unidad muestral sea elegida dos veces es muy pequeña. De hecho, la probabilidad de
elección de cualquier unidad una sola vez también es muy pequeña; de ahí que el MAS
con reemplazo se aproxime al MAS sin reemplazo.

En lo sucesivo consideraremos el MAS sin reemplazo, a menos que se indique otra


especificación. También, es pertinente mencionar que este diseño de muestreo recibe
diferentes nombres como muestreo simple al azar, muestreo completamente aleatorio o
muestreo irrestricto al azar.

3.2 Selección de una muestra aleatoria simple

Una vez que se ha determinado el número de elementos a extraer de la población, el paso


siguiente consiste en seleccionarlos, de tal manera que cada uno tenga la misma
probabilidad de ser seleccionado.

Existen muchos métodos para este fin, entre ellos:

Tabla de números aleatorios


Este método consiste en extraer 𝑛 números de la tabla que estén comprendidos
entre 1 y 𝑁, para lo cual se inicia en cualquier punto de la misma elegido al azar,
75
siguiendo una ruta predeterminada y tomando tantas columnas como dígitos
tenga 𝑁 (recuérdese que la extracción es sin reemplazo). A continuación veamos
dos ejemplos:

1. Supongamos que queremos una muestra aleatoria de cuatro personas de una


población de 15 individuos enumerados del 1 al 15. Para obtener las cuatro
personas, elegimos una hilera y una columna aleatoriamente del Cuadro A.3
(en el Apéndice). Suponemos que la hilera seleccionada es la 23 y la columna es
la cuatro y decidimos utilizar los últimos dos dígitos del extremo derecho del
grupo de cinco, que en este caso es el 10 (primer elemento de la muestra).
Procedemos en cualquier dirección para obtener los individuos que restan en la
muestra. Si vamos hacia abajo de la columna, el siguiente número
(inmediatamente debajo del 10) es el seis. Entonces, nuestra segunda persona
en la muestra sería la seis. Si seguimos, llegamos al 22, pero solamente hay 15
elementos en la población. Por consiguiente, ignoramos el 22 y continuamos
hacia abajo de la columna y nos encontramos el 15. Así, nuestra tercera persona
en la muestra es la 15. Para obtener la cuarta persona que conformará la muestra
continuamos hacia abajo de la columna y nos encontramos el 58, luego 83, 83,
59 y 96, pero recordamos que nuestra población solamente es de 15 personas,
por lo que los ignoramos y continuamos hacia abajo en la columna. Aparece un
siete, así que nuestro cuarto elemento de la muestra es la persona siete.

2. Ahora supongamos que tenemos una población de 9,000 individuos


(enumerados del 1 al 9,000) y necesitamos elegir una muestra aleatoria de 10 de
ellos. De igual manera que el ejemplo anterior, elegimos una hilera y una
columna aleatoriamente del Cuadro A.3. Suponemos que la hilera seleccionada
es la cinco de la columna seis y decidimos utilizar los últimos cuatro dígitos del
extremo derecho del grupo de cinco, que en este caso es el 5,838 (primer
elemento de la muestra). Para obtener los restantes individuos de la muestra
podemos proceder en cualquier dirección. Si decidimos proceder hacia abajo en
la columna, el siguiente número (inmediatamente debajo del 5,838) es el 525.
Entonces, nuestro segundo individuo en la muestra sería el 525. Siguiendo,
76
encontramos que los restantes individuos que conformarán la muestra son:
2,351, 8,605, 2,564, 7,222, 5,232, 7,291, 393 y 4,456.

Extracción de papelitos numerados


Este método es sencillo, pero laborioso si la población es grande, y consiste en
hacer papelitos debidamente numerados entre uno y 𝑁. Se mezclan en una bolsa
y se extraen sin reemplazo hasta completar 𝑛, el tamaño de la muestra.

3.3 Estimación de parámetros de interés para promedio bajo MAS

Estimación de la media poblacional

Al evaluar variables cuantitativas, la media (𝜇) de la variable 𝑦 es el parámetro que con


mayor frecuencia nos interesa estimar. Este parámetro se define de la siguiente forma:

∑𝑁
𝑖=1 𝑦𝑖
Media de la población = 𝜇𝑦 = 𝜇 =
𝑁

Otro parámetro de gran interés es el total (𝜏𝑦 ) de la variable 𝑦 para toda la población:

Total de la población = 𝜏𝑦 = 𝑁𝜇𝑦 = ∑ 𝑦𝑖


𝑖=1

A veces se omite el subíndice 𝑦 pues el contexto esclarece su significado. Como no


tenemos todas las 𝑁 unidades muestrales de donde proviene cada 𝑦𝑖 , usamos sus
estimadores.

Estimador de la media y del total muestral

∑𝑛𝑖=1 𝑦i
𝜇̂ = 𝑦̅ = (3.1)
𝑛
𝜏̂ = 𝑁𝑦̅ (3.2)

77
Los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) aportados por Scheaffer,
Mendenhall & Lyman (1987) se llaman estimaciones. Los estimadores son variables
aleatorias que tienen propiedades estadísticas derivadas de la probabilidad, mientras que
las estimaciones son simplemente números con las unidades de medición
correspondientes.

Los estimadores poseen algunas propiedades estadísticas deseables como el


insesgamiento y la consistencia. Sin embargo, la revisión y demostración de estas
propiedades no es tema de este libro. Los interesados pueden consultar algún libro de
inferencia estadística (Mood et al., 1974).

Estimación de la varianza

La varianza es otro parámetro importante de la población y se simboliza por 𝜎 2 . Con su


ayuda se hacen inferencias probabilísticas sobre la estimación de la media; también refleja
la variabilidad que existe entre los valores de las variables. Este parámetro se define por
la expresión:
∑𝑁
𝑖=1(𝑦𝑖 − 𝜇)
2
𝜎 2𝑌 =𝜎 = 2
𝑁−1

Al igual que 𝜇y 𝜏, 𝜎 2 también tiene su estimador muestral, el cual se obtiene de la


muestra. Este estimador se denota por:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ∑𝑛𝑖=1 𝑦𝑖 2 − 𝑛𝑦̅ 2


𝑆 2𝑌 = 𝑆 2 = =
𝑛−1 𝑛−1

Estimador de lavarianza de la media poblacional

𝑁 − 𝑛 𝜎 2y
𝜎 2𝑦̅ = (3.3)
𝑁 𝑛
Al no conocer el parámetro 𝜎 2y incluido en la expresión (3.3), utilizamos su estimador
(Scheaffer et al., 1987).

78
𝑁 − 𝑛 𝑆 2𝑦 𝑛 𝑆 2𝑦 𝑆 2𝑦
𝑆 2𝑦̅ = = [1 − ] = [1 − 𝑓] (3.4)
𝑁 𝑛 𝑁 𝑛 𝑛

donde 𝑓 = 𝑛/𝑁 se llama fracción de muestreo y representa la proporción de la población


que está incluida en la muestra, por lo que también se interpreta como la intensidad del
muestreo.

El factor (𝑁 − 𝑛)/𝑁 se denomina Corrección por Población Finita (CPF), el cual


también puede expresarse como [1 − 𝑛/𝑁], donde el cociente 𝑛/𝑁 es la fracción de
muestreo (𝑓). La importancia del factor de corrección se reduce a medida que la fracción
de muestreo se hace más pequeña, es decir, cuando la muestra es muy pequeña
comparada con el total de la población. Por la simplificación de los cálculos,esta
magnitud suele omitirse si la fracción de muestreo es menor que 5%, esto es, si 𝑓 =
(𝑛/𝑁) < 0.05.

Con este estimador (3.4) y las propiedades de la distribución normal podemos


establecer estimaciones por intervalo para el promedio y el total poblacional. Esto se
presenta adelante con más detalle.

Estimadores del total y la varianza del total poblacional

𝜇𝜏̂ = 𝜏̂ = 𝑁𝜇 (3.5)
𝜎 2𝜏̂ = 𝑁𝜎 2𝑦 (3.6)

Como no conocemos los parámetros incluidos en estas expresiones (3.5 y 3.6), utilizamos
sus estimadores muestrales.

Estimadores del total y de la varianza del total muestral

𝜇̂ 𝜏̂ = 𝜏̂ = 𝑁𝜇̂ = 𝑁𝑦̅ (3.7)


𝑆 2𝑦 𝑁 − 𝑛
𝑆 2𝜏̂ = 𝑁 2 [ ] (3.8)
𝑛 𝑁

79
Por lo general, la desviación estándar de los estimadores, es decir, la raíz cuadrada
positiva de sus varianzas, se conoce como error estándar de la media y del total,
respectivamente.

Estimación por intervalo

Debemos recordar que nos interesa estimar la media o el total de la población, es decir, 𝜇
o 𝜏, basándonos en la información de la muestra, esto es, 𝑦̅, 𝑆𝑦2̅ y 𝑆𝜏̂2 , los cuales ya hemos
calculado. Asimismo, suponiendo que los estimadores 𝜇̂ y 𝜏̂ tienen una distribución
normal, la media y el total poblacional se pueden estimar por intervalo.

El Intervalo de Confianza de Wald (ICW) para el promedio (𝜇), con (1 − )100% de


confiabilidad, es

𝑝𝐿 = 𝑦̅ − 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅

(3.9)

𝑝𝑈 = 𝑦̅ + 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅

𝑁−𝑛 𝑆𝑦2
donde 𝑆𝑦2̅ = , 𝑡(𝑛−1,1−𝛼/2) es el cuantil 1 − 𝛼/2 de la distribución t-Student con 𝑛 − 1
𝑁 𝑛

grados de libertad y 𝑦̅ es el EMV para 𝜇. El ICW dado en (3.11) es fácil de calcular y


permite obtener un tamaño de muestra para una confiabilidad deseada. Además, la
cobertura nominal (1 − )100% normalmente es alcanzada.

Es necesario aclarar la interpretación del intervalo (3.9) y el significado de los términos


que aún no se han definido. Desde el punto de vista del muestreo repetido, significa que
del total de muestras posibles de tamaño 𝑛, aproximadamente 100(1 − 𝛼)% de ellas
producirá intervalos del tipo (3.9) que cubren el valor del parámetro, y que en 100𝛼%
dará intervalos que no cubren el valor del parámetro. Nótese que cuando calculamos:

𝑦̅0 − 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅ y 𝑦̅0 + 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅

80
𝑦̅0 indica el valor de la media muestral obtenido con la muestra específica. Asimismo,
implícitamente se acepta un error de 100𝛼%, esto es, que el valor del parámetro no esté
entre tales límites. El número 𝑡(𝑛−1,1−𝛼/2) representa el valor de una variable t-Student
con (𝑛 − 1) grados de libertad y que deja del lado izquierdo de la curva una probabilidad
de 1 − 𝛼/2. Este valor se obtiene de la distribución t-Student.

Es necesario mencionar que cuando el tamaño de la muestra es grande, digamos


mayor de 30, los valores de 𝑡 son muy similares a los de una variable aleatoria con
distribución normal estándar, por esta razón es común utilizar los valores de 𝑍1−𝛼/2 de la
variable normal estándar en lugar de los valores 𝑡(𝑛−1,1−𝛼/2) .

Intervalo de confianza para la estimación del total

𝜏̂ ± 𝑡(𝑛−1,1− 𝛼/2) 𝑆𝜏̂ (3.10)

𝑆 2𝑦 𝑁−𝑛 𝑆 2 𝑁−𝑛
donde 𝜏̂ = 𝑁𝑦̅, 𝑆𝜏̂ = √𝑁 2 = 𝑁√ 𝑛𝑦
𝑛 𝑁 𝑁

El intervalo de confianza es la referencia de mayor importancia para los resultados de un


muestreo. La anchura del intervalo nos indica la precisión que se ha logrado en la
estimación del parámetro de interés. Por supuesto, siempre es deseable un intervalo con
poca anchura, cuya amplitud depende del nivel de confiabilidad y del error estándar del
estimador. Si deseamos mayor confiabilidad, el intervalo tendría que ampliarse como
resultado de una 𝑡 más grande, pero habrá menor precisión.

Por otro lado, el error estándar depende de la variabilidad de la población y del


tamaño de la muestra. El tamaño de la muestra es el factor que podemos manipular para
lograr una precisión deseada, ya que la varianza de 𝑦̅, y por lo tanto el error estándar, es
cero cuando el tamaño de la muestra es igual al de la población.

Tamaño de la muestra para estimar la media bajo población infinita

81
Determinar el tamaño de muestra es uno de los problemas importantes al que debe
enfrentarse el usuario del muestreo. En la determinación de 𝑛 se debe considerar tanto el
aspecto teórico como el práctico. Por un lado es necesario identificar el parámetro que se
debe estimar, el esquema de muestreo a utilizar, la elección del estimador y las
especificaciones del mismo. Por otro lado el aspecto práctico tiene gran influencia en la
decisión del tamaño de muestra a usar, ya que deben tomarse en cuenta factores como el
dinero y tiempo disponibles, el objetivo del estudio, la cantidad de información que se
captará, el personal especializado, el tipo y la calidad de los materiales, los instrumentos
para las mediciones, etcétera.

A continuación se presentará un procedimiento para calcular un tamaño de muestra


para estimar la media poblacional bajo el enfoque AIPE.

La cantidad agregada y sustraída al promedio (𝑦̅) muestral es 𝐷 = 𝑊/2 =

𝑡(𝑛−1,1− 𝛼/2) √𝑉(𝑦̅) y por lo tanto, la amplitud del IC es igual a:

𝑆2
𝑊 = 2𝑡(𝑛−1,1− 𝛼/2) √ 𝑛 (3.11)

El grado de precisión del IC puede ser concebido como 𝑊 o 𝐷 = 𝑊/2, y es el valor de


mayor importancia dentro del enfoque AIPE. El valor de 𝑊 o 𝐷 puede ser fijado a priori
por el investigador de acuerdo al grado de precisión deseado para la estimación del
parámetro de interés. Por lo tanto, para determinar el tamaño de muestra 𝑛, para una
amplitud deseada 𝜔 = 2𝑑, 𝑛 debe resolverse de la ecuación 3.11 haciendo (𝐷 = 𝑑) o (𝑊 =
𝜔). Usando cualquiera de las dos opciones: (𝐷 = 𝑑) o (𝑊 = 𝜔), el valor de 𝑛 que se
obtendrá será el mismo debido a que 𝐷 = 𝑊/2 y 𝑑 = 𝜔/2. La ecuación (3.11) utiliza la
relación de precisión y confiabilidad de la declaración (2.1), en este caso el parámetro 𝜃 =
𝑌̅, mientras que 𝑑 y (1 − 𝛼) indican, respectivamente, la precisión y confiabilidad fijadas
de antemano por el investigador. Por lo tanto, fijando la precisión esperada 𝑑 e
ignorando el factor de corrección por población finita (𝑁 − 𝑛)/𝑁 en la varianza del
promedio, se resuelve la ecuación (3.11) en términos de 𝑛, (𝐷 = 𝑑) lo cual produce el
siguiente tamaño de muestra:
82
2 2
𝑡(𝑛−1,1− 𝛼/2) 𝑆
𝑛= (3.12)
𝑑2

Es importante resaltar que 𝑑 representa la mitad de la amplitud del intervalo de


confianza. Por lo tanto, en términos de la amplitud completa del intervalo de confianza,
2 2
4𝑡(𝑛−1,1− 𝛼/2) 𝑆
la fórmula es igual a: 𝑛 = . Para determinar el tamaño de muestra, esta
𝜔2

ecuación asume varianza (𝜎 2 ) conocida, razón por la cual se reemplaza 𝜎 2 por 𝑆 2 .


Además, para resolver la ecuación (3.12), si no se cuenta con una muestra piloto, también
se sustituye 𝑡(𝑛−1,1− 𝛼/2) por 𝑍1−𝛼/2 . Sin embargo, en la práctica, el valor verdadero de 𝜎 2
es desconocido, por ello éste es reemplazado por la varianza muestral 𝑆 2 . Aunque la
ecuación (3.12) proporciona el tamaño de muestra para estimar el promedio de acuerdo
a una precisión 𝑑 deseada, este tamaño no es garantía para alcanzar tal precisión para
una confiabilidad fija (véase el Cuadro 3.1).

Esta varianza muestral (𝑆 2 ) será calculada con base en una muestra preliminar de
tamaño 𝑛′, la cual sólo será de utilidad para calcular el tamaño de muestra definitivo,
pero no para el proceso de cálculo de estimaciones por intervalo. El tamaño de muestra
preliminar 𝑛′ se determina de manera arbitraria, pero dependerá de los recursos
económicos y humanos disponibles, así como del tiempo y las condiciones físicas y
administrativas del estudio. Está claro que a medida que se incremente 𝑛′ la estimación
de la varianza poblacional será mejor. En caso de no realizar una encuesta piloto para la
estimación de la varianza, se proponen las dos siguientes alternativas:

Especificar el valor aproximado de la varianza con base en experiencia de estudios


anteriores.

Especificar el valor aproximado de la varianza mediante el conocimiento que se


tenga sobre la forma de la distribución y el rango de variación de los valores de la
variable bajo estudio. La Figura A.1 del Apéndice presenta fórmulas sencillas de
las varianzas de distribuciones a partir de la forma y el rango de variación de la
variable estudiada.

83
En el Cuadro A.1 se presentan fórmulas sencillas de las varianzas de distribuciones a
partir de la forma y el rango de variación de la variable estudiada. Deming (1966) y Kish
(1950) presentan cuadros similares.

Como en la ecuación 3.12 se utiliza una estimación de 𝜎 2 , la amplitud del IC, 𝑊, es


una variable aleatoria que varía entre muestras, esto trae como consecuencia que
aproximadamente 50% de las muestras produzcan IC más grandes que 𝜔 = 2𝑑 (véase el
Cuadro 3.1). Por esta razón, a continuación se presenta un procedimiento para
determinar el tamaño de muestra óptimo, tomando en cuenta la variabilidad de la
varianza muestral 𝑆 2 .

Tamaño de muestra óptimo

El tamaño de muestra óptimo 𝑛 se define como el número entero más pequeño 𝑛𝑚 tal
que

𝑆2
𝑃 {𝐷 = 𝑡(𝑛𝑚 −1,1−𝛼/2) √ ≤ 𝑑} ≥ 𝛾;
𝑛𝑚

equivalentemente,

(𝑛𝑚 − 1)𝑆 2 𝑛𝑚 (𝑛𝑚 − 1)𝑑2


𝑃{ ≤ 2 2 } ≥ 𝛾. (3.13)
𝜎2 𝜎 𝑡(𝑛𝑚 −1,1−𝛼/2)

(𝑛𝑚 −1)𝑆 2
Note que = 𝜒𝑛2𝑚 −1 tiene distribución Ji-Cuadrada con 𝑛𝑚 − 1 grados de libertad,
𝜎2
(𝑛𝑚 −1)𝑆 2 𝑛𝑚 −1
es decir, tiene distribución gamma con parámetros 𝛼 = y 𝛽 = 2. Si
𝜎2 2
(𝑛𝑚 −1)𝑆 2
= 𝐺𝑎((𝑛𝑚 − 1)/2,2), entonces
𝜎2

𝜎 2 𝑡𝑛2𝑚 −1,1−𝛼/2
𝐺𝑎((𝑛𝑚 − 1)/2,2) (3.14)
(𝑛𝑚 − 1)𝑑 2

84
2
𝑛𝑚 −1 2𝜎2 𝑡(𝑛 𝑚 −1,1−𝛼/2)
tiene distribución gamma con parámetros 𝜎 ∗ = y 𝛽∗ = (𝑛𝑚 −1)𝑑2
1.
2

La ecuación (3.13) es equivalente a:

2
𝜎 2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝑃{ 𝐺𝑎((𝑛𝑚 − 1)/2,2) ≤ 𝑛𝑚 } ≥ 𝛾 (3.15)
(𝑛𝑚 − 1)𝑑2

Por lo tanto, usando (3.15) y (3.17), el tamaño de muestra óptimo 𝑛𝑚 para lograr la
precisión deseada al estimar el promedio, es el entero más pequeño 𝑛𝑚 tal que:

2
(𝑛𝑚 −1) 2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝑛𝑚 ≥ 𝐺𝑎 −1 (𝛾; , (𝑛𝑚 −1)𝑑2
), (3.16)
2

(𝑛𝑚 −1)
donde 𝐺𝑎−1 es el 100𝛾 cuantil de la distribución Gamma con parámetros 𝛼 ∗ = y
2
2
2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝛽∗ = (𝑛𝑚 −1)𝑑2
, 𝑡(𝑛𝑚 −1,1−𝛼/2) es el percentil 100(1 − 𝛼/2) la distribución t-Student

con 𝑛𝑚 − 1 grados de libertad, 𝛾 es la probabilidad de que la amplitud del intervalo de


confianza para 𝑌̅ no sea más amplio que 𝜔 = 2𝑑, 𝜎 2 es la varianza poblacional y 𝑑 es la
precisión deseada para estimar el promedio.

La ecuación (3.16) proporciona el tamaño de muestra mínimo 𝑛𝑚 que garantiza que la


amplitud del IC 𝑊 sea menor o igual a la precisión deseada 𝜔 = 2𝑑 con una probabilidad
de al menos 𝛾. A diferencia de la ecuación (3.12), la ecuación (3.16) considera la naturaleza
estocástica de la variable aleatoria 𝑆 2 . Sin embargo, como 𝑛𝑚 está en ambos lados de la
ecuación (3.16), es necesario usar un procedimiento iterativo para resolver esta ecuación
en términos de 𝑛𝑚 .
El tamaño de muestra proporcionado en la ecuación (3.12) está basado en una
estimación de 𝜎 2 debido a que esta es desconocida, lo que provoca que el nivel de
aseguramiento de 𝛾 sea de alrededor de 50%. Note, además, que para un 𝑛𝑚 dado, la

1 𝛼
Si 𝜒 es una variable aleatoria que tiene distribución Gamma con parámetros 𝑎, 𝑏, entonces 𝑋 tiene distribución
𝛽
𝛼𝑏
Gamma con parámetros 𝑎, .
𝛽

85
ecuación (3.16) determina la probabilidad de que 𝑃(𝑊 ≤ 𝜔 = 2𝑑) = 𝛾, donde 𝑊 es la
amplitud del IC. A continuación se presenta un ejemplo para mostrar el grado de
subestimación que se origina por utilizar la ecuación (3.14) en la determinación del
tamaño de muestra 𝑛.

Cuadro 3.1. Tamaños de muestra, determinados con la ecuación (3.12), para estimar
promedios poblacionales, con la correspondiente probabilidad de que la mitad de la
amplitud del IC 𝐷 sea menor que la especificada 𝑑 = 10 y con 95% de confiabilidad.
𝑃(𝐷 ≤ 𝑑) es la probabilidad de que la mitad de la amplitud especificada del IC 𝐷 sea
menor que el valor especificado 𝑑 = 10. 𝑃(𝐷 < 𝑑) se calcula con la ecuación (3.15). Los
incrementos son 𝑛𝑚10 = 𝑛 + 10, 𝑛𝑚25 = 𝑛 + 25, y 𝑛𝑚50 = 𝑛 + 50.
𝝈 𝒏 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟏𝟎 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟐𝟓 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟓𝟎 𝑷(𝑫 ≤ 𝒅)

40 62 0.455 72 0.791 87 0.988 112 1.000

50 97 0.477 107 0.750 122 0.965 147 1.000

60 139 0.475 149 0.707 164 0.930 189 0.999

70 189 0.480 199 0.680 214 0.897 239 0.996

80 246 0.471 256 0.648 271 0.858 296 0.988

90 312 0.485 322 0.643 337 0.836 362 0.978

100 385 0.487 395 0.629 410 0.810 435 0.965

110 465 0.479 475 0.609 490 0.781 515 0.947

120 554 0.489 564 0.608 579 0.767 604 0.933

130 650 0.489 660 0.599 675 0.749 700 0.916

El ejemplo del Cuadro 3.1 es hecho con diversos valores para la desviación estándar
(𝜎). En este mismo ejemplo, para cada tamaño de muestra se calcula la probabilidad de
que la mitad de la amplitud del IC, 𝐷, sea menor que la amplitud deseada 𝑑 = 10.
Observe que el tamaño de muestra requerido para estimar el promedio poblacional,
calculado a partir de la ecuación (3.12), da como resultado una probabilidad alrededor
de 0.50 de que la mitad del IC 𝐷 sea menor o igual a la especificada 𝑑 = 10 (véanse las
columnas dos y tres del Cuadro 3.1). Por ejemplo, con 𝜎 = 50 el tamaño de
muestra obtenido con la ecuación (3.12) es 𝑛 = 97 elementos y 𝑃(𝐷 < 10) = 0.477. Con
𝜎 = 80, 𝑛 = 246, pero sólo el 47.1% de las veces la mitad de los intervalos de confianza
serán menores o iguales a 𝑑 = 10.

86
Cuando el tamaño de la muestra se incrementa en diez, (𝑛𝑚10 , Columna 4, Cuadro 3.1),
la 𝑃(𝐷 ≤ 𝑑 = 10) también se incrementa. Por ejemplo, con 𝜎 = 50 y 𝑛 = 107,
𝑃(𝐷 < 10) = 0.750; y con 𝑛 = 122, con un incremento de 25, 𝑃(𝐷 < 10) = 0.965. Por lo
tanto, los resultados del Cuadro 3.1 muestran que para obtener 𝑃(𝐷 ≤ 𝑑) = 10 con una
alta probabilidad de éxito, se requiere un tamaño de muestra más grande que los
proporcionados por la fórmula tradicional, Ecuación 3.12.
El alto grado de subestimación que se muestra en el Cuadro 3.1 es de esperarse, porque
aproximadamente en la mitad de las muestras 𝑆 2 será más grande que 𝜎 2 , y
consecuentemente, debido a que la amplitud del IC, 𝑊; depende de 𝑆 2 , 𝑊 será más
grande que el valor especificado 𝜔 = 2𝑑 aproximadamente en 50% del total de muestras.
Sin embargo, el valor deseado de 𝑊 es el valor predeterminado 𝜔 = 2𝑑. Por lo tanto, si
se usa la ecuación (3.14) para determinar el tamaño de muestra, la probabilidad de que
la amplitud del IC sea menor que la amplitud deseada 𝜔 = 2𝑑 es alrededor de 0.5, es
decir 𝑃(𝑊 ≤ 𝜔) ≥ 𝛾 ≈ 0.5.

Aproximación del tamaño de muestra

Un inconveniente al calcular 𝑛𝑚 , en la ecuación (3.16), es que no tiene una forma cerrada,


requiriéndose de un procedimiento iterativo para obtener su valor exacto. Sin embargo,
2
𝑡(𝑛−1,1−𝛼/2) 𝑆2
si en la parte derecha de la ecuación (3.16) se considera 𝑛𝑚 = 𝑛, donde 𝑛 = 𝑑2
,

entonces la ecuación (3.16) tiene una solución cerrada en términos de 𝑛𝑚 . En este caso 𝑛𝑚
es:

2
−1
(𝑛 − 1) 2𝜎 2 𝑡(𝑛−1,1− 𝛼/2)
𝑛𝑚 = 𝐺𝑎 (𝛾; , 2
). (3.17)
2 (𝑛 − 1)𝑑

La ecuación (3.17) es equivalente a:

𝜎𝑡(𝑛−1,1− 𝛼/2) 2 χ2(𝑛−1,𝛾)


𝑛𝑚 = ( ) ( ), (3.18)
𝑑 𝑛−1

87
2
donde 𝜒(𝑛−1,𝛾) es el percentil 100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de
libertad y 𝑡(𝑛−1,1− 𝛼/2) es el percentil 100(1 − 𝛼/2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas
de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión
significativa, en la ecuación (3.18), el valor 𝑡(𝑛−1,1− 𝛼/2) puede sustituirse por el cuantil 1 −
𝛼/2 de la distribución normal estándar, 𝑍1−𝛼/2 .

Función de densidad de probabilidades del tamaño de muestra para estimar el


promedio

En los resultados presentados en el Cuadro 3.1 columna 2 (calculados con ecuación 3.12)
no se considera la naturaleza estocástica del IC. Esto provoca un problema serio de
subestimación en el tamaño de muestra, 𝑛, e induciendo a que no se logre la precisión
2 2
𝑡(𝑛−1,1− 𝛼/2) 𝑆
deseada 𝑑. Ante este problema, el tamaño de muestra 𝑛 = , expuesta en la
𝑑2

ecuación (3.12), es considerado como una variable aleatoria porque está basado en una
2 2
𝑡(𝑛−1,1− 𝛼/2) 𝑆
2
estimación de 𝜎 , es decir, 𝑛̂ = . Utilizando un procedimiento similar al usado
𝑑2

para obtener la ecuación (3.16) se tiene que:

2 2
𝑛 − 1 2𝑡(𝑛−1,1− 𝛼/2) 𝜎
𝑛̂~𝐺𝑎 ( , ) (3.19)
2 (𝑛 − 1)𝑑 2

2 2
𝑛−1 2𝑡(𝑛−1,1− 𝛼/2) 𝜎
con parámetros 𝛼 = ∗
y 𝛽 = ∗
(𝑛−1)𝑑2
, donde 𝑛 es el valor proporcionado por la
2

ecuación (3.12). La media 𝐸(𝑛̂), varianza 𝑉(𝑛̂), moda Mo , coeficiente de simetría 𝑠𝑘 y


2
𝑡(𝑛−1,1− 𝛼/2) 𝜎
2
2 𝑡(𝑛−1,1− 𝛼/2) 𝜎 4
curtosis 𝐸𝑘 de 𝑛̂ son 𝐸(𝑛̂) = 𝛼 ∗ 𝛽 ∗ = , 𝑉(𝑛̂) = 𝛼 ∗ 𝛽 ∗2 = (𝑛−1) ( ) ,
𝑑2 𝑑

𝑛−3 𝑡(𝑛−1,1−𝛼/2) 𝜎 2 2 (2)3/2 6 12


𝑀𝑜 = (𝛼 ∗ − 1)𝛽 ∗ = 𝑛−1 ( ) , 𝑘𝑠 = = y Ek   ,
𝑑 √𝛼∗ √𝑛−1  *
n 1
respectivamente.
Es decir, si se desea un tamaño de muestra 𝑛𝑚 , que garantice con una probabilidad
dada 𝛾, para obtener una amplitud del IC para 𝑌̅ con una amplitud menor o igual a la
deseada 𝑑, entonces se debe obtener el percentil 100𝛾 de la distribución de 𝑛̂, dada en la
ecuación (3.19).
88
La Figura 3.1 muestra la función de densidad de probabilidad (fdp) del tamaño de
muestra (𝑛) con parámetros 𝜎 = 60, IC de 95% de confiabilidad y cinco valores de
precisión: 𝑑 = 5, 6, 7, 8 y 9, los cuales arrojan los tamaños de muestra siguientes: 𝑛 =
554, 385, 283, 217 y 171, respectivamente.

Los resultados muestran que si la varianza es constante y la confiabilidad es de 95%, a


mayor precisión deseada (𝑑), se requieren tamaños de muestra mayores, 𝑛 =
554, 385, 283, 217 y 171, y la fdp presenta mayor variabilidad (Figura 3.1; Cuadro 3.2,
columna 8). Sin embargo, no existe una diferencia significativa en el parámetro de escala
𝛽 ∗ en estas cinco fdp (Cuadro 3.2, columna 6), lo cual implica que las diferencias
encontradas en la varianza 𝑉(𝑛̂) (columna 8, Cuadro 3.2) se deben principalmente al
parámetro de forma 𝛼 ∗ (Cuadro 3.2, columna 4). Esto muestra que los tamaños de
muestra 𝑛 de las fdp con menor precisión, valores 𝑑 más grandes, son más confiables que
los proporcionados para mayor precisión, valores 𝑑 más pequeños. Esto también se
corrobora en el valor de la curtosis, donde las amplitudes deseadas más grandes
presentan mayor valor (Cuadro 3.2, columna 10 y Figura 3.1).

Por otro lado, la media de cada fdp es igual al tamaño de muestra 𝑛 calculado con la
ecuación (3.12), lo que indica que el tamaño de muestra que proporciona la ecuación
(3.12) en realidad es la media de la fdp de 𝑛̂, razón por la cual 𝑃(𝑛̂ ≤ 𝑛) ≈ 0.5. Además, la
pdf de 𝑛̂ es asimétrica porque es una v.a. gamma, observándose (Cuadro 3.2, columna
9) que a menor precisión (valores más grandes de 𝑑) más asimétrica es su distribución.

Cuadro 3.2. Propiedades de la fdp de 𝑛̂, donde 𝜎 = 60, IC de 95% de confiabilidad, y 𝑑 =


5, 6, 7, 8 y 9, los cuales arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171.
Coeficiente de
fdp 𝒅 𝒏 𝜶∗ 𝒕𝒏−𝟏,𝟏−𝜶/𝟐 𝜷∗ Media Varianza Curtosis
simetría
fdp 1 5 554 276.5 1.964 2.009 555.599 1116.422 0.120 0.022

fdp 2 6 385 192 1.966 2.013 386.579 778.350 0.144 0.031

fdp 3 7 283 141 1.968 2.019 284.668 574.722 0.168 0.043

fdp 4 8 217 108 1.971 2.023 218.524 442.155 0.192 0.056

fdp 5 9 171 85 1.974 2.038 173.189 352.874 0.217 0.071

89
Figura 3.1. Fdp de 𝑛̂, con 𝜎 = 60, IC con 95% de confiabilidad, y 𝑑 = 5, 6, 7, 8 y 9, los cuales
arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171.

Con los resultados anteriores se entiende mejor el por qué los tamaños de muestra que
proporciona la ecuación (3.12) producen una subestimación grave en el tamaño de
muestra. Se observa en la Figura 3.1 y el Cuadro 3.2 que el tamaño de muestra 𝑛 que
arroja la ecuación (3.12) es el valor esperado de la fdp de 𝑛̂, por ello solo garantiza una
probabilidad alrededor de 0.5 de que la amplitud del IC resultante sea menor a la
amplitud fijada a priori 𝜔.

Comparación de los métodos propuestos

En el Cuadro 3.3 se presenta la comparación de la solución aproximada (Ecuación 3.18)


y exacta (Ecuación 3.16) para el cálculo del tamaño de muestra, con un IC de 95% de
confiabilidad, 𝑑 = 10, 15, 20 y 25, 𝛾 = 0.8, 0.9 y 0.99 y 𝜎 de 30 a 110 con incrementos de
10. En el Cuadro 3.3 se aprecia que para 𝛾 = 0.8, en las 36 combinaciones producto de los
cuatro valores de 𝑑 y las nueve desviaciones estándar 𝜎, los tamaños de muestra
aproximados son prácticamente iguales a los exactos. En la mayoría de los casos el
método aproximado es mayor en una unidad. Sin embargo, al aumentar 𝛾 se incrementan
las discrepancias entre ambos métodos. Por ejemplo, con 𝛾 = 0.9, el método aproximado
90
cuenta con tres unidades más, prácticamente para todas las combinaciones, que el
tamaño de muestra requerido por el método exacto; mientras que para 𝛾 = 0.99, el
método aproximado tiene seis unidades más, prácticamente para todas las
combinaciones, que el tamaño de muestra requerido para el método exacto.

Cuadro 3.3. Comparación de los tamaños de muestra, solución aproximada


(𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 ) y exacta (𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 ). IC de 95% de confiabilidad, 𝑑 = 10, 15, 20 y 25 𝛾 =
0.8, 0.9 y 0.99. 𝜎 es la desviación estándar poblacional, y 𝛾 es la probabilidad de que el IC
para el promedio 𝑊 no sea mayor que la amplitud deseada 2𝑑.
𝜎 𝑑 𝑑
10 15 20 25 10 15 20 25
𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.8 𝑛𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.8
30 45 24 17 14 44 22 14 11
40 74 37 24 18 73 36 22 16
50 111 54 33 24 110 53 32 22
60 155 74 45 31 154 73 44 30
70 208 98 58 40 207 97 57 39
80 267 125 74 50 267 124 73 49
90 335 155 91 61 334 154 90 60
100 410 189 111 74 410 188 110 73
110 493 227 132 88 493 226 131 87

𝑔𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.9 𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.9


30 50 28 20 18 47 24 16 12
40 80 41 28 22 77 39 24 17
50 118 59 37 28 116 56 35 24
60 163 80 50 35 161 77 47 33
70 217 104 64 44 215 102 61 42
80 278 132 80 55 276 130 77 53
90 347 163 98 67 345 161 96 64
100 423 198 118 80 421 196 116 77
110 507 236 140 94 506 234 138 92

𝑛𝑚𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎 con 𝛾 = 0.99 𝑔𝑚𝑒𝑥𝑎𝑐𝑡𝑎 con 𝛾 = 0.99


30 62 38 31 29 55 29 20 15
40 94 53 38 32 88 46 29 21
50 135 72 48 38 129 65 41 29
60 184 94 62 46 178 88 55 39
70 240 121 77 56 234 115 71 49
80 304 150 94 68 298 144 88 61
90 376 184 114 81 370 178 108 74

91
100 455 220 135 94 449 214 129 88
110 542 260 158 110 536 255 152 104

Tamaño de la muestra para estimar la media bajo población finita

En la sección anterior se derivaron expresiones para determinar el tamaño de muestra


para estimar el promedio, pero bajo una población infinita, es decir sin tomar en cuenta
el factor de corrección por población finita (𝑁 − 𝑛)/𝑁. A continuación se presentan las
expresiones para determinar el tamaño de muestra para estimar el promedio asumiendo
una población finita. Sin nivel de aseguramiento la fórmula para el tamaño de muestra
es igual a

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛= 2 (3.22)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2

donde: 𝑛 es el tamaño de muestra para estimar la media poblacional, 𝑌̅. El tamaño de


muestra obtenido con la ecuación 3.20 es una muestra estimada porque no se conoce la
varianza poblacional (𝜎 2 ) y en su lugar se utiliza su estimador correspondiente (𝑆 2 ), que
es igual a: 𝑆 2 = [∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2 ]/(𝑛 − 1). 𝑁 es el tamaño de la población, el cual es un valor
conocido. 𝑡(𝑛−1,1−𝛼⁄2) es el valor de una variable aleatoria t-Student o normal estándar
que tiene a la izquierda de la curva una probabilidad de 1 − 𝛼/2. Este valor se conoce al
fijar la confiabilidad deseada. 𝑑 es la mitad de la amplitud del IC deseado (la precisión),
el cual es un valor conocido y establecido por el investigador. 𝑆 2 es la varianza muestral.
Este valor se obtiene con los datos de una muestra preliminar de tamaño 𝑛′. Este tamaño
de muestra solo garantiza una probabilidad de alrededor de 50% de que se cumpla la
amplitud deseada del IC. El tamaño de muestra que garantiza precisión en la estimación
de la media es igual a:

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼 𝑆 (
⁄2) 𝑛 −1 )

𝑛𝑚 = (3.21)
𝜒2 ∗
𝑁𝑑 2 + 2
𝑡(𝑛−1,1−𝛼 𝑆 2 ( (𝛾,𝑛 −1) )
⁄2) 𝑛∗ − 1

92
donde 𝑛 es el tamaño de muestra obtenido con la ecuación 3.22, 𝛾 es la probabilidad de
2
que el IC para el promedio no sea mayor que la amplitud deseada, 𝜒(𝛾,𝑛 ∗ −1) es el cuantil

100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de libertad y 𝑡(𝑛−1,1−𝛼⁄2) es el


percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de libertad. Los
cuantiles requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-
Student y Ji-Cuadrada. Además, sin una pérdida de precisión significativa, en la ecuación
3.21, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución
normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 3.1. HP produce semanalmente 𝑁 = 1,000 impresoras, de las cuales el gerente


de calidad seleccionó al azar una muestra 𝑛 = 10 impresoras. La información sobre el
número de fallas encontradas en cada una de las impresoras se muestra a continuación:
6, 7, 9, 8, 5, 4, 7, 8, 7 y 6.

a) Estimación puntual del promedio de fallas por impresora.

∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
6+7+9+8+5+4+7+8+7+6
𝑦̅ = = 6.7
10

b) Varianza muestral del número de fallas (𝑆 2 ).

2
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2
𝑆 =
𝑛−1
62 + 72 + ⋯ + 72 + 62 − 10(6.7)2
𝑆2 = = 2.2333
9

c) Varianza y desviación estándar de la media muestral de las fallas.

93
𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = ( )( )
𝑁 𝑛
1,000 − 10 2.2333
𝑆𝑦2̅ = ( )( ) = 0.221
1,000 10

𝑆𝑦̅ = √𝑆𝑦2̅ = √0.221 = 0.4702

d) IC del promedio de fallas por impresora con una confiabilidad de 95%.

𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅

donde: 𝑦̅ = 6.7, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262

Por lo tanto:

6.7 ± (2.262)(0.4702)
6.7 ± 1.0634
5.6366 ≤ 𝜇 ≤ 7.7634

Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de fallas por impresora está entre 5.6366 y 7.7634.

e) Estimación puntual del total de fallas.

𝜏̂ = 𝑁𝑦̅ = (1,000)(6.7) = 6,700

f) IC del total de fallas con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅

donde: 𝜏̂ = 6,700, 𝑁 = 1,000, 𝑆𝑦̅ = 0.4702 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262

Por lo tanto:
94
6,700 ± (1,000)(2.262)(0.4702)
6,700 ± 1,063.4
5,636.6 ≤ 𝜏 ≤ 7,763.4

Es decir, con 95% de confianza se estima que el total de fallas en la población está entre
5,636.6 y 7,763.4.

g) Ahora si se supone que las impresoras seleccionadas son una muestra preliminar de
tamaño 𝑛 = 10. El tamaño de muestra necesario para estimar el promedio de fallas de
tal manera que el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅) y
una confiabilidad de 95% es:

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2

donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333 y 𝑦̅ = 6.7.

Como el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo 7%


del promedio preliminar (𝑦̅ = 6.7). Es decir, 𝑑 = (0.07)(6.7) = 0.469.

Por lo tanto:

(1, 000)(2.262)2 (2.2333)


𝑛∗ = = 49.38 = 50
(1,000)(0.469)2 + (2.262)2 (2.2333)

Entonces, 𝑛∗ = 50 es el número estimado de unidades muestrales (impresoras) para


que la muestra tenga una precisión de ±0.469 fallas con 0.05 de probabilidad de no
incluir en el IC de estimación al promedio verdadero. Es decir, 𝑛∗ impresoras es el
tamaño de muestra definitivo y todos los parámetros se deben estimar tomando en
cuenta dicho tamaño de muestra. El muestreo piloto únicamente es útil para verificar
si el cuestionario funciona bien al momento de aplicarlo, corroborar que el marco de

95
muestreo esté correcto y obtener una estimación de la varianza. Si en el muestreo
piloto se encuentra que todo funciona correctamente, ya no se miden todas las
unidades muestrales del tamaño de muestra definitivo (𝑛∗), sino solamente las
faltantes (𝑛∗ − 𝑛) para completarlo, pues se utilizan las de la muestra piloto (𝑛). En
este ejemplo solamente se seleccionarían 40 impresoras al azar de la población porque
𝑛 = 10.

h) El tamaño de muestra necesario para estimar el promedio de fallas de tal manera que
el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅), una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 99%.

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )

donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.262, 𝑆 2 = 2.2333,


2 2
𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,49.38−1) = 74.1529 y 𝑑 = (0.07)(6.7) = 0.469.

Por lo tanto:

74.1529
1, 000(2.262)2 (2.2333) (49.38 − 1) 17,514.3709
𝑛𝑚 = = = 73.7524 = 74
74.1529 237.475371
1,000(0.469)2 + (2.262)2 (2.2333) (49.38 − 1)

Es importante mencionar que la 𝑛𝑚 estimada es el tamaño de muestra definitivo y


más exacto, por lo que sólo faltará medir las unidades muestrales restantes
considerando las que ya se midieron. Esto procede siempre y cuando el muestreo
piloto sea considerado apropiado.

Ejemplo 3.2. Una investigadora seleccionó una muestra de 𝑛 = 15 estudiantes de una


universidad, cuya población es de 𝑁 = 420 estudiantes, y les pregunta su gasto semanal
en pesos. Los datos son: 120, 150, 100, 80, 100, 90, 60, 70, 90, 100, 50, 90, 80, 65 y 110.
96
a) Estimación puntual del gasto semanal promedio por estudiante.

∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
120 + 150 + 100 + ⋯ + 65 + 110
𝑦̅ = = 90.3333
15

b) Varianza muestral para el gasto (𝑆 2 ).

∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2


𝑆2 =
𝑛−1
1202 + 1502 + 1002 … + 652 + 1102 − (15)(90.3333)2
𝑆2 = = 637.381
15 − 1

c) Varianza y desviación estándar de la media muestral para el gasto.

𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = ( )( )
𝑁 𝑛
420 − 15 637.381
𝑆𝑦2̅ = ( )( ) = 40.9745
420 15

𝑆𝑦̅ = √𝑆𝑦2̅ = √40.9745 = 6.4011

d) Intervalo de confianza del gasto promedio por estudiante.

𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅

donde: 𝑦̅ = 90.3333, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145

Por lo tanto:

90.3333 ± (2.145)(6.4011)
90.3333 ± 13.7304
76.6029 ≤ 𝜇 ≤ 104.0637

97
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del gasto
promedio por estudiante está entre 76.6029 y 104.0637.

e) Estimación puntual del gasto total de los estudiantes.

𝜏̂ = 𝑁𝑦̅ = (420)(90.3333) = 37,940 pesos

f) IC del gasto total de los estudiantes con 95% de confianza.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅

donde: 𝜏̂ = 37,940, 𝑁 = 420, 𝑆𝑦̅ = 6.4011 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145

Por lo tanto:

37,940 ± (420)(2.145)(6.4011)
37,940 ± 5,766.751
32,137.249 ≤ 𝜏 ≤ 43,706.751

Es decir, el gasto total de los estudiantes estaría entre 32,137.249 y 43,706.751.


g) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño 𝑛 =
15. ¿Cuál es el tamaño de muestra necesario para estimar el promedio por estudiante,
de tal manera que el promedio tenga una precisión de ±6 pesos y una confiabilidad
de 95%?

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2

donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381 y 𝑑 = 6.

Por lo tanto:
98
(420)(2.145)2 (637.381)
𝑛∗ = = 68.2281 = 69
(420)(6)2 + (2.145)2 (637.381)

Entonces, 69 son las unidades muestrales necesarias para tener una precisión de ±6
pesos con 0.95 de probabilidad de incluir en el intervalo de estimación al promedio
verdadero. En otras palabras, se deben seleccionar aleatoriamente 𝑛∗ = 69 estudiantes,
lo que garantiza que se cumplirá con una precisión especificada (𝑑 = 6 pesos) para el
promedio con una probabilidad de 0.95.

h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio por estudiante,
de tal manera que el promedio tenga una precisión de ±6 pesos, una confiabilidad de
95% y un nivel de aseguramiento (𝛾) de 99%?

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝑛𝑚 =
𝜒2 ∗
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑆 2 ( (𝛾,𝑛 −1) )
⁄2) 𝑛∗ − 1

donde: 𝑁 = 420, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.025) = 2.145, 𝑆 2 = 637.381,


2 2
𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,68.2281−1) = 97.1017 y 𝑑 = 6.

Por lo tanto:

97.1017
420(2.145)2 (637.381) (68.2281 − 1) 1,779,012.471
𝑛𝑚 = = = 91.9113 = 92.
97.1017 19,355.74398
420(6)2 + (2.145)2 (637.381) (68.2281 − 1)

EJERCICIOS

En los ejercicios siguientes estime el IC para el promedio y el total con una confiabilidad
de 95%. Además, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra
para estimar el promedio, con una precisión del 5% de la media, una confiabilidad de
95% y un nivel de aseguramiento (γ) de 90%?
99
Ejercicio 3.1. Una empacadora de mango produce por hora 𝑁 = 1,000 rejas. Cada reja
tiene 100 mangos y el gerente de calidad seleccionó una muestra de 𝑛 = 15 rejas. La
información sobre el número de mangos dañados por reja se presenta a continuación: 4,
5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4 y 5.

Ejercicio 3.2. La Secretaría de Deportes del estado de Yucatán desea estimar los alumnos
a nivel bachillerato de la Universidad Autónoma de Yucatán (UAdY) que tienen buena
condición física, para que formen parte de la selección. Hay 𝑁 = 500 grupos y en
promedio cada grupo tiene 40 alumnos. Aleatoriamente se seleccionaron nueve grupos
que hicieron las pruebas necesarias. La información obtenida de los alumnos
seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12 y 10 (alumnos por grupo que tienen
condición física adecuada).

Ejercicio 3.3. Cada hora una exportadora de limón acondiciona 𝑁 = 1,800 limones. Se
desea saber si el limón cumple con las especificaciones de tamaño, y para ello se toma
una muestra aleatoria de 15 limones para medirlos. Los resultados son los siguientes: 3.2,
4.8, 4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6 y 5.9.

Ejercicio 3.4. La Secretaría de Turismo del estado de Michoacán desea estimar la cantidad
de personas de Jalisco que visitan al estado diariamente. En la caseta Guadalajara-
Michoacán ingresan por día 𝑁 = 700 vehículos en promedio. Se seleccionan 20 vehículos
aleatoriamente y en cada uno se revisa la cantidad de personas que vienen en interior del
vehículo. Los resultados son los siguientes: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6 y
5.

3.4 Estimación de parámetros de interés para proporción bajo MAS

Estimación de una proporción poblacional

Otra tarea que suele ser de interés al estudiar una población es la determinación de la
proporción 𝑃 o 𝜋 de las unidades muestrales que pertenecen a dos grupos posibles. Por

100
ejemplo, para conocer la proporción de personas analfabetas de una población que apoya
a cierto partido político o iniciativa gubernamental, de estudiantes de la Facultad de
Telemática que tienen computadora portátil, de individuos de la ciudad de Colima que
creen en Dios, etcétera. Todos estos ejemplos tienen dos opciones de respuesta: sí o no.
Por lo tanto, para calcular dicha proporción se hace la suma de todas las respuestas
afirmativas (sí) y se divide sobre el total de respuestas (sí y no), porque sólo se
consideraron dos grupos posibles. En ocasiones son más de dos grupos a los que pueden
pertenecer las unidades muestrales; este caso no lo consideraremos aquí, pero aun así se
podría analizar si se considera que una unidad muestral pertenece o no a uno de los
grupos.

Esta aplicación también se conoce como muestreo por atributos, donde cada unidad de
muestreo tiene la posibilidad de pertenecer a un grupo si posee el atributo
correspondiente.

La medición

La medición consiste en determinar si la unidad de muestreo tiene el atributo para


pertenecer a la proporción que se desea conocer. Para muchos atributos tal determinación
puede ser sencilla; por ejemplo, pertenecer a cierta marca si se tiene un conjunto de 𝑁
computadoras. A veces es difícil determinar el atributo, por ejemplo, calificar a un
paciente como enfermo o no pues el estado de salud es una condición en la que se
presenta una gradualidad desde sano hasta enfermo. Es decir, el MAS para proporciones
no considera los estados intermedios, por lo que debe establecerse un criterio unívoco
que permita calificar al paciente como sano o enfermo solamente, o en su caso tomar en
cuenta la sensibilidad y especificidad de la prueba diagnóstica.

El estimador de la proporción poblacional 𝑷 y su relación con el estimador de una


media poblacional

Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y
que solamente puede tomar los valores de cero o uno. De esta manera podremos usar las

101
fórmulas de los apartados anteriores, aunque conviene adecuar la simbología. Para esto,
sea 𝑃𝑦 la proporción de la población de uno de los dos grupos que posee el atributo
evaluado en 𝑌. La proporción de la población, 𝑃𝑌 , está definida por la siguiente expresión:

∑𝑁
𝑖=1 𝑦𝑖 𝐴
𝑃𝑌 = 𝑃 = =
𝑁 𝑁

donde 𝐴 es el número de unidades de la población que posee el atributo. Está claro


que ∑ 𝑦𝑖 es igual a 𝐴, ya que si la unidad de muestreo tiene el atributo de interés aporta
un valor de uno y si no la tiene aporta un valor de cero.

Si se realiza un muestreo, se entiende que no se puede tener acceso a todas las 𝑁


unidades de la población sino solamente a las 𝑛 de la muestra. Con ésta definimos un
estimador de la proporción de la población, simbolizado por 𝑃̂ = 𝑝 y definido por la
expresión:
∑𝑛𝑖=1 𝑦𝑖 𝑎
𝑃̂𝑦 = 𝑝 = = (3.22)
𝑛 𝑛

De igual manera que la definición del parámetro, 𝑎 = ∑ 𝑦𝑖 representa el número de


unidades de la muestra que tienen el atributo de interés. El complemento de 𝑃 es 𝑄 =
(1 − 𝑃) en el caso de la población y de la muestra es 𝑞 = (1 − 𝑝) , es decir, 𝑞 es un
estimador de 𝑄.

La varianza de la población para una proporción

Ahora bien, definamos la varianza de la población usando las mismas expresiones que
en el caso de una variable continua:

∑𝑁
𝑖=1(𝑦𝑖 − 𝜇)
2 ∑𝑁 2
𝑖=1 𝑦 𝑖 − 𝑁𝜇
2
𝜎 2𝑌 = 𝜎 2 = = (3.23)
𝑁−1 𝑁−1

Como la variable sólo toma valores de cero o uno, entonces ∑𝑁 2


𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 Así,

haciendo la sustitución en (3.23) tenemos que:


102
2
𝑁𝑃−𝑁𝑃2 𝑁𝑃(1 − 𝑃) 𝑁𝑃𝑄
𝜎 = = = (3.24)
𝑁−1 𝑁−1 𝑁−1

La expresión ∑𝑁 2
𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 en (3.24) representa el número de unidades en la

población que tiene el atributo que se desea evaluar.

Naturalmente, por ser el caso de un muestreo necesitamos un estimador de dicho


parámetro, que se define por la expresión:

𝑛 2 (∑𝑛𝑖=1 𝑦𝑖 )2 𝑎2 𝑎
∑ 𝑛
(𝑦 − 𝑦
̅) 2 ∑ 𝑖=1 𝑦 𝑖 − 𝑎 − 𝑎 (1 − 𝑛) 𝑛𝑝𝑞
𝑠 2𝑦 =
𝑖=1 𝑖
= 𝑛 = 𝑛 = = (3.25)
𝑛−1 𝑛−1 𝑛−1 𝑛−1 𝑛−1

donde 𝑎 = ∑𝑛𝑖=1 𝑦𝑖 (3.25) representa el número de unidades en la muestra que tiene el


atributo que se desea evaluar.

En la práctica es común considerar que 𝑛 − 1 es aproximadamente igual a 𝑛, con lo


cual la expresión más usada para calcular la varianza muestral es: 𝑆 2𝑦 = 𝑝𝑞.

Estimación de la varianza y el error estándar

Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua.
Existen otros procedimientos que se conocen como aproximación y que usan la
distribución normal, ello implica una corrección que hemos omitido por su poca
trascendencia práctica. Así se tiene que 𝑝 se distribuye aproximadamente normal con los
siguientes parámetros.

Media y varianza del estimador de 𝑷

𝐸[𝑃̂] = 𝐸[𝑝] = 𝑃
𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞
𝑆 2𝑝 = ( )( ) = ( )( )
𝑁 𝑛 𝑁 𝑛

103
En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce como
error estándar del estimador de la proporción.

Usando nuevamente el Teorema Central del Límite, 𝑝 tiene aproximadamente una


distribución normal con media 𝑃 (estimada por 𝑝) y una varianza 𝜎 2𝑝 (estimada por 𝑆 2𝑝 ).

Total poblacional y varianza del estimador de 𝝉

𝜏̂ = 𝑁𝑝

2
𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞
𝑆𝜏̂ = 𝑁 ( ) ( ) = 𝑁2 ( )( )
𝑁 𝑛 𝑁 𝑛

La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del
estimador del total.

Los intervalos de confianza

Con el mismo procedimiento que el del caso de una variable continua obtenemos las
expresiones para los intervalos de confianza.

El intervalo de confianza para la estimación de la proporción poblacional

𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

𝑁−𝑛
donde 𝑆𝑝 = 𝑁
𝑝𝑞 .
𝑛

El intervalo de confianza para la estimación del total poblacional

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

104
𝑁−𝑛
donde 𝑆𝑝 = 𝑁
𝑝𝑞 .
𝑛

Varianza acotada de una proporción

Las expresiones de 𝜎 2𝑦 y de 𝑠 2𝑝 incluyen el producto 𝑃𝑄 o 𝑝𝑞 que condiciona al tamaño de


la varianza dado el tamaño de la población y la muestra. La varianza de la población y
del estimador son máximas cuando 𝑃 o 𝑝 son iguales a 0.5, que sucede cuando el
producto 𝑃𝑄 = 0.25. Esta propiedad se puede emplear para suponer una varianza
máxima antes de realizar el muestreo (𝑝 = 0.5) y los resultados finales siempre serán
iguales o más precisos que los esperados. En otras palabras, en el MAS para una
proporción, cuando no se dispone del tiempo y de recursos para realizar un muestreo
piloto que sirva para corroborar el marco de muestreo, el cuestionario y los problemas
relacionados con el personal para levantar la encuesta y para estimar la varianza (𝑆 2 =
𝑝𝑞), se supone una varianza máxima (𝑆 2 = 𝑝𝑞 = (0.5)(0.5) = 0.25) para determinar el
tamaño de muestra máximo (conservador). Este método sólo debe usarse cuando se
tenga un marco de muestreo confiable, un cuestionario validado y encuestadores
experimentados.

Tamaño de muestra bajo población infinita

El cálculo del tamaño de muestra efectivo (𝑛) que asegura intervalos de confianza cortos
se realizará bajo el enfoque AIPE, asumiendo una prueba perfecta y homogeneidad en la
población. El Estimador de Máxima Verosimilitud (EMV) de una proporción binomial
(pruebas individuales) asumiendo una prueba perfecta, como se mencionó, es 𝑝̂ = 𝑦/𝑛,
donde 𝑦 es el número de éxitos observados en la muestra de tamaño 𝑛. De acuerdo con
Vollset (1993) and Newcombe (1998), su correspondiente IC de Wald es

𝑝𝐿 = 𝑝̂ − 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛


(3.26)
𝑝𝑈 = 𝑝̂ + 𝑍1−𝛼/2 √𝑉(𝑝̂ )/𝑛

105
donde 𝑉(𝑝̂ ) = 𝑝̂ (1 − 𝑝̂ ), 𝑍1−𝛼/2 es el cuantil 1 − 𝛼/2 de una distribución normal estándar,
𝑝̂ es el EMV (𝑝̂ = 𝑦/𝑛) de 𝑝. Este IC es fácil de calcular y permite derivar fórmulas de
tamaño de muestra cerradas. Sin embargo, cuando 𝑛 y 𝑝 son pequeños, este IC a menudo
produce límites negativos. Además, la probabilidad de cobertura de este IC algunas veces
es menor que 100(1 − 𝛼)%.

La cantidad añadida y substraída a la proporción observada (𝑝̂ ) en la ecuación (3.26)


se define como 𝑊/2. Los límites de confianza superior e inferior son determinados por
𝑑 = 𝑊/2, la anchura media del intervalo de confianza (𝑊 es la anchura total del intervalo
de confianza). El grado de precisión del intervalo de confianza puede ser conceptualizado
como 𝑊 o 𝑑, siendo el valor de mayor interés dentro del marco AIPE. Como se verá, el
valor de 𝑊 (o 𝑑) puede ser establecido a priori por el investigador de acuerdo con la
precisión deseada del parámetro estimado. La anchura total del IC (ecuación 3.26) se

𝑉(𝑝̂)
puede expresar de la siguiente manera: 𝑊 = 2𝑍1−𝛼/2 √ . Esto implica que la mitad de
𝑛

la anchura sea igual a:

𝑉(𝑝̂ )
𝐷 = 𝑍1−𝛼/2 √ (3.27)
𝑛

Para estimar el tamaño de la muestra necesario para la proporción (𝑝) para una
amplitud del IC deseada, 𝑛 debe obtenerse de la ecuación (3.27) (hacer 𝐷 = 𝑑), arrojando
la siguiente expresión:

2
𝑍1−𝛼/2 𝑝̂ (1 − 𝑝̂ )
𝑛𝑝 = (3.28)
𝑑2

La ecuación (3.29) aparece en la mayoría de los libros de muestreo estadístico


(Cochran, 1977) y actualmente es utilizada para obtener el número requerido de
individuos para estimar 𝑝 bajo MAS. El mayor inconveniente de la ecuación (3.28) es que
supone conocido el valor verdadero de 𝑉(𝑝), por ello en la ecuación (3.28) esta es
reemplazada por la varianza poblacional 𝑉(𝑝). La fórmula (ecuación 3.28) encuentra el
tamaño de muestra necesario para lograr una amplitud del IC (𝐷) suficientemente

106
estrecha para estimar la proporción de 𝑃. Sin embargo, el estimador no garantiza que la
amplitud observada (𝐷) de cualquier IC sea lo suficientemente estrecha porque se utiliza
una estimación de 𝑉(𝑝). En realidad, la amplitud del IC, 𝐷, es una variable aleatoria que
fluctúa de muestra a muestra. Se ha mostrado que alrededor del 50% de las veces el valor
observado 𝐷 es menor o igual a 𝑑 (Montesinos-López, Montesinos-López, Crossa,
Eskridge, & Hernández-Suárez, 2010). Por esta razón en la siguiente sección se propone
un método de muestreo que asegura con una probabilidad alta de que la amplitud del
intervalo de confianza sea corta.

Derivación del tamaño de muestra óptimo

𝑉(𝑝̂)
La amplitud del IC para 𝑝 es 𝐷 = 𝑍1−𝛼/2 √ y 𝐷 debe ser menor o igual que un valor
𝑛

determinado (𝑑), con una probabilidad (𝛾). Por lo tanto, el tamaño de muestra óptimo se
define como el valor entero más pequeño (𝑛𝑚 ) tal que

𝑃{𝐷 ≤ 𝑑} ≥ 𝛾

𝑝̂ (1 − 𝑝̂ )
𝑃 {𝑍1−𝛼/2 √ ≤ 𝑑} ≥ 𝛾 (3.29)
𝑛𝑚

Dado que la distribución de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ) = √𝑝̂ (1 − 𝑝̂ ) es desconocida, no es posible


obtener una solución analítica para 𝑛𝑚 . Una alternativa es utilizar el método delta para

obtener la distribución asintótica de ℎ(𝑝̂ ) = √𝑉(𝑝̂ ). Se sabe qué 𝑝̂ = 𝑦/𝑛 y 𝑝̂ ∼̇ 𝑁 (𝑝, 𝜎 2 =


𝑝(1−𝑝)
). Note que 𝜎 2 ⟶ 0, si 𝑛𝑚 ⟶ ∞, ℎ(𝑥)=√𝑥(1 − 𝑥) es diferenciable con respecto a 𝑥 ∈
𝑛𝑚
1−2𝑝
(0,1) y ℎ′ (𝑝) = ≠ 0 para 𝑝 ≠ 1/2 . Por lo tanto, utilizando el método delta,
2√𝑝(1−𝑝)

2
ℎ(𝑝̂ ) ∼̇ 𝑁 (ℎ(𝑝), (ℎ′ (𝑝)) 𝜎 2 ), es decir,

(1 − 2𝑝)2
√ pˆ (1  pˆ ) ∼̇ 𝑁 (√𝑝(1 − 𝑝), )
4𝑛𝑚

107
1−2𝑝
donde ℎ(𝑝)=√𝑝(1 − 𝑝), ℎ′ (𝑝) = . Por lo tanto, la ecuación (3.29) puede
2√𝑝(1−𝑝)

reescribirse como:

𝑑 √𝑛𝑚
√ pˆ (1  pˆ ) − √𝑝(1 − 𝑝) 𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
𝑃(𝑊 ≤ 𝜔) = 𝑃 ≤ = 𝛾⇔
(1 − 2𝑝)2 (1 − 2𝑝)2
√ √
4𝑛𝑚 4𝑛𝑚
( )

𝑑 √𝑛𝑚 𝑑 √𝑛𝑚
𝑍1−𝛼/2 − √𝑝(1 − 𝑝) 𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
𝑃(𝑊 ≤ 𝜔) ≈ 𝑃 𝑍 ≤ ≈𝛾⇔ ≈ 𝑍𝛾 ⇔
(1 − 2𝑝)2 (1 − 2𝑝)2
√ √
4𝑛𝑚 4𝑛𝑚
( )

𝑑 |1 − 2𝑝|𝑍𝛾
𝑛𝑚 − √𝑝(1 − 𝑝)√𝑛𝑚 − ≈0 (3.30)
𝑍1−𝛼/2 2

Note que la Ecuación (3.30) tiene una forma cuadrática: 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, con 𝑥 = √𝑛𝑚 ,
𝑑 |1−2𝑝|𝑍𝛾 −𝑏±√𝑏 2 −4𝑎𝑐
𝑎=𝑍 , 𝑏 = −√𝑝(1 − 𝑝), y 𝑐 = − , con dos soluciones dadas por 𝑥 = .
𝛼 2 2𝑎
1−
2

−𝑏+√𝑏2 −4𝑎𝑐
Utilizando 𝑥 = para un valor fijo de 𝑑, el tamaño de muestra requerido es:
2𝑎

2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑍1−𝛼/2
𝑛𝑚 =
2𝑑
𝑍1−𝛼/2
( )
2

2 2𝑑|1 − 2𝑝|𝑍𝛾
𝑍1− 𝛼 (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + )
2 𝑍1−𝛼/2
𝑛𝑚 =
4𝑑2

2
𝑛𝑝 2𝑑|1 − 2𝑝|𝑍𝛾
𝑛𝑚 = [1 + √1 + ] (3.31)
4 𝑍1−𝛼/2 𝑝(1 − 𝑝)

108
donde 𝑛𝑝 es el tamaño de muestra preliminar (ecuación 3.28) sin nivel de aseguramiento
(𝛾 = 0.5). 𝛾 representa el grado deseado de seguridad (probabilidad requerida) para
lograr una amplitud del IC (𝑊) que no supere al valor deseado (𝜔), 𝑍𝛾 es el cuantil 𝛾 de
la distribución normal estándar. Note que si 𝛾 = 0.5, 𝑍𝛾 = 0 porque corresponde al
cuantil 50% de una distribución normal estándar y esto provoca que la ecuación (3.31)
se reduzca a la ecuación (3.28), la cual proporciona el número requerido de unidades,
asumiendo varianza conocida 𝑉(𝑝̂ ), pero esto implica que la amplitud deseada se logre
solamente alrededor del 50% de las veces. La ecuación (3.31) garantiza que 𝐷 será menor
o igual a 𝑑 con una probabilidad 𝛾. En otras palabras, sólo 100(1 − 𝛾)% de las veces 𝐷
será mayor que la amplitud deseada (𝑑). Hay que dejar claro que los tamaños de muestra
derivados anteriormente son para poblaciones infinitas, a continuación se presenta la
contraparte para población finita. El lector interesado en más detalles para estimar el
tamaño de muestra para una proporción puede consultar Montesino-López et al. (2012).

El tamaño de muestra para estimar 𝒑 en poblaciones finitas

El tamaño de muestra para estimar una proporción bajo población finita sin nivel de
aseguramiento es

2

𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞

Mientras su contraparte con nivel de aseguramiento 𝛾 ≥ 0.5 es igual a

2 1 2𝑑|1 − 2𝑝|𝑍𝛾
𝑁𝑡(𝑛−1,1−𝛼/2) (4) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑡 )
(𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 2

2 1 2𝑑|1 − 2𝑝|𝑍𝛾
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) ( ) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + )
4 𝑡(𝑛−1,1−𝛼/2)

Esta ecuación es equivalente a:


𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ),
𝑁 + 𝑛𝑚

109
2
2𝑑|1−2𝑝|𝑍𝛾
√𝑝𝑞+√𝑝𝑞+𝑡
donde 𝑛𝑚 = (𝑛−1,1−𝛼/2)
y 𝑞 = 1 − 𝑝.
2𝑑
𝑡(𝑛−1,1−𝛼/2)

( )

EJEMPLOS

Ejemplo 3.3 Con la finalidad de estimar la proporción de estudiantes que fuman en una
universidad, cuya población es de 𝑁 = 430 estudiantes, se seleccionó una muestra
aleatoria de 𝑛 = 80 estudiantes. Si la muestra indica que 30 de los estudiantes
seleccionados fuman, calcular lo que se solicita.

a) Proporción verdadera de los estudiantes que fuman.

∑𝑛𝑖=1 𝑦𝑖 𝑎 30
𝑝= = = = 0.375 ó 37.5% de estudiantes fumadores.
𝑛 𝑛 80
𝑞 = 1 − 𝑝 = 1 − 0.375 = 0.625 ó 62.5% de estudiantes no fumadores.

b) Desviación estándar de la proporción muestral (𝑆𝑝 ).

𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √( )( )
𝑁 𝑛

donde: 𝑁 = 430, 𝑛 = 80, 𝑝 = 0.375 y 𝑞 = 0.625. Por lo tanto:

430 − 80 (0.375)(0.625)
𝑆𝑝 = √( )( ) = √(0.8139)(0.0029) = 0.0488.
430 80

c) IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

110
donde: 𝑝 = 0.375, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

0.375 ± (1.96)(0.0488)
0.375 ± 0.09565
0.2793 ≤ 𝑃 ≤ 0.4707

Con 95% de confianza se estima que la proporción verdadera de estudiantes que


fuman está entre 0.2793 y 0.4707, es decir, entre 27.93 y 47.07%.

d) Total verdadero de estudiantes que fuman en la universidad.

𝜏̂ = 𝑁𝑝
donde: 𝑁 = 430 y 𝑝 = 0.375. Por lo tanto: 𝜏̂ = (430)(0.375) = 161.25.

e) IC del total verdadero de estudiantes que fuman, con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

donde: 𝜏̂ = 161.25, 𝑁 = 430, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

161.25 ± (430)(1.96)(0.0488)
161.25 ± 41.1295
120.0938 ≤ 𝜏 ≤ 202.4062

Con 95% de confianza se estima que el total de estudiantes que fuman está entre
120.0938 y 202.4062.

f) Si 𝑛 = 80 estudiantes es una muestra preliminar, el tamaño de muestra para estimar


111
la proporción verdadera con una precisión del 10% de la proporción preliminar (𝑝) y
una confiabilidad de 95% es:

2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde: 𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.375, 𝑞 = 0.625. Como


el valor de 𝑑 no está definido en forma explícita, se calcula obteniendo el 10% de
la proporción preliminar (𝑝),. es decir, 𝑑 = (0.1)(0.375) = 0.0375.

Por lo tanto:

(430)(1.96)2 (0.375)(0.625)
𝑛∗ = = 257.2393 = 258.
(430)(0.0375)2 + (1.96)2 (0.375)(0.625)

g) Calcular el tamaño de muestra para estimar la proporción verdadera con una


precisión del 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%.

2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
𝑁 (𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼/2)
( )

donde:𝑁 = 430, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,


𝑝 = 0.375, 𝑞 = 0.625, 𝑍𝛾 = 2.3263 y 𝑑 = (0.10)(0.375) = 0.0375.

Primeramente se calcula el tamaño de la muestra suponiendo una población infinita:

√0.375 (0.625) + √0.375 (0.625) + 2(0.0375)|1 − 2(0.375 )|(2.3263)


𝑛𝑚 = 1.96
2(0.0375)
( 1.96 )
112
2 2
0.484123 + √0.234375 + 0.022254 0.484123 + 0.506586
𝑛𝑚 = ( ) =( ) = 670.330193
0.038265 0.038265

Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:

430
𝑛𝑚𝐹 = 670.330193 ( ) = 261.9595 = 262 estudiantes..
430 + 670.330193

Ejemplo 3.4. Un ingeniero es responsable de un centro de cómputo con 𝑁 = 2,000


computadoras. Por descuido algunas computadoras se infectaron con el virus XXX. Con
la finalidad de estimar la proporción de computadoras afectadas, se seleccionó una
muestra aleatoria de 𝑛 = 50 computadoras, de las cuales sólo 22 computadoras tuvieron
dicho virus. A continuación calcule lo que se pide.

a) Proporción verdadera de computadoras infectadas.


∑𝑛𝑖=1 𝑦𝑖 𝑎 22
𝑝= = = = 0.44 ó 44% infectadas.
𝑛 𝑛 50
𝑞 = 1 − 𝑝 = 1 − 0.44 = 0.56 ó 56% limpias.

b) Desviación estándar de la proporción muestral (𝑆𝑝 ).

𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √( )( )
𝑁 𝑛

donde: 𝑁 = 2,000, 𝑛 = 50, 𝑝 = 0.44 y 𝑞 = 0.56.

Por lo tanto:

2,000 − 50 (0.44)(0.56)
𝑆𝑝 = √( )( ) = √(0.975)(0.0049) = 0.0693.
2,000 50

c) IC de 95% para la proporción verdadera.

113
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

donde: 𝑝 = 0.44, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

0.44 ± (1.96)(0.0693)
0.44 ± 0.1358
0.3041 ≤ 𝑃 ≤ 0.5759

Con 95% de confianza se estima que la proporción verdadera de computadoras


infectadas en la población está entre 0.3041 y 0.5759, es decir, entre 30.41 y 57.59%.

d) Total verdadero de computadoras infectadas.


𝜏̂ = 𝑁𝑝

donde: 𝑁 = 2,000 y 𝑝 = 0.44.

Por lo tanto:

𝜏̂ = (2,000)(0.44) = 880

e) Intervalo del total verdadero de computadoras infectadas en la población con una


confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝

donde: 𝜏̂ = 880, 𝑁 = 2,000, 𝑆𝑝 = 0.0693 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

114
880 ± (2,000)(1.96)(0.0693)
880 ± 271.6
608.2787 ≤ 𝜏 ≤ 1,151.7213

Con 95% de confianza, se estima que el total de computadoras infectadas por el virus
XXX, está entre 608.2787 y 1,151.7213.

f) Suponga que 𝑛 = 50 computadoras es una muestra preliminar. Por lo tanto, ¿Cuál es


el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.07
y una confiabilidad de 95%?

2
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞

donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56 y 𝑑 = 0.07.


Por lo tanto:

(2,000)(1.96)2 (0.44)(0.56) 1,893.1404


𝑛∗ = 2 2
= = 176.1618 = 177
(2,000)(0.07) + (1.96) (0.44)(0.56) 10.7466

g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una


precisión de 0.07, una confiabilidad de 95% y un nivel de aseguramiento (γ) de 90%?

2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
𝑁 (𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼/2)
( )

donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝 = 0.44, 𝑞 = 0.56, 𝑍𝛾 = 1.2816


y 𝑑 = 0.07.

Primero se calcula el tamaño de la muestra para una población infinita.


115
2
2(0.07)|1 − 2(0.44)|(1.2816)
√0.44 (0.56 ) + √0.44 (0.56) +
1.96
𝑛𝑚 =
2(0.07)
( 1.96 )
2
0.496387 + √0.2464 + 0.010985
𝑛𝑚 = ( )
0.071429
0.484123 + 0.507331 2
𝑛𝑚 = ( ) = 197.457895
0.071429

Finalmente se obtiene el tamaño de la muestra para una población finita.

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚

Por lo tanto:
2,000
𝑛𝑚𝐹 = 197.457895 ( )
2,000 + 197.457895
𝑛𝑚𝐹 = 179.7148 = 180.

EJERCICIOS

En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(𝛾) del 80%?

Ejercicio 3.5. Con la finalidad de saber si la sociedad veracruzana (𝑁 = 10,000) está de


acuerdo con la reforma de Pemex, se encuestó a 𝑛 = 150 personas tomadas al azar. Los
resultados arrojaron que 35 personas estuvieron de acuerdo.

Ejercicio 3.6. La dirección de la Facultad de Economía realizó una encuesta en la ciudad


de Monterrey para saber si las personas conocían el perfil de egreso de los licenciados en

116
Economía. Se aplicó la encuesta a 𝑛 = 100 personas tomadas al azar de un total de 𝑁 =
10,000. La encuesta arrojó que 15 personas conocían el perfil de egreso.

Ejercicio 3.7. La Secretaría de Salud del estado de Michoacán desea encuestar a 𝑛 = 5,000
personas seleccionadas aleatoriamente de una población de 𝑁 = 567,996 para saber si la
población michoacana conoce los productos transgénicos. Los resultados muestran que
1,570 personas conocen los productos transgénicos.

Ejercicio 3.8. Se aplicó una encuesta para saber cuántas personas de la ciudad de México
utilizan tarjetas bancarias. La ciudad de México tiene 𝑁 = 6,500 personas y la encuesta
se realizó a 𝑛 = 1,000 personas tomadas al azar. Los resultados arrojaron que 925
personas utilizaban tarjeta bancaria.

3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS

Estimación de una proporción poblacional con pruebas imperfectas (𝑺𝒆 y 𝑺𝒑 menores


a uno)

En muchas circunstancias para la clasificación de los elementos o individuos de la


muestra se requiere de una prueba de laboratorio o algún dispositivo especializado. En
estos casos la mayoría de las veces el proceso de clasificación no es perfecto ya que las
pruebas clasifican elementos positivos como negativos (tasa de falsos negativos) o
negativos como positivos (tasas de falsos positivos). Es decir, las pruebas o métodos de
clasificación son imperfectos y para realizar estimaciones más precisas es necesario tomar
en cuenta la sensibilidad y especificidad de las pruebas de laboratorio. La sensibilidad
(𝑆𝑒) se define como la probabilidad de clasificar correctamente a un individuo que se
sabe de antemano que es positivo (tiene la enfermedad o característica de interés) como
positivo. Mientras que la especificidad (𝑆𝑝) se define como la probabilidad de clasificar
correctamente un individuo que se sabe que es negativo (está libre de la enfermedad)
como negativo. Por supuesto que al tomar en cuenta la sensibilidad y especificidad los

117
estimadores de la proporción, los IC y el tamaño de muestra son distintos. A continuación
se presentan los estimadores apropiados.

De acuerdo con Rogan (1978) el estimador de la proporción tomando en cuenta la


sensibilidad y especificidad de la prueba es:

𝑝 + 𝑆𝑝 − 1
𝑝∗ = , 𝑞 ∗ = 1 − 𝑝∗ (3.32)
𝑆𝑒 + 𝑆𝑝 − 1

donde 𝑝 = 𝑎/𝑛 𝑞 = 1 − 𝑝. 𝑎 denota el número de individuos positivos en la muestra de


tamaño 𝑛. 𝑆𝑒y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de laboratorio.
Además, note que si (𝑆𝑒 = 𝑆𝑝 = 1), la ecuación (3.32) se reduce a la ecuación (3.22). El
estimador 𝑝∗ de 𝑝 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝 son conocidas, pero el sesgo es
mayor si estas son desconocidas, es decir, si se usa una estimación de ellas, pero aún bajo
este escenario las estimaciones resultantes son aceptables. Por ello, en este libro se
asumen que 𝑆𝑒 y 𝑆𝑝 son conocidas. Bajo este contexto un estimador de la varianza de 𝑝∗
esta dado por:

𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( ) (3.33)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛

Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑝∗ = √𝑆𝑝2∗ . Por

otro lado, un intervalo de confianza para 𝑝 esta dado por 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ . Finalmente,
la fórmula para determinar el tamaño de muestra con población finita es igual a:

2

𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛 = 2 (3.34)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞

Sin embargo, es necesario resaltar que la fórmula anterior (𝑛∗ ) garantiza que la
amplitud del intervalo de confianza se cumpla solamente 50% de las veces. Por ello a
continuación se brinda la expresión apropiada para determinar el tamaño de muestra
que asegura precisión en la estimación de la proporción. Primero se proporciona la
118
expresión para una población infinita (𝑛𝑚 ) y en seguida se ajusta para una población
finita (𝑛𝑚𝐹 ).

2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚 = ( ) ((3.35)
2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )

donde 𝑑 es la mitad de la amplitud absoluta deseada del IC (precisión deseada)y 𝑍𝛾 es el


cuantil 𝛾 de una distribución normal estándar. Finalmente, el tamaño de muestra que
garantiza precisión en la estimación de la proporción para una población finita es igual
a:

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛m
donde 𝑛𝑚 se calcula con la expresión 3.35.

EJEMPLOS

Ejemplo 3.5. Con el objetivo de estimar la proporción de estudiantes que tienen dengue
en la Facultad de Psicología de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 580 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) y especificidad (𝑆𝑝) son de 0.96 y 0.98, respectivamente. Los resultados arrojaron
que 80 de los estudiantes seleccionados tienen dengue. Calcular lo siguiente:

a) La proporción verdadera de los estudiantes con dengue.

𝑎
𝑝= , 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝∗ = 𝑛 , 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1

119
donde: 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑎 = 80 y 𝑛 = 150.

Por lo tanto:

80
𝑝= = 0.5333 = 53.33%
150
𝑞 = 1 − 𝑝 = 0.4667 = 46.67%
80
+ 0.98 − 1
150 0.513333
𝑝∗ = = = 0.5461 = 54.61%
0.96 + 0.98 − 1 0.94
𝑞 ∗ = 1 − 0.5461 = 0.4539 = 45.39%

b) La varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los estudiantes.

𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
donde: 𝑁 = 580, 𝑛 = 150, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑝 = 0.5333 y 𝑞 = 0.4667.

Por lo tanto:

580 − 150 1 (0.5333)(0.4667)


𝑆𝑝2∗ = ( 2
)
580 (0.96 + 0.98 − 1) 150
𝑆𝑝2∗ = (0.74138)(1.131734)(0.001659)

𝑆𝑝2∗ = 0.001392 y la desviación estándar: 𝑆𝑝∗ = √𝑆𝑝2∗ = √0.001392 = 0.037309

c) IC de 95% para la proporción verdadera.

𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗

donde: 𝑝∗ = 0.5461, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.037309.

Por lo tanto:

120
0.5461 ± (1.96)(0.037309)
0.5461 ± 0.073126
0.472974 ≤ P ≤ 0.619226

Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de


estudiantes con dengue está entre 0.472974 y 0.619226.

d) El total de estudiantes con dengue en la Facultad de Psicología.

𝜏̂ = 𝑁𝑝∗

donde: 𝑁 = 580 y 𝑝∗ = 0.5461.

Por lo tanto:
𝜏̂ = (580)(0.5461) = 316.738

e) Calcule un IC del total verdadero de estudiantes con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗

donde: 𝜏̂ = 316.738, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 580 y 𝑆𝑝∗ = 0.037309.

Por lo tanto:

316.738 ± (580)(1.96)(0.037309)
316.738 ± 42.412871
274.3251 ≤ 𝜏 ≤ 359.1508

Es decir, con 95% de confianza se estima que el total de estudiantes está entre 274.3251
y 359.1508.

121
f) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real
para estimar la proporción verdadera con una precisión del 10% de la proporción
preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96 y una
especificidad del 0.98, es:

2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667,


𝑑 = 0.10(𝑝∗ ) = 0.10(0.5461) = 0.05461, 𝑆𝑒 = 0.96 y 𝑆𝑝 = 0.98.

Por lo tanto:


580(1.96)2 (0.5333)(0.4667)
𝑛 =
580(0.05461)2 (0.96 + 0.98 − 1)2 + (1.96)2 (0.5333)(0.4667)
554.5612511
𝑛∗ = = 223.2076 = 224 estudiantes
2.484508502

g) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real


para estimar la proporción verdadera con una precisión del 10% de la proporción
preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96, una especificidad
del 0.98 y un nivel de aseguramiento (𝛾) de 0.99, es:

2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑁 𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )

donde: 𝑁 = 580, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.5333, 𝑞 = 0.4667,

𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98 y 𝑑 = 0.10(𝑝 ) = 0.10(0.5461) = 0.05461.


Primeramente se determina el tamaño de la muestra suponiendo una población

122
infinita:

√0.5333(0.4667) + √0.5333(0.4667) + 2(0.05461)|1 − 2(0.5333)|2.3263 1


𝑛𝑚 = 1.96 ( )
2(0.05461) (0.96 + 0.98 − 1)2
( 1.96 )
2
0.49889 + √0.248891 + 0.008633 1
𝑛𝑚 = ( ) ( )
0.055724 0.8836
2
0.49889 + 0.507468 1
𝑛𝑚 = ( ) ( ) = 369.117582
0.055724 0.8836

Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:

580
𝑛𝑚𝐹 = 369.117582 ( ) = 225.5655 = 226 estudiantes.
580 + 369.117582

Ejemplo 3.6. La Secretaría de Salud de la ciudad de Quito Ecuador desea estimar la


proporción de personas que tienen influenza H1N1 en uno de sus hospitales. El hospital
elegido tiene 𝑁 = 1,300 pacientes, de los cuales se seleccionó una muestra aleatoria de
𝑛 = 400. A cada paciente se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒)
es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 𝑎 = 320 de los
pacientes seleccionados tienen influenza H1N1. Calcular lo siguiente:

a) Proporción verdadera de los pacientes que tienen influenza H1N1, con sensibilidad
del 97% y especificidad del 98%.

𝑎
𝑝= , 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝 = 𝑛

, 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑎 = 320 y 𝑛 = 400

Por lo tanto:
123
320
𝑝= = 0.8 = 80%
400
𝑞 = 1 − 𝑝 = 0.2 = 20%
320

+ 0.98 − 1
400 0.78
𝑝 = = = 0.8211 = 82.11%
0.97 + 0.98 − 1 0.95
𝑞 ∗ = 1 − 0.8211 = 0.1789 = 17.89%.

b) Varianza (𝑆𝑝2 ) y la desviación estándar (𝑆𝑝 ) de los pacientes.

𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛

donde: 𝑁 = 1,300, 𝑛 = 400, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑝 = 0.8 y 𝑞 = 0.2.

Por lo tanto:

1,300 − 400 1 (0.8)(0.2)


𝑆𝑝2∗ = ( 2
)
1,300 (0.97 + 0.98 − 1) 400
𝑆𝑝2∗ = (0.692308)(1.108033)(0.0004) = 0.000307

𝑆𝑝∗ = √𝑆𝑝2∗ = √0.000307 = 0.017521.

c) IC de 95% para la proporción verdadera.

𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗

donde: 𝑝∗ = 0.8211, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝∗ = 0.017521.

Por lo tanto:

0.8211 ± (1.96)(0.017521)
0.8211 ± 0.034341
0.786759 ≤ 𝑃 ≤ 0.855441
124
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
pacientes con influenza H1N1 está entre 0.786759 y 0.855441.

d) Total de pacientes con influenza H1N1 en el hospital de Quito.

𝜏̂ = 𝑁𝑝∗ = (1,300)(0.8211) = 1067.43

e) IC del total verdadero de pacientes con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗

donde: 𝜏̂ = 1067.43, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,300 y 𝑆𝑝∗ = 0.017521.


Por lo tanto:

1067.43 ± (1,300)(1.96)(0.017521)
1067.43 ± 44.643508
1022.786492 ≤ 𝜏 ≤ 1112.073508

Es decir, con 95% de confianza se estima que el total de pacientes está entre 1,022.7865
y 1,112.0735.

f) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de


muestra real para estimar la proporción verdadera con una precisión de 0.03 y una
confiabilidad del 95%, cuando la especificidad es de 0.98 y la sensibilidad de 0.97%?

2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2,


𝑑 = 0.03, 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98.

125
Por lo tanto:


1,300(1.96)2 (0.8)(0.2)
𝑛 =
1,300(0.03)2 (0.97 + 0.98 − 1)2 + (1.96)2 (0.8)(0.2)
799.0528
𝑛∗ =
1.6706
𝑛∗ = 478.3029 = 479 pacientes.

g) Suponga que 𝑛 = 400 pacientes es una muestra preliminar ¿Cuál es el tamaño de


muestra real para estimar la proporción verdadera con una precisión de 0.03, una
confiabilidad del 95%, cuando la especificidad es de 0.98, la sensibilidad del 0.97, y
el nivel de aseguramiento (γ) de 0.99?

2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑁 𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )

donde: 𝑁 = 1,300, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.8, 𝑞 = 0.2,

𝑍𝛾 = 2.3263, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98 y 𝑑 = 0.03.

Primero se determinará el tamaño de la muestra suponiendo población infinita.

√0.8(0.2) + √0.8(0.2) + 2(0.03)|1 − 2(0.8)|2.3263 1


𝑛𝑚 = 1.96 ( )
2(0.03) (0.97 + 0.98 − 1)2
( 1.96 )
2
0.4 + √0.16 + 0.042728 1
𝑛𝑚 = ( ) ( )
0.030612 0.9025
2
0.4 + 0.450253 1
𝑛𝑚 = ( ) ( ) = 854.802387.
0.030612 0.9025

Finalmente se obtendrá el tamaño de la muestra suponiendo una población finita.

126
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ),
𝑁 + 𝑛𝑚

Por lo tanto:

1,300
𝑛𝑚𝐹 = 854.802387 ( )
1,300 + 854.802387
𝑛𝑚𝐹 = 515.7053 = 516 pacientes..

EJERCICIOS

En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción, con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(γ) del 90%?

Ejercicio 3.9. Con el objetivo de estimar la proporción de estudiantes que tienen varicela
en la facultad de turismo de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 500 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 20 de los
estudiantes seleccionados tienen varicela.

Ejercicio 3.91. Con la finalidad de estimar la proporción de pacientes que tienen el virus
XXX en el hospital metropolitano del estado de Jalisco, cuya población es de 850
pacientes. se seleccionó una muestra aleatoria de 100 pacientes. A cada paciente se le
realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝)
de 0.98. Los resultados arrojaron que 17 de los pacientes seleccionados tienen el virus
XXX.

127
Ejercicio 3.92. La Secretaría de Salud del estado de Guanajuato desea conocer la
proporción de estudiantes afectados con el virus XY, para esto se tienen una población
de 𝑁 = 750 estudiantes con una muestra al azar 𝑛 = 100 individuos. A cada estudiante
se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.95 y especificidad
(𝑆𝑝) de 0.97. Los resultados arrojaron que 50 de los pacientes seleccionados tienen el virus
XY.

Ejercicio 3.93. Una clínica en el estado de Zacatecas desea estimar la proporción de


personas que tienen dengue en su hospital central, el cual tiene 𝑁 = 1,200 pacientes, de
los cuales se seleccionó una muestra aleatoria de 350. A cada paciente se le realizó una
prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝) de 0.97. Los
resultados arrojaron que 45 de los pacientes seleccionados tienen dengue.

128
Capítulo 4. Muestreo aleatorio estratificado

CAPÍTULO 4
Muestreo aleatorio estratificado
En este mundo complejo
nunca es fácil elegir.
Pero con datos y muestras
tú lo podrás conseguir,
De una forma inteligente,
que te conduzca a un buen fin.
OAML

C uando el costo de la investigación es excesivo y la población es heterogénea, el


Muestreo Aleatorio Simple (MAS) no es, en principio, una buena opción. Por esta
razón, este capítulo brinda la opción del Muestreo Aleatorio Estratificado (MAE), el
cual trata de hacer aún más precisas las estimaciones que se pueden obtener con un
diseño básico de muestreo como el aleatorio simple (Cochran, 1985).

Muestreo aleatorio estratificado

A la población de 𝑁 individuos se divide en 𝐸 subpoblaciones o estratos que no se


traslapan, con respecto a criterios que puedan ser importantes en el estudio y
tratando en la medida posible que exista homogeneidad dentro de cada estrato.
Los estratos contienen 𝑁1 , … , 𝑁𝐸 unidades muestrales, de manera que 𝑁 = ∑𝐸𝑖 𝑁𝑖 y
en cada uno de estos estratos o subpoblaciones se realiza un muestreo aleatorio
simple con muestras respectivas de tamaño 𝑛𝑖 . As la muestra estratificada de
tamaño 𝑛 es igual a la suma de todas las muestras de cada estrato, es decir, 𝑛 =
∑𝐸𝑖 𝑛𝑖 .

En general, los estratos naturales o convenientemente definidos deberán ser


homogéneos internamente y heterogéneos entre ellos, con respecto a la variable bajo
estudio. Cada unidad muestral debe estar incluida en sólo un estrato, es decir, no debe

129
haber traslapes entre los estratos. Las unidades que se incluyan en un estrato deben tener
un valor similar en cuanto a la variable de interés, aunque al no conocer esos valores, se
puede usar otra característica para formar los estratos con la esperanza de lograr que los
valores sean muy parecidos dentro de cada estrato. Los estratos formados funcionan
independientemente, y se les aplica un muestreo aleatorio simple para elegir los
elementos concretos que formarán parte de la muestra y obtener así las estimaciones de
los parámetros que nos interesan. En ocasiones las dificultades que plantean los estratos
son demasiado grandes, pues exigen un conocimiento detallado de la población, como
tamaño geográfico, género, edades, niveles de estudio, etcétera (Pérez, 2000).

El MAE se utiliza cuando la población es muy heterogénea y las consideraciones de


costo limitan el tamaño de la muestra. Si no se toman en cuenta tanto la variabilidad
como los costos diferenciados y utilizamos el MAS, las estimaciones podrían ser menos
precisas o el costo sería demasiado elevado. Por otro lado, para la población estratificada
habrá que determinar dos tamaños de muestra: para la población y para cada estrato, 𝑛
y 𝑛ℎ , respectivamente.

4.1 Ventajas de utilizar el MAE

Algunos motivos para utilizar el muestreo aleatorio estratificado en lugar del muestreo
aleatorio simple son:

Produce estimaciones más precisas que las que se obtienen a partir del segundo
método.
El costo por observación puede ser reducido mediante la estratificación de la
población.
Se puede obtener información de parámetros poblacionales para cada estrato de
la población.
Se simplifica el trabajo administrativo y el de control, ya que se puede usar
personal específico para cada estrato.

130
El tamaño de muestra será menor si la estratificación está bien definida, en
comparación con el MAS.

Notación

Para esta técnica de muestreo necesitamos una notación adicional que distingue los
elementos de la población, como la siguiente:

𝑁: el número total de unidades muestrales en la población.


𝐸: el número de estratos en la población.
𝑖: un estrato.
𝑁𝑖 : el número total de unidades en el estrato 𝑖.
𝑛𝑖 : el número de unidades en la muestra en el estrato 𝑖.
𝑗: alguna unidad muestral que siempre pertenece a algún estrato 𝑖.
𝑦𝑖𝑗 : el valor obtenido en la j-ésima unidad dentro del estrato 𝑖.
𝑊𝑖 = 𝑁𝑖 /𝑁: la ponderación, peso o tamaño relativo del estrato 𝑖.
𝑓𝑖 = 𝑛𝑖 /𝑁𝑖 : la fracción de muestreo para el estrato 𝑖.
𝑛𝑖 𝑦
∑𝑖=1 𝑖𝑗
𝑦̅𝑖 = : la media muestral del estrato 𝑖.
𝑛𝑖
𝑛
𝑖 (𝑦 −𝑦 2 𝑛𝑖 𝑦 2 −𝑛 𝑦 2
∑𝑗=1 𝑖𝑗 ̅ 𝑖 ) ∑𝑗=1 𝑖𝑗 𝑖 ̅𝑖
𝑆𝑖2 = = : la varianza en el estrato 𝑖.
𝑛𝑖 −1 𝑛𝑖 −1

Si se desea conocer la cantidad de horas promedio que cierto grupo de personas de


una ciudad ve la televisión, debemos pensar que habrá niños, jóvenes y adultos, y que el
tiempo de horas libres varía de un grupo a otro. De esta manera dividimos la población
en tres estratos, ya que es lógico afirmar que las tendencias dentro de cada estrato son
similares y son homogéneas. También podemos entender que el número total de
personas de la población es la suma de los elementos de los estratos. Otro ejemplo es el
siguiente: si queremos conocer el ingreso promedio de las familias en Colima, donde se
supone que existen tres clases sociales bien marcadas, podemos considerar las familias
de la misma clase social como un estrato, ya que es homogéneo.

131
4.2 ¿Cómo seleccionar una muestra aleatoria estratificada?

La selección de la muestra de cada estrato es diferente, ya que cada uno tiene


características y costos de medición distintos, por lo que el número de unidades también
será diferente. Por ejemplo, el tamaño de la muestra del estrato debe ser mayor si es muy
variable o si contiene más unidades. Por el contrario, será menor si el costo de la medición
es elevado. Antes de seleccionar una muestra es preciso considerar qué tan grande debe
ser la precisión de estimación y de acuerdo con esto, seleccionar el tamaño de la muestra
(Cochran, 1985).

En resumen, de un estrato dado se toma una muestra más grande si:

El estrato es más grande.


Los elementos del estrato tienen alta variabilidad.
El muestreo es más barato en el estrato.

4.3 Estimación de parámetros de interés para promedio bajo MAE

Estimación de la media poblacional

Supongamos que hemos tomado nuestra muestra aleatoria estratificada, y entonces nos
preguntamos, ¿cómo debemos usarla para estimar los principales parámetros? Es decir,
contestarnos preguntas como: ¿cuál es la media de nuestra población? o ¿cuál es el total? Si 𝜇𝑖
y 𝜏𝑖 son la media y el total para el estrato 𝑖, respetivamente, resulta obvio que 𝜏1 + 𝜏2 +
⋯ + 𝜏𝐸 = 𝜏, donde 𝜏 es el total de la población.

Para comprender mejor las expresiones que nos darán la estimación de 𝜇 y 𝜏, debemos
tomar en cuenta que 𝑦̅𝑖 es un estimador insesgado de 𝜇𝑖 y que 𝑁𝑦̅𝑖 es un estimador
𝑁
insesgado del total del estrato 𝜏𝑖 = ∑𝑗=1
𝑖
𝑦𝑖𝑗 , tal como en el muestreo aleatorio simple.

Hasta aquí todo parece razonable, como formar el estimador de 𝜏(𝜏̂ ) con la suma de los

132
𝜏̂𝑖 y de esta manera construir un estimador para la media de la población al dividir 𝜏̂ entre
𝑁, el cual hereda la propiedad de insesgamiento (Scheaffer et al., 1987).

El estimador de la media estratificada

∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁

Nótese que se ha usado el subíndice estr en 𝑦̅ para señalar que la estimación se hace
con el muestreo estratificado. Dado que cada estrato se maneja de manera independiente,
las 𝑦̅𝑖 con 𝑖 = 1,2, … 𝐸 también son independientes. Por lo tanto, la varianza de 𝑦̅𝑒𝑠𝑡𝑟 es la
suma de las varianzas de las medias de cada estrato. Este estimador es insesgado.

El estimador de la varianza de la media estratificada

1
𝑆 2𝑦𝑒𝑠𝑡𝑟 = 𝑉( 𝑦̅𝑒𝑠𝑡𝑟 ) = [𝑁 2 𝑉̂ (𝑦̅1 ) + 𝑁22 𝑉̂ (𝑦̅2 ) + ⋯ + 𝑁𝐸2 𝑉̂ (𝑦̅𝐸 )]
𝑁2 1
1 𝑁1− 𝑛1 𝑆2 𝑁𝐸− 𝑛𝐸 𝑆2
= [𝑁12 ( ) (𝑛1 ) + ⋯ + 𝑁𝐸2 ( ) (𝑛𝐸 )]
𝑁2 𝑁1 1 𝑁𝐸 𝐸

1 𝑁𝑖− 𝑛𝑖 𝑆2
= ∑𝐸𝑖=1 𝑁𝑖2 ( ) ( 𝑛𝑖 )
𝑁2 𝑁𝑖 𝑖
2
𝐸 𝑁𝑖 𝑁𝑖− 𝑛𝑖 𝑆𝑖2
= ∑ 𝑖=1 𝑁 2 ( ) (𝑛 )
𝑁𝑖 𝑖

𝑁𝑖− 𝑛𝑖 𝑆2
= ∑𝐸𝑖=1 𝑊𝑖2 ( ) ( 𝑛𝑖 )
𝑁𝑖 𝑖

= ∑𝐸𝑖=1 𝑊𝑖2 𝑆𝑦2𝑖

El siguiente paso es la obtención del intervalo de confianza de nuestra estimación.


Cuando hay pocos grados de libertad en cada estrato, el procedimiento para calcular el

error de muestreo (𝑡√𝑉̅ (𝑦̅𝑒𝑠𝑡𝑟 )) consiste en leer el valor de t en las tablas de la t-Student,
como se hizo en el muestreo aleatorio simple, y cuando es mayor de 30 utilizaremos la
tabla 𝑍 de la distribución normal estándar.

El intervalo de confianza para la estimación de la media estratificada

133
𝐸
1 2
𝑁𝑖− 𝑛𝑖 𝑆𝑖2
𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √ 2 ∑ 𝑁𝑖 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1

𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑊𝑖2 𝑆𝑦2𝑖


𝑖=1

Se ha revisado lo referente al estimador de la media estratificada; sin embargo, en


ocasiones el principal interés es conocer el total de la población, por ejemplo, el gasto
total semanal de las familias o el total de personas que visitan algún lugar turístico, o
quizá la cantidad de personas que consumen un producto específico.

El estimador del total estratificado

𝜏̂𝑒𝑠𝑡𝑟 = 𝑁𝑦𝑒𝑠𝑡𝑟 = 𝑁1 𝑦1 + 𝑁2 𝑦2 + … + 𝑁𝐸 𝑦𝐸 = ∑ 𝑁𝑖 𝑦𝑖
𝑖=1

La varianza se deduce de la varianza de la media y hereda sus propiedades. Para


estimar la varianza, la media y el total, debe haber al menos dos observaciones en cada
estrato.

La varianza del estimador del total estratificado

𝐸
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
𝑉̅ (𝑁𝑦̅𝑒𝑠𝑡𝑟 ) = 𝑁 𝑉(𝑦𝑒𝑠𝑡𝑟 ) = 𝑁 ∑ 𝑊𝑖2 (
2 2
)( ) (4.1)
𝑁𝑖 𝑛𝑖
𝑖=1

La desviación estándar se necesita para crear un intervalo de confianza del total.

El intervalo de confianza

134
𝐸
2
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
𝑁𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑁𝑖 ( )( )
𝑁𝑖 𝑛𝑖
𝑖=1

Determinación del tamaño de la muestra

Es tiempo de planear las unidades muestrales que se deben seleccionar aleatoriamente


en toda la población, y las de los estratos, para constituir una muestra que satisfaga una
precisión deseada, 𝑑.

Cuando se decide precisar el tamaño de muestra se deben tomar en cuenta varios


factores como el tipo de muestreo, el parámetro a estimar, la precisión admisible, la
varianza poblacional y el nivel de confianza de la inferencia. Además, dependiendo de
las estrategias de asignación, se puede recurrir a información más específica o adicional.

Anteriormente se revisaron los elementos estadísticos que se deben tomar en cuenta


para obtener un tamaño de muestra preciso; sin embargo, existen otros factores que son
fundamentales para tomar una decisión al respecto. Para la asignación de la muestra a
cada estrato también se requiere información sobre:

El número total de elementos del estrato.


La variabilidad de las observaciones del estrato.
El costo que representa muestrear cada estrato.

De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos, se
obtendrá información más precisa, por lo que a los estratos grandes les corresponden
tamaños muestrales grandes. También es fácil inferir que si en algún estrato hay mucha
variabilidad, debe considerarse un tamaño de muestra mayor.

Por último, es importante considerar que si el costo de obtener una observación varía
entre estratos, se deberán tomar muestras pequeñas en estratos donde el costo sea alto y
viceversa, con el fin de minimizar el costo total del muestreo. Así, la calidad de la
135
información que se obtenga en las estimaciones provendrá directamente de 𝑛, ya que al
incrementarse ésta, la varianza de la media decrecerá. Para lograr la precisión deseada
usamos:

𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝜃)

donde 𝑉(𝜃) es la varianza del estimador de interés y 100(1-𝛼)% es el nivel de confianza.

El tamaño de muestra para estimar la media estratificada

2 𝐸 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛 = 2 𝐸 2 (4.2)
𝑁𝑑 2 + 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖

En la ecuación anterior 𝑊𝑖 = 𝑁𝑖 /𝑁, mientras que 𝑑 es el margen de error (precisión)


que se desea aceptar en la estimación de la media.

Por analogía al MAS bajo AIPE, a continuación sólo se proporciona, sin mostrar su
obtención, la expresión para calcular el tamaño de muestra modificado bajo el MAE.

El tamaño de muestra modificado para estimar la media estratificada

𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑡(2𝑛−1,1−𝛼⁄2) ∑𝐸𝑖=1 𝑊𝑖 𝑆 2𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1
𝑛𝑚 = 2 ∗ (4.3)
2 2 ∑ 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑆 𝑖 ( )
𝑛𝑖∗ − 1

donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que


la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil
100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖∗ − 1 grados de libertad (por estrato) y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2)% de la distribución t-Student con 𝑛∗ − 1 grados
de libertad (también por estrato). Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar 𝑍1−𝛼/2 .
136
La asignación de la muestra

El muestreo estratificado involucra 𝑖 estratos y, por tanto, 𝐸 tamaños de muestra,


𝑛𝑚 1 , 𝑛𝑚 2 , . . . , 𝑛𝑚 𝐸 correspondientes a los estratos en que se divide la población.
Asimismo, se tiene el tamaño de muestra total 𝑛𝑚 , el cual es la suma de los 𝐸 tamaños de
muestra relacionados con los estratos. Hay que considerar que el número de unidades
del estrato influye en el tamaño de muestra. Se asignará un tamaño de muestra mayor a
los estratos más grandes y uno menor a los estratos más chicos. A los estratos menos
homogéneos les corresponderá un tamaño de muestra mayor, mientras que a los estratos
donde el costo por unidad sea alto, se tomarán muestras más pequeñas. Por lo tanto,
existen diferentes métodos de asignación de la muestra.

El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño


de muestra 𝑛𝑚 requerido, consiste en determinar una parte de 𝑛𝑚 , la cual será
proporcional al tamaño del estrato. Algebraicamente, el criterio está representado por
𝑛𝑚 𝑖 = [(𝑁𝑖 )/𝑁]𝑛𝑚 = 𝑊𝑖 𝑛𝑚 , donde 𝑖 = 1, 2, … , 𝐸, es decir, como:

𝑁1 𝑁2 𝑁𝐸
𝑛𝑚 1 = 𝑛𝑚 , 𝑛𝑚 2 = 𝑛𝑚 , … , 𝑛𝑚 𝐸 = 𝑛 (4.4)
𝑁 𝑁 𝑁 𝑚

Los estratos más grandes requieren un tamaño de muestra mayor, es decir, la


asignación de 𝑛 entre los estratos es proporcional al tamaño del estrato.

Selección de estratos

En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato, pero
¿siempre es así? Definitivamente no. En estadística cada problema es una nueva
experiencia, la cual no necesariamente tiene una respuesta única y un razonamiento
lógico para llegar a la solución más satisfactoria. Este trabajo puede resultar un poco
complicado y tornarse desesperante en algunas ocasiones, por lo que a continuación se
dan algunas ideas útiles.

137
¿Qué hago cuando…?
¿Cómo delimitar los estratos?
¿Se debe estratificar después de seleccionar la muestra?

A veces es una tarea sencilla debido a que los estratos están implícitos y se conoce el
comportamiento con base en registros antiguos, en nuestra experiencia o simplemente en
la naturaleza de los resultados que deseamos obtener.

¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso
cuantitativo. Habrá que construirlos dado un interés particular, porque muchas veces
sólo hasta el momento de diseñar la investigación se conocen los rangos de las
estimaciones. Pero también podría tener el rango de salida de los datos y algunas
frecuencias en categorías generales de la variable de interés o de alguna variable
altamente correlacionada. En este caso podemos usar el sencillo método acumulativo de la
raíz cuadrada de la frecuencia.

Los pasos del método acumulativo de la raíz cuadrada de la frecuencia son:

1. Elegimos el número de estratos que se desea obtener.


2. Sacamos por rangos la frecuencia de la variable de interés, o en su defecto a una
altamente correlacionada con ella. Con estos resultados formamos una columna
de datos.
3. Se forman dos columnas más, una constituida por la raíz de las frecuencias y otra
por su raíz acumulada.
4. Se divide la frecuencia acumulada final entre el número de estratos. Este resultado
es el Ancho de la Clase (AC).
5. Se utiliza la ecuación AC𝑖𝑗 = 𝑖 ∗ AC; 𝑖 = 1,2, … 𝐸, donde 𝑖 representa el estrato.
6. Se puede delimitar con las marcas de clase por estrato, eligiendo la raíz de la
frecuencia acumulada más cercana a la marca de clase y así cada estrato estará
formado por todas las clases de la variable original que le correspondan.

138
EJEMPLOS

Ejemplo 4.1. En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se desea
estimar el promedio de plantas por hectárea que en determinada etapa del cultivo se
infectaron de alguna enfermedad. De acuerdo con las condiciones ecológicas en la región,
se siembran tres variedades de limón. Considerando que el desarrollo de la enfermedad
puede ser distinto de una variedad a otra, la población de parcelas se estratificó en 𝐸 = 3
estratos. Los tamaños de los estratos son: 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330; 𝑁 = 𝑁1 +
𝑁2 + 𝑁3 = 780. Suponga que para realizar las estimaciones se tomó una muestra de
𝑛 = 63 parcelas. Los datos se presentan en Cuadro 4.1.

Cuadro 4.1. Plantas infectadas por hectárea.

Estrato 1 Estrato 2 Estrato 3


(𝒏𝟏 = 𝟐𝟏) (𝒏𝟐 = 𝟐𝟏) (𝒏𝟑 = 𝟐𝟏)
48 53 64 20 31 45 74 68 77
62 45 47 36 17 26 70 72 73
59 65 54 15 30 18 78 76 69
45 48 46 40 25 35 69 80 74
50 60 63 24 29 30 80 78 71
55 57 46 19 42 27 72 71 79
64 61 54 33 51 48 76 75 68

a) La estimación puntual del promedio de plantas infectadas por hectárea.

∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁

donde: 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑁 = 780, 𝐸 = 3,


48+62+59+⋯+46+54
𝑦̅𝑖 : 𝑦̅1 = = 54.5714,
21
20+36+15+⋯+27+48
𝑦̅2 = = 30.5238 y
21

74 + 70 + 78 + ⋯ + 79 + 68
𝑦̅3 = = 73.8095
21

139
Por lo tanto:

(270)(54.5714) + (180)(30.5238) + (330)(73.8095)


𝑦̅𝑒𝑠𝑡𝑟 =
780
44,581.697
𝑦̅𝑒𝑠𝑡𝑟 = = 57.1612 plantas infectadas por parcela.
780

b) La estimación puntual del total estratificado de plantas infectadas.

𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟

donde: 𝑁 = 780 y 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612

Por lo tanto:

𝜏̂ 𝑒𝑠𝑡𝑟 = 780(57.1612) = 44,585.736 plantas infectadas.

c) La varianza y desviación estándar del promedio estratificado.

𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ∑( ) ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1

donde: 𝑁 = 780, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝑛𝑖 : 𝑛1 = 𝑛2 = 𝑛3 = 21,


482 + 622 + 592 + ⋯ + 462 + 542 − (21)(54.57)2
𝑆𝑖2 : 𝑆12
= = 50.3571,
21 − 1
2
202 + 362 + 152 + ⋯ + 272 + 482 − (21)(30.52)2
𝑆2 = = 107.2619, y
21 − 1
742 + 702 + 782 + ⋯ + 792 + 682 − (21)(73.80)2
𝑆32 = = 15.5619
21 − 1

Por lo tanto:

270 2 270 − 21 50.3571 180 2 180 − 21 107.2619


𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ( ) ( )( )+( ) ( )( )
780 270 21 780 180 21

140
330 2 330 − 21 15.5619
+( ) ( )( ) = 0.6295
780 330 21

𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.6295 = 0.7934

d) El IC de la media estratificada con una confiabilidad de 95%.

𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟

donde: 𝑦̅𝑒𝑠𝑡𝑟 = 57.1612, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934.

Por lo tanto:

57.1612 ± (1.96)(0.7934 )
57.1612 ± 1.5551
55.6061 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 58.7163

El promedio de plantas infectadas por hectárea en la población está entre 55.6061 y


58.7163.

e) El IC del total de plantas infectadas en la población con una confiabilidad de 95%.

𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟

donde: 𝜏̂𝑒𝑠𝑡𝑟 = 44,585.736 , 𝑁 = 780, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y


𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.7934.

Por lo tanto:

44,585.736 ± (780)(1.96)(0.7934)
44,585.736 ± 1,212.9499
43,372.7861 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 45,798.6859

141
El total de plantas infectadas por hectárea en la población está entre 43,372.7861 y
45,798.6859.

f) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media


con una precisión de ±3% de la media estratificada y una confiabilidad de 95%, es:

2 𝐸 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛∗ = 2 𝐸 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖

donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,


𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3, y
3
𝑁1 2 𝑁2 2 𝑁3 2
∑ 𝑊𝑖 𝑆𝑖2 = 𝑆 + 𝑆2 + 𝑆3
𝑁 1 𝑁 𝑁
𝑖=1
270 180 330
= (50.3571) + (107.2619) + (15.5619)
780 780 780
= 17.4313 + 24.7527 + 6.5839 = 48.7679.

Por lo tanto:

(780)(1.96)2 (48.7679)
𝑛∗ =
(780)(1.7148)2 + (1.96)2 (48.7679 )
146,130.4764
𝑛∗ = = 58.6877 = 59 árboles (parcelas)
2,489.96722

La asignación de la muestra en forma proporcional:

𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 780, 𝑛∗ = 58.6877, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330.

Por lo tanto:

142
270
𝑛1∗ = (58.6877) = 20.3150 = 21
780
180
𝑛2∗ = (58.6877) = 13.5433 = 14
780
330
𝑛3∗ = (58.6877) = 24.8294 = 25.
780

g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media


con precisión de ±3% de la media estratificada, una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 0.99, es:

2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑆 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1
𝑛𝑚 = 2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑆 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1

donde: 𝑁 = 780, 𝑑 = 0.03(57.1612) = 1.7148, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,


𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330, 𝐸 = 3,
𝜒12 (𝛾, 𝑛1∗ − 1) 270 36.6252
𝑊1 𝑆12 ( ∗ )= (50.3571) ( ) = 33.0533,
𝑛1 − 1 780 20.3150 − 1
𝜒22 (𝛾, 𝑛2∗ − 1) 180 27.0187
𝑊2 𝑆22 ( ∗ )= (107.2619) ( ) = 53.3183,
𝑛2 − 1 780 13.5433 − 1

2
𝜒32 (𝛾, 𝑛3∗ − 1) 330 36.2034
𝑊3 𝑆3 ( )= (15.5619) ( ) = 10.0027, y
𝑛3∗ − 1 780 24.8294 − 1
3
2
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑆𝑖 ( ) = 33.0533 + 53.3183 + 10.0027 = 96.3743
𝑛𝑖∗ − 1
𝑖=1

Por lo tanto:

(780)(1.96)2 (96.3743)
𝑛𝑚 =
(780)(1.7148)2 + (1.96)2 (96.3743 )
288,780.5785
𝑛𝑚 = = 108.4071 = 109 parcelas (muestra).
2,663.8520

La asignación de la muestra proporcional:

143
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 780, 𝑁𝑖 : 𝑁1 = 270, 𝑁2 = 180, 𝑁3 = 330 y 𝑛𝑚 = 108.4071.

Por lo tanto:
270
𝑛𝑚 1 = (108.4071) = 37.5255 = 38
780
180
𝑛𝑚 2 = (108.4071) = 25.0170 = 26
780
330
𝑛𝑚 3 = (108.4071) = 45.8645 = 46
780

Ejemplo 4.2. La Facultad de Lenguas Extranjeras de la Universidad Autónoma de


Yucatán (UAdY) desea estimar el promedio y el total de faltas justificadas que tuvieron
los alumnos en un año determinado. Al suponer que podrían encontrarse diferencias
según el grado de estudios (primero, segundo, tercero y cuarto año), se decidió usar el
muestreo estratificado. De esta manera, la población de 𝑁 = 400 estudiantes que alberga
la facultad quedó estratificada de la siguiente manera: Estrato 1 (primer año): 𝑁1 = 120
alumnos, Estrato 2 (segundo año): 𝑁2 = 100 alumnos, Estrato 3 (tercer año): 𝑁3 = 90
alumnos y Estrato 4 (cuarto año): 𝑁4 = 90 alumnos. Se seleccionó una muestra de 𝑛 =
40 alumnos: 12 para el Estrato 1, 10 para el Estrato 2 y 9 para los estratos 3 y 4 (Cuadro
4.2).

Cuadro 4.2. Faltas justificadas por año.


Estrato 1 Estrato 2 Estrato 3 Estrato 4
(𝒏𝟏 = 𝟏𝟐) (𝒏𝟐 = 𝟏𝟎) (𝒏𝟑 = 𝟗) (𝒏𝟒 = 𝟗)
7 6 4 4 3 4 3 3
6 7 5 6 3 4 2 2
7 7 4 4 3 3 3 5
8 8 5 6 4 4 4 2
5 5 6 6 4 5
4 6

a) Estime la media estratificada.

144
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁

donde: 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90, 𝑁4 = 90, 𝑁 = 400, 𝐸 = 4,


7+6+7+⋯+5+6
𝑦̅𝑖 : 𝑦̅1 = = 6.3333,
12
4+5+4+⋯+6+6
𝑦̅2 = = 5,
10
3+3+3+⋯+3+4
𝑦̅3 = = 3.5556 y
9
3+2+3+⋯+5+2
𝑦̅4 = = 3.2222.
9

Por lo tanto:

(120)(6.3333) + (100)(5) + (90)(3.5556) + (90)(3.2222)


𝑦̅𝑒𝑠𝑡𝑟 = = 4.675 faltas
400

b) La estimación puntual del total estratificado.

𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟

donde: 𝑁 = 400 y 𝑦̅𝑒𝑠𝑡𝑟 = 4.675 .

Por lo tanto:

𝜏̂𝑒𝑠𝑡𝑟 = 400(4.675) = 1,870 faltas justificadas

c) Varianza y desviación estándar del promedio estratificado.

𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ∑( ) ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1

donde: 𝑁 = 400, 𝐸 = 4, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90,


𝑛𝑖 : 𝑛1 = 12, 𝑛2 = 10, 𝑛2 = 𝑛3 = 9,

145
72 + 62 + 72 + ⋯ + 52 + 62 − (12)(6.3333)2
𝑆𝑖2 : 𝑆12 = = 1.5152
12 − 1
42 + 52 + 42 + ⋯ + 62 + 62 − (10)(5)2
𝑆22 = = 0.8889
10 − 1
32 + 32 + 32 + ⋯ + 32 + 42 − (9)(3.5556)2
𝑆32 = = 0.2728 y
9−1
2
32 + 22 + 32 + ⋯ + 52 + 22 − (9)(3.2222)2
𝑆4 = = 1.4444
9−1

Por lo tanto:

120 2 120 − 12 1.5152 100 2 100 − 10 0.8889


𝑆𝑦2̅𝑒𝑠𝑡𝑟 =( ) ( )( )+( ) ( )( )
400 120 12 400 100 10
90 2 90 − 9 0.2728 90 2 90 − 9 1.4444
+( ) ( )( )+( ) ( )( ) = 0.02395.
400 90 9 400 90 9

𝑆𝑦̅𝑒𝑠𝑡𝑟 = √𝑆𝑦2̅𝑒𝑠𝑡𝑟 = √0.02395 = 0.1547.

d) Estime por intervalo la media estratificada con una confiabilidad de 95%.

𝑦̅𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟

donde: 𝑦̅𝑒𝑠𝑡𝑟 = 4.675, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547.

Por lo tanto:

4.675 ± (1.96)(0.1547)
4.675 ± 1.5551
4.3717 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 4.9783

Esto significa que el promedio de faltas justificadas está entre 4.3717 y 4.9783.

e) Estime por intervalo el total estratificado con una confiabilidad de 95%.

𝜏̂𝑒𝑠𝑡𝑟 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑒𝑠𝑡𝑟


donde: 𝜏̂𝑒𝑠𝑡𝑟 = 1,870 , 𝑁 = 400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y
146
𝑆𝑦̅𝑒𝑠𝑡𝑟 = 0.1547.

Por lo tanto:

1,870 ± (400)(1.96)(0.1547)
1,870 ± 121.3201
1,748.6821 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 1,991.3179

El total de faltas justificadas en la población está entre 1,748.6821 y 1,991.3179.

f) Si 𝑛 = 40 es una muestra preliminar, el tamaño de la muestra para estimar la media


con una precisión de 5% de la media estratificada y una confiabilidad de 95% es:

2 𝐸 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛 = 2 𝐸 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖

donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,


𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4 y
4
𝑁1 2 𝑁2 2 𝑁3 2 𝑁4 2
∑ 𝑊𝑖 𝑆𝑖2 = 𝑆 + 𝑆2 + 𝑆3 + 𝑆4
𝑁 1 𝑁 𝑁 𝑁
𝑖=1
120 100 90 90
= (1.5152) + (0.8889) + (0.2778) + (1.4444)
400 400 400 400
= 0.4545 + 0.2222 + 0.0625 + 0.3250 = 1.0643.

Por lo tanto:

(400)(1.96)2 (1.0643)
𝑛∗ =
(400)(0.23375)2 + (1.96)2 (1.0643)
1,635.445952
𝑛∗ =
25.934890
𝑛∗ = 63.0597 = 64 alumnos

La asignación de la muestra proporcional:

147
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 400, 𝑛∗ = 63.0597, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90.

Por lo tanto:

120
𝑛1∗ = (63.0597) = 18.9179 = 19
400
100
𝑛2∗ = (63.0597) = 15.7649 = 16
400
90
𝑛3∗ = (63.0597) = 14.1884 = 15
400
90
𝑛4∗ = (63.0597) = 14.1884 = 15.
400

g) Si 𝑛 = 63 es una muestra preliminar, el tamaño de la muestra para estimar la media


con una precisión de ±3% de la media estratificada, una confiabilidad de 95% y un
nivel de aseguramiento (𝛾) de 0.99, es:

2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊
⁄2) 𝑖=1 𝑖 𝑖𝑆 ( ∗ )
𝑛𝑖 − 1
𝑛𝑚 = 2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊 𝑖 𝑆𝑖 ( ∗ )
𝑛𝑖 − 1

donde: 𝑁 = 400, 𝑑 = 0.05(4.675) = 0.23375, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96,


𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 𝑁4 = 90, 𝐸 = 4,
𝜒12 (𝛾, 𝑛1∗ − 1) 120 34.6911
𝑊1 𝑆 21 ( ∗ )= (1.5152) ( ) = 0.8801,
𝑛1 − 1 400 18.9179 − 1
𝜒22 (𝛾, 𝑛2∗ − 1) 100 30.2415
𝑊2 𝑆 22 ( ∗ )= (0.8889) ( ) = 0.4552,
𝑛2 − 1 400 15.7649 − 1
𝜒32 (𝛾, 𝑛3∗ − 1) 90 27.9633
𝑊3 𝑆 23 ( ∗ )= (0.2778) ( ) = 0.1325,
𝑛3 − 1 400 14.1884 − 1
2
𝜒32 (𝛾, 𝑛4∗ − 1) 90 27.9633
𝑊4 𝑆 4 ( ∗ )= (1.4444) ( ) = 0.6891 y
𝑛4 − 1 400 14.1884 − 1

4
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑆𝑖2 ( ) = 0.8801 + 0.4552 + 0.1325 + 0.6891 = 2.1569.
𝑛𝑖∗ − 1
𝑖=1
148
Por lo tanto:

(400)(1.96)2 (2.1569)
𝑛𝑚 =
400(0.23375)2 + (1.96)2 (2.1569 )
3,314.3788
𝑛𝑚 = = 109.9603 = 110 alumnos (muestra).
30.1416

La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 400, 𝑛𝑚 = 109.9603, 𝑁𝑖 : 𝑁1 = 120, 𝑁2 = 100, 𝑁3 = 90 y 𝑁3 = 90.

Por lo tanto:

120
𝑛𝑚 1 = (109.9603) = 32.9881 = 33
400
100
𝑛𝑚 2 = (109.9603) = 27.4901 = 28
400
90
𝑛𝑚 3 = (109.9603) = 24.7411 = 25
400
90
𝑛𝑚 4 = (109.9603) = 24.7411 = 25.
400

EJERCICIOS

En los ejercicios siguientes estime un IC para la media y el total con una confiabilidad de
95%. Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la media de tal manera que sean estimados con una
precisión de 5% de la media, una confiabilidad de 95% y un nivel de aseguramiento de
80%?
Ejercicio 4.1. Un químico realizó un estudio con el objetivo de estimar el número de
coliformes fecales que son bioindicadores de contaminación en el Río Colima, cuya
149
longitud es de 𝑁 = 15,000 metros, de los cuales 𝑁1 = 4,000 metros pertenecen a la zona
pre-urbana, 𝑁2 = 8,000 corresponden a la zona urbana, y 𝑁3 = 3,000 a la zona
posturbana. Cabe mencionar que este estudio se realizó en las cuatro estaciones del año,
pero aquí presentamos solamente los resultados de la primavera. Para el estudio se tomó
una muestra de 𝑛 = 12 metros distribuidos de la siguiente manera: 𝑛1 = 4 metros para la
zona pre-urbana, 𝑛2 = 5 metros para la zona urbana, y 𝑛3 = 3 metros para la zona post-
urbana. Los resultados se presentan en el Cuadro 4.3.

Cuadro 4.3. Coliformes fecales en el agua.


Pre-urbana Urbana Post-urbana

350 920 1,600


240 920 2,400
1,600 920 1,600
2,400 1,600
2,400

Ejercicio 4.2. La Secretaría de Educación desea estimar el promedio de calificaciones de


los egresados de una normal superior. En la escuela hay tres licenciaturas: Educación
Preescolar, Educación Primaria y Educación Secundaria. En 2007 la población de
egresados fue de 𝑁1 = 30 de educación preescolar, 𝑁2 = 46 de educación primaria y 𝑁3 =
80 de educación secundaria. Para el estudio se extrajo una muestra de 𝑛 = 16 estudiantes
distribuidos de la siguiente forma: 𝑛1 = 3 (preescolar), 𝑛2 = 5 (primaria) y 𝑛3 = 8
(secundaria). Los datos se presentan en el Cuadro 4.4.

Cuadro 4.4. Calificaciones de egresados.

Preescolar Primaria Secundaria

9.5 9.3 8.7


8.7 9.7 8.0
9.9 8.8 9.0
9.0 9.2
8.5 7.8
8.3
9.9
10.0

Ejercicio 4.3. Un investigador desea estimar el daño promedio de tres cepas causantes de
la enfermedad de chagas. Supóngase que 300 ratones tienen la cepa uno, 350 la cepa dos

150
y 350 la cepa tres. Además, como se espera que el daño varíe dependiendo de la cepa, se
toma una muestra estratificada de tamaño 𝑛 = 50 de la población (Cuadro 4.5).

Cuadro 4.5. Daño promedio de las cepas.

Cepa 1 Cepa 2 Cepa 3


(𝒏𝟏 = 𝟏𝟓) (𝒏𝟐 = 𝟏𝟕) (𝒏𝟑 = 𝟖)
25 26 28 28 29 29
23 24 27 26 31 32
22 23 29 28 31 33
22 22 28 29 32 31
23 23 27 28 33 33
25 24 28 27 32 33
26 26 29 29 32 32
25 28 29 32 33
28 33 31

Ejercicio 4.4. En una entidad hay tres variedades de nances (500 plantas de la variedad
uno; de la dos, 10,000; y de la tres, 7,000 plantas) y se quiere estimar el promedio de
taninos por árbol. Se toma una muestra de 𝑛 = 44 plantas distribuidas de la siguiente
manera: 𝑛1 = 10 (variedad 1), 𝑛2 = 20 (variedad 2) y 𝑛3 = 14 (variedad 3) (véase el
Cuadro 4.6).

Cuadro 4.6. Taninos por kg de nance (en %).

Variedad 1 Variedad 2 Variedad 3


(𝒏𝟏 = 𝟏𝟎) (𝒏𝟐 = 𝟐𝟎) (𝒏𝟑 = 𝟏𝟒)
4 6 6 4 7
5 5 5 5 7
4 7 6 5 7
3 6 5 4 6
5 5 6 6
5 5 7 7
4 6 5 7
3 6 5 6
2 5 5 5
5 5 7 4

4.4 Estimación de parámetros de interés para una proporción bajo MAE

151
Estimación de la proporción poblacional

Suponga que surge la necesidad de estimar la proporción de unidades muestrales que


poseen atributos similares, en otras palabras, nuestro interés radicará en saber cómo se
manifiesta la característica 𝐶 en cada uno de los estratos. En tal caso nos importa estimar
la proporción (𝑝𝑖 ) de unidades muestrales que tienen la característica 𝐶 en el estrato 𝑖.

Defínase:
1 éxito
𝑦𝑖𝑗 = {
0 fracaso

que representa al 𝑗-ésimo componente del 𝑖-ésimo estrato. El éxito consiste en tener la
característica 𝐶.

Esta variable se comporta como una variable aleatoria del tipo binomial, por lo que el
estimador de la proporción de la característica de interés para el estrato 𝑖 es:

𝐸
𝑦𝑖𝑗
𝑝𝑖 = ∑ .
𝑛𝑖
𝑖=1

Y su varianza correspondiente es,

𝑁𝑖 − 𝑛𝑖 𝑝𝑖 (1 − 𝑝𝑖 )
𝑆𝑝2𝑖 = ( ) .
𝑁𝑖 𝑛𝑖

Es importante observar que 𝑝𝑖 es un estimador insesgado de 𝑃𝑖 , la proporción de


unidades muestrales que tienen la característica 𝐶 (Scheaffer, et al., 1987). De la misma
manera, 𝑁𝑝𝑖 también es un estimador insesgado del total en el estrato 𝑖 que cuenta con la
característica 𝐶. Es preciso resaltar que ∑𝐸𝑖=1 𝑁𝑖 𝑝𝑖 es un buen estimador del total
poblacional que cuenta con la característica 𝐶 (Pérez, 2000).

Los estimadores de la proporción y total poblacional

152
𝐸
1 1
𝑝𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖
𝑁 𝑁
𝑖=1
𝐸

𝜏̂ 𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖 = 𝑁𝑝𝑠𝑡
𝑖=1

Los estimadores de la varianza de la proporción y total poblacional

1
𝑆𝑦2̅𝑠𝑡 = (𝑁 2 𝑆 2 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 )
𝑁 2 1 𝑝1
𝐸
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑁
𝑖=1

𝑆𝜏̂2𝑠𝑡 = (𝑁12 𝑆𝑝21 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 )


𝐸

= ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑖=1

Los intervalos de confianza para la proporción y total poblacional

De forma tradicional construimos un intervalo con la siguiente ecuación:

𝐸
1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑝̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1

𝐸
1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑡̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1

El tamaño de muestra para estimar la proporción estratificada

En cuanto a la determinación del tamaño de muestra, se procede de manera análoga a la


determinación vista en el apartado anterior. Se utiliza una modificación de la ecuación
(4.2), sustituyendo la estimación de la varianza 𝜎𝑖2 por la varianza de la proporción
estimada, que es 𝑝𝑖 𝑞𝑖 . Por lo tanto, en cuanto a la determinación del tamaño de muestra,
se procede de manera análoga a la determinación expuesta en la sección anterior.
153
2 𝐸

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la media.

Con una analogía al MAS para proporción bajo AIPE, la expresión para el tamaño de
muestra modificado en el MAE para proporción se proporciona a continuación:

2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)


𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1
𝑛𝑚 =
2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1

donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que


la media estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el cuantil
100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad, también por estrato. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

Asignación de la muestra

El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño de


la muestra 𝑛𝑚 requerido, considera como tamaño de muestra de cada estrato una parte
de 𝑛𝑚 , la cual será proporcional al tamaño del estrato. Esto es, algebraicamente el criterio:


𝑁𝑖
𝑛𝑚 = 𝑛 = 𝑊𝑖 𝑛𝑚 ; 𝑖 = 1,2, … , 𝐸,
𝑖 𝑁 𝑚
o específicamente como:


𝑁1 ∗ ∗
𝑁2 ∗ ∗
𝑁𝑖
𝑛𝑚 1
= 𝑛 , = 𝑛𝑚 2
= 𝑛 , … , 𝑛𝑚 3
= 𝑛∗
𝑁 𝑁 𝑁
154
Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor,
es decir, la asignación de 𝑛𝑚 entre los estratos es proporcional al tamaño de cada estrato.

EJEMPLOS

Ejemplo 4.3. La Secretaría de Educación Pública del estado de Chiapas desea conocer el
porcentaje y el total de personas que ven telenovelas. Suponga que la población de
individuos en el estado es de 𝑁 = 10,000, de los cuales 30% son niños (estrato 1), 50% son
jóvenes (estrato 2) y el resto son adultos (estrato 3). Se estratificó la población de esa forma
ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para
estimar el porcentaje y total de personas que ven telenovelas se tomó una muestra
aleatoria de 𝑛 = 300 individuos distribuidos de la siguiente manera 𝑛1 = 90 del estrato
uno, 𝑛2 = 150 del estrato dos y 𝑛3 = 60 del estrato tres. Los resultados fueron: en el
estrato uno, 30 niños; en el dos, 70; y en el estrato tres, 40.

a) Proporción estratificada de personas que ven telenovelas.

𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1

donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝐸 = 3,


𝑦 30 70 40
𝑝𝑖 : 𝑝1 = ∑𝐸𝑖=1 𝑛𝑖𝑗 = 90 = 0.3333, 𝑝2 = 150 = 0.4666 y 𝑝3 = 60 = 0.6666.
𝑖

Por lo tanto:

1
𝑝𝑠𝑡 = (3,000(0.3333) + 5,000(0.4666) + 2,000(0.6666))
10,000
1 4,666.6667
𝑝𝑠𝑡 = (1,000 + 2,333.3333 + 1,333.3333) = 0.4667 = 46.67%.
10,000 10,000

155
b) El total estratificado.

𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡

donde: 𝑁 = 10,000 y 𝑝𝑠𝑡 = 0.4667.

Por lo tanto:

𝜏̂𝑠𝑡 = 10,000(0.4667) = 4,666.6667 personas ven telenovelas.

c) La varianza y desviación estándar de la proporción estratificada.

𝐸
1
𝑆𝑦2̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
2
𝑁
𝑖=1

donde: 𝑁 = 10,000, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑛𝑖 : 𝑛1 = 90, 𝑛2 = 150,


𝑛3 = 60, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666, 𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667,
2 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞 𝑖
𝑞2 = 0.5334, 𝑞3 = 0.3334, 𝐸 = 2 y 𝑆𝑝𝑖 =( )( ):
𝑁𝑖 𝑛𝑖

2 𝑁1 −𝑛1 𝑝1 𝑞1 3,000−90 (0.3333)(0.6667)


𝑆𝑝1 =( )( )=( )( ) = 0.002395,
𝑁1 𝑛1 3,000 90

2 𝑁2 −𝑛2 𝑝2 𝑞2 5,000−150 (0.4666)(0.5334)


𝑆𝑝2 =( )( )=( )( ) = 0.001609,
𝑁2 𝑛2 5,000 150

2 𝑁3 −𝑛3 𝑝3 𝑞3 2,000−60 (0.6666)(0.3334)


𝑆𝑝3 =( )( )=( )( ) = 0.003592.
𝑁3 𝑛3 2,000 60

Por lo tanto:

1
𝑆𝑦2̅𝑠𝑡 = ((3,000)2 (0.002395) + (5,000)2 (0.001609) + (2,000)2 (0.003592))
10,0002
𝑆𝑦2̅𝑠𝑡 = 0.000761.

La desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.000761 = 0.027586.

d) IC para la proporción estratificada con confiabilidad del 95%.

156
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡

donde: 𝑝𝑠𝑡 = 0.4667, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y 𝑆𝑦̅𝑠𝑡 = 0.027586.

Por lo tanto:

0.4667 ± (1.96)(0.027586)
0.4667 ± 0.054069
0.412631 ≤ 𝑃𝑠𝑡 ≤ 0.520769.

Esto quiere decir que la proporción verdadera de personas que ven telenovelas está
entre 41.26 y 52.07%, con una confiabilidad de 95%.

e) IC para el total estratificado.

𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡

donde: 𝜏̂ 𝑠𝑡 = 4,666.6667, 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y


𝑆𝑦̅𝑠𝑡 = 0.027586.

Por lo tanto:

4,666.6667 ± (10,000)(1.96)(0.027586)
4,666.6667 ± 540.6856
4,125.9811 ≤ 𝜏𝑠𝑡 ≤ 5,207.3523.

El total de personas que ven telenovelas está entre 4,125.9811y 5,207.3523, con una
confiabilidad de 95%.

157
f) Si 𝑛 = 300 es una muestra preliminar. El tamaño de la muestra para estimar la
proporción con una precisión del 0.05 de la proporción preliminar y confiabilidad de
95% es:

2 𝐸

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,


𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666,
𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334 y
3
𝑁1 𝑁2 𝑁3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = (𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 ) + (𝑝3 )(𝑞3 )
𝑁 𝑁 𝑁
𝑖=1
3,000 5,000 2,000
= (0.3333)(0.6667) + (0.4666)(0.5334) + (0.6666)(0.3334)
10,000 10,000 10,000

= 0.06667 + 0.12444 + 0.04445 = 0.23556.

Por lo tanto:


(10,000)(1.96)2 (0.23556 )
𝑛 = = 1,425.0487 = 1,426 personas.
(10,000)(0.023335)2 + (1.96)2 (0.23556 )

La asignación de la muestra en forma proporcional es:

𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 10,000, 𝑛∗ = 1,425.0487, 𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,000.

Por lo tanto:

3,000
𝑛1∗ = 10,000 (1,425.0487) = 427.5146 = 428
5,000
𝑛2∗ = 10,000 (1,425.0487) = 712.5244 = 713

158
2,000
𝑛3∗ = 10,000 (1,425.0487) = 285.0097 = 286.

La muestra para estimar la proporción estratificada con una precisión del 0.05 de la
proporción estratificada preliminar y confiabilidad de 95% es de 1,426 personas: 428
niños, 713 jóvenes y 286 adultos.

g) Tamaño de la muestra para estimar la media con precisión de 0.05 de la proporción,


confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 0.99.

2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)


𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ − 1
)
𝑛𝑚 =
2 2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)

𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( )
𝑛𝑖∗ − 1

donde: 𝑁 = 10,000, 𝑑 = 0.05(0.4667) = 0.023335, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,


𝐸 = 3, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000, 𝑁3 = 2,000, 𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.4666,
𝑝3 = 0.6666, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5334, 𝑞3 = 0.3334,
𝜒12 (𝛾,𝑛1∗ −1) 3,000 497.3854
𝑊1 𝑝1 𝑞1 ( ) = 10,000 (0.3333)(0.6667) (427.5146−1) = 0.07774,
𝑛1∗ −1

𝜒22 (𝛾,𝑛2∗ −1) 5,000 802.2116


𝑊2 𝑝2 𝑞2 ( ) = 10,000 (0.4666)(0.5334) (712.5244−1) = 0.140303,
𝑛2∗ −1

𝜒32 (𝛾,𝑛3∗ −1) 2,000 342.3761


𝑊3 𝑝3 𝑞3 ( ) = 10,000 (0.6666)(0.3334) (285.0097−1) = 0.053584 y
𝑛3∗ −1

𝜒𝑖2 (𝛾,𝑛𝑖∗ −1)


∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.07774 + 0.140303 + 0.053584 = 0.271627.
𝑛𝑖∗ −1

Por lo tanto:

(10,000)(1.96)2 (0.271627)
𝑛𝑚 =
(10,000)(0.023335)2 + (1.96)2 (0.271627)
𝑛𝑚 = 1,608.1531 = 1,609 personas.

La asignación de la muestra proporcional:

159
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 10,000, 𝑛𝑚 = 1,608.1531, 𝑁𝑖 : 𝑁1 = 3,000, 𝑁2 = 5,000 y 𝑁3 = 2,400.

Por lo tanto:

3,000
𝑛𝑚 1 = (1,608.1531) = 482.4459 = 483
10,000
5,000
𝑛𝑚 2 = (1,608.1531) = 804.0766 = 805
10,000
2,000
𝑛𝑚 3 = (1,608.1531) = 321.6306 = 322
10,000

La muestra para estimar la media estratificada con una precisión del 0.05 de la
proporción estratificada preliminar, una confiabilidad del 90% y un aseguramiento
del 99%, es de 1,609 personas: 483 niños, 805 jóvenes y 322 adultos.

Ejemplo 4.4. En Colima hay 𝑁 = 5,000 personas mayores de 60 años (𝑁1 = 2,600 son
mujeres y 𝑁2 = 2,400 son hombres). Para estimar el porcentaje y el total de personas que
padecen diabetes, se tomó una muestra aleatoria de 𝑛 = 220, donde 𝑛1 = 120 son
mujeres y 𝑛2 = 100 son hombres. Se estratificó la población porque la enfermedad es
influida por el género. De las mujeres, 40 padecen diabetes y de los hombres, 50.

a) La proporción estratificada.

𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1

donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400.


𝑛 1 𝑛 2
Σ𝑖=1 40 Σ𝑖=1 50
𝑝𝑖 : 𝑝1 = = = 0.3333 y 𝑝2 = = = 0.5
𝑛1 120 𝑛2 100

Por lo tanto:
160
1 2,066.6667
𝑝𝑠𝑡 = (2,600(0.3333) + 2,400(0.5)) = = 41.33% personas diabéticas.
5,000 5,000

b) El total estratificado.

𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡

donde: 𝑁 = 5,000 y 𝑝𝑠𝑡 = 0.4133

Por lo tanto:

𝜏̂𝑠𝑡 = 5,000(0.4133) = 2,066.6667 personas con diabetes.

c) La varianza y desviación estándar de la proporción estratificada

𝐸
1
𝑆𝑦2̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
2
𝑁
𝑖=1

donde: 𝑁 = 5,000, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400, 𝑛𝑖 : 𝑛1 = 120, 𝑛2 = 100,


𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5,
2 2 𝑁1 −𝑛1 𝑝1 𝑞1 2,600−120 (0.3333)(0.6667)
𝑆𝑝𝑖 : 𝑆𝑝1 =( )( )=( )( ) = 0.001767 y
𝑁1 𝑛1 2,600 120

2 𝑁2 −𝑛2 𝑝2 𝑞2 2,400−100 (0.5)(0.5)


𝑆𝑝2 =( )( )=( )( ) = 0.002396.
𝑁2 𝑛2 2,400 100

Por lo tanto:

1
𝑆𝑦2̅𝑠𝑡 = ((2,600)2 (0.001767) + (2,400)2 (0.002396)) = 0.001030
5,0002

Desviación estándar: 𝑆𝑦̅𝑠𝑡 = √𝑆𝑦2̅𝑠𝑡 = √0.001030 = 0.032094.

d) IC para la proporción estratificada con confiabilidad del 90%.

161
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡

donde: 𝑝𝑠𝑡 = 0.4133, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094.

Por lo tanto:

0.4133 ± (1.645)(0.032094)
0.4133 ± 0.052795
0.360505 ≤ 𝑃𝑠𝑡 ≤ 0.466095.

La proporción verdadera de personas mayores de 60 años que padecen diabetes está


entre 36.05 y 46.61%.

e) La estimación por intervalo para el total estratificado.

𝜏̂𝑠𝑡 ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡

donde: 𝜏̂𝑠𝑡 = 2006.6667, 𝑁 = 5,000, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645 y 𝑆𝑦̅𝑠𝑡 = 0.032094.

Por lo tanto:

2,066.6667 ± (5,000)(1.645)(0.032094)
2,066.6667 ± 263.97315
1,802.6935 ≤ 𝜏𝑠𝑡 ≤ 2,330.6398.

El total de personas diabéticas está entre 1,802.6935 y 2,330.6398, con una


confiabilidad de 90%.

f) Suponga que 𝑛 = 300 es una muestra preliminar. Determine el tamaño de la muestra


para estimar la media con precisión de 0.05 y confiabilidad de 90%. Además, realice
la asignación de 𝑛 a cada estrato en forma proporcional al tamaño del mismo.

162
2
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛∗ = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400,


𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y
2
𝑁1 𝑁2
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = (𝑝1 )(𝑞1 ) + (𝑝2 )(𝑞2 )
𝑁 𝑁
𝑖=1
2,600 2,400
= (0.3333)(0.6667) + (0.5)(0.5)
5,000 5,000
= 0.11555 + 0.12 = 0.23555.

Por lo tanto:


(5,000)(1.645)2 (0.23555 )
𝑛 =
(5,000)(0.05)2 + (1.645)2 (0.23555 )
3,187.0209
𝑛∗ = = 242.5914 = 243 personas.
13.1374

La asignación de la muestra en forma proporcional:

𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 5,000, 𝑛∗ = 242.5914, 𝑁1 = 2,600 y 𝑁2 = 2,400.

Por lo tanto:

2,600
𝑛1∗ = (242.5914) = 126.1475 = 127
5,000
2,400
𝑛2∗ = (242.5914) = 116.4439 = 117.
5,000

La muestra para estimar la media con precisión de 0.05 y confiabilidad de 90% debe

163
de ser de 243 personas: 127 hombres y 117 mujeres.

g) El tamaño de la muestra para estimar la media con precisión de 0.05, confiabilidad de


90% y un nivel de aseguramiento (𝛾) de 0.99.

2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)


𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1
𝑛𝑚 =
2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1

donde:𝑁 = 5,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.645, 𝑁𝑖 : 𝑁1 = 2,600, 𝑁2 = 2,400,


𝑝𝑖 : 𝑝1 = 0.3333, 𝑝2 = 0.5, 𝑞𝑖 : 𝑞1 = 0.6667, 𝑞2 = 0.5, 𝐸 = 2 y
𝜒12 (𝛾,𝑛1∗ −1) 2,600 164.8632
𝑊1 𝑝1 𝑞1 ( ) = 5,000 (0.3333)(0.6667) (126.1475−1) = 0.152220,
𝑛1∗ −1

𝜒22 (𝛾,𝑛2∗ −1) 2,400 153.7026


𝑊2 𝑝2 𝑞2 ( ) = 5,000 (0.5)(0.5) (116.4439−1) = 0.159769 y
𝑛2∗ −1
2
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.152220 + 0.159769 = 0.311989.
𝑛𝑖∗ − 1
𝑖=1

Por lo tanto:

(5,000)(1.645)2 (0.311989)
𝑛𝑚 =
(5,000)(0.05)2 + (1.645)2 (0.311989)
4,221.250169
𝑛𝑚 = = 316.3348 = 317 personas.
13.34425

La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 5,000, 𝑛𝑚 = 316.3348, 𝑁𝑖 : 𝑁1 = 2,600 y 𝑁2 = 2,400.

Por lo tanto:

164
2,600
𝑛𝑚 1 = (316.3348) = 164.4941 = 165
5,000
2,400
𝑛𝑚 2 = (316.3348) = 151.8407 = 152.
5,000

La muestra para estimar la media con precisión de 0.05, confiabilidad de 90% y


aseguramiento de 99% debe de ser de 317 personas: 165 hombres y 152 mujeres.

EJERCICIOS

En los ejercicios estime los parámetros siguientes:

a) El IC para la proporción y el total estratificado con una confiabilidad de 95%.

b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el


tamaño de muestra para estimar la proporción y el total estratificado de tal manera
que la proporción y el total sean estimados con una precisión de 5% de la proporción
preliminar, una confiabilidad de 95% y un nivel de aseguramiento de 85%?

Ejercicio 4.5. Un investigador estudió los niveles de colesterol sérico en 500 personas
mayores de 45 años (300 mujeres y 200 hombres). Dado que piensa que el género influye
en la variable respuesta, estratificó la población por género. Para poder estimar la
cantidad de personas que tiene altos niveles de colesterol, tomó una muestra aleatoria
simple de 120 personas: 84 hombres y 36 mujeres. Al momento de realizar las mediciones
encontró que tres mujeres y cinco hombres tenían un alto nivel de colesterol.

Ejercicio 4.6. Un agrónomo sembró tres variedades de manzanas. En total sembró 5,000
plantas: 1,000 pertenecen a la variedad uno, 2,500 a la dos y 1,500 a la tres. Para calcular
el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria
de 250 plantas: 100 de la primera variedad, 100 de la segunda y 50 de la tercera. El número
de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno, cuatro en la
variedad dos y seis en la variedad tres.

165
Ejercicio 4.7. En una población urbana de 3,500 personas del estado de Michoacán, se
desea conocer la cantidad de personas que utilizan Internet. Supóngase que en dicha
población 45% son adolescentes, 30% niños y el resto adultos. Para estimar el porcentaje
y total de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos
distribuidos de la siguiente manera: adolescentes: 𝑛1 = 200, niños: 𝑛2 = 150 y adultos:
𝑛3 = 250. Los resultados del número de personas que usan Internet por estrato son: 70,
30 y 40, respectivamente.

Ejercicio 4.8. A un centro de salud asisten aproximadamente 7,000 personas de los cuales
4,000 son adolescentes y 3,000 son adultos. Se desea conocer el porcentaje de personas
que hacen ejercicio diariamente y para ello se toma una muestra aleatoria de 350
individuos (150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio
diariamente. Los resultados obtenidos son los siguientes: 12 en el estrato de adolescentes
hacen ejercicio diariamente, mientras que seis en el de adultos.

4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas
bajo MAE

Cuando una población es estratificada y los elementos de sus estratos requieren de una
prueba de laboratorio o algún dispositivo especializado se recurre al MAE (proporción)
para pruebas imperfectas. Lógicamente que al tomar en cuenta la sensibilidad y
especificidad, los estimadores para la proporción estratificada, los IC’s, el total y el
tamaño de muestra son distintos. A continuación se presentan los estimadores
apropiados.

De acuerdo con Rogan & Gladen (1978) el estimador de la proporción estratificada


tomando en cuenta la sensibilidad y especificidad de la prueba es:
𝐸
1 𝑝𝑖 + 𝑆𝑝 − 1

𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖∗ 𝑝𝑖∗ =
𝑁 𝑆𝑒 + 𝑆𝑝 − 1
𝑖=1

166
𝑎
donde 𝑝𝑖 = 𝑛𝑖 , 𝑞𝑖 = 1 − 𝑝𝑖 , 𝑎𝑖 denota el número de individuos positivos de la muestra de
𝑖

tamaño 𝑛𝑖 en el estrato 𝑖, 𝑆𝑒 y 𝑆𝑝 denotan la sensibilidad y especificidad de la prueba de


laboratorio, respectivamente. El estimador 𝑝𝑖∗ de 𝑝𝑖 es sesgado ligeramente si la 𝑆𝑒 y 𝑆𝑝
son conocidas, pero el sesgo es mayor si estas son desconocidas, es decir, si se usa una
estimación de ellas, aunque bajo estas condiciones las estimaciones resultantes son

aceptables. Bajo este contexto un estimador de la varianza de 𝑝𝑠𝑡 es dado por:

𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = 2
( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛𝑖
𝑖=1

Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗


̅𝑠𝑡 . Por


otro lado, un IC para 𝑝𝑠𝑡 ∗
es dado por 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . El total es 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡

y su
correspondiente IC es: 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . La fórmula para determinar el tamaño de
muestra de manera tradicional es igual a:

2 𝐸

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

donde, 𝑊𝑖 = 𝑁𝑖 /𝑁 y 𝑑 = el tamaño del error aceptable en la estimación de la proporción.

Sin embargo, hay que resaltar que la ecuación anterior garantiza que la amplitud del
IC se cumplirá solamente 50% de las veces. Por ello a continuación se brinda la expresión
apropiada para determinar el tamaño de muestra que asegura exactitud en la estimación
de la proporción estratificada:

2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)


𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ − 1
)
𝑛𝑚 =
2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1

donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que


la proporción estratificada no sea mayor que la amplitud deseada, 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1) es el
167
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato. Los cuantiles requeridos se pueden obtener usando las tablas clásicas
de las distribuciones t-Student y Ji-Cuadrada. Además, sin pérdida de precisión
significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 4.5. En cierto poblado hay una hectárea con 3,000 árboles de limón. Se desea
saber el porcentaje y el total de árboles que han sido atacados con una plaga. De la
población 1,100 son árboles adultos, 1,000 árboles jóvenes y 900 árboles ancianos. Se
realiza una prueba a 800 árboles, 400 adultos, 250 jóvenes y 150 ancianos. Los resultados
indican que 40, 20 y 6 árboles fueron dañados por la plaga, respectivamente. La prueba
tiene 0.99 de sensibilidad y 0.98 de especificidad.

a) La proporción estratificada.

𝐸
1 𝑝𝑖 + 𝑆𝑝 − 1

𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑝𝑖∗ =
𝑁 𝑆𝑒 + 𝑆𝑝 − 1
𝑖=1

donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,


40 20 6
𝑝𝑖 : 𝑝1 = 400 = 0.1, 𝑝2 = 250 = 0.08, 𝑝3 = 150 = 0.04, 𝐸 = 3,
𝑝 +𝑆𝑝−1 0.1+0.98−1 0.08
𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1
1
= 0.99+0.98−1 = 0.97 = 0.0825,
𝑝 +𝑆𝑝−1 0.08+0.98−1 0.06
𝑝2∗ = 𝑆𝑒+𝑆𝑝−1
2
= = 0.97 = 0.0619 y
0.99+0.98−1
𝑝 +𝑆𝑝−1 0.04+0.98−1 0.02
𝑝3∗ = 𝑆𝑒+𝑆𝑝−1
3
= = 0.97 = 0.0206.
0.99+0.98−1

Por lo tanto:


1
𝑝𝑠𝑡 = (1,100(0.0825) + 1,000(0.0619) + 900(0.0206))
3,000
168

171.19
𝑝𝑠𝑡 = = 0.057 ó 6% árboles dañados.
3,000

b) El total estratificado.

𝜏̂ ∗ = 𝑁𝑝𝑠𝑡


donde: 𝑁 = 3,000 y 𝑝𝑠𝑡 = 0.057.

Por lo tanto:

𝜏̂ ∗ = 3,000(0.057) = 171.

c) La varianza y desviación estándar de la media estratificada.

𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
𝑖=1

donde: 𝑁 = 3,000, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,


𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96, 𝐸 = 3,
1,100−400 (0.1)(0.9)
𝑆𝑝2∗𝑖 : 𝑆𝑝2∗1 = (1,100(0.99+0.98−1)2 ) ( ) = 0.00015218,
400

1,000−250 (0.08)(0.92)
𝑆𝑝2∗2 = (1,000(0.99+0.98−1)2 ) ( ) = 0.00023467 y
250

900−150 (0.04)(0.96)
𝑆𝑝2∗3 = (900(0.99+0.98−1)2 ) ( ) = 0.00022673.
150

Por lo tanto:
(1,100)2 (0.00015218) + (1,000)2 (0.00023467) + (900)2 (0.00022673)
𝑆𝑦2∗
̅𝑠𝑡 =
(3,000)2
602.4551
𝑆𝑦2∗
̅𝑠𝑡 = = 0.0000669395.
9,000,000

Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗


̅𝑠𝑡 = √0.0000669395 = 0.00818165.

169
d) IC para la proporción estratificada con confiabilidad del 95%.


𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡


donde: 𝑝𝑠𝑡 = 0.057, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

0.057 ± (1.96)(0.00818165)
0.057 ± 0.016036034
0.040963966 ≤ 𝑃𝑠𝑡 ≤ 0.073036034.

La proporción verdadera de árboles de limón atacados con la plaga está entre


4.09% y 7.3%.

e) IC para el total estratificado con la confiabilidad de 95%.

𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡

donde: 𝜏̂ ∗ = 171, 𝑁 = 3,000, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96.

Por lo tanto:

171 ± (3,000)(1.96)(0.00818165)
171 ± 48.108102
122.891898 ≤ 𝜏 ≤ 219.108102.
f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de la muestra para estimar la
media con precisión de 0.05 y una confiabilidad del 95% (Se utilizan 𝑝 y 𝑞
originales):

2
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

𝑛 = 2
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

170
donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96 y
𝐸
𝑁1 𝑁2 𝑁3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3
𝑁 𝑁 𝑁
𝑖=1
1,100 1,000 900
= (0.1)(0.9) + (0.08)(0.92) + (0.04)(0.96)
3,000 3,000 3,000
= 0.033 + 0.02453 + 0.01152 = 0.0691.

Por lo tanto:

(3,000)(1.96)2 (0.0691 )
𝑛∗ =
(3,000)(0.99 + 0.98 − 1)2 (0.05)2 + (1.96)2 (0.0691 )
796.36368
𝑛∗ = = 108.7601 = 109 árboles.
7.322204

La asignación de la muestra proporcional:

𝑁𝑖 ∗
𝑛𝑖 = (𝑛 )
𝑁

donde: 𝑁 = 3,000, 𝑛∗ = 108.760, 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900.

Por lo tanto:

1,100
𝑛1 = 3,000 (108.7601) = 39.8787 = 40
1,000
𝑛2 = 3,000 (108.7601) = 36.2533 = 36
900
𝑛3 = 3,000 (108.7601) = 32.6280 = 33.

La muestra para estimar la media estratificada con precisión de 0.05 y


confiabilidad de 95% es de 109 árboles: 38 adultos, 35 jóvenes y 31 ancianos.

171
g) El tamaño de la muestra modificado con una confiabilidad del 95%, una precisión
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es:

2 𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1
𝑛𝑚 =
2 𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1

donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3,


𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96,
𝜒12 (𝛾,𝑛1∗ −1) 1,100 62.2747
𝑊1 𝑝1 𝑞1 ( ) = 3,000 (0.1)(0.9) (39.8787−1) = 0.052858,
𝑛1∗ −1

𝜒22 (𝛾,𝑛2∗ −1) 1,000 57.6659


𝑊2 𝑝2 𝑞2 ( ) = 3,000 (0.08)(0.92) (36.2533−1) = 0.040125,
𝑛2∗ −1

𝜒32 (𝛾,𝑛3∗ −1) 900 53.0048


𝑊3 𝑝3 𝑞3 ( ) = 3,000 (0.04)(0.96) (32.6280−1) = 0.019306 y
𝑛3∗ −1

𝜒𝑖2 (𝛾,𝑛𝑖∗ −1)


∑3𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.052858 + 0.040125 + 0.019306 = 0.112289.
𝑛𝑖∗ −1

Por lo tanto:

(3,000)(1.96)2 (0.112289)
𝑛𝑚 =
(3,000)(0.05)2 (0.99 + 0.98 − 1)2 + (1.96)2 (0.112289)
1294.108267
𝑛𝑚 =
7.488119
𝑛𝑚 = 172.8215 = 173 árboles.

La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 3,000, 𝑛𝑚 = 172.8215, 𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000 y 𝑁3 = 900.

Por lo tanto:
172
1,100
𝑛𝑚 1 = 3,000 (172.8215) = 63.3679 = 63
1,000
𝑛𝑚 2 = 3,000 (172.8215) = 57.6072 = 58
900
𝑛𝑚 3 = 3,000 (172.8215) = 51.8465 = 52.

La muestra para estimar la media estratificada con precisión de 0.05,


confiabilidad de 95% y aseguramiento de 99%, es de 173 árboles: 63 adultos, 58
jóvenes, y 52 ancianos.

Ejemplo 4.6. Se aplicó una prueba indicadora de contaminación a una población de 𝑁 =


2,000 árboles de papaya. Se desea saber el porcentaje y el total de árboles que han sido
contaminados. En la población, 700 son árboles grandes, 800 árboles medianos y 500
árboles chicos. Se realizó una prueba a 500 árboles, 200 grandes, 150 medianos y 150
chicos. Los resultados fueron 40, 30 y 15 árboles contaminados, respectivamente. La
prueba tiene 0.99 de sensibilidad y 0.97 de especificidad.

a) Proporción estratificada.

𝐸
1 𝑝𝑖 + 𝑆𝑝 − 1

𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑝𝑖∗ =
𝑁 𝑆𝑒 + 𝑆𝑝 − 1
𝑖=1

donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝐸 = 3, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,


40 30 15
𝑝𝑖 : 𝑝1 = 200 = 0.2, 𝑝2 = 150 = 0.2, 𝑝3 = 150 = 0.1,
𝑝 +𝑆𝑝−1 0.2+0.97−1 0.17
𝑝𝑖∗ : 𝑝1∗ = 𝑆𝑒+𝑆𝑝−1
1
= 0.99+0.97−1 = 0.96 = 0.1771,
𝑝 +𝑆𝑝−1 0.2+0.97−1 0.17
𝑝2∗ = 𝑆𝑒+𝑆𝑝−1
2
= 0.99+0.97−1 = 0.96 = 0.1771 y
𝑝 +𝑆𝑝−1 0.1+0.97−1 0.07
𝑝3∗ = 𝑆𝑒+𝑆𝑝−1
3
= 0.99+0.97−1 = 0.96 = 0.0729.

Por lo tanto:

173

1
𝑝𝑠𝑡 = (700(0.1771) + 800(0.1771) + 500(0.0729))
2,000

302.1
𝑝𝑠𝑡 = = 0.151 ó 15.1% árboles contaminados.
2,000

b) Total estratificado.

𝜏̂ ∗ = 𝑁𝑝𝑠𝑡


donde: 𝑁 = 2,000 y 𝑝𝑠𝑡 = 0.151

Por lo tanto:

𝜏̂ ∗ = 2,000(0.151) = 302.

c) Varianza y desviación estándar de la población estratificada

𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
𝑖=1

donde: 𝑁 = 2,000, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97, 𝐸 = 3,


𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9,
2∗ 2∗ 700−200 (0.2)(0.8)
𝑆𝑝𝑖 : 𝑆𝑝1 = (700(0.99+0.97−1)2 ) ( ) = 0.00062004,
200

2∗ 800−150 (0.2)(0.8)
𝑆𝑝2 = (800(0.99+0.97−1)2 ) ( ) = 0.00094004 y
150

2∗ 500−150 (0.1)(0.9)
𝑆𝑝3 = (500(0.99+0.97−1)2 ) ( ) = 0.00045572.
150

Por lo tanto:

(700)2 (0.00062004) + (800)2 (0.00094004) + (500)2 (0.00045572)


𝑆𝑦2∗
̅𝑠𝑡 =
(2,000)2
1,019.3752
𝑆𝑦2∗
̅𝑠𝑡 = = 0.0002548.
4,000,000

174
Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗
̅𝑠𝑡 = √0.0002548 = 0.015962.

d) IC para la proporción estratificada con confiabilidad del 95%.


𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡


donde: 𝑝𝑠𝑡 = 0.151, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96.

Por lo tanto:

0.151 ± (1.96)(0.015962)
0.151 ± 0.031285

0.119715 ≤ 𝑃𝑠𝑡 ≤ 0.182285.

La proporción verdadera de árboles contaminados está entre 11.97 y 18.22%.

e) Estimación por intervalo para el total estratificado con la confiabilidad de 95%.

𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡

donde: 𝜏̂ ∗ = 302, 𝑁 = 2,000, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96.

Por lo tanto:
302 ± (2,000)(1.96)(0.015962)
302 ± 62.57104
239.4289 ≤ 𝜏 ≤ 364.571.

El total verdadero de árboles contaminados está entre 239.4289 y 364.571.

175
f) Suponga que 𝑛 = 500 es una muestra preliminar. Determina el tamaño de la muestra
para estimar la media con precisión de 0.03 y confiabilidad de 95%. Utilizar 𝑝 y 𝑞
originales.

2 𝐸

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖

donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3,


𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,
𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y
3
𝑁1 𝑁2 𝑁3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3
𝑁 𝑁 𝑁
𝑖=1

700 800 500


= (0.2)(0.8) + (0.2)(0.8) + (0.1)(0.9)
2,000 2,000 2,000
= 0.056 + 0.064 + 0.0225 = 0.1425.

Por lo tanto:

(2,000)(1.96)2 (0.1425 )
𝑛∗ =
(2,000)(0.99 + 0.97 − 1)2 (0.03)2 + (1.96)2 (0.1425 )
1,094.856
𝑛∗ = = 496.239 = 497 árboles.
2.206308

La asignación de la muestra en forma proporcional:

𝑁𝑖 ∗
𝑛𝑖 = (𝑛 )
𝑁

donde: 𝑁 = 2,000, 𝑛∗ = 496.239, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500.

Por lo tanto:

700
𝑛1 = 2,000 (496.239) = 173.6837 = 174

176
800
𝑛2 = 2,000 (496.239) = 198.4956 = 199
500
𝑛3 = 2,000 (496.239) = 124.0598 = 125.

La muestra para estimar la media con precisión de 0.03 y confiabilidad de 95% debe
de ser de 497 árboles: 174 grandes, 199 medianos, y 125 chicos.

g) Tamaño de la muestra modificado con un nivel de confiabilidad del 95%, una


precisión de 0.03 y un nivel de aseguramiento (𝛾) de 0.90.

2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)


𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑛𝑖∗ − 1
)
𝑛𝑚 =
2 𝐸 𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑝 𝑞 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑖 𝑛𝑖∗ − 1

donde: 𝑁 = 2,000, 𝑑 = 0.03, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝐸 = 3,


𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800, 𝑁3 = 500, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.97,
𝑝𝑖 : 𝑝1 = 0.2, 𝑝2 = 0.2, 𝑝3 = 0.1, 𝑞𝑖 : 𝑞1 = 0.8, 𝑞2 = 0.8, 𝑞3 = 0.9 y
𝜒12 (𝛾, 𝑛1∗ − 1) 700 196.8872
𝑊1 𝑝1 𝑞1 ( ) = (0.2)(0.8) ( ) = 0.063850,
𝑛1∗ − 1 2,000 173.6837 − 1
𝜒22 (𝛾, 𝑛2∗ − 1) 800 223.3554
𝑊2 𝑝2 𝑞2 ( ) = (0.2)(0.8) ( ) = 0.072380,
𝑛2∗ − 1 2,000 198.4956 − 1
𝜒32 (𝛾, 𝑛3∗ − 1) 500 143.5445
𝑊3 𝑝3 𝑞3 ( ∗ )= (0.1)(0.9) ( ) = 0.026245 y
𝑛3 − 1 2,000 124.0598 − 1
3
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( ) = 0.06385 + 0.07238 + 0.026245 = 0.162475
𝑛𝑖∗ − 1
𝑖=1

Por lo tanto:

(2,000)(1.96)2 (0.162475)
𝑛𝑚 =
(2,000)(0.03)2 (0.99 + 0.97 − 1)2 + (1.96)2 (0.162475)
1,248.3279
𝑛𝑚 = = 546.7930 = 547 árboles.
2.2830

177
La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 2,000, 𝑛𝑚 = 546.7930, 𝑁𝑖 : 𝑁1 = 700, 𝑁2 = 800 y 𝑁3 = 500.

Por lo tanto:

700
𝑛𝑚 1 = 2,000 (546.7930) = 191.3775 = 192
800
𝑛𝑚 2 = 2,000 (546.7930) = 218.7172 = 219
500
𝑛𝑚 3 = 2,000 (546.7930) = 136.6983 = 137.

La muestra para estimar la media con precisión de 0.05, confiabilidad de 95% y


aseguramiento de 90% debe de ser de 547 árboles: 192 grandes, 219 medianos, y 137
chicos.

EJERCICIOS

En los ejercicios siguientes estime los parámetros considerando una Sensibilidad de 97%
y una Especificidad de 98% donde se requiera:

c) El IC para la proporción y el total estratificado con una confiabilidad de 90%.

d) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de


muestra para estimar la proporción de tal manera que sea estimado con una precisión
de 5% de la proporción preliminar, una confiabilidad de 95% y un nivel de
aseguramiento de 90%?

Ejercicio 4.9. Una empresa estudió los niveles de azúcar en la sangre en 450 personas
mayores de 40 años (250 mujeres y 200 hombres). Dado que cree que el sexo influye en la

178
variable respuesta, estratificó la población por sexo. Para poder estimar la cantidad de
personas que tienen altos niveles de azúcar, tomó una muestra aleatoria simple de 110
personas: 50 hombres y 60 mujeres. Al momento de realizar las mediciones encontró que
cuatro mujeres y tres hombres tenían un alto nivel de azúcar.

Ejercicio 4.10. Una empresa agraria sembró tres variedades de limón. En total sembró
4,600 plantas: 1,200 pertenecen a la variedad uno, 2,000 a la dos y 1,400 a la tres. Para
calcular el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra
aleatoria de 300 plantas: 120 de la primera variedad, 100 de la segunda y 80 de la tercera.
El número de plantas dañadas por estrato es el siguiente: 14 plantas en la variedad uno,
10 en la variedad dos y 8 en la variedad tres.

Ejercicio 4.11. En una población urbana de 4,200 personas del estado de Sonora se desea
conocer la cantidad de personas que utilizan internet mediante su dispositivo móvil.
Supóngase que en dicha población 40% son adolescentes, 30% niños y el resto adultos.
Para estimar el porcentaje y total de personas que utilizan internet se tomó una muestra
aleatoria de 660 individuos distribuidos de la siguiente manera: adolescentes: 𝑛1 = 240,
niños: 𝑛2 = 220 y adultos: 𝑛3 = 200. Los resultados del número de personas que usan
internet por estrato son: 75, 35 y 38, respectivamente.

Ejercicio 4.12. A un centro médico asisten aproximadamente 6,500 personas de los cuales
3,200 son adolescentes y 2,800 son adultos. Se desea conocer el porcentaje de personas
que practican algún deporte diariamente. Para ello se toma una muestra aleatoria de 340
individuos (160 son adolescentes y 180 adultos) y se les pregunta si practican algún
deporte diariamente. Los resultados obtenidos son los siguientes: 11 en el estrato de
adolescentes y 6 en el de adultos.

179
Capítulo 5. Muestreo Sistemático

CAPÍTULO 5
Muestreo sistemático

La estadística produce
resultados muy precisos,
cuando es bien utilizada
y se respetan sus principios.
OAML

L a aleatoriedad en la selección de la muestra da sustento a los métodos revisados en


capítulos anteriores: un proceso complicado y costoso. Por tal motivo, podemos usar
el diseño de muestreo o de encuestas por muestreo sistemático, que es ampliamente
utilizado para reducir el proceso de selección de la muestra. Este diseño sólo requiere
fijar un intervalo y de ahí recorrer la población eligiendo las unidades que se encuentren
en el punto seleccionado del intervalo. Ello evidentemente facilita el trabajo de campo en
el muestreo y reduce sustancialmente los errores que se podrían cometer en caso de usar
un procedimiento más laborioso (Pérez, 2000).

Cuando se toma la muestra de una superficie, las unidades se extraen


premeditadamente de un plano cartesiano imaginario. De esta manera el tiempo que se
consumirá y el costo de selección por unidad muestral será menor (Pérez, 2000).

Muestra sistemática

Es una muestra que se obtiene con una unidad muestral por cada 𝑘 unidades en la
población de tamaño 𝑁, una vez que se obtuvo el primer elemento, el cual se selecciona
aleatoriamente dentro de los primeros 𝑘 elementos que conforman el marco de
muestreo. De esta manera se toman el valor apropiado de 𝑘 y se dice que se tiene una
muestra de 1 en 𝑘. A este tipo de muestra la denotaremos como 𝑌𝑠𝑦 .
180
Regularmente, 𝑁 es un múltiplo de 𝑘. A cada conjunto de 𝑘 unidades se le llama grupo.
Cabe señalar que existe el muestreo sistemático cuando 𝑁 no es múltiplo de 𝑘.

En el Cuadro 5.1 se muestra el esquema de un muestreo sistemático, donde 𝑁 es un


múltiplo de 𝑘, y contiene las unidades que se seleccionan de la población, donde la
primera unidad seleccionada (𝑘) es aleatoria.

Cuadro 5.1 Esquema de muestreo sistemático


Grupo 1 2 3 ⋯ 𝒌
1 1 2 3 ⋯ 𝑘
2 𝑘+1 𝑘+2 𝑘+3 ⋯ 2𝑘
3 2𝑘 + 1 2𝑘 + 2 2𝑘 + 3 ⋯ 3𝑘
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑗 (𝑗 − 1)𝑘 + 1 (𝑗 − 1)𝑘 + 2 (𝑗 − 1)𝑘 + 3 ⋯ 𝑗𝑘
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑛 (𝑛 − 1)𝑘 + 1 (𝑛 − 1)𝑘 + 2 (𝑛 − 1)𝑘 + 3 ⋯ 𝑛𝑘 = 𝑁

La mayoría de autores coincide en señalar que este diseño es quizá el procedimiento


de selección de muestra más conocido, que además posee ventajas sobre la selección
aleatoria simple, entre las que se pueden mencionar:

Rapidez y facilidad en la selección de los elementos de la muestra en la población.


Ninguna sucesión grande de elementos en la población queda sin representación.
Se está menos expuesto a errores de selección que cometen los investigadores en el
campo.
Bajo costo, por la simplicidad de la selección.
Mejor organización y control en el trabajo de campo.

En la práctica, la estimación de la varianza sistemática del estimador bajo estudio


presenta problemas, ya que se requieren cuando menos dos selecciones aleatorias por
cada intervalo de selección (𝑘), es decir, dos o más muestras sistemáticas para la misma
población.

181
Si se conoce la estructura de la población, la anterior dificultad puede resolverse
considerando el muestreo sistemático como equivalente al muestreo aleatorio simple, y
por lo tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria
simple del estimador bajo estudio.

Es conveniente y oportuno indicar a continuación para cuáles poblaciones es válida


dicha equivalencia.

5.1 Tipos de población por su estructura

Población aleatoria

Una población es aleatoria (Figura 5.1) si sus elementos están ordenados al azar con
respecto a la característica de interés. Autores como Kish (1972), Scheaffer et al. (1987) y
Azorin (1972), entre otros, coinciden al indicar que el muestreo sistemático bajo estas
condiciones es equivalente al muestreo aleatorio simple. Esto significa que la varianza
bajo MAS es aproximadamente igual a la varianza bajo muestreo sistemático.

Figura 5.1. La dispersión del marco de muestreo de una población aleatoria.

Población ordenada

Una población es ordenada (Figura 5.2) si los elementos dentro de la población están
ordenados de acuerdo con algún esquema y con respecto a la variable de interés.
182
Scheaffer et al. (1987) indican que una muestra sistemática de tal población proporciona
más información que una muestra aleatoria simple por unidad de costo (por ende, se
obtiene una mayor eficiencia en la generación de datos) debido a que la varianza
sistemática del estimador será menor que la varianza del mismo cuando se emplee el
muestreo aleatorio simple. La varianza sistemática del estimador no se puede estimar
directamente, por ello empleamos una aproximación conservadora (que es mayor de la
que se esperaría): se calcula la varianza del estimador con las expresiones vistas en el
capítulo 3 (muestreo aleatorio simple).

Población periódica

Una población es periódica cuando sus elementos tienen una variación cíclica con
respecto a la variable de interés. Scheaffer et al. (1987) señalan que una muestra
sistemática extraída de esta población proporciona menos información que una muestra
aleatoria simple por unidad de costo. Como en las situaciones anteriores, la varianza
sistemática del estimador no puede calcularse a partir de una sola muestra sistemática.
Es decir, se puede aproximar su valor empleando las expresiones correspondientes que
da el muestreo aleatorio simple pero, como es de esperarse, esta aproximación
subestimará la varianza verdadera (sistemática).

Figura 5.2. La dispersión del marco de muestreo de una población ordenada.

Como una alternativa para que esta subestimación sea mínima, se sugiere cambiar
varias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la
población y al mismo tiempo seleccionar la correspondiente muestra sistemática. En
183
consecuencia se puede suponer que la muestra así extraída es sistemática y proviene de
una población aleatoria.

Para lecturas adicionales, véanse, por ejemplo, Kish (1972), capítulo 4; Azorin (1972),
capítulo 21; y Scheaffer et al. (1987), capítulo 7.

5.2 ¿Cómo seleccionar una muestra sistemática?

Primero se debe decidir el tamaño del intervalo 1 en 𝑘 unidades, después se selecciona


aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la
𝑘−ésima unidad y así se continuará hasta llegar a 𝑁. Pero surge la pregunta de cómo
seleccionar la k adecuada. En general, para una muestra sistemática de n elementos en
𝑁
una población de 𝑁, 𝑘 debe ser menor o igual a . Si se desconoce 𝑁, entonces se
𝑛

determina un tamaño de muestra 𝑛 aproximado y así se podría obtener una 𝑘 estimada


(Pérez, 2000).

A continuación, veamos algunas maneras de cómo elegir el valor de 𝑘 dependiente del


tamaño de la población:

I. Cuando el tamaño de la población, 𝑁, es múltiplo de 𝑛, (𝑁 = 𝑘𝑛).

Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.

Procedimiento:

1) Seleccionar aleatoriamente un número entero 𝑖 (arranque o inicio aleatorio)


comprendido entre 1 y 𝑘 (1 ≤ 𝑖 ≤ 𝑘).

184
2) Luego, de manera rígida o sistemática (de ahí proviene el nombre del
procedimiento), tomar el elemento 𝑖 + 𝑘 que está 𝑘 lugares del 𝑖-ésimo en la
lista, el 𝑖 + 2𝑘 que está 2𝑘 lugares después, y así sucesivamente hasta
completar el tamaño 𝑛 de la muestra. Nótese que la tabla de números
aleatorios u otro mecanismo de selección se emplea una sola vez en 𝑖.

Por ejemplo, si 𝑁 = 1,000 y se decide un tamaño de 𝑛 = 10, entonces 𝑘 =


1,000/10 = 100, el primer valor de 𝑘 será un valor entre 1 y 100, el cual se
elige al azar. Suponga que el primer valor es 40, entonces los elementos que
conformarán la muestra son: el 40, 140, 240, 340, 440, 540, 640, 740, 840 y 940.

II. Cuando el tamaño de la población (𝑁) no es múltiplo de 𝑛 (𝑁 ≠ 𝑛𝑘).

Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.

En la práctica, es frecuente que 𝑁 no sea un múltiplo de 𝑛, con lo cual la muestra


sistemática al final puede tener 𝑛 o 𝑛 − 1 elementos.

Azorin (1972) señala que esta diferencia de tamaños no suele ser importante cuando
la población es superior a 50. Por otro lado, Kish (1972) indica que este problema se
puede resolver de varias maneras y el investigador deberá seleccionar la más
conveniente. De las soluciones propuestas por dicho autor, describiremos la más
usual: considerar el marco de muestreo (lista) como si fuera circular.

Procedimiento:

1) Considerar el marco de muestreo como un círculo: que la primera unidad


continúe de la última.

185
2) Sea 𝑘 el entero más próximo a 𝑁/𝑛.
3) Seleccionar aleatoriamente un número entero entre 1 y 𝑁.
4) En seguida, seleccionar cada 𝑘-ésima unidad hasta completar los 𝑛 elementos

Por ejemplo, supóngase que 𝑁 = 300 y se decide un tamaño de 𝑛 = 9, entonces


300/9 = 33.3333 y 𝑘 = 33, ya que es el entero más próximo a 33.3333. Además,
supóngase que 270 es el entero seleccionado aleatoriamente entre uno y 300. Por
tanto, los elementos que conformarán la muestra son: 270, 3, 36, 69, 102, 135, 168,
201 y 234.

III. Cuando se desconoce el tamaño de la población (𝑁).

En este caso puede darse un valor tentativo de 𝑘; sin embargo, podría ser muy
grande y nos daría un tamaño de muestra menor que el requerido en el estudio.
Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente
la muestra y así seleccionar la 𝑘 que proporcione el tamaño requerido. Sin embargo,
hay muchos casos en los que esto no es posible y es necesario tener una precisión
dada al principio. Ello hace difícil la tarea de estimar un valor adecuado de 𝑘 (Pérez,
2000).

5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático

Estimación de la media y el total de la muestra sistemática

Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una
muestra estimando los parámetros de mayor interés, como la media y el total poblacional.
Después se procede a estimar los parámetros con sus correspondientes varianzas y por
último los intervalos de confianza.

∑𝑛𝑖=1 𝑦𝑖
𝜇̂ = 𝑦̅𝑠 =
𝑛
𝜏̂ 𝑠 = 𝑁𝑦̅𝑠
186
A continuación se presentan los estimadores correspondientes a las varianzas de la
media y del total.

La varianza de la media y del total

𝑁 − 𝑛 𝑠2
̂
𝑉 (𝑦̅𝑠 ) = ( )( )
𝑁 𝑛
𝑁 − 𝑛 𝑠2
𝑉(𝜏̂ 𝑠 ) = 𝑁 2 ( )( )
𝑁 𝑛

El estimador de la varianza del total se obtiene multiplicando el estimador de la varianza


de la media por 𝑁 2 .

Los intervalos de confianza para la media y para el total

𝑁 − 𝑛 𝑠2
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 𝑛

donde 𝑦̅𝑠 es la media de la muestra sistemática.

𝑁 − 𝑛 𝑠2
𝜏̂ 𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑁 2 ( )( )
𝑁 𝑛

Obsérvese que la estimación de la varianza es la misma que la presentada en el muestreo


aleatorio aleatorio. Sin embargo, las varianzas poblacionales no son las mismas. La
varianza del estimador de la media de una muestra sistemática es:

𝜎2
𝑉(𝑦̅𝑠 ) = [1 + (𝑛 − 1)𝜌𝑋𝑌 ]
𝑛

187
En la fórmula anterior aparece la medida de correlación 𝜌𝑋𝑌 que indica la relación que
existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy
ligado a este indicador. Si 𝜌𝑋𝑌 está alrededor de uno, quiere decir que los elementos están
estrechamente relacionados entre sí y eso producirá una mayor varianza de la media que
en el muestreo simple aleatorio (éste será el más indicado). En caso contrario, si 𝜌𝑋𝑌 está
cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la
varianza es aproximadamente igual al muestreo simple aleatorio (Scheaffer et al., 1987).
Por lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son
apropiados cuando el coeficiente de correlación (𝜌𝑋𝑌 ) es casi cero, de lo contrario la
muestra debe ser seleccionada bajo MAS o MAE.

La selección del tamaño de la muestra

A fin de determinar el tamaño de la muestra para estimar a 𝜇, se procede como en los


capítulos anteriores. Primero se elige un valor de 𝑑, es decir, la precisión que se está
dispuesto a aceptar en las estimaciones, y se iguala al producto de un valor de 𝑡 (con sus
correspondientes grados de libertad) por la desviación estándar de dicho estimador,
como se representa a continuación:

𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝑦̅𝑠 ) 5.1

El tamaño de muestra para estimar la media

Despejando 𝑛 de esta ecuación (5.1), se obtiene lo siguiente:

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎
𝑛∗ = 2 5.2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎
2

donde la varianza poblacional 𝜎 2 se puede sustituir por la muestral.

El tamaño de muestra modificado

188
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
5.3
2
𝜒(𝛾, 𝑛∗ −1)
2 2
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )

donde la varianza poblacional 𝜎 2 se sustituye por la muestral.

EJEMPLOS

Ejemplo 5.1. Una línea de producción de leche ultrapasteurizada elabora 𝑁 = 1,000


envases por hora (cada envase contiene un litro de leche). Se desea saber si cada envase
de leche cumple con el porcentaje de grasa. Para ello se toma una muestra sistemática de
10 envases. Primero se elige 𝑘.

𝑁 1,000
𝑘= = = 100.
𝑛 10

Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo
aleatoriamente el primer elemento entre los primeros 100 (Cuadro 5.2).

Cuadro 5.2. Porcentaje de grasa por envase de leche.

No. de muestra Porcentaje de grasa


80 2.5
180 2.6
280 2.7
380 2.6
480 2.8
580 2.9
680 3.0
780 2.6
880 2.7
980 2.8

a) Promedio de grasa por envase.

189
∑𝑛𝑖=1 𝑦𝑖
𝑦̅𝑠 =
𝑛
2.5 + 2.6 + 2.7 + 2.6 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8
𝑦̅𝑠 = = 2.72 o 2.72% de grasa.
10

b) La varianza muestral (𝑆𝑠2 ).

∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2


𝑆𝑠2 =
𝑛−1
2.52 + 2.62 + ⋯ + 2.72 + 2.82 − 10(2.72)2
𝑆𝑠2 = = 0.024.
10 − 1

c) La varianza y la desviación estándar de la media muestral.

𝑁 − 𝑛 𝑆𝑠2
𝑆𝑦2̅𝑠 = ( )( )
𝑁 𝑛
1,000 − 10 0.024
𝑆𝑦2̅𝑠 = ( )( ) = 0.002376
1,000 10

𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.002376 = 0.048744.

d) IC del promedio de grasa por e nv ase de leche con una confiabilidad de 95%.

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠

donde: 𝑦̅𝑠 = 2.72, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622.

Por lo tanto:

2.72 ± (2.2622)(0.048744)
2.72 ± 0.110269
2.609731 ≤ 𝜇 ≤ 2.830269.

Es decir, con una confiabilidad de 95% se estima que el promedio de grasa por
envase de leche está entre 2.609731 y 2.830269.

190
e) Cantidad total de grasa que se encuentra en los envases.

𝜏̂ = 𝑁𝑦̅𝑠 = (1,000)(2.72) = 2,720 gramos de grasa.

f) IC para el total de grasa por envase.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠

donde: 𝜏̂ = 2,720, 𝑁 = 1,000, 𝑆𝑦̅𝑠 = 0.048744 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622.

Por lo tanto:

2,720 ± (1,000)(2.2622)(0.048744)
2,720 ± 110.268677
2,609.7313 ≤ 𝜏 ≤ 2,830.2687

Es decir, con 95% de confianza se estima que el total de grasa por envase está entre
2,609.7313 y 2,830.2687.

g) Si la muestra seleccionada es una muestra preliminar de tamaño 𝑛 = 10. El tamaño


de muestra necesario para estimar el promedio de grasa por envase, con una precisión
de 0.05% de grasa por envase y una confiabilidad de 95% es:

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 2
⁄2) 𝑆𝑠

donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024 y 𝑑 = 0.05.

Por lo tanto:

(1, 000)(2.2622)2 (0.024) 122.8218


𝑛∗ = = = 46.8285 = 47 envases.
(1,000)(0.05)2 + (2.2622)2 (0.024) 2.6228
191
h) El tamaño de muestra para estimar el promedio con una precisión de 0.05% de grasa
por envase, una confiabilidad de 95% y además un nivel de aseguramiento (𝛾) de
99% es:

2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )

donde: 𝑁 = 1,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(10−1,1−0.025) = 2.2622, 𝑆𝑠2 = 0.024,


2 2
𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,46.8285−1) = 70.9881 y 𝑑 = 0.05.

Por lo tanto:

70.9881
(1, 000)(2.2622)2 (0.024) ( )
46.8285 − 1
𝑛𝑚 = 70.9881
(1,000)(0.05)2 + (2.2622)2 (0.024) ( )
46.8285 − 1
190.249335
𝑛𝑚 = = 70.7181 = 71.
2.690249

Ejemplo 5.2. Un sembradío tiene 6,000 plantas de caña de azúcar. Por el arreglo de las
plantas (en surcos) es fácil enumerarlas del uno al 6,000. Suponga que se quieren conocer
los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación. Por
lo tanto, se toma una muestra sistemática de 𝑛 = 30. Primeramente se determina el valor
de 𝑘.

𝑁 6,000
𝑘= = = 200.
𝑛 30

Entonces, se debe muestrear cada 200 elementos (plantas), eligiendo aleatoriamente a


la primera planta de entre las primeras 200 (Cuadro 5.3).

Cuadro 5.3. Porcentaje de sacarosa por planta.


192
Número de Porcentaje de Número de Porcentaje de
𝒏 𝒏
muestra sacarosa muestra sacarosa
1 50 11.06 16 3,050 15.01
2 250 10.61 17 3,250 16.85
3 450 14.41 18 3,450 15.93
4 650 14.45 19 3,650 13.28
5 850 9.46 20 3,850 15.39
6 1,050 13.47 21 4,050 12.83
7 1,250 14.68 22 4,250 14.49
8 1,450 13.99 23 4,450 20.38
9 1,650 9.72 24 4,650 11.33
10 1,850 11.37 25 4,850 16.22
11 2,050 12.29 26 5,050 15.83
12 2,250 11.22 27 5,250 15.68
13 2,450 13.25 28 5,450 11.70
14 2,650 15.78 29 5,650 09.45
15 2,850 14.65 30 5,850 12.16

a) Promedio muestral.

∑𝑛𝑖=1 𝑦𝑖
𝑦̅𝑠 =
𝑛
11.06 + 10.61 + 14.41 + ⋯ + 12.16
𝑦̅𝑠 = = 13.5647 gr. de sacarosa por planta.
30

b) La varianza muestral (𝑆𝑠2 ).

∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅𝑠 2


𝑆𝑠2 =
𝑛−1
11.062 + 10.612 + 14.412 + ⋯ + 12.162 − 30(13.5647)2
𝑆𝑠2 = = 6.2571.
30 − 1

c) Varianza y la desviación estándar de la media muestral.

𝑁 − 𝑛 𝑆𝑠2
𝑆𝑦2̅𝑠 = ( )( )
𝑁 𝑛
6,000 − 30 6.2571
𝑆𝑦2̅𝑠 = ( )( ) = 0.207527
6,000 30

La desviación estándar: 𝑆𝑦̅𝑠 = √𝑆𝑦2̅𝑠 = √0.207527 = 0.455551.

193
d) IC para el promedio de sacarosa por planta de caña de azúcar.

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠

donde: 𝑦̅𝑠 = 13.5647, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452.

Por lo tanto:

13.5647 ± (2.0452)(0.455551)
13.5647 ± 0.931693
12.633 ≤ 𝜇 ≤ 14.4964.

Es decir, con una confiabilidad de 95% se estima que el valor de los gramos
promedio de sacarosa por caña de azúcar se encuentra entre 12.633y 14.4964.

e) Cantidad total de sacarosa en el sembradío de caña de azúcar.

𝜏̂ = 𝑁𝑦̅𝑠 = (6,000)(13.5647) = 81,388.2 gramos.

f) IC para el total de sacarosa en el sembradío de caña de azúcar.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠

donde: 𝜏̂ = 81,388.2, 𝑁 = 6,000, 𝑆𝑦̅𝑠 = 0.455551 y 𝑡(30−1,1−0.025) = 2.0452.

Por lo tanto:

81,388.2 ± (6,000)(2.0452)(0.455551)
81,388.2 ± 5,590.157431
75,798.0426 ≤ 𝜏 ≤ 86,978.3574

Es decir, con 95% de confianza se estima que el total (gramos) de sacarosa en las 6,000
plantas de caña de azúcar está entre 75,798.0426 y 86,978.3674 gramos.

194
g) Suponga que la muestra seleccionada es a preliminar de tamaño 𝑛 = 30. ¿Cuál es el
tamaño de muestra necesario para estimar el promedio de sacarosa por planta de caña
de azúcar, con una precisión de 0.05 gramos de sacarosa y una confiabilidad de 95%?

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 2
⁄2) 𝑆𝑠

donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571 y 𝑑 = 0.05.

Por lo tanto:


(6, 000)(2.0452)2 (6.2571) 157,034.8031
𝑛 = 2 2
= = 3,814.0701 = 3,815.
(6,000)(0.05) + (2.0452) (6.2571) 41.1725

h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio de grasa por
envase de tal manera que el promedio tenga una precisión de 0.05% de grasa por
envase, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%?

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )

donde: 𝑁 = 6,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(30−1,1−0.025) = 2.0452, 𝑆𝑠2 = 6.2571,


2 2
𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,3814.0701−1) = 4,019.2 y 𝑑 = 0.05.

Por lo tanto:
4,019.2
(6,000)(2.0452)2 (6.2571) (3,814.0701 − 1)
𝑛𝑚 = 4,019.2
(6,000)(0.05)2 + (2.0452)2 (6.2571) (3,814.0701 − 1)

165,523.9123
𝑛𝑚 = = 3,886.6965 = 3,887.
42.5873

195
EJERCICIOS

En los siguientes ejercicios estime los parámetros solicitados.

a) El IC para la media y el total con una confiabilidad de 95%.

b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño de


muestra para estimar la media y el total de tal manera que sean estimados con una
precisión de 5% de la media preliminar, una confiabilidad de 95% y un nivel de
aseguramiento de 90%?

Ejercicio 5.1. Asistieron 𝑁 = 5,000 personas a una fiesta y fueron enumeradas del uno al
5,000. Se desea conocer la cantidad promedio de cervezas ingeridas por persona y se tomó
una muestra sistemática de 25 personas (véase el Cuadro 5.4).

Cuadro 5.4. Datos de la muestra.


Número de Número de
𝒏 Ingeridas 𝒏 Ingeridas
muestra muestra
1 25 7.5 16 3,025 6.0
2 225 6 17 3,225 6.0
3 425 5 18 3,425 6.0
4 625 7 19 3,625 5.0
5 825 5 20 3,825 6.0
6 1,025 4 21 4,025 5.0
7 1,225 7 22 4,225 4.0
8 1,425 3 23 4,425 4.5
9 1,625 8 24 4,625 5.0
10 1,825 3.5 25 4,825 7.0
11 2,025 4.5
12 2,225 6
13 2,425 6.5
14 2,625 7
15 2,825 3

196
Ejercicio 5.2. Una empresa de limones de Tecomán, Colima, empaca 𝑁 = 2,000 cajas de
limones por turno. Se desea estimar el número de limones dañados por caja. Se toma una
muestra sistemática de 𝑛 = 20. Use la información del Cuadro 5.5.

Cuadro 5.5. Datos de la muestra.


Muestra Limones Muestra Limones
𝒏 𝒏
(No. de caja) dañados (No. de caja) dañados
1 10 105 11 1,010 105
2 110 106 12 1,110 109
3 210 108 13 1,210 100
4 310 100 14 1,310 110
5 410 95 15 1,410 100
6 510 110 16 1,510 100
7 610 109 17 1,610 105
8 710 100 18 1,710 105
9 810 115 19 1,810 100
10 910 080 20 1,910 100

Ejercicio 5.3. En una colonia de la ciudad de Guadalajara hay 𝑁 = 2,500 casas, las cuales
se enumeraron del uno al 2,500. La Comisión Nacional del Agua desea estimar el gasto
promedio de agua en cientos de litros por casa, para ello tomó una muestra sistemática
de 𝑛 = 12. Use la información del Cuadro 5.6.

Cuadro 5.6. Datos de la muestra.


Muestra
𝒏 Litros
(No. de caja)
1 2,300 2.5
2 8 2.2
3 216 2.7
4 424 2.9
5 632 2.4
6 840 2.2
7 1,048 2.8
8 1,258 2.6
9 1,464 2.5
10 1,672 2.4
11 1,880 3
12 2,088 2.9

197
Ejercicio 5.4. En una empresa que se dedica a la digitalización de documentos, escanea
𝑁 = 1,500 cajas por día. Se desea conocer la cantidad de Documentos No Escaneados
Adecuadamente (DNEA), por lo que se enumeraron las cajas del uno al 1,500 y se tomó
una muestra 𝑛 = 15 cajas (véase la información del Cuadro 5.7).

Cuadro 5.7. Datos de la muestra.


Muestra
𝒏 Documentos No Escaneados Adecuadamente (DNEA)
(No. de caja)
1 60 2
2 160 3
3 260 2
4 360 4
5 460 2
6 560 3
7 660 1
8 760 4
9 860 5
10 960 2
11 1,060 3
12 1,160 3
13 1,260 2
14 1,360 2
15 1,460 4

5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático

Estimación de la proporción poblacional

Al igual que en los métodos anteriores, en ocasiones se desea estimar una proporción, es
decir, la frecuencia de una característica en particular. De esta forma, la observación que
posea la característica de interés tomará el valor de 1 o 0.

No es difícil justificar que la variable medida tiene una distribución binomial con
parámetros 𝑛 y 𝑝, donde 𝑛 representa el tamaño de la muestra y 𝑝 la proporción o
frecuencia relativa de éxitos en las 𝑛 observaciones. Las ecuaciones que se presentarán en
las subsecciones siguientes son idénticas a las expuestas en la sección dedicada a

198
proporciones en el capítulo de muestreo simple aleatorio y poseen las mismas
propiedades estadísticas.

Las varianzas de las poblaciones no necesariamente son las mismas en ambos casos.
Si nos referimos a una muestra sistemática proveniente de una población aleatoria con
un tamaño poblacional grande, las varianzas pueden llegar a ser las mismas (Scheaffer et
al., 1987).

El estimador de la proporción y el total

∑𝑛𝑖=1 𝑦𝑖
𝑝𝑠 = 𝑦̅𝑠 = (5.4)
𝑛
𝜏𝑠 = 𝑁𝑝𝑠 (5.5)

La varianza estimada de la proporción y el total sistemático

𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( ) (5.6)
𝑁 𝑛
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝜏2𝑠 = 𝑁 2 ( )( ) (5.7)
𝑁 𝑛
donde 𝑞𝑠 = 1 − 𝑝𝑠 .

Por último, para los estimadores (5.6 y 5.7) presentamos intervalos de confianza, que
nos indican los límites de la proporción y el total con una confiabilidad de (1−𝛼) por
ciento, y después la forma de seleccionar el tamaño de muestra para la proporción y el
total, la cual sigue el mismo procedimiento visto en capítulos anteriores.

El intervalo de confianza para la proporción y el total sistemático

𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 𝑛

𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √( )( )
𝑁 𝑛

199
La selección del tamaño de muestra para la proporción

Para determinar el tamaño de muestra que estime 𝑝𝑠 o 𝜏̂𝑠 se elige una precisión que
estamos dispuestos a aceptar. Es decir,

𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑆𝑝2𝑠 (5.8)

El tamaño de muestra para estimar la proporción

Después de despejar 𝑛 de la ecuación (5.8), obtenemos:

2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠
𝑛∗ = 2 (5.9)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠

Para fines prácticos la varianza poblacional se sustituye por la varianza muestral.

El tamaño de muestra modificado

Si la población es infinita el tamaño de la muestra modificado es:

2
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑡
(𝑛−1,1−𝛼⁄2)
𝑛𝑚 = (5.10)
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
( )

Mientras que el tamaño de muestra para una población finita es igual a:

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ) (5.11)
𝑁 + 𝑛𝑚

200
EJEMPLOS

Ejemplo 5.3. La administración de la Universidad de Colima desea conocer la cantidad


de alumnos que están satisfechos por las mejoras y los logros alcanzados por el
presidente de México. Para realizar dicha encuesta se elegirán 𝑛 alumnos entre los 10,000
estudiantes de la Universidad de Colima. Se pretende obtener una muestra de 18
alumnos. A continuación se obtiene 𝑘:

𝑁 10,000
𝑘= = = 555.5556.
𝑛 18

Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 556, el entero más cercano. Por ello, el
primer alumno que será encuestado se elegirá aleatoriamente entre el primero y el 10,000.
Los datos se presentan en la Cuadro 5.8.

Cuadro 5.8. Alumnos satisfechos e insatisfechos.


No. de alumno Respuesta No. de alumno Respuesta
422 0 5,982 1
978 1 6,538 1
1,534 1 7,094 1
2,090 1 7,650 0
2,646 0 8,206 0
3,202 1 8,762 1
3,758 0 9,318 0
4,314 0 9,874 0
4,870 0 5,426 0

a) La proporción verdadera de alumnos satisfechos.

∑𝑛𝑖=1 𝑦𝑖 𝑎 8
𝑝𝑠 = = = = 0.444444 ó 44.44% de alumnos satisfechos.
𝑛 𝑛 18
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.5 = 0.555556 ó 55.55% de alumnos insatisfechos.

b) La desviación estándar de la proporción muestral (𝑆𝑝𝑠 ).

201
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √( )( )
𝑁 𝑛

donde: 𝑁 = 10,000, 𝑛 = 18, 𝑝𝑠 = 0.444444 y 𝑞𝑠 = 0.555556.

Por lo tanto:

10,000−18 (0.444444)(0.555556)
𝑆𝑝𝑠 = √( )( ) = √(0.9982)(0.013717) = 0.117014.
10,000 18

c) El IC de 95% para la proporción verdadera.

𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠

donde: 𝑝𝑠 = 0.444444, 𝑆𝑝𝑠 = 0.117014, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(18−1,1−0.025) = 2.1098.

Por lo tanto:

0.444444 ± (2.1098)(0.117014)
0.444444 ± 0.246876
0.197568 ≤ 𝑃𝑠 ≤ 0.69132.

Con 95% de confianza se estima que la proporción verdadera de alumnos satisfechos


está entre 0.197568 y 0.69132, es decir, entre 19.75 y 69.13%.

d) El total verdadero de alumnos satisfechos.

𝜏̂ = 𝑁𝑝𝑠
donde: 𝑁 = 10,000 y 𝑝𝑠 = 0.444444.

Por lo tanto:

202
𝜏̂ = (10,000)(0.444444) = 4,444.44.

e) El IC del total de alumnos satisfechos, con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠

donde: 𝜏̂ = 4,444.44, 𝑁 = 10,000, 𝑆𝑝𝑠 = 0.117014 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098.

Por lo tanto:

4,444.44 ± (10,000)(2.1098)(0.117014)
4,444.44 ± 2,468.761372
1,975.6786 ≤ τs ≤ 6,913.2014.

Con 95% de confianza se estima que el total de alumnos satisfechos está entre
1,975.6786 y 6,913.2014.

f) Si 𝑛 = 18 alumnos es una muestra preliminar, el tamaño de muestra para estimar la


proporción verdadera con una precisión de 0.05 y una confiabilidad de 95% es:

2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠

donde: 𝑁 = 10,000, 𝑝𝑠 = 0.444444, 𝑞𝑠 = 0.555556,


𝑡(𝑛−1,1−𝛼⁄2) = 2.1098 y 𝑑 = 0.05.

Por lo tanto:

(10,000)(2.1098)2 (0.444444)(0.555556)
𝑛∗ =
(10,000)(0.05)2 + (2.1098)2 (0.444444)(0.555556)
10,990.753456
𝑛∗ = = 421.1166 = 422.
26.099075

203
g) Ahora bien, el tamaño de muestra para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%
es:

2𝑑|1 − 2𝑝𝑠 |𝑍𝛾


√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑁 𝑡(𝑛−1,1−𝛼⁄2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
( )

donde: 𝑁 = 10,000, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1098, 𝑝𝑠 = 0.444444,


𝑞𝑠 = 0.555556, 𝑍𝛾 = 2.5669 y 𝑑 = 0.05.

Primeramente se obtiene el tamaño de la muestra suponiendo una población infinita:

√0.444444(0.555556) + √0.444444(0.555556) + 2(0.05)|1 − 2(0.444444)|(2.5669)


𝑛𝑚 = 2.1098
2(0.05)
( 2.1098 )
2
0.496903 + √0.246913 + 0.013519
𝑛𝑚 = ( )
0.047398
2
0.496903 + 0.510325
𝑛𝑚 = ( ) = 451.580882.
0.047398

Finalmente se calcula el tamaño de la muestra suponiendo una población finita:

10,000
𝑛𝑚𝐹 = 451.580882 ( ) = 432.0695 = 433..
10,000 + 451.580882

Ejemplo 5.4. Se tiene una población de 600 estudiantes y se pretende saber cuántos de
ellos poseen licencia para conducir. Para realizar la estimación se toma una muestra
sistemática de 19 estudiantes. A continuación obtenemos 𝑘:

𝑁 600
𝑘= = = 31.5789
𝑛 19
204
Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 32 (el entero más cercano) y el primer
elemento se elige al azar entre el uno y 600. La encuesta arrojó los datos que aparecen en
el Cuadro 5.9.
Cuadro 5.9. Estudiantes que tienen licencia para conducir.
Número de Respuesta Número de Respuesta
estudiantes estudiantes
11 0 331 0
43 1 363 0
75 0 395 1
107 0 427 0
139 0 459 1
171 1 491 0
203 1 523 1
235 1 555 0
267 0 587 1
299 0

a) Estimación puntual para la proporción de estudiantes que cuentan con una licencia
para conducir.

∑𝑛𝑖=1 𝑦𝑖 𝑎 8
𝑝𝑠 = = = = 0.4211 ó 42.11% de estudiantes con licencia.
𝑛 𝑛 19
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.4211 = 0.5789 o 57.89% sin licencia.

b) Desviación estándar de la proporción muestral (𝑆𝑝𝑠 ).

𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √( )( )
𝑁 𝑛

donde: 𝑁 = 600, 𝑛 = 19, 𝑝𝑠 = 0.4211 y 𝑞𝑠 = 0.5789.

Por lo tanto:

205
600 − 19 (0.4211)(0.5789)
𝑆𝑝𝑠 = √( )( ) = √0.012424 = 0.111463.
600 19

c) IC de 95% para la proporción verdadera.

𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠

donde: 𝑝𝑠 = 0.4211, 𝑆𝑝𝑠 = 0.111463, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(19−1,1−0.025) = 2.101.

Por lo tanto:

0.4211 ± (2.101)(0.111463)
0.4211 ± 0.234184
0.186916 ≤ 𝑃𝑠 ≤ 0.655284.

Con 95% de confianza se estima que la proporción verdadera de estudiantes con


licencia está entre 0.186916 y 0.655284, es decir, entre 18.69 y 65.52%.

d) Total verdadero de estudiantes con licencia.

𝜏̂ = 𝑁𝑝𝑠

donde: 𝑁 = 600 y 𝑝𝑠 = 0.4211.

Por lo tanto:

𝜏̂ = (600)(0.4211) = 252.66.

e) IC del total verdadero de estudiantes con licencia, con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠

donde: 𝜏̂ = 252.66, 𝑁 = 600, 𝑆𝑝𝑠 = 0.111463 y 𝑡(𝑛−1,1−𝛼⁄2) = 2.101.

206
Por lo tanto:

252.66 ± (600)(2.101)(0.111463 )
252.66 ± 140.510258
112.149742 ≤ 𝜏𝑠 ≤ 393.170258

Con 95% de confianza se estima que el total de estudiantes con licencia está entre
112.149742 y 393.170258.

f) Suponga que 𝑛 = 19 estudiantes es una muestra preliminar ¿Cuál es el tamaño de


muestra para estimar la proporción verdadera con una precisión de 0.05 de la
proporción preliminar y una confiabilidad de 95%?

2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠

donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 2.101, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789,


y 𝑑 = 𝑑𝑝𝑠 = (0.05)(0.4211) = 0.021055.

Por lo tanto:

(600)(2.101)2 (0.4211)(0.5789)
𝑛∗ =
(600)(0.021055)2 + (2.101)2 (0.4211)(0.5789)
645.642553
𝑛∗ = = 481.0668 = 482.
1.3421

g) ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una


precisión de 0.05 de la proporción preliminar, una confiabilidad de 95% y un nivel de
aseguramiento (𝛾) de 99%?

207
2

2𝑑|1 − 2𝑝𝑠 |𝑍𝛾


√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑁 𝑡(𝑛−1,1−𝛼⁄2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
( )

donde: 𝑁 = 600, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑝𝑠 = 0.4211, 𝑞𝑠 = 0.5789,

𝑍𝛾 = 2.5524 y 𝑑 = 0.021055.

Primeramente se obtendrá el tamaño de la muestra suponiendo una población


infinita:

2
2(0.021055)|1 − 2(0.4211)|(2.5524)
√(0.4211)(0.5789) + √(0.4211)(0.5789) +
𝑛𝑚 = 1.96
2(0.021055)
( 1.96 )
2
0.493736 + √0.243775 + 0.008653
𝑛𝑚 = ( )
0.021485

0.493736 + 0.502422 2
𝑛𝑚 = ( ) = 2,149.8015.
0.021485

Finalmente, el tamaño de la muestra suponiendo una población finita:

600
𝑛𝑚𝐹 = 2,149.8015 ( ) = 469.0814 = 470.
600 + 2,149.8015

EJERCICIOS

En los ejercicios estime los parámetros siguientes:

a) El IC para la proporción y el total con una confiabilidad de 95%.

208
b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño demuestra
para estimar la proporción y el total de tal manera que sean estimados con una
precisión de 6% de la proporción y el total preliminar con una confiabilidad de 95%?

Ejercicio 5.5. Una empresa constructora tiene empleados a 𝑁 = 1,200 albañiles para una
mega construcción. Con la finalidad de estimar el porcentaje de albañiles a los que les
gusta la cerveza, se toma una muestra sistemática de 𝑛 = 12 albañiles (Cuadro 5.10).

Cuadro 5.10. Albañiles que consumen cerveza.


Número de
𝒏 Consume
muestra
1 7 0
2 107 1
3 207 0
4 307 1
5 407 0
6 507 1
7 607 1
8 707 0
9 807 1
10 907 1
11 1,007 1
12 1,107 1

Ejercicio 5.6. Una empresa que produce 𝑁 = 5,000 colchones por semana, decide tomar
una muestra sistemática de 𝑛 = 10 colchones, el objetivo es estimar el porcentaje de
colchones que no cumplen con los requerimientos de calidad (Cuadro 5.11).

𝒏 Número de muestra Cumple

1 210 1
2 710 1
3 1,210 0
4 1,710 0
5 2,210 1
6 2,710 1
7 3,210 1
8 3,710 1
9 4,210 1

209
Cuadro 5.11. 10 4,710 1 Muestra de
colchones

Ejercicio 5.7. La Embajada Francesa en México desea conocer el porcentaje de Yucatecos


que han visitado Francia. Supóngase que la población del estado de Yucatán es de 𝑁 =
10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20 individuos. Use
la información del Cuadro 5.12.

Cuadro 5.12. Yucatecos que han visitado Francia


Número Número
𝒏 Respuesta 𝒏 Respuesta
de muestra de muestra
1 300 0 11 5,300 0
2 800 0 12 5,800 0
3 1,300 1 13 6,300 0
4 1,800 0 14 6,800 1
5 2,300 1 15 7,300 0
6 2,800 0 16 7,800 0
7 3,300 1 17 8,300 1
8 3,800 0 18 8,800 0
9 4,300 1 19 9,300 0
10 4,800 0 20 9,800 1

Ejercicio 5.8. La Secretaría de Turismo de México desea conocer el porcentaje de


jaliscienses que han visitado la ciudad maya de Palenque, Chiapas. Se supone que la
población del estado de Jalisco es de 𝑁 = 10,000 personas. De esta población se extrae la
muestra sistemática de 𝑛 = 10 individuos. Use la información del Cuadro 5.13.

210
Cuadro 5.13. Jaliscienses que han visitado Palenque Chiapas.
Número de
𝒏 Cumple
muestra
1 100 0
2 1,100 0
3 2,100 1
4 3,100 0
5 4,100 1
6 5,100 0
7 6,100 0
8 7,100 0
9 8,100 0
10 9,100 0

5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo


sistemático.

Estimación de la proporción poblacional (𝑺𝒆 y 𝑺𝒑) y el total

𝑎
+ 𝑆𝑝 − 1
𝑝𝑠∗ =𝑛 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑎 = denota el número de elementos positivos que se encuentran en la muestra de


tamaño 𝑛, Se y 𝑆𝑝 son la sensibilidad y especificidad de las pruebas de laboratorio.

La varianza estimada de la proporción

𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
) (5.12)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛

donde 𝑞𝑠 = 1 − 𝑝𝑠 .

El intervalo de confianza para la proporción

𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑝𝑠 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛

211
El tamaño de muestra sin aseguramiento para estimar la proporción

2

𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2 (5.13)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠

El tamaño de muestra modificado

Si la población es infinita, el tamaño de la muestra modificado es:

2𝑑|1 − 2𝑝𝑠 |𝑍𝛾


√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑡(𝑛−1,1− 𝛼/2) 1
𝑛𝑚 = ( ) (5.14)
2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1− 𝛼/2)
( )

Mientras que el tamaño de muestra para una población finita es igual a:

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ) (5.15)
𝑁 + 𝑛𝑚

EJEMPLOS

Ejemplo 5.5. La Secretaría de Salud del estado de Nayarit está interesada en conocer
cuántos de los trabajadores del gobierno han consumido algún tipo de droga en las
últimas 2 semanas, esto mediante un análisis de sangre. Se tienen 𝑁 = 8,000 trabajadores
y se tomó una muestra de 16. La prueba tiene una sensibilidad (𝑆𝑒) de 0.83 y una
especificidad (𝑆𝑝) de 0.97.
𝑁 8,000
𝑘= = = 500.
𝑛 16

La primera persona a quien se medirá será elegida aleatoriamente entre 1 y 500,


consecutivamente cada 500 se tomará a otra persona (Cuadro 5.14).

212
Cuadro 5.14. Trabajadores sometidos al análisis.
No. de trabajador Resultado No. de trabajador Resultado

187 0 4,187 0
687 1 4,687 0
1,187 0 5,187 0
1,687 0 5,687 1
2,187 0 6,187 0
2,687 0 6,187 0
3,187 1 7,187 0
3,687 1 7,687 0

a) La proporción verdadera de los trabajadores que resultaron positivos a la prueba.

𝑎
𝑝𝑠 = , 𝑞𝑠 = 1 − 𝑝𝑠
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠 = 𝑛

, 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑎 = 4 y 𝑛 = 16.

Por lo tanto:

4
𝑝𝑠 = = 0.25 = 25%
16
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.25 = 0.75 = 75%
4
16
+ 0.97 − 1 0.22
𝑝𝑠∗ = = = 0.275 = 27.5%
0.83 + 0.97 − 1 0.8
𝑞𝑠∗ = 1 − 0.275 = 0.725 = 72.5%.

b) La varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los trabajadores.

𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛

donde: 𝑁 = 8,000, 𝑛 = 16, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97, 𝑝𝑠 = 0.25 y 𝑞𝑠 = 0.75

Por lo tanto:

213
8,000 − 16 1 (0.25)(0.75)
𝑆𝑝2𝑠 = ( 2
)
8,000 (0.83 + 0.97 − 1) 16
𝑆𝑝2𝑠 = (0.998)(1.5625)(0.011719) = 0.018274

𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.018274 = 0.135181.

c) IC con 95% de confiabilidad para la proporción verdadera.

𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠

donde: 𝑝𝑠∗ = 0.275, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(16−1,1−0.025) = 2.1314 y 𝑆𝑝𝑠 = 0.135181.

Por lo tanto:

0.275 ± (2.1314)(0.135181)
0.275 ± 0.288125
0 ≤ P ≤ 0.563125.

Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de


trabajadores que consumieron algún tipo de droga está entre 0 y 0.563125.

d) Total de trabajadores que consumieron algún tipo de droga.

𝜏̂ = 𝑁𝑝𝑠∗ = (8,000)(0.275) = 2,200 trabajadores.

e) IC del total verdadero de trabajadores con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠

donde: 𝜏̂ = 2,200, 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314 y 𝑆𝑝𝑠 = 0.135181.

Por lo tanto:

2,200 ± (8,000)(2.1314)(0.135181)
2,200 ± 2,304.998267
0 ≤ 𝜏 ≤ 4,504.998267

214
Es decir, con 95% de confianza se estima que el total de trabajadores está entre 0 y
4,504.9983.

f) Si 𝑛 = 16 es una muestra preliminar, el tamaño de muestra real para estimar la


proporción verdadera con una precisión de 0.075 y una confiabilidad del 95% es:

2

𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠

donde: 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314, 𝑝𝑠 = 0.25, 𝑞𝑠 = 0.75,


𝑑 = 0.075, 𝑆𝑒 = 0.83 y 𝑆𝑝 = 0.97.

Por lo tanto:

8,000(2.1314)2 (0.25)(0.75)
𝑛∗ =
8,000(0.075)2 (0.83 + 0.97 − 1)2 + (2.1314)2 (0.25)(0.75)
6,814.2989
𝑛∗ = = 229.8106 = 230 trabajadores.
29.6518

g) El tamaño de muestra real para estimar la proporción verdadera con una precisión
de 0.075, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99 es:

2𝑑|1 − 2𝑝𝑠 |𝑍𝛾


√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑁 𝑡(𝑛−1,1− 𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1− 𝛼/2)
( )

donde: 𝑁 = 8,000, 𝑡(𝑛−1,1− 𝛼/2) = 2.1314, 𝑝 = 0.25, 𝑞 = 0.75,

𝑍𝛾 = 2.6025, 𝑆𝑒 = 0.83, 𝑆𝑝 = 0.97 y 𝑑 = 0.075.

Primero se determina el tamaño de la muestra suponiendo población infinita:


2
2.6025
√0.25(0.75) + √0.25(0.75) + 2(0.075)|1 − 2(0.25)| 1
𝑛𝑚 = 2.1314 ( )
2(0.075) (0.83 + 0.97 − 1)2
( 2.1314 )

215
2
0.433013 + √0.1875 + 0.091577 1
𝑛𝑚 = ( ) ( )
0.070376 0.64
2
0.433013 + 0.528278 1
𝑛𝑚 = ( ) ( ) = 291.527627..
0.070376 0.64

Finalmente se calcula el tamaño de la muestra suponiendo una población finita:

8,000
𝑛𝑚𝐹 = 291.527627 ( ) = 281.2776 = 282 trabajadores..
8,000 + 291.527627

Ejemplo 5.6. En el estado de Michoacán una organización privada quiere conocer


cuántos de sus empleados son positivos en el consumo de cafeína, esto mediante un
análisis de sangre. Se tienen 𝑁 = 2,000 empleados y se tomó una muestra de 20. La
prueba tiene una sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.98.

𝑁 2,000
𝑘= = = 100.
𝑛 20

La primera persona a quien se le preguntará será elegida aleatoriamente entre uno y 100,
consecutivamente cada 100 se tomará a otra persona (véase el Cuadro 5.15).

Cuadro 5.15. Empleados sometidos al análisis.


No. de empleado Resultado No. de empleado Resultado
64 1 1,064 1
164 1 1,164 0
264 0 1,264 1
364 1 1,364 0
464 1 1,464 0
564 1 1,564 1
664 1 1,664 1
764 1 1,764 1
864 1 1,864 0
964 1 1,964 0

a) Proporción verdadera de los trabajadores que resultaron positivos a la prueba.

𝑎
𝑝𝑠 = 𝑞𝑠 = 1 − 𝑝𝑠
𝑛

216
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠∗ = 𝑛 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑎 = 14 y 𝑛 = 20.

Por lo tanto:

14
𝑝𝑠 = = 0.7 = 70%
20
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.7 = 0.3 = 30%
14
20
+ 0.98 − 1 0.68
𝑝𝑠∗ = = = 0.85 = 85%
0.82 + 0.98 − 1 0.8
𝑞𝑠∗ = 1 − 0.85 = 0.15 = 15%.

b) Varianza (𝑆𝑝2𝑠 ) y la desviación estándar (𝑆𝑝𝑠 ) de los estudiantes.

𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛

donde: 𝑁 = 2,000, 𝑛 = 20, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98, 𝑝𝑠 = 0.7 y 𝑞𝑠 = 0.3

Por lo tanto:

2,000 − 20 1 (0.7)(0.3)
𝑆𝑝2𝑠 = ( 2
)
2,000 (0.82 + 0.98 − 1) 20
𝑆𝑝2𝑠 = (0.99)(1.5625)(0.0105) = 0.016242

𝑆𝑝𝑠 = √𝑆𝑝2𝑠 = √0.016242 = 0.127444.

c) IC de 95% para la proporción verdadera.

𝑝𝑠∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠

donde: 𝑝𝑠∗ = 0.85, 𝑡(𝑛−1,1−𝛼/2) = 𝑡(20−1,1−0.025) = 2.093 y 𝑆𝑝𝑠 = 0.127444.

217
Por lo tanto:

0.85 ± (2.093)(0.127444)
0.85 ± 0.26674
0.58326 ≤ 𝑃 ≤ 1.11674

Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de


empleados que resultaron positivos en el consumo de cocaína está entre 0.5833 y
1.1167.
d) Total de empleados que resultaron positivos en el consumo de cocaína.

𝜏̂ = 𝑁𝑝𝑠∗ = (2,000)(0.85) = 1,700 trabajadores.

e) IC del total verdadero de empleados con la confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑛−1,1− 𝛼/2) 𝑁𝑆𝑝𝑠

donde: 𝜏̂ = 1,700, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑁 = 2,000 y 𝑆𝑝𝑠 = 0.127444.

Por lo tanto:

1,700 ± (2,000)(2.093)(0.127444)
1,700 ± 533.480584
1,166.519416 ≤ 𝜏 ≤ 2,233.480584

Es decir, con 95% de confianza se estima que el total de empleados está entre
1,284.3176 y 2,233.480584.

f) Suponga que los datos conformaron una muestra preliminar ¿Cuál es el tamaño de
muestra real para estimar la proporción verdadera con una precisión de 0.05 y una
confiabilidad del 95%?

218
2

𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠

donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝𝑠 = 0.7, 𝑞𝑠 = 0.3,


𝑑 = 0.05, 𝑆𝑒 = 0.82 y 𝑆𝑝 = 0.98.

Por lo tanto:


2,000(2.093)2 (0.7)(0.3)
𝑛 =
2,000(0.05)2 (0.82 + 0.98 − 1)2 + (2.093)2 (0.7)(0.3)
1,839.8726
𝑛∗ = = 446.5819 = 447 empleados.
4.1199

g) ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99?

2𝑑|1 − 2𝑝𝑠 |𝑍𝛾


√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 +
𝑁 𝑡(𝑛−1,1− 𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1− 𝛼/2)
( )

donde: 𝑁 = 2,000, 𝑡(𝑛−1,1−𝛼/2) = 2.093, 𝑝 = 0.7, 𝑞 = 0.3,


𝑍𝛾 = 2.5395, 𝑆𝑒 = 0.82, 𝑆𝑝 = 0.98 y 𝑑 = 0.05.

Primero se determina el tamaño de la muestra suponiendo población infinita:

2
2(0.05)|1 − 2(0.7)|2.5395
√0.7(0.3) + √0.7(0.3) + 2.093 1
𝑛𝑚 = ( )
2(0.05) (0.82 + 0.98 − 1)2
( 2.093 )
2
0.458258 + √0.21 + 0.048533 1
𝑛𝑚 = ( ) ( )
0.047778 0.64
0.458258 + 0.508462 2 1
𝑛𝑚 = ( ) ( ) = 639.684019
0.047778 0.64
219
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚

Por lo tanto:

2,000
𝑛𝑚𝐹 = 639.684019 ( ) = 484.6648 = 485 empleados.
2,000 + 639.684019

EJERCICIOS

En los ejercicios estime los parámetros siguientes:

a) El IC para la proporción y el total con una confiabilidad de 95%.

b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el


tamaño de muestra para estimar la proporción de tal manera que sea estimado con
una precisión de 7% de la proporción preliminar, con una confiabilidad de 95% y un
nivel de aseguramiento del 90%?

Ejercicio 5.9. En el estado de Guerrero una organización privada quiere conocer cuántos
de sus empleados son positivos en el consumo de drogas, esto mediante un análisis de
sangre. Se tienen 𝑁 = 1,500 empleados y se tomó una muestra de 15. La prueba tiene una
sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.97 (Cuadro 5.16).

No. de empleado Resultado No. de empleado Resultado

12 1 812 1
112 1 912 1
212 0 1,012 1
312 0 1,112 0
412 0 1,212 0

220
Cuadro 512 0 1,312 0 5.16.
612 1 1,412 0
712 1

Empleados sometidos al análisis.

Ejercicio 5.10. Una clínica tiene 𝑁 = 2,800 enfermos y decide tomar una muestra
sistemática de 𝑛 = 14 enfermos. El objetivo es estimar el porcentaje de enfermos que
tienen diabetes. La prueba tiene una sensibilidad (𝑆𝑒) de 0.92 y una especificidad (𝑆𝑝) de
0.95 (Cuadro 5.17).

Cuadro 5.17. Muestra de enfermos.


Número de
n Positivo
enfermo
1 111 1
2 311 1
3 511 0
4 711 0
5 911 1
6 1,111 1
7 1,311 1
8 1,511 1
9 1,711 1
10 1,911 1
11 2,111 0
12 2,311 1
13 2,511 1
14 2,711 1

Ejercicio 5.11. La Secretaría de Salud del estado de Yucatán desea conocer el porcentaje
de Yucatecos que son diabéticos. Supóngase que la población del estado de Yucatán es

221
de 𝑁 = 10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20
individuos. La prueba tiene una sensibilidad (𝑆𝑒) de 0.98 y una especificidad (𝑆𝑝) de 0.97.
Use la información del Cuadro 5.18.

Cuadro 5.18. Yucatecos que tienen diabetes.


Número Número
𝒏 Respuesta 𝒏 Respuesta
de muestra de muestra
1 300 0 11 5,300 0
2 800 0 12 5,800 0
3 1,300 1 13 6,300 0
4 1,800 0 14 6,800 1
5 2,300 1 15 7,300 0
6 2,800 0 16 7,800 0
7 3,300 0 17 8,300 1
8 3,800 1 18 8,800 0
9 4,300 1 19 9,300 0
10 4,800 0 20 9,800 0

Ejercicio 5.12. La Marina de México desea conocer el porcentaje de soldados que


consumen algún tipo de droga. Se tiene una población de 𝑁 = 6,000 soldados. De esta
población se extrae la muestra sistemática de 𝑛 = 10 individuos. La prueba tiene una
sensibilidad (𝑆𝑒) de 0.97 y una especificidad (𝑆𝑝) de 0.98. Use la información del Cuadro
5.19.

Cuadro 5.19. Soldados que han consumido algún tipo de droga.


Número de
𝒏 Positivo
soldado
1 100 0
2 700 0
3 1,300 1
4 1,900 0
5 2,500 1
6 3,100 0
7 3,700 0
8 4,300 0
9 4,900 1
10 5,500 1

222
223
Capítulo 6. Muestreo por conglomerados en una etapa

CAPÍTULO 6

Muestreo por conglomerados en una etapa

Nunca antes en su historia,


la estadística había sido
tan querida y repudiada.
Tan querida por ser útil,
objetiva y muy precisa.
Repudiada, por compleja,
laboriosa e ingeniosa.
OAML

E n el estudio del diseño de encuestas o muestreos existen diferentes opciones para


estimar un parámetro. Las diferencias pueden radicar en cuanto a costo, precisión
o facilidad de aplicación. En ocasiones resulta absurdo intentar aplicar alguno de los
esquemas de muestreo antes vistos a una población con ciertas características. Para ello
existe otro diseño de muestreo que proporciona herramientas valiosas.

En los diseños de encuestas las unidades muestrales se pueden definir de diferentes


formas. En el caso del muestreo por conglomerados, que revisamos en este capítulo, a
diferencia de los anteriores, las unidades muestrales (ahora llamadas unidades de
muestreo primarias o conglomerados) están constituidas por varios elementos (o
unidades de muestreo secundarias). En estas últimas se realizará la medición, mientras

224
que los primeros nos auxilian para hacer la selección aleatoria. Este es el principio del
diseño.

La muestra por conglomerados

Una muestra obtenida aleatoriamente de conglomerados (de la misma forma que


en el muestreo simple aleatorio), en donde a las unidades de muestreo primarias
definidas les llamaremos conglomerados, las cuales son grupos de elementos (o
unidades de muestreo secundarias), sobre las que se hará la medición o evaluación
de la característica de interés (Pérez, 2000). Es decir, en éste diseño se extrae bajo
MAS una muestra de tamaño 𝑛 de conglomerados donde cada conglomerado es
una colección de elementos o conglomerados.

Como se sabe, si se desea realizar una selección aleatoria de unidades, debemos contar
con el marco de muestreo adecuado. Con frecuencia no es posible tener el marco de
muestreo u obtenerlo es costoso, además de que el costo crece al tener que medir
unidades separadas entre sí por una gran distancia física. En el muestreo por
conglomerados este costo se reduce sustancialmente, ya que al levantar la información
de elementos contiguos o muy cercanos entre sí se evita el costo de transportación y
puede operarse también aun sin tener un marco de muestreo completo.

El muestreo por conglomerados, en una, dos o más etapas, es un diseño efectivo para
obtener una cantidad específica de información a un costo mínimo, cuando se presentan
las siguientes situaciones:

 Cuando no se encuentre disponible, no es confiable o es muy caro obtener un


marco que contenga la lista de los elementos de la población. Sin embargo, es
posible disponer fácilmente de un marco que contenga la lista de todos los
conglomerados de la población.

 Aun cuando fuese posible contar con un marco que contenga la lista de todos los
elementos de la población, la selección de una muestra aleatoria simple
ocasionaría costos excesivos; esto se puede ver claramente en poblaciones grandes

225
y dispersas, es decir, el costo aumenta como consecuencia de la distancia existente
entre unidades de estudio.

6.1 ¿Qué puede ser un conglomerado?

En los diseños por conglomerados es importante tener claro lo que será considerado
como conglomerados, ya que pueden ser naturales o convenientemente determinados.
Dado que cada problema tiene características propias, entonces la definición de
conglomerados también la tendrá. Por lo tanto, únicamente se puede hablar de aspectos
generales que es necesario que satisfagan los conglomerados, los cuales son:

 Que las unidades que conforman cada conglomerado sean lo más diferentes entre
sí, y que estén lo más próximo posible unas de otras, es decir, que las unidades
dentro de cada conglomerado sean lo más heterogéneas y cercanas entre sí.

 Que los conglomerados sean lo más similares entre sí, es decir, homogéneos.

Por ejemplo, si en un municipio deseamos conocer cierto parámetro, los


conglomerados podrían agrupar manzanas, colonias o barrios. La decisión se toma de
acuerdo con la precisión que se quiera, la información disponible, los objetivos o
cualquier criterio de interés para el investigador. Si se tratara del control de calidad de
cajas de cereal, podríamos designar a las cajas como conglomerados (sitios de muestreo)
o en el caso de la evaluación nacional de salud se elegirían hospitales, centros de salud,
etcétera (Pérez, 2000).

Si una encuesta por conglomerados se aplicara a cajas que contienen productos


terminados, entonces los conglomerados contendrían el mismo número M de productos
terminados o elementos (unidades de muestreo secundarias), debido a la uniformidad
del proceso de producción y empaque. En este ejemplo diremos que los conglomerados
son de tamaño homogéneo, pero es evidente que los casos con estas características no son
los más frecuentes y que en general encontraremos conglomerados de tamaños
desiguales, es decir, las colonias no tienen el mismo número de habitantes, los sitios de
226
muestreo forestal tampoco contendrán el mismo número de árboles, etcétera. Pero las
técnicas de muestreo probabilístico cubren estas posibilidades, por lo que no hay de qué
preocuparse. En el diseño de muestreo el investigador elige los conglomerados
aleatoriamente y mide todos sus elementos. Además, esos elementos quedarán
automáticamente seleccionados al elegir el conglomerado en la muestra, es decir, cada
conglomerado de la muestra será censado (Cochran, 1985).

En el diseño de muestreo por conglomerados en una etapa, se asume que todos los
elementos incluidos en los conglomerados seleccionados y que constituyen la muestra
serán estudiados. Además, cabe señalar que entre este diseño y el aleatorio simple existe
gran similitud en cuanto a las expresiones relacionadas con el tamaño de muestra, con la
diferencia de que el aleatorio simple utiliza unidades muestrales elementales, mientras
que el muestreo por conglomerados considera grupos de unidades elementales.

6.2 Una comparación con el muestreo estratificado

Muestreo estratificado Muestreo por conglomerados


Mayor precisión con relación al muestreo simple Mayor precisión con relación al muestreo simple
aleatorio. aleatorio.
Los estratos deben contener elementos que sean Los conglomerados deben contener elementos lo
muy homogéneos entre sí. más heterogéneo posible entre sí.
Para obtener mayor precisión, la diferencia debe Para mayor precisión, los conglomerados deben ser
ser grande entre estratos. muy similares.
La varianza de la estimación de la media La varianza de la estimación de la media depende de
depende de la variabilidad de los valores dentro la variabilidad que existe entre las medias de los
del estrato. conglomerados.

227
Muestreo estratificado Muestreo de conglomerados

Figura 6.1. Comparación gráfica entre muestreo estratificado y el de conglomerados.

En el estratificado se seleccionan algunas unidades del estrato y en el de


conglomerados se seleccionan algunos de ellos y de los seleccionados se miden todas las
unidades.

6.3 Acerca del tamaño del conglomerado

Es importante resaltar que el conglomerado debe ser de un tamaño moderado o de tal


naturaleza que todas las observaciones (observación 𝑗 en el conglomerado 𝑖) puedan
obtenerse con relativa facilidad. Sin embargo, no es difícil imaginar situaciones en las que
el conglomerado sea grande. Por ejemplo, si los conglomerados elegidos son conjuntos
de viviendas de 120 manzanas y de ellas deben ser elegidos todos los niños menores de
seis años, el conjunto a censar sería demasiado grande, o si el conjunto fuera un archivero
con miles de hojas y fuera necesario calcular estimaciones por hoja; en tales casos es
razonable pensar que el esquema de muestreo por conglomerados en una etapa no es
apropiado, sino en dos etapas (Pérez, 2000).

Notación

𝑁: el número de conglomerados en la población o unidades de muestreo primarias


(UMP) que cubre a toda la población, sin traslapes.
𝑛: el número de conglomerados seleccionados de una muestra simple aleatoria.
𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias (UMS) en el
conglomerado, 𝑖 = 1, 2, . . . , 𝑁.
M= ∑Ni=1 𝑀𝑖 : el número de elementos o Unidades de Muestreo Secundarias en la
población.
̅ : el número promedio de UMS por UMP (o conglomerado) en la población.
𝑀
𝜏𝑖 : el total del conglomerado 𝑖.

228
𝑀
𝑖 𝑦
∑𝑖=1 𝑖𝑗
𝑦̅𝑖 = : la media a nivel de UMS del conglomerado 𝑖.
𝑀𝑖

∑𝑁
𝑖=1 𝑦𝑖
𝑦̅= : el total del promedio por UMP.
𝑁
𝑀
𝜏= ∑𝑁 𝑁
𝑖=1 𝜏𝑖 = ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 : el total de la población.
𝑖

𝜏
𝜇= 𝑀: la media a nivel de UMS.

𝑦𝑖𝑗 : el valor de la 𝑗-ésima UMS en el 𝑖-ésimo conglomerado.

El punto en el subíndice simboliza todas las UMS del conglomerado 𝑖. 𝑀𝑖 se refiere al


número de UMS que contiene el conglomerado 𝑖. Pudiera darse el caso de que se
seleccione sólo una parte del conglomerado, digamos 𝑚𝑖 entre las 𝑀𝑖 UMS, lo cual nos
lleva al diseño de muestreo conglomerado en dos etapas que no está al alcance de este
libro.

6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados

Cálculo de la media y el total poblacional con M conocida

El muestreo por conglomerados es muy conveniente cuando el costo de llegar a las


unidades primarias es muy alto con relación al costo de medir las unidades secundarias
dentro de un conglomerado. Para elegir los conglomerados UMP que estarán en la
muestra, se sigue el mismo procedimiento que en el muestreo simple aleatorio, por lo
que los estimadores de la media, 𝜇, y el total, 𝜏, se obtienen de manera similar. Sin
embargo, es importante observar que los datos del muestreo por conglomerados
permiten obtener estimaciones a diferentes niveles de la población. Es decir, en una
encuesta sobre los sitios para medir la cantidad de madera de árboles, las observaciones
individuales 𝑦𝑖𝑗 incluyen los volúmenes por árboles que hay, 𝜏𝑖 es el volumen total del
sitio (para un conglomerado incluido en la muestra, pues se contabilizan a todos los
árboles del sitio), 𝜏 es el volumen de toda la población y 𝜇 es el volumen promedio por
árbol.

229
A continuación se presentan los estimadores suponiendo una muestra aleatoria de 𝑛
conglomerados y que cada uno contiene 𝑀𝑖 elementos (Scheaffer et al., 1987).

El estimador de la media poblacional

𝑛 𝑀
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1
𝑖
𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 = 𝑛 (6.1)
∑𝑖=1 𝑀𝑖 ∑𝑖=1 𝑀𝑖

El estimador del total poblacional

∑𝑛𝑖=1 𝑦𝑖
𝜏̂𝑠 = 𝑀𝑦̅𝑠 = 𝑀 ( 𝑛 ) (6.2)
∑𝑖=1 𝑀𝑖

Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del total son de
UMS en toda la población (Scheaffer et al., 1987). Si se sustituye 𝑛 por 𝑁 se obtendrían los
parámetros 𝜇 y 𝜏. Se necesita la varianza de estos estimadores para conocer la dispersión
de los datos y para saber la precisión de las estimaciones. Estas varianzas se muestran a
continuación.

La varianza estimada de 𝒚
̅𝒔 y 𝝉̂𝒔

𝑁−𝑛 1 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2


𝑉̂ (𝑦̅𝑠 ) = ( ) ( ) ( 2) ( ) (6.3)
𝑁 𝑛 𝑀 ̅ 𝑛−1
𝑉̂ (𝜏𝑠 ) = 𝑉̂ (𝑀𝜏𝑠 ) = 𝑀2 𝑉̂ (𝑦̅𝑠 ) (6.4)
𝑁−𝑛 1 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2
= 𝑀2 ( ) ( ) ( 2)
𝑁 𝑛 𝑀 ̅ 𝑛−1
𝑁−𝑛 1 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2
̅ )2 (
= (𝑁𝑀 ) ( ) ( 2)
𝑁 𝑛 𝑀 ̅ 𝑛−1
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑐 𝑀𝑖 )2
= 𝑁2 ( )( )
𝑁 𝑛 𝑛−1

Al conocer los estimadores de las varianzas de 𝑦̅𝑠 y 𝜏𝑠 (6.3 y 6.4), se puede calcular sus
correspondientes intervalos de confianza, lo que dará los límites en los que se encuentran

230
las estimaciones, es decir, una idea acerca de la precisión de las estimaciones. Es
importante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones
(6.3 y 6.4) son sesgadas, pero pueden ser aceptables si 𝑛 es grande (digamos 𝑛 > 30) y el
sesgo desaparecería si los tamaños de los conglomerados fueran iguales (todas las 𝑀𝑖
iguales).

El intervalo de confianza de la media y el total

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 ) (6.5)

𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑠 ) (6.6)

La determinación del tamaño de muestra

La precisión de las estimaciones depende del tamaño de la muestra y de su conformación.


En el diseño por conglomerados se busca la situación inversa al diseño estratificado, pues
formaremos conglomerados homogéneos entre ellos, pero heterogéneos en su interior.
Es decir, que haya valores superiores e inferiores a la media general, de tal forma que el
diseño resulte casi tan preciso como la selección aleatoria. Pero en algunas ocasiones los
conglomerados ya están definidos por algún esquema y no es posible hacerlos más
eficientes, lo cual es una desventaja en cuanto a la precisión. Por otro lado, esta condición
también puede ser una ventaja, ya que al utilizar un muestreo por conglomerado no
requerimos de un marco de muestreo de elementos.

Obsérvese que a diferencia de los diseños anteriores, la muestra por conglomerados


también será definida por el tamaño relativo de los conglomerados. El tamaño del límite
para el error de estimación depende de la variación entre los totales de conglomerados,
así que confirmamos que para obtener límites pequeños de error de estimación debemos
seleccionar conglomerados con la menor variación posible entre éstos o sus totales.

Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número de
𝑛 conglomerados que seleccionaremos. De la misma manera que en los diseños
231
anteriores, al no conocer 𝜎𝑐2 o el tamaño promedio del conglomerado, se complica la
decisión sobre el número de conglomerados necesarios para conseguir una cantidad
específica de información concerniente a un parámetro poblacional. Si este fuera el caso,
̅ que podrían estar disponibles en encuestas previas
usaríamos los estimadores de 𝜎𝑐2 y 𝑀
o, en todo caso, obtenerse a través de una encuesta piloto seleccionando una muestra
preliminar, digamos 𝑛, y con esta información podemos calcular el tamaño de muestra
definitivo 𝑛.

Procediendo de manera análoga a los diseños anteriores, 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) es el error

asociado a la estimación, llamado precisión, es decir,

𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) (6.7)

donde 𝜃̂ representa el estimador del parámetro de interés. De la expresión anterior y con


𝜃̂ = 𝑦̅𝑠 , se despeja 𝑛 para obtener el tamaño de muestra.

El tamaño de muestra para estimar el promedio

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐

donde 𝜎𝑐2 es estimada por 𝑠𝑐2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅𝑠 𝑀𝑖 )2 ]/(𝑛 − 1).

El tamaño de muestra modificado para estimar el promedio

2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )

232
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el

cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y


𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 6.1. Una universidad tiene 𝑀 = 10,000 estudiantes inscritos en 𝑁 = 220 grupos
con diferente clave de estudiante. Con la finalidad de estimar el gasto promedio por
estudiante en útiles escolares, se toma una muestra aleatoria simple de 𝑛 = 5 grupos y se
pregunta a cada integrante de los grupos sobre su gasto en útiles escolares (Cuadro 6.1).
Los tamaños de los conglomerados son:

233
Cuadro 6.1. Gasto en útiles escolares por estudiante (pesos).
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5
(𝑀1 = 30) (𝑀2 = 32) (𝑀3 = 31) ( 𝑀4 = 36) (𝑀5 = 34)
104 81 107 116 96 102 91 100 113 124
086 78 106 111 108 112 84 104 118 74
114 121 101 93 114 116 70 87 105 122
106 93 97 67 124 101 79 81 96 87
74 114 64 94 103 106 92 101 119 89
125 92 109 79 98 114 131 94 118 132
114 107 97 91 96 94 88 126 113 94
090 114 102 114 103 109 96 102 97 88
98 101 93 109 124 91 99 69 127 134
120 101 121 109 103 96 100 78 119 111
97 98 130 121 105 99 77 122 115 141
99 92 90 112 104 83 69 73 100 91
112 98 103 99 115 83 102 80 127
112 107 79 104 70 123 94 123
104 114 100 81 109 113 136
125 89 110 67 122 128 114
93 89 102 70 90 92
129 72 107 112 94 82
𝒚𝟏 = 𝟑, 𝟎𝟗𝟒 𝒚𝟐 = 𝟑, 𝟏𝟖𝟒 𝒚𝟑 = 𝟑, 𝟐𝟑𝟖 𝒚𝟒 = 𝟑, 𝟑𝟑𝟔 𝒚𝟓 = 𝟑, 𝟕𝟏𝟔

a) La estimación de la media.

𝑛 𝑀𝑖
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 =
∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖

donde: 𝑀 = 10,000, 𝑛 = 5, 𝑦𝑖 : 𝑦1 = 3,094, 𝑦2 = 3,184, 𝑦3 = 3,238, 𝑦4 = 3,336,


𝑦5 = 3,716, 𝑀𝑖 : 𝑀1 = 30, 𝑀2 = 32, 𝑀3 = 31, 𝑀4 = 36 y 𝑀5 = 34.

Por lo tanto:

3,094 + 3,184 + 3,238 + 3,336 + 3,716


𝑦̅𝑠 =
30 + 32 + 31 + 36 + 34
16,568
𝑦̅𝑠 = = 101.6442.
163

b) La estimación del total.


234
𝜏̂𝑠 = 𝑀𝑦̅𝑠

donde: 𝑀 = 10,000 y 𝑦̅𝑠 = 101.6442.

Por lo tanto:

𝜏̂𝑠 = (10,000)(101.6442) = 1,016,442 pesos.

c) La varianza y la desviación estándar de la media.

𝑁−𝑛 1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2

donde: 𝑀 = 10,000, 𝑁 = 220, 𝑛 = 5, 𝑦̅𝑠 = 101.6442,


̅ = 𝑀 = 10,000 = 45.45: el número promedio de estudiantes por grupo,
𝑀 𝑁 220
[∑𝑛 ̅𝑠 𝑀𝑖 )2 ]
𝑖=1(𝑦𝑖 −𝑦
𝜎𝑐2 : estimada por 𝑠𝑐2 = :
𝑛−1
(3,094−(101.6442)(30))2 +⋯+(3,716−(101.6442)(34))2
𝑠𝑐2 = = 46,595.
(5−1)

Por lo tanto:

2 2
220 − 5 1 (3,094 − (101.6442)(30)) +. . . +(3,716 − (101.6442)(34))
𝑉̂ (𝑦̅𝑠 ) = ( )( )( )
220 (5)(45.45)2 5−1

𝑉̂ (𝑦̅𝑠 ) = 4.4079.

Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √4.4079 = 2.0995.

d) El IC del 90% para la media poblacional (𝜇𝑐 ).

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )

donde: 𝑦̅𝑠 = 101.6442, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(5−1,0.95) = 2.1318 y √𝑉̂ (𝑦̅𝑠 ) = 2.0995.

235
Por lo tanto:

101.6442 ± (2.1318)(2.0995)
101.6442 ± 4.4757
97.1685 ≤ 𝜇𝑠 ≤ 106.1199.

Es decir, con 90% de confianza se estima que la media poblacional está entre 97.1685
y 106.1199.

e) Un IC de 90% para el total.

𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 )

donde: 𝜏̂𝑠 = 1,016,442, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y

√𝑉̂ (𝜏̂ 𝑠 ) = √𝑀2 𝑉̂ (𝑦̅𝑠 ) = √(10,000)2 (4.4079) = 20,994.9994.

Por lo tanto:

1,016,442 ± (2.1318)(20,994.9994)
1,016,442 ± 44757.1397
971,684.8603 ≤ 𝜏𝑐 ≤ 1,061,199.1397.

Es decir, con 90% de confianza se estima que el total poblacional está entre
971,684.8603 y 1,061,199.1397.

f) Si 𝑛 = 5 grupos es una muestra preliminar. El tamaño de muestra necesario para


estimar el promedio poblacional con una precisión de 4% de la media preliminar y
una confiabilidad de 90% es:

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐

̅ = 𝑀 = 45.45, 𝑡(𝑛−1,1−𝛼⁄2) = 2.1318,


donde: 𝑁 = 220, 𝑛 = 5, 𝑀 𝑁
236
𝜎𝑐2 : estimada por 𝑠𝑐2 = 46,595 y 𝑑 = (0.04)(101.6442) = 4.0658.

Por lo tanto:

(220)(2.1318)2 (46,595)
𝑛∗ =
(220)(45.45)2 (4.0658)2 + (2.1318)2 (46,595)
46,585,945.3241
𝑛∗ =
7,724,219.5966
𝑛∗ = 6.0311 = 7 grupos.

g) El tamaño de muestra necesario para estimar el promedio poblacional con una


precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel de
aseguramiento (𝛾) de 90%, es:

2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )

̅ = 𝑀 = 45.45, 𝜎𝑐2 = 46,595, 𝑑 = 4.0658,


donde: 𝑁 = 220, 𝑛 = 5, 𝑀 𝑁
2 2
𝑡(𝑛−1,1−𝛼⁄2) = 2.1318 y 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,6.0311−1) = 9.2797.

Por lo tanto:

9.2797
(220)(2.1318)2 (46,595) (
𝑛𝑚 = 6.0311 − 1)
9.2797
(220)(45.45)2 (4.0574)2 + (2.1318)2 (46,595) (
6.0311 − 1)
85,926,258.04
𝑛𝑚 =
7,872,029.548
𝑛𝑚 = 10.9153 = 11

Ejemplo 6.2. La empresa Pepsico procesa 1,000 rejas de refresco por día. Con la
finalidad de conocer si el proceso de producción cumple con el contenido de
carbohidratos, cierto día se selecciona una muestra aleatoria simple de 6 rejas (Cuadro
237
6.2)

a) Promedio de carbohidratos por refresco.

𝑀
∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 ∑𝑗=1
𝑖
𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 =
∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖

donde: 𝑛 = 6: el número de rejas seleccionadas, 𝑀 = 24,000: el total de refrescos


producido en tal día y 𝑀𝑖 : 𝑀1 = 24, 𝑀2 = 24, 𝑀3 = 24, 𝑀4 = 24, 𝑀5 = 24 y
𝑀6 = 24: número de refrescos por reja.

Por lo tanto:

168.3 + 180.2 + 171.2 + 183 + 186 + 162.9


𝑦̅𝑠 =
24 + 24 + 24 + 24 + 24 + 24
1051.6
𝑦̅𝑠 = = 7.3028.
144

Cuadro 6.2. Contenido de carbohidratos por reja de refresco


Reja 1 Reja 2 Reja 3 Reja 4 Reja 5 Reja 6
6.8 7.2 7.1 7.4 7.1 7.1 7.8 7.3 7.7 7.4 6.7 6.7
6.6 6.8 7.4 7.5 7.3 7.2 7.9 7.7 7.5 8 6.9 6.7
7.1 7.1 7 7.7 6.9 6.9 7.7 7.8 7.8 8 6.7 6.7
7 7.1 7.4 7.5 7 6.4 7.6 7.4 7.6 7.8 6.6 6.8
6.9 7.2 8.0 7.6 7.1 6.9 7.6 7.7 7.8 7.6 6.8 6.7
7.4 7.1 7.2 7.4 7.3 7.5 7.6 7.3 7.9 7.9 6.6 6.7
6.9 7.0 7.5 7.8 7.3 7.1 7.4 7.9 7.8 7.8 6.8 6.7
7 7.2 7.3 7.4 7.3 7.2 7.6 7.4 7.9 7.7 7.2 6.8
7 6.7 7.8 8.1 7.2 7.3 7.6 7.8 8.0 7.5 6.8 6.9
6.8 7.1 7.3 7.5 7.2 7.2 7.5 7.6 7.6 8.0 7.1 6.8
7.2 6.7 7.8 7.5 7.2 6.9 7.5 7.7 7.7 7.8 6.7 6.6
7.2 7.2 7.2 7.8 7.4 7.2 7.9 7.7 7.6 7.6 7 6.9
𝒚𝟏 = 𝟏𝟔𝟖. 𝟑 𝒚𝟐 = 𝟏𝟖𝟎. 𝟐 𝒚𝟑 = 𝟏𝟕𝟏. 𝟐 𝒚𝟒 = 𝟏𝟖𝟑 𝒚𝟓 = 𝟏𝟖𝟔 𝒚𝟔 = 𝟏𝟔𝟐. 𝟗

b) Estimación del total de carbohidratos contenidos en las 1,000 rejas de refrescos.

𝜏̂𝑐 = 𝑀𝑦̅𝑠
238
donde: 𝑀 = 24,000 y 𝑦̅𝑠 = 7.3028.

Por lo tanto:

𝜏̂ 𝑐 = (24,000)(7.3028) = 175,267.2 carbohidratos contenidos en las 1,000 rejas de refrescos.

c) Varianza y la desviación estándar de la media.

𝑁−𝑛 1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2

donde: 𝑀 = 24,000, 𝑁 = 1,000, 𝑛 = 6, 𝑦̅𝑠 = 7.3028,


̅ = 𝑀 = 24,000 = 24: el número promedio de estudiantes por grupo,
𝑀 𝑁 1,000

[∑𝑛 ̅𝑠 𝑀𝑖 )2 ]
𝑖=1(𝑦𝑖 −𝑦
𝜎𝑐2 : estimada por 𝑠𝑐2 = :
𝑛−1
(168.3−(7.3028)(24))2 +⋯+(162.9−(7.3028)(24))2
𝑠𝑐2 = = 83.152.
(6−1)

Por lo tanto:

1,000 − 6 1
𝑉̂ (𝑦̅𝑠 ) = ( )( ) (83.1520) = 0.024009.
1,000 (6)(24)2
√𝑉̂ (𝑦̅𝑠 ) = √0.024009 = 0.154948.

d) Un IC a 90% para la media poblacional (𝜇𝑠 ).

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )

donde: 𝑦̅𝑠 = 7.3028, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(6−1,1−0.1⁄2) = 2.015 y √𝑉̂ (𝑦̅𝑠 ) = 0.154948.

Por lo tanto:

239
7.3028 ± (2.015)(0.154948)
7.3028 ± 0.31222
6.99058 ≤ 𝜇𝑠 ≤ 7.61502.

e) Un IC de 90% para el total.

𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂𝑠 )

donde: 𝜏̂ 𝑠 = 175,267.2, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015,

y √𝑉̂ (𝜏̂ 𝑠 ) = 𝑀√𝑉̂ (𝑦̅𝑠 ) = (24,000)(0.154948) = 3,718.752.

Por lo tanto:

175,267.2 ± (2.015)(3,718.752)
175,267.2 ± 7,493.28528
167,773.9147 ≤ 𝜏𝑠 ≤ 182,760.48528

f) Suponga que 𝑛 = 6 grupos es una muestra preliminar. ¿Cuál es el tamaño de muestra


necesario para estimar la media poblacional con una precisión de 4% de la media
preliminar y una confiabilidad de 90%?

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐

̅ = 𝑀 = 24, 𝑡(𝑛−1,1−𝛼⁄2) = 2.015,


donde: 𝑁 = 1,000, 𝑀 𝑁

𝜎𝑐2 : estimada por 𝑠𝑐2 = 83.152 y 𝑑 = (0.04)(7.3028) = 0.292112.

Por lo tanto:


(1,000)(2.015)2 (83.1520)
𝑛 =
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152)

240
337,615.8292
𝑛∗ =
49,487.362062
𝑛∗ = 6.8222 = 7 grupos

g) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con


una precisión de 4% de la media preliminar (𝑦̅), una confiabilidad de 90% y un nivel
de aseguramiento (𝛾) de 99%?

2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )

̅ = 24, 𝜎𝑐2 = 83.152, 𝑑 = 0.292112,


donde: 𝑁 = 1,000, 𝑀
2 2
𝑡(𝑛−1,1−𝛼⁄2) = 2.015, y 𝜒(𝛾, 𝑛∗ −1) = 𝜒(0.99,6.8222−1) = 16.5101.

Por lo tanto:
16.5101
(1,000)(2.015)2 (83.152) (
𝑛𝑚 = 6.8222 − 1)
16.5101
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152) (
6.8222 − 1)
957,382.2785
𝑛𝑚 = = 19.1067 = 20 grupos.
50,107.1285

EJERCICIOS

En los siguientes ejercicios estimar un IC para la media y el total poblacional con una
confiabilidad de 95%, y suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media poblacional de tal
manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 99%?

241
Ejercicio 6.1. La Secretaría de Salud cuenta con 200 hospitales distribuidos en el territorio
nacional, dentro de los cuales tiene laborando a 6,000 médicos con estudios de posgrado.
Para medir el nivel de satisfacción de los empleados en el trabajo, se toma una muestra
aleatoria simple de seis hospitales y un censo en cada uno. El nivel de satisfacción se mide
de 0 (nada satisfecho) a 10 (muy satisfecho) (Cuadro 6.3).

Cuadro 6.3. Nivel de satisfacción de los médicos por hospital.


Hospital 1 Hospital 2 Hospital 3 Hospital 4 Hospital 5 Hospital 6
6 9 6 9 8 8 8 9 8 8 9 8 6 8 9 9 8 6
7 7 6 8 7 7 10 8 8 7 9 6 7 8 7 6
8 8 7 7 9 6 9 6 7 8 8 9 6 7 6 4
7 7 7 8 8 5 9 7 9 9 8 8 9 6 7 8
8 6 7 6 7 9 7 8 8 6 9 8 5 8 8
7 5 6 5 6 6 8 6 8 5 6 10 4 9 7
9 8 6 9 6 5 8 7 9 9 7 10 8 9 6
6 7 5 7 6 8 7 8 8 9 9 9 9 9
6 4 9 6 7 9 6 8 7 8 8 9 8
6 7 10 6 7 7 6 7 6 7 7 7 8
7 6 8 8 8 9 6 6 5 6 6 7 7
8 6 8 8 8 7 5 4 9 5 9 7

Ejercicio 6.2. El presidente municipal de Guadalajara desea estimar el total de basura


producida en la ciudad. Se supone que la ciudad está conformada por 300 manzanas, y
que el número de viviendas es de 10,000. Además, con la finalidad de medir el promedio
y total de basura producida por vivienda semanalmente, se toma una muestra aleatoria
simple de 𝑛 = 8 manzanas. En cada manzana se recaba toda la basura producida por
vivienda. Use la información del Cuadro (6.4).

Cuadro 6.4. Kg. de basura producidos por vivienda.


Manzana 1 Manzana 2 Manzana 3 Manzana 4
40 30 38 48
60 35 29 36
30 45 65 37
40 48 82 72
60 68 88 83
50 75 95 93
48 45 49 63
49

Manzana 5 Manzana 6 Manzana 7 Manzana 8

242
35 45 49 82
38 38 35 83
48 45 28 73
65 66 25 65
70 33 29 45
35 22 79 66
40 45 49 82
40

6.5 Estimación de parámetros de interés con 𝑴 desconocida bajo muestreo por


conglomerados

¿Qué sucede cuando se desconoce el tamaño de la población 𝑴?

Con la información anterior, se puede estimar la media, el total o el intervalo de confianza


para el total poblacional. Sin embargo, para utilizar las expresiones anteriores se debe
conocer 𝑀, pero en ocasiones no es posible saber ese valor. A continuación se muestran
los estimadores donde no es necesario conocer 𝑀.

Es importante mencionar que los estimadores que a continuación se presentan se


recomiendan cuando los tamaños de los conglomerados son aproximadamente iguales.

El estimador de la media y el total poblacional

Para hallar el estimador del total y la media poblacional se recurre a la expresión del total
promedio por conglomerado (𝑦̅):

𝜏̂ 𝑠 = 𝑁𝑦̅ (6.8)
𝜏̂𝑠
𝜇̂ 𝑠 = 𝑦̅𝑠 = (6.9)
𝑀𝑎𝑝𝑟𝑜𝑥

̅y𝑀
donde 𝑦̅ = (∑𝑛𝑖=1 𝑦𝑖 )/𝑛 = (∑𝑛𝑖=1 𝜏𝑖 )/𝑛, 𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀 ̅ = (∑𝑛𝑖=1 𝑀𝑖 )/𝑛

243
La varianza estimada de la media y del total

𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
̂ ̂ 2
𝑉 (𝜏̂ 𝑠 ) = 𝑉 (𝑁𝑦̅) = 𝑁 ( )( ) (6.10)
𝑁 𝑛 𝑛−1

𝑉̂ (𝜏̂𝑠 ) 1 𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2


𝑉̂ (𝜇𝑠 ) = 𝑉̂ (𝑦̅𝑠 ) = = ( )( ) (6.11)
2
𝑀𝑎𝑝𝑟𝑜𝑥 ̅2
𝑀 𝑁 𝑛 𝑛−1

Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de los mismos.
Los intervalos de confianza para estos estimadores se construyen de forma habitual.

El intervalo de confianza de la media y del total

𝑦̅𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑐 ) (6.12)

𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜏̂ 𝑐 ) (6.13)

El tamaño de muestra para estimar la media

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛 = 2 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡

donde 𝜎𝑡2 es estimada por 𝑠𝑡2 = [∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ]/(𝑛 − 1).

El tamaño de muestra modificado para estimar la media

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( ∗ )
𝑛 −1
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )

244
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el

cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑛∗ − 1 grados de libertad por estrato y


𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de
libertad por estrato también. Los cuantiles requeridos se pueden obtener usando las
tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de
precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

6.6 La estimación de una proporción poblacional

Muchas veces se quiere estimar la característica 𝐺 específica de la población. Por ejemplo:


suponga que se desea conocer la proporción de personas en el estado de Colima que
padecen cierta enfermedad, o la preferencia por cierto partido político, la aceptación de
alguna norma ecológica, etcétera. Cuando se desea estimar una proporción y el total, si
se conoce 𝑀, se deben utilizar los mismos estimadores de la media y el total con 𝑀
conocida, los cuales fueron presentados en el apartado 6.4, sólo que ahora la variable
respuesta contendrá ceros y unos. En caso de desconocerse 𝑀, los estimadores de la
proporción y el total deben ser los mismos que se usaron en el apartado 6.5. En ambos
casos se realizan los cálculos exactamente como los ejemplos presentados en los
apartados 6.4 y 6.5, respectivamente. Es importante recordar que el muestreo por
conglomerados se sugiere cuando:

 Las unidades muestrales son grupos de elementos.


 Se desea minimizar el costo por unidad muestreada.
 Este diseño puede combinarse con otros diseños; por ejemplo, el estratificado.

EJEMPLOS

Ejemplo 6.3. Un agrónomo tiene una parcela experimental de 10,000 𝑚2 . Con la


finalidad de conocer el promedio de cacahuates por planta y el total de cacahuates

245
producidos, divide la parcela en tramos de 4 𝑚2 , y selecciona una muestra aleatoria de
𝑛 = 15 tramos. El Cuadro 6.5 muestra el número de plantas y el total de cacahuates por
tramo.

Cuadro 6.5. Total de cacahuates por tramo de plantas.


Tramo Plantas Total por tramo
1 35 𝑦1 = 1,680
2 34 𝑦2 = 1,360
3 28 𝑦3 = 1,904
4 33 𝑦4 = 1,485
5 34 𝑦5 = 2,346
6 27 𝑦6 = 1,809
a) La estimación de la 7 28 𝑦7 = 1,148
media por
conglomerado 8 33 𝑦8 = 1,320 (tramo).
9 31 𝑦9 = 1,953
10 35 𝑦10 = 1,645
∑𝑛
𝑖=1 𝑦𝑖 11 34 𝑦11 = 2,414 1,680+1,360+⋯+1,450
𝑦̅ = = 𝑦̅ = 12 29 𝑦12 = 2,146
=
𝑛 15
25,290 13 28 𝑦13 = 1,232
= 14 26 𝑦14 = 1,404
15
15 29 𝑦15 = 1,450

1,686.4 cacahuates por tramo.

b) Estimación del total poblacional.


𝑛
𝑁
𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1

10,000
donde: 𝑦̅𝑖 = 1,686.4, 𝑁 = = 2,500: Los tramos en los que se dividió la parcela.
4

Por lo tanto:

𝜏̂𝑠 = (2,500)(1,686.4) = 4,216,000 cacahuates en toda la población.

c) La estimación de la media poblacional (por planta de cacahuate).

Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:

∑𝑛𝑖=1 𝑀𝑖
𝑀𝑎𝑝𝑟𝑜𝑥 ̅=𝑁
= 𝑁𝑀
𝑛
246
̅ = (35 + 34 + ⋯ + 26 + 29)/(15) = 30.9333,
donde: 𝑁 = 2,500, 𝑀
𝑀𝑖 : 𝑀1 = 35, 𝑀2 = 34, 𝑀3 = 28, … , 𝑀15 = 29 y 𝑛 = 15.

Por lo tanto: 𝑀𝑎𝑝𝑟𝑜𝑥 = 2,500(30.9333) = 77,333.3333.

La estimación de la media poblacional es:

𝜏̂𝑠
𝑦̅𝑠 =
𝑀𝑎𝑝𝑟𝑜𝑥

donde: 𝜏̂𝑠 = 4,216,000 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333.


Por lo tanto:

4,216,000
𝑦̅𝑠 = 77,333.3333 = 54.5172 cacahuates en promedio por planta.

d) La varianza y la desviación estándar de la media poblacional.

𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅)
𝑉̂ (𝑦̅𝑠 ) = 2
= 2
𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥

donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 77,333.3333, 𝑦̅ = 1686.4, 𝑛 = 15, 𝑁 = 2,500,


∑𝑛 ̅)2
𝑖=1(𝑦𝑖 −𝑦 [(1,680−1,686.4)2 +⋯+(1,450−1,686.4)2 ]
𝑠𝑡2 = = = 158,875.2571 y
𝑛−1 15−1
𝑁−𝑛 1 2,500−15 1
𝑉̂ (𝑦̅) = 𝑁 (𝑛) 𝑠𝑡2 = [ 2,500 (15)] [158,875.2571] = 10,528.1337.

Por lo tanto:

(2,500)2 (10,528.1337)
𝑉̂ (𝑦̅𝑠 ) = = 11.0026.
(77,333.3333)2

Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √11.0026 = 3.3170.

e) El IC de la media poblacional con una confianza de 90%.

247
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )

donde: 𝑦̅𝑠 = 54.5172, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y √𝑉̂ (𝑦̅𝑠 ) = 3.3170.

Por lo tanto:

54.5172 ± (1.7613)(3.3170)
54.5172 ± 5.8423
48.6749 ≤ 𝜇𝑠 ≤ 60.3595.

Es decir, con 90% de confianza se estima que la media poblacional está entre 48.6749
y 60.3595.

f) El IC del total poblacional con una confianza de 90%.

𝜏̂𝑐 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅)

donde: 𝜏̂𝑐 = 4,216,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y

√𝑉̂ (𝜏̂ 𝑠 ) = 𝑁√𝑉̂ (𝑦̅) = 2,500√10,528.1337 = 256,516.7356.

Por lo tanto:

4,216,000 ± (1.7613)(256,516.7356)
4,216,000 ± 451,802.9264
3,764,197.074 ≤ 𝜏𝑐 ≤ 4,667,802.926.

Es decir, con 90% de confianza se estima que el total poblacional está entre
3,764,197.074 y 4,667,802.926.

g) Si 𝑛 = 15 tramos es una muestra preliminar. El tamaño de muestra para estimar la


media por conglomerados con una precisión del 10% del promedio preliminar y una
confiabilidad del 90% es:

248
2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛 = 2 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡

donde: 𝑁 = 2,500, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 158,875.2571,


𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613 y 𝑑 = (0.1)(1,686.4) = 168.64.

Por lo tanto:

(2,500)(1.7613)2 (158,875.2571)
𝑛∗ =
(2,500)(168.64)2 + (1.7613)2 (158,875.2571)
1,232,148,195
𝑛∗ = 71,591,483.28 = 17.2108 = 18 tramos.

h) Finalmente, el tamaño de muestra necesario para estimar el promedio poblacional


con una precisión del 10% del promedio preliminar, una confiabilidad del 90% y un
nivel de aseguramiento (𝛾) de 99% es:

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )

donde: 𝜎𝑡2 = 158,875.2571, 𝑁 = 2,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(15−1,1−0.1⁄2) = 1.7613,


2 2
𝑑 = 168.64 y 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,17.2108−1) = 32.2983.

Por lo tanto:

32.2983
(2,500)(1.7613)2 (158,875.2571) (
𝑛𝑚 = 17.2108 − 1)
32.2983
(2,500)(168.64)2 + (1.7613)2 (158,875.2571) (
17.2108 − 1)
2,454,924,621
𝑛𝑚 = = 34.0581 = 35 tramos.
72,080,593.85

Ejemplo 6.4. Suponga que un predio localizado en una playa de Manzanillo tiene 1,000
palmeras de coco. Un investigador desea conocer la cantidad promedio de agua de coco
249
que producen las palmeras, para lo cual toma una muestra aleatoria de ocho palmeras y
mide la cantidad de agua por coco en cada palmera. En el Cuadro 6.6 se muestra el total
de agua en litros. Resuelva lo solicitado.

Cuadro 6.6. Total de litros de agua de coco por palmera.


Palmera 1 Palmera 2 Palmera 3 Palmera 4

1.12 0.94 0.77 0.81


0.68 1.33 0.95 1.49
1.07 0.76 1.07 0.99
0.85 0.95 0.73 0.89
0.79 1.26 0.96 1.03
0.89 0.75 0.93 1.42
Palmera 5 Palmera 6 Palmera 7 Palmera 8
1.02 1.28 1.09 0.99
0.95
0.51 0.77 0.88
0.99 0.83
1.28
1.23 0.72 1.06
0.96 0.85
1.11 0.77 0.87 0.82
1.14
𝒚𝟏 = 𝟔. 𝟗𝟑 0.85
𝒚𝟐 = 𝟕. 𝟐𝟕 0.95
𝒚𝟑 = 𝟖. 𝟒𝟓 𝒚𝟒 0.97
= 𝟖. 𝟗
1.66 0.56 0.86 0.90
1.50 1.12 0.94 0.71
0.58 0.83 0.72
0.89 0.89
1.08
1.09
𝒚𝟏 = 𝟕. 𝟓𝟗 𝒚𝟐 = 𝟓. 𝟑𝟕 𝒚𝟑 = 𝟗. 𝟒𝟓 𝒚𝟒 = 𝟔. 𝟔𝟗

a) El promedio por conglomerado.

∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 𝜏𝑖
𝑦̅ = =
𝑛 𝑛

donde: 𝑛 = 8: el número de palmeras seleccionadas.


𝑦𝑖 = 𝜏𝑖 = el total de litros en la palmera 𝑖, 𝑖 = 1,2, … ,8.

Por lo tanto:

6.93 + 5.99 + ⋯ + 8.36 + 6.69 60.65


𝑦̅ = = = 7.5813 litros por conglomerado.
8 8

250
b) El total poblacional.

𝑛
𝑁
𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1

donde: 𝑦̅ = 7.5813, 𝑁 = 1,000 y 𝑛 = 8.

Por lo tanto:

𝜏̂𝑠 = (1,000)(7.5813) = 7,581.3 litros de agua de coco en el predio.

c) El promedio de litros por coco (media poblacional).

Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:

∑𝑛𝑖=1 𝑀𝑖
̅=𝑁
𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀
𝑛
donde: 𝑁 = 1,000, 𝑛 = 8, 𝑀𝑖 : 𝑀1 = 8, 𝑀2 = 7, 𝑀3 = 9, … , 𝑀8 = 8 cocos por palmera y
̅ = (8 + 7 + 9 + 8 + 6 + 7 + 10 + 8)/8 = 7.875,
𝑀

Por lo tanto:

𝑀𝑎𝑝𝑟𝑜𝑥 = 7.875(1,000) = 7,875 cocos en la población de 1,000 palmeras.

El estimador de la media poblacional es:

𝜏̂𝑠
𝑦̅𝑠 =
𝑀𝑎𝑝𝑟𝑜𝑥

donde: 𝜏̂𝑠 = 7,581.3 y 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875.

251
Por lo tanto:

7,581.3
𝑦̅𝑠 = = 0.9627 litros de agua producidos por cada coco.
7,875

d) La varianza y la desviación estándar de la media poblacional.

𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅)
𝑉̂ (𝑦̅𝑠 ) = 2
= 2
𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
𝑉̂ (𝑦̅) = ( )
𝑁 𝑛 𝑛−1

donde: 𝑀𝑎𝑝𝑟𝑜𝑥 = 7,875, 𝑦̅ = 7.5813, 𝑛 = 8, 𝑁 = 1,000,


∑𝑛 ̅)2
𝑖=1(𝑦𝑖 −𝑦 (6.93−7.5813)2 +⋯+(6.69−7.5813)2
𝑠𝑡2 = = = 1.7416 y
𝑛−1 8−1

𝑁−𝑛 1 1,000 − 8 1
̂(𝑦̅ ) =
𝑉 ( ) 𝑠2𝑡 = [ ( )] [1.7416] = 0.21596.
𝑁 𝑛 1,000 8

Por lo tanto:

(1,000)2 (0.21596)
𝑉̂ (𝑦̅𝑠 ) = = 0.00348
(7,875)2

Desviación estándar: √𝑉̂ (𝑦̅𝑠 ) = √0.00348 = 0.059.

e) El IC de la media poblacional con una confiabilidad de 90%.

𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )

donde: 𝑦̅𝑠 = 0.9627, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946 y √𝑉̂ (𝑦̅𝑠 ) = 0.059.

Por lo tanto:

0.9627 ± (1.8946)(0.059)

252
0.9627 ± 0.1118
0.8509 ≤ 𝜇𝑠 ≤ 1.0745.

Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua por
coco.

f) El intervalo del total poblacional con una confianza de 90%.

𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝑦̅𝑠 )

donde: 𝜏̂𝑠 = 7,581.25, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946

y √𝑉̂ (𝜏̂𝑐 ) = 𝑁√𝑉̂ (𝑦̅𝑠 ) = (1,000)(√0.21596) = 464.7111.

Por lo tanto:

7,581.25 ± (1.8946)(464.7111)
7,581.25 ± 880.4317
6,700.8129 ≤ 𝜏𝑠 ≤ 8,461.6817.

Entonces, el total de litros de agua de coco en el predio está entre 6,700.81 y 8,461.68.

g) Suponga que 𝑛 = 8 palmeras es una muestra preliminar. Determine el tamaño de


muestra para estimar la media por conglomerados con una precisión de 10% del
promedio preliminar y una confiabilidad de 90%?

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛∗ = 2 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡

donde: 𝑁 = 1,000, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946
y 𝑑 = (0.1)(7.5813) = 0.75813.

253
Por lo tanto:


(1,000)(1.8946)2 (1.7416)
𝑛 =
1,000(0.75813)2 + (1.8946)2 (1.7416)
6,251.48915
𝑛∗ = = 10.7596 = 11 palmeras (muestra).
581.01259

h) ¿Cuál es el tamaño de muestra necesario para estimar el promedio poblacional con


una precisión de 10% del promedio preliminar, una confiabilidad de 90% y un nivel
de aseguramiento (𝛾) de 99%?

2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )

donde: 𝑁 = 1,000, 𝜎𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946,


2 2
𝑑 = 0.75813 y 𝜒(𝛾,𝑛 ∗ −1) = 𝜒(0.99,10.7597−1) = 22.8411.

Por lo tanto:

22.8411
(1,000)(1.8946)2 (1.7416) ( )
𝑛𝑚 = 10.7597 −1
22.8411
1,000(0.75813)2 + (1.8946)2 (1.7416) ( )
10.7597 − 1
14,630.66374
𝑛𝑚 = = 24.8233 = 25.
589.39176

EJERCICIOS

En los siguientes ejercicios estime el IC para la media y el total poblacional con una
confiabilidad de 95% y suponga que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de

254
tal manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 90%?

Ejercicio 6.3. El dueño de una plantación forestal necesita estimar el volumen total de
biomasa en 𝑚3 que tiene su plantación. Ha pensado en hacer un muestreo por
conglomerados. Para esto divide la plantación en 300 sitios, de los cuales selecciona
aleatoriamente 40 y dentro de cada uno de ellos mide el volumen de todos los árboles
incluidos. En este caso las UMP (los conglomerados) son los sitios y las UMS son los
árboles. Úse los datos del Cuadro 6.7.

Cuadro 6.7. Volumen de biomasa en 𝑚3 .


Conglom. 𝑴𝒊 𝒚𝒊 Conglom. 𝑴𝒊 𝒚𝒊

1 508 1,709 21 558 2,440


2 302 1,075 22 598 2,005
3 693 3,087 23 532 2,057
4 598 1,729 24 599 2,562
5 459 1,497 25 607 1,853
6 695 2,725 26 609 2,698
7 476 2,143 27 640 3,066
8 675 2,945 28 659 1,948
9 432 1,355 29 589 1,942
10 567 2,267 30 674 2,413
11 657 2,724 31 508 1,870
12 650 2,537 32 302 987
13 667 3,284 33 693 3,258
14 598 2,370 34 598 2,700
15 548 2,026 35 459 1,750
16 657 1,987 36 583 2,007
17 508 1,479 37 476 1,231
18 499 1,668 38 675 2,701
19 549 2,163 39 432 1,669
20 543 2,463 40 567 1,904

Ejercicio 6.4. La Secretaría de Desarrollo Social cuenta con 25 estancias infantiles


distribuidas en el estado de Colima, donde los padres llevan a sus hijos diariamente. Con
el objetivo de conocer el nivel de satisfacción de los padres respecto a este servicio, se
tomó un muestreo aleatorio simple de cinco guarderías y se realizó una encuesta (el nivel
de satisfacción se mide de 0 a 5). Véase el Cuadro 6.8.
255
Cuadro 6.8. Resultados de los conglomerados censados
Estancia 1 Estancia 2 Estancia 3 Estancia 4 Estancia 5
3 4 2 3 4 5 3 4 2 3
3 5 2 2 4 4 3 3 4 3
2 2 3 1 2 3 4 2 4 2
2 3 3 2 3 3 4 2 3 5
3 3 2 2 5 4 4 5 3 4
3 3 1 1 5 4 5 4 5
4 4 1 1 3 4 3 4 3
3 3 1 2 3 5 2 5 3
2 2 4 4 5 2 5 4
2 2 4 4 3 3 4 2
4 4 5 4 3 4

256
Capítulo 7. Muestreo basado en el método de respuesta aleatorizada

CAPÍTULO 7

Muestreo basado en el método de


respuesta aleatorizada

Cuando la gente no quiere


cooperar con las respuestas,
la estadística y su ingenio
te ayudan a conseguirlo.
OAML

P
ara que los resultados de una encuesta sean creíbles es necesario, entre otros
aspectos, que las preguntas tengan suficiente calidad o validez, lo que exige asumir
que las respuestas sean ciertas. Para creer en los resultados de una encuesta primero es
necesario creer en las respuestas de las personas que han sido entrevistadas. Sin embargo,
las respuestas sinceras pueden ser difíciles de obtener, y hay muchos problemas
implícitos al tratar de conseguirlas (Lohr, 2000).

Las personas tienen inclinaciones, tendencias propias, actitudes, distintas formas de


pensar, desconfianza, etc. Tales características dificultan, en algunas ocasiones, la calidad
de las respuestas. Uno de los problemas típicos se denomina deseabilidad social. Por ello
es importante estar consciente de que las personas entrevistadas pueden responder en
función de lo bien visto socialmente. Por ejemplo, el consumo de droga se cataloga como
negativo, por lo que alguien que haya consumido o consuma drogas tenderá con
facilidad a responder no ante la pregunta ¿Ha consumido droga alguna vez? (Lohr, 2000).

257
Por otro lado, la deseabilidad social puede actuar de forma inconsciente, es decir, que
el individuo no controle intencionalmente su respuesta. La deseabilidad social también
es preocupante cuando las preguntas se refieren a temas íntimos como las relaciones
sexuales. En ese caso, las personas suelen mostrar resistencia a exponerse ante extraños
y son más propensos a responder según lo que se considera socialmente aceptable, por
lo que se cubre la verdad (Lohr, 2000). Es decir, cuando una encuesta incluye una o más
preguntas que se refieren a aspectos que pueden considerarse íntimos hacen que el
entrevistado se sienta en peligro o avergonzado si la responde con la verdad (Méndez,
Eslava, & Romero, 2004). Por ello, debe garantizarse que las preguntas y la forma de
hacerlas sean ingeniosas y con calidad para obtener resultados confiables.

Obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se
enfrentan a dificultades que son inherentes a toda persona encuestada: inclinaciones,
actitudes, frustraciones, timidez, formas de pensar, comportamientos, tiempo disponible,
desconfianzas y una propensión a mantener la intimidad. Esto conlleva a que en las
últimas décadas se hayan realizado investigaciones para asegurarse de la calidad y
veracidad de las respuestas obtenidas sobre temas íntimos. La necesidad del ser humano
por hacerse de información y por combatir la no respuesta lo han conducido a desarrollar
nuevas técnicas en la metodología del muestreo, entre ellas: la respuesta aleatorizada
(Méndez y Quintana, 2007).

Respuesta aleatorizada

La técnica de respuesta aleatorizada es un método especialmente diseñado para


asegurar privacidad a los entrevistados en el estudio de temas sensibles, delicados o
embarazosos. Se intenta con ello evitar sesgos de los entrevistados en ciertas
conductas hacia la respuesta socialmente más deseable. Es decir, le asegura al
entrevistado que su respuesta sobre temas sensibles (falsa o verdadera) no será
conocida por el entrevistador, de ahí el nombre de respuesta aleatorizada; la
respuesta se realiza al azar. Se ha utilizado para analizar temas como copiar en los
exámenes, fraudes, haber sido arrestado, conducir bajo los efectos del alcohol,
infidelidad, tener hijos fuera del matrimonio, prácticas abortivas, etc.

Existen varios métodos para evitar la resistencia de las personas a responder con
sinceridad cuando el tema es delicado. Este capítulo presenta un método para estimar
258
proporciones: el método de Warner modificado que fue propuesto por Horvitz, Shah, &
Simmons (1967). Este método obtiene respuestas directas de las personas entrevistadas,
es decir, estima la proporción sin que el entrevistado revele su posición personal respecto
a la pregunta delicada. El objetivo de esta técnica es ayudar a que se den respuestas
veraces y se conserve la confiabilidad. El método presenta una forma sencilla de calcular
el tamaño de muestra necesario y con ello estimar la proporción con la precisión y
confiabilidad fijadas bajo el MAS y el MAE.

7.1. ¿Cuándo se utiliza esta técnica?

 Cuando las personas que son entrevistadas se niegan a contestar o dan una
respuesta falsa a preguntas delicadas, porque creen que las exponen o las pueden
perjudicar en algún sentido.

 Cuando se quiere estimar el porcentaje de la población que tiene la característica


delicada.

Por características sensitivas o delicadas se entiende a las situaciones en donde los


entrevistados sienten invadida su intimidad al pedir que respondan un cuestionario. Por
lo tanto, las preguntas sirven para captar las características sensitivas de los
entrevistados, las cuales se tienen que manejar con cuidado debido a la no respuesta o a
la respuesta falseada contestando lo socialmente deseable.

7.2. Ventajas y desventajas

Ventajas Desventajas

 Aumenta la probabilidad de
 Aumento en la complejidad de la pregunta.
contestar la verdad que en una
 Dificultad en entender el método de aleatorización.
pregunta directa.
 Requiere de tamaños de muestras grandes.
 Mayor índice de respuesta.

259
7.3. El modelo de respuesta aleatorizada bajo el MAS

Este método de respuesta aleatorizada fue desarrollado por Warner en 1965 y consiste
en clasificar a las personas en los grupos 𝐴 y 𝐵, respectivamente. Cada persona estará en
uno de los grupos, 𝐴 o 𝐵. Sea 𝜋 la proporción de personas con ciertas características de
interés (grupo 𝐴). El objetivo es estimar 𝜋 sin preguntar a cada persona directamente si
pertenece o no al grupo 𝐴. A continuación se presenta el procedimiento propuesto por
Warner (1965):

1. Se construye un mazo de cartas, pero una fracción de ellas 𝑝, se marca con la letra
𝐴 (grupo 𝐴) y la fracción restante, 1 − 𝑝, con las letras faltantes del abecedario
(grupo 𝐵).

2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin


reemplazo de tamaño 𝑛 de la población (𝑁).

3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.

4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que


seleccione una carta, pero que no nos diga con que letra está marcada.

5. A continuación se le explica que se le va a hacer una pregunta y que la responda


con sí o no, pero resaltando que debe quedarle clara la pregunta.

6. Que el individuo responda a la pregunta que tiene la característica delicada (por


ejemplo ¿Ha consumido drogas ilícitas alguna vez?) si la carta que obtuvo está
marcada con la letra 𝐴. Y que responda a la pregunta que no tiene la característica
delicada si obtuvo cualquier otra letra del abecedario.

7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
260
obtuvo, es decir, si la carta que obtuvo está marcada con la letra 𝐴 debe responder
con la verdad a la pregunta delicada y ésta sería su única respuesta. Lo mismo
sucede si le tocó cualquier otra letra del abecedario, debe responder con la verdad
a la segunda pregunta y ésta sería su única respuesta.

8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a
la siguiente persona.

9. Este procedimiento se aplica a todos los n individuos.

10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en este capítulo.

El mecanismo de aleatorización que originalmente utilizó Warner fue una aguja


giratoria en un disco con dos regiones delimitadas. La aguja apunta con probabilidad 𝑝
a la región 𝐴 y 1 − 𝑝 a la región 𝐴𝑐 . El entrevistado responde a la pregunta 𝑄𝐴 si la aguja
señala la región 𝐴, o a la pregunta 𝑄𝐴𝑐 si la aguja señala a la región 𝐴𝑐 , de esta manera
todo se conjuga a que el entrevistador sólo anote sí o no para cada entrevistado.

Por ejemplo, supóngase que en el estado de Colima se desea estimar el porcentaje de


hombres casados por lo civil que tienen hijos fuera del matrimonio. Además, supóngase
que se extrae una muestra aleatoria simple de 𝑛 = 200 de la población de 𝑁 = 10, 000.
Así, cada uno de los hombres que conforman la muestra recibe una ficha con las
siguientes preguntas:

𝑄𝐴 : Pregunta 1: ¿tiene al menos un hijo fuera de su matrimonio?


𝑄𝐴𝑐 : Pregunta 2: ¿no tiene hijos fuera del matrimonio?

La pregunta 𝑄𝐴 (pregunta 1) será respondida por el entrevistado si la aguja marca la


región 𝐴. Por otra parte, si la aguja marca la región 𝐴𝑐 , el entrevistado responderá la
pregunta 𝑄𝐴𝑐 (pregunta 2). Cada entrevistado responderá un sí o no porque solamente
contestará una de las dos preguntas dependiendo de la región que marque la aguja (𝐴 o
261
𝐴𝑐 ). Esto significa que se tendrán 𝑛 respuestas dicotómicas (sí o no) a partir de las cuales
se derivará la estimación de interés (porcentaje de respuestas afirmativas de la pregunta
1).

El mecanismo de aleatorización puede ser una baraja, un dado, una moneda, una urna,
etcétera, pero se debe tener claro cuál es su equivalente a la región 𝐴 y su respectiva
probabilidad. Recuérdese que el experimentador puede elegir arbitrariamente la fracción
𝑝 de cartas marcadas con 𝐴, pero no debe ser igual a 1/2 ni 𝑝 = 1, esta última porque el
entrevistado se daría cuenta que se le está preguntando si pertenece al grupo 𝐴. En
general, 𝑝 = 3/4 es adecuado. Este método requiere generalmente un tamaño de muestra
muy grande para obtener una varianza del estimador pequeña. Debido a que cada
respuesta produce poca información sobre la proporción poblacional, 𝜋. La técnica de
respuesta aleatorizada es una de las más simples de las que existen.

El estimador de la proporción y el total poblacional

1
Si suponemos que 𝑝 ≠ 2, el estimador de máxima verosimilitud de 𝜋 es:

𝑝−1 𝑎
𝜋̂ = +
2𝑝 − 1 (2𝑝 − 1)𝑛

y el estimador de máxima verosimilitud de 𝜏 es:

𝜏̂ = 𝑁𝜋̂

donde: 𝑁 es el tamaño de la población, 𝑎 es el total de respuestas si de los 𝑛 entrevistados


y 𝑝 es la fracción de las letras en el mazo de cartas con la letra 𝐴.

262
La varianza estimada de los estimadores de la proporción y del total

𝑁−𝑛 1 1 1 2
𝑆𝜋̂2 =( ) [ − (𝜋̂ − ) ]
𝑁 𝑛 1 2 2
16 (𝑝 − 2)

𝑁−𝑛 1 1 1 2
𝑆𝜏̂2 = 𝑁 2 𝑆𝜋̂2 2
=𝑁 ( ) [ − (𝜋̂ − ) ]
𝑁 𝑛 1 2 2
16 (𝑝 − )
2

A continuación se proporcionan los intervalos de confianza para los parámetros 𝜋 y 𝜏


con una confiabilidad del 100(1 − 𝛼)%.

El intervalo de confianza de la proporción y el total

𝜋̂ ± 𝑍𝛼/2 √𝑆𝜋̂2

𝜏̂ ± 𝑍𝛼/2 √𝑆𝜏̂2

donde 𝜋̂ es la proporción de interés, 𝜏̂ es el total de interés, 𝑍𝑎/2 es el valor de tablas de la

distribución normal estándar, √𝑆𝜋̂2 es la desviación estándar de la proporción de interés

y √𝑆𝜏̂2 es la desviación estándar del total de interés.

El tamaño de la muestra para la proporción y el total

El tamaño de muestra para estimar la proporción

Si se fija una precisión deseada con una confiabilidad de 100(1 − 𝛼)%, entonces 𝑑 =

𝑍1−𝛼/2 (√𝑆𝜋̂2 ). Por lo tanto, el tamaño de muestra se determina por la ecuación:

263
2
𝑁𝑍1−𝛼/2 𝑘
𝑛= 2
𝑁𝑑 2 + 𝑍1−𝛼/2 𝑘

donde:
1 1 2
𝑘= 1 2
− (𝜋̂ − 2) .
16(𝑝− )
2

𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.

El tamaño de muestra para estimar el total

2
𝑁 2 𝑍1−𝑎/2 𝑘
𝑛= 2
𝑑 2 + 𝑁𝑍1−𝛼/2 𝑘
donde:
1 1 2
𝑘= 1
̂ − 2) .
2 − (𝜋
16(𝑝− )
2

𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.

7.4 El modelo de respuesta aleatorizada bajo el MAE

Cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión


de las estimaciones. Los criterios para formar dichos estratos son exactamente los mismos
que en el MAE. Por lo tanto, para cada estrato se debe conocer su tamaño, no deben
traslaparse y se debe contar con un marco de muestreo confiable para tener una tasa de
respuesta en blanco muy cercana a cero. Por otro lado, ya que se determine el tamaño de
muestra con la expresión correspondiente, la asignación de la muestra se realizará en
forma proporcional, por su simplicidad y aceptación práctica. El procedimiento del
método de respuesta aleatorizada en MAE es exactamente el mismo que en el MAS. Por
264
lo tanto, a cada individuo que conformará la muestra se entrevistará con el mismo
procedimiento del método de respuesta aleatorizada bajo el MAS, con la diferencia de
que ahora el tamaño de muestra 𝑛 se asigna en forma proporcional a cada estrato, es
decir, 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝐸 .

El estimador de la proporción y el total poblacional

𝑁1 𝜋̂1 + 𝑁2 𝜋̂2 + 𝑁𝐸 𝜋̂𝐸


𝜋̂𝑠𝑡 =
𝑁

𝜏̂ 𝑠𝑡 = 𝑁𝜋̂𝑠𝑡

1
Si 𝑝 ≠ 2 es igual en cada estrato, el estimador de máxima verosimilitud de 𝜋̂ℎ es:

𝑝−1 𝑎ℎ
𝜋̂𝑠𝑡 = + ; ℎ = 1,2, … 𝐸
2𝑝 − 1 (2𝑝 − 1)𝑛ℎ

donde 𝑝 es la fracción de letras en el mazo de cartas marcadas con la letra A y 𝑎ℎ es el


total de respuestas afirmativas (sí) de los 𝑛ℎ entrevistados en el estrato ℎ. Se necesita la
varianza de estos estimadores para determinar la dispersión de los datos y conocer la
precisión de las estimaciones.

La varianza de los estimadores de la proporción y total poblacional

𝐸
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2
𝑆𝜋̂2𝑠𝑡 = ∑( ) ( ) [ − (𝜋̂ℎ − ) ]
𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2
ℎ=1
𝐸
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2
𝑆𝜏̂2𝑠𝑡 2
= 𝑁 ∑( ) ( ) [ − (𝜋̂ℎ − ) ]
𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2
ℎ=1

265
Con los estimadores de las varianzas de 𝜋̂𝑠𝑡 y 𝜏̂ 𝑠𝑡 se puede calcular intervalos que
contengan el valor del parámetro con una probabilidad preestablecida.

El intervalo de confianza para el promedio y total poblacional

Los intervalos de confianza para 𝜋𝑠𝑡 y 𝜏𝑠𝑡 son:

𝜋̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜋̂2𝑠𝑡

𝜏̂𝑠𝑡 ± 𝑍1−𝛼/2 √𝑆𝜏̂2𝑠𝑡

El tamaño de muestra para estimar la proporción

Fijando la precisión 𝑑 = 𝑍1−𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que:

2
𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑛= 2
𝑁𝑑 2 + 𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ

donde:

1 1 2
𝐾ℎ = − (𝜋
̂ ℎ − ) .
16(𝑝 − 1/2)2 2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de
cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.

El tamaño de muestra para estimar el total

Fijando la precisión 𝑑 = 𝑍𝛼/2 (√𝑆𝜏̂2𝑠𝑡 ) se tiene que:

266
2
𝑁 2 𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑛= 2
𝑑 2 + 𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ

donde:

1 1 2
𝐾ℎ = − (𝜋̂ℎ − ) .
16(𝑝 − 1/2)2 2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.

7.5 Alternativa al modelo de respuesta aleatorizada

Como alternativa al método de Warner (1965), Horvitz et al. (1967) sugirieron que la
cooperación de los entrevistados podría mejorar si el segundo enunciado (pregunta 2) no
fuese delicado y no tuviese relación con el primero. A continuación se presenta esta
variación de la idea original de Warner (1965) propuesta por Horvitz et al. (1967):

1. Se construye un mazo de cartas, pero una fracción de ellas (𝑝) se marca con la letra
A (grupo A) y la fracción restante (1 − 𝑝) con las letras faltantes del abecedario
(grupo B).

2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin


reemplazo de tamaño n de la población (𝑁).

3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.

4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo


que seleccione una carta, pero que no diga con qué letra está marcada.
267
5. A continuación se le explica que se le va a hacer una pregunta y que la responda
con sí o no, resaltando que debe quedar clara la pregunta.

6. Responda a la pregunta delicada, por ejemplo: ¿ha consumido droga alguna vez?
Si la carta que obtuvo está marcada con la letra A, por el contrario responda a la
pregunta inocua, por ejemplo: ¿naciste el mes de abril? si obtuvo cualquier otra
letra del abecedario.

7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
obtuvo, es decir, si la carta que obtuvo está marcada con la letra A, debe responder
con la verdad a la pregunta delicada y esta sería su única respuesta. Similarmente,
si le tocó cualquier otra letra del abecedario, debe responder con la verdad a la
pregunta inocua y esta sería su única respuesta.

8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar
a la siguiente persona.

9. Este procedimiento se aplica a los 𝑛 individuos de la muestra.

10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en éste capítulo.

7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS

A continuación se presentan los estimadores de algunos parámetros de interés para el


método de respuesta aleatorizada bajo MAS.

Estimadores para la proporción y el total

268
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜏̂ = 𝑁𝜋̂ = 𝑁 ( )
𝑝

donde: 𝑎 es el total de respuestas afirmativas en la muestra de tamaño 𝑛, 𝜙̂ = 𝑎/𝑛, 𝑁 es


el tamaño de la población, 𝑝 es la probabilidad de la pregunta delicada o íntima, 𝑝𝐼 es la
probabilidad de la pregunta intrascendente y se recomienda estimarla a partir de
registros históricos o de investigaciones confiables ya realizadas.

Varianza del estimador de la proporción y el total

𝑁 − 𝑛 𝑉̂ (𝜙̂) 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)


𝑉̂ (𝜋̂) = ( ) 2 =( )
𝑁 𝑝 𝑁 𝑝2 𝑛
𝑁 − 𝑛 𝑉̂ (𝜙̂) 𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜏̂ ) = 𝑁 2 𝑉̂ (𝜋̂) = 𝑁 2 ( ) 2 = 𝑁2 ( )
𝑁 𝑝 𝑁 𝑝2 𝑛

Intervalos de confianza para la proporción y el total

𝜋̂ ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)

𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)

donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1


grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

Tamaño de muestra para estimar la proporción

269
2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2

donde: 𝑑 es la precisión fijada por el investigador.

Tamaño de muestra modificado para estimar la proporción.

2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) , 𝑛𝑚 = ( ).
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )

donde 𝛾 es la probabilidad de que el IC para la proporción no sea mayor que la amplitud


deseada, 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t- Student con 𝑛∗ − 1
grados de libertad por estrato también. Los cuantiles requeridos se pueden obtener
usando las tablas clásicas de las distribuciones t-Student y Ji-Cuadrada. Además, sin una
pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 −
𝛼⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .

¿Cuál método de respuesta aleatorizada es mejor?

Dowling & Shachtman (1975) muestran que la varianza del estimador de interés (𝜋̂) de la
versión Horvitz et al. (1967) es menor que la propuesta originalmente por Warner (1965).
Esto significa que al usar la versión propuesta por Horvitz et al. (1967) se obtienen
estimaciones de la proporción y el total más precisas, por lo que se sugiere que el
investigador use esta versión para realizar sus estudios.

EJEMPLOS

Ejemplo 7.1. Se elige una muestra aleatoria simple de 𝑛 = 200 de los 𝑁 =


270
1,500 trabajadores de la Coca-Cola. Cada trabajador de la muestra recibe una ficha con
las siguientes preguntas:

1.- ¿Has robado a tu empresa por lo menos una vez?


2.- ¿Cumples años del 1 al 10 de agosto?

Se tienen los expedientes de todos los trabajadores de la Coca-Cola y se sabe que 𝑝𝐼 =


10/365. Suponga que el mecanismo de aleatorización es una baraja con una fracción de
cartas marcadas con la letra A igual a 𝑝 = 0.75, y la fracción restante con las letras
sobrantes del abecedario. De los resultados de la encuesta se tienen que 𝑎 = 90
contestaron que si a la pregunta correspondiente.

a) La proporción de trabajadores que han robado a su empresa por lo menos una vez.

𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝

𝑎
donde: 𝜙̂ = 𝑛 = 90/200, 𝑝 = 0.75 y 𝑝𝐼 = 10/365.

90 10
−(1−0.75)
Por lo tanto: 𝜋̂ = 200 365
= 0. 590868.
0.75

b) La varianza y la desviación estándar de la proporción muestral (𝜋̂).

𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜋̂) = ( )
𝑁 𝑝2 𝑛

90
donde: 𝑁 = 1,500, 𝑛 = 200, 𝑝 = 0.75 y 𝜙̂ = 200.

Por lo tanto:

90 90
1,500 − 200 200 (1 − 200)
𝑉̂ (𝜋̂) = ( ) = 0.001907.
1,500 0.752 (200)

271
La desviación estándar: √𝑉̂ (𝜋̂) = √0.001907 = 0.043669.

c) El IC de 95% para la proporción poblacional.

𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)

donde: 𝜋̂ = 0. 590868, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍(1−𝛼⁄2) = 𝑍(1−0.025) = 1.96 y √𝑉̂ (𝜋̂) = 0.043669.

Por lo tanto:

0. 590868 ± (1.96)(0.043669)
0. 590868 ± 0. 085592
0.505276 ≤ 𝜋 ≤ 0. 67646.

d) El total de trabajadores que han robado a su empresa por lo menos una vez.

𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜏̂ = 𝑁𝜋̂ = 𝑁 ( )
𝑝

donde: 𝑁 = 1,500 y 𝜋̂ = 0. 590868. Por lo tanto: 𝜏̂ = (1,500)(0. 590868) = 886.

Así se tiene que el total de trabajadores que han robado a su empresa por lo menos
una vez es de 886.

e) El intervalo de confianza de 95% para el total poblacional.

𝜏 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂)

donde: 𝜏̂ = 886, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑁 = 1,500 y √𝑉̂ (𝜋̂) = 0.043669

Por lo tanto:

886 ± (1.96)(1,500)(0.043669)
272
886 ± 128.38686
757.61314 ≤ 𝜏 ≤ 1,014.38686.

Con 95% de confianza se estima que el total de trabajadores que han robado a su
empresa por los menos una vez está entre 757.61314 y 1,014.38686.

f) Si los 200 trabajadores encuestados son una muestra preliminar. El tamaño de


muestra necesario para estimar la proporción con una precisión 𝑑 = 0.05 y una
confiabilidad de 95% es:

2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2

90
donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75 y 𝜙̂ = 200.

Por lo tanto:

90 90
(200) (1 − 200)
(1,500)(1.96)2
𝑛∗ = 0.752 = 466.038621 = 467.
90 90
(200) (1 − 200)
(1,500)(0.05)2 + (1.96)2
0.752

g) Finalmente, el tamaño de muestra necesario para estimar la proporción con una


precisión 𝑑 = 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 90%
es:
2

2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )

donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75,

273
90
𝜙̂ = 200 = 0.45 y 𝑍𝛾 = 1.2816.

Primero se determina el tamaño de la muestra suponiendo población infinita:

√0.45(1 − 0.45) + √0.45(1 − 0.45) + 2(0.05)|1 − 2(0.45)|(1.2816) 1


𝑛𝑚 = 1.96 ( )
2(0.05) (0.75)2
( 1.96 )
2
0.497494 + √0.2475 + 0.006539 1
𝑛𝑚 = ( ) ( )
0.05102 (0.75)2
2
0.497494 + 0.504023 1
𝑛𝑚 = ( ) ( ) = 685.035717.
0.05102 (0.75)2

Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:

1,500
𝑛𝑚𝐹 = 685.035717 ( ) = 470.2685 = 471..
1,500 + 685.035717

Ejemplo 7.2. Se elige una muestra aleatoria simple de 180 de los 1,400 trabajadores de la
empresa lechera Liconsa. Cada trabajador de la muestra recibe una ficha con las
siguientes preguntas:

1.- ¿Has observado prácticas ilícitas en la empresa?


2.- ¿El último número de tu credencial de elector es par?

Se tienen los expedientes de todos los trabajadores de la empresa Liconsa y se sabe


que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con una fracción
de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante con las letras
sobrantes del abecedario. De los resultados de la encuesta se tienen que 36 contestaron
que si a la pregunta correspondiente.

a) Proporción de trabajadores que han observado prácticas ilícitas en la empresa donde


laboran.

274
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝

donde: 𝜙̂ = 36/180, 𝑝 = 0.8 y 𝑝𝐼 = 0.5.

Por lo tanto:

36
− (1 − 0.8)0.5
𝜋̂ = 180 = 0.125.
0.8

b) Varianza y la desviación estándar de la proporción muestral (𝜋̂).

𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜋̂) = ( )
𝑁 𝑝2 𝑛

donde: 𝑁 = 1,400, 𝑛 = 180, 𝑝 = 0.8 y 𝜙̂ = 36/180.

Por lo tanto:
36 36
1,400 − 180 180 (1 − 180)
𝑉̂ (𝜋̂) = ( ) = 0.00121.
1,400 0.82 (180)

La desviación estándar: √𝑉̂ (𝜋̂) = √0.00121 = 0.03479.

c) IC de 95% para la proporción poblacional.

𝜋 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂)

donde: 𝜋̂ = 0.125, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂) = 0.03479.

Por lo tanto:

0.125 ± (1.96)(0.03479)

275
0.125 ± 0.068188
0.056812 ≤ 𝜋 ≤ 0.193188.

d) Total de trabajadores que han observado prácticas ilícitas en la empresa donde


laboran.

𝜏̂ = 𝑁𝜋̂

donde: 𝑁 = 1,400 y 𝜋̂ = 0. 125.

Por lo tanto:

𝜏̂ = (1,400)(0. 125) = 175.

e) Intervalo de confianza de 95% para el total poblacional.

𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √𝑉̂ (𝜋̂)

donde: 𝜏̂ = 175, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 1,400 y √𝑉̂ (𝜋̂) = 0.03479.

Por lo tanto:

175 ± (1.96)(1,400)(0.03479)
175 ± 95.46376
79.53624 ≤ 𝜏 ≤ 270.46376

Con 95% de confianza se estima que el total de trabajadores que han observado
prácticas ilícitas en la empresa donde laboran está entre 79.53624 y 270.46376.

f) Suponga que los 180 trabajadores encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la proporción de tal manera que
sea estimada con una precisión de 𝑑 = 0.05 y una confiabilidad de 95%?
276
2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2

36
donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 , 𝑑 = 0.05, 𝑝 = 0.8 y 𝜙̂ = 180 = 0.2.

Por lo tanto:

(0.2)(1 − 0.2)
(1,400)(1.96)2
𝑛∗ = 0.82 = 301.4438 = 302.
2 2 (0.2)(1 − 0.2)
(1,400)(0.05) + (1.96)
0.82

g) ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera
que sea estimada con una precisión de 𝑑 = 0.05, una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%?

2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )

donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.8 , 𝜙̂ = 0.2 y


𝑍𝛾 = 2.3263.

Primero se determina el tamaño de la muestra suponiendo una población infinita.

2
2(0.05)|1−2(0.2)|(2.3263)
√0.2(1−0.2)+√0.2(1−0.2)+ 1
1.96
𝑛𝑚 = ( 2(0.05) ) ((0.8)2 )
1.96

2
0.4+√0.16+0.071213 1
𝑛𝑚 = ( ) ((0.8)2 )
0.05102

277
0.4+0.480846 2 1
𝑛𝑚 = ( ) ((0.8)2 ) = 465.73523.
0.05102

Finalmente se obtiene el tamaño de la muestra suponiendo una población finita.

𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚

1,400
𝑛𝑚𝐹 = 465.73523 ( ) = 349.4758 = 350.
1,400 + 465.73523

EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sean estimados con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 80%?

Ejercicio 7.1. Una investigadora desea estimar el porcentaje y total de mujeres casadas
que sufrieron de maltrato físico por parte de su pareja durante el 2014. Supóngase que en
el municipio de Colima, Colima, se tiene una población de matrimonios de 𝑁 = 10,000,
de la cual se toma una muestra aleatoria simple de 𝑛 = 138 parejas (pero sólo se pregunta
a los esposos). Cada esposo recibe una ficha con las siguientes preguntas:

Pregunta 1: ¿golpeó alguna vez a su esposa durante 2014?


Pregunta 2: ¿el número de su credencial de elector es par?

Sabemos que 𝑝𝐼 = 0.5. Supóngase que el mecanismo de aleatorización es una baraja


con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.8 y la fracción restante
con las letras sobrantes del abecedario. De los resultados se tiene que 65 respondieron
que sí.

278
Ejercicio 7.2. Un investigador desea estimar el porcentaje y total de hombres solteros de
24 años que han tenido relaciones sexuales sin protección. Se toma una muestra aleatoria
simple de 𝑛 = 160 hombres de esta edad de un total de 𝑁 = 15,000. Cada hombre de la
muestra recibe una ficha con las siguientes preguntas:

Pregunta 1: ¿has tenido relaciones sexuales sin protección?


Pregunta 2: ¿tu fecha de nacimiento es el 9 de junio de 1984?

A partir de un censo preliminar se determinó que del total de estos hombres, 9% nació
el 9 de junio de 1984. Por lo tanto, 𝑝𝐼 = 0.09. Supóngase que el mecanismo de
aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a
𝑝 = 0.85 y la fracción restante con las letras sobrantes del abecedario. De los resultados
de la encuesta se tiene que 40 respondieron que sí.

Ejercicio 7.3. Una investigadora desea estimar el porcentaje de hombres (de cierto
municipio) de entre 40 y 55 años que padecen o alguna vez padecieron disfunción eréctil.
Se toma una muestra aleatoria simple de 𝑛 = 186 hombres del total de la población (𝑁 =
8,000). A cada hombre se le preguntó (en fichas):

Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil?


Pregunta 2: ¿usted tiene 43 años?

De los registros del Centro de Salud municipal se obtuvo que 19% de esos hombres
tienen 43 años. Por lo tanto, 𝑝𝐼 = 0.19. Supóngase que el mecanismo de aleatorización es
una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.9 y la fracción
restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene
que 48 respondieron que sí.
Ejercicio 7.4. Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad)
entre 16 y 20 años que padecen o alguna vez padecieron bulimia o anorexia. Se toma una
muestra aleatoria simple de 𝑛 = 210 mujeres del total de la población (mujeres de entre
16 y 20 años, 𝑁 = 4,000). Cada una de las mujeres de la muestra recibe una ficha con las
siguientes preguntas:
279
Pregunta 1: ¿padece o ha padecido bulimia o anorexia?
Pregunta 2: ¿su signo zodiacal es tauro?

Se cuenta con un marco de muestreo que específica la fecha de nacimiento de las


mujeres, del cual se obtuvo que 13% pertenece al signo tauro. Por lo tanto, 𝑝𝐼 = 0.13.
Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas
marcadas con la letra A igual a 𝑝 = 0.75 y la fracción restante con las letras sobrantes del
abecedario. De los resultados de la encuesta se tiene que 100 respondieron que sí.

7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE

De igual manera, cuando la población es heterogénea se sugiere formar estratos para


mejorar la precisión.A continuación se presentan los estimadores versión Horvitz bajo
MAE.

Estimador de la proporción y el total estratificado

∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁
𝜏̂ = 𝑁𝜋̂𝑠𝑡

̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙 𝑎
donde: 𝜋̂𝑖 = , 𝜙̂𝑖 = 𝑛𝑖 , 𝑁 es el tamaño de la población, 𝐸 es el número de estratos
𝑝 𝑖

en que se divide la población, 𝑁𝑖 es la población en el estrato 𝑖, 𝑎𝑖 es el total de respuestas


afirmativas en la muestra de tamaño 𝑛𝑖 del estrato 𝑖, 𝑝 es la probabilidad de la pregunta
delicada o íntima, 𝑝𝐼 es la probabilidad de la pregunta intrascendente y se recomienda
estimarla a partir de registros históricos o de investigaciones confiables ya realizadas.

Varianza de la proporción y el total estratificado

𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1

280
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜏̂ 𝑠𝑡 ) = 𝑁 ∑ ( ) (
2
)
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1

Intervalo de confianza para la proporción y el total

𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )

𝜏̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂𝑠𝑡 )

𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑛 − 1 grados de


libertad por estrato. Los cuantiles requeridos se pueden obtener usando la tabla clásica
de la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

El tamaño de muestra para estimar la proporción

2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2

𝑁𝑖
donde: 𝑑 es la precisión fijada por el investigador y 𝑊𝑖 = .
𝑁

El tamaño de muestra modificado para estimar la proporción

2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1

281
donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que
2 ∗
la amplitud deseada, 𝜒𝑖(𝛾,𝑛 ∗
−1) es el cuantil 100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖 −
𝑖

1 grados de libertad por estrato y 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la


distribución t-Student con 𝑛 − 1 grados de libertad por estrato. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑛−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 7.3. Una persona está interesada en estimar la proporción de hombres con
problemas de erección en el estado de Guanajuato (el total de hombres es de 𝑁 = 20,000).
Además, la persona cree que la edad influye en tal problema, por lo que clasificó a la
población en dos estratos: menores de 30 (estrato 1) y mayores de 30 (estrato 2), donde la
población de cada estrato es 𝑁1 = 11,000 y 𝑁2 = 9,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 800) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:

1.- ¿Has tenido problemas de erección en algún momento de tu vida?


2.- ¿El último número de tu credencial de elector es impar?

Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas “si” en los entrevistados por estrato son: de 45 para el estrato 1 y de 40 para
el estrato dos.

a) La estimación de la proporción de hombres con problemas de erección en el estado


de Guanajuato.

282
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁

donde: 𝑁 = 20,000, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝐸 = 2,


𝑎 45 40
𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500, 𝜙̂2 = 300, 𝑝 = 5/6, 𝑝𝐼 = 0.5,
𝑖
45 5 40 5
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙 −(1− )0.5 −(1− )0.5
𝜋̂𝑖 = ∶ 𝜋̂1 = 500
5
6
= 0.008 y 𝜋̂2 = 300
5
6
= 0.06.
𝑝
6 6

Por lo tanto:

(11,000)(0.008) + (9,000)(0.06)
𝜋̂𝑠𝑡 = = 0.0314.
20,000

Esto significa que la proporción de hombres con problemas de erección en el estado


de Guanajuato es de 0.0314, es decir, el 3.14%.

b) La varianza y la desviación estándar de la proporción.

𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1

donde: 𝑁 = 20,000, 𝑛𝑖 : 𝑛1 = 500, 𝑛2 = 300, 𝑁𝑖 : 𝑁1 = 11,000, 𝑁2 = 9,000, 𝐸 = 2,


𝑎 𝑎 45 𝑎 40 5
𝑎𝑖 : 𝑎1 = 45, 𝑎2 = 40, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 500 , 𝜙̂2 = 𝑛2 = 300, 𝑝 = 6 y 𝑝𝐼 = 0.5.
𝑖 1 2

Por lo tanto:

45 45
11,000 2 11,000 − 500 500 (1 − 500)
𝑉̂ (𝜋̂𝑠𝑡 ) = ( ) ( )
20,000 11,000 5 2
(6) (500)
40 40
9,000 2 9,000 − 300 300 (1 − 300)
+( ) ( ) = 0.000177.
20,000 9,000 5 2
(6) (300)

283
La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.

c) IC de 95% para la proporción poblacional.

𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )

donde: 𝜋̂𝑠𝑡 = 0.0314, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.

Por lo tanto:

0.0314 ± (1.96)(0.013292)
0.0314 ± 0. 026052
0.005348 ≤ 𝜋𝑠𝑡 ≤ 0. 057452

Entonces se estima que la proporción de hombres con problemas de erección en el


estado de Guanajuato está entre 0.005348 y 0.057452.

d) El total estratificado.

𝜏̂ = 𝑁𝜋̂𝑠𝑡

donde: 𝑁 = 20,000 y 𝜋̂𝑠𝑡 = 0.0314.

Por lo tanto:

𝜏̂ = (20,000 )(0.0314) = 628 hombres.

e) El intervalo de confianza de 95% para el total poblacional.

𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)

donde: 𝜏̂ = 628, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑁 = 20,000 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.

284
Por lo tanto:

628 ± (1.96)(20,000)(0.013292)
628 ± 521.046817
106.953183 ≤ 𝜏 ≤ 1,149.046817

Por lo tanto, se estima que el total de hombres con problemas de erección en el estado
de Guanajuato está entre 106.9532 y 1149.0468.

f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de muestra para estimar la


proporción poblacional con una precisión del 75% de la proporción preliminar y una
confiabilidad de 95% es:

2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2

donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2,


5 𝑎 45 40
𝑑 = 0.75(𝜋̂𝑠𝑡 ) = 0.75(0.0314) = 0.02355, 𝑝 = 6, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300,
𝑖

𝑁𝑖 𝑁1 11,000 𝑁2 9,000
𝑊𝑖 = : 𝑊1 = = = 0.55, 𝑊2 = = = 0.45,
𝑁 𝑁 20,000 𝑁 20,000
45 45
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) ̂ 1 (1−𝜙
𝜙 ̂ 1) 11,000 (1− )
𝑊𝑖 : 𝑊1 = 20,000 (500 5 2
500
) = 0.064865,
𝑝2 𝑝2 ( )
6
40 40
̂ 2 (1−𝜙
𝜙 ̂ 2) 9,000 (1− )
𝑊2 = 20,000 ( 300
5 2
300
) = 0.07488 y
𝑝2 ( )
6

̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖)
∑2𝑖=1 𝑊𝑖 = 0.064865 + 0.07488 = 0.139745.
𝑝2

Por lo tanto:


(20,000)(1.96)2 (0.139745) 10,736.88784
𝑛 = = = 923.2939 = 924.
(20,000)(0.02355)2 + (1.96)2 (0.139745) 11.628895

La asignación de la muestra proporcional:

285
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 20,000, 𝑛∗ = 923.2939, 𝑁𝑖 : 𝑁1 = 11,000 y 𝑁2 = 9,000.

Por lo tanto:

11,000
𝑛1∗ = (923.2939) = 507.811645 = 508
20,000
9,000
𝑛2∗ = (923.2939) = 415.482255 = 416.
20,000

La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada y una confiabilidad de 95% es de: 924 hombres: 508 menores
de 30 años y 416 mayores de 30 años.

g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión del 75% de la proporción preliminar, una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 90% es:

2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1

5
donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2, 𝑑 = 0.02355, 𝑝 = 6,
𝑎 45 40 𝑁 11,000 9,000
𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300, 𝑊𝑖 = 𝑁𝑖 : 𝑊1 = 20,000 = 0.55, 𝑊2 = 20,000 = 0.45,
𝑖

2 2 2
𝜒𝑖(𝛾,𝑛 ∗
−1) : 𝜒1(𝛾,𝑛1∗ −1) = 548.0172, 𝜒2(𝛾,𝑛2∗ −1) = 451.7821,
𝑖
2 45 45
̂ 1 (1−𝜙
𝜙 ̂ 1) 𝜒1(𝛾,𝑛∗ −1) 11,000 (1− ) 548.0172
1 500 500
𝑊1 ( ) = 20,000 ( 5 2
) 507.811645−1 = 0.070139,
𝑝2 𝑛1∗ −1 ( )
6
2 40 40
̂ 2 (1−𝜙
𝜙 ̂ 2) 𝜒2(𝛾,𝑛∗ −1) 9,000 (1− ) 451.7821
𝑊2 ( 2
) = 20,000 (300 5 2
300
) (415.482255−1) = 0.081619 y
𝑝2 𝑛2∗ −1 ( )
6

286
2
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) 𝜒𝑖(𝛾,𝑛∗ −1)
∑2𝑖=1 𝑊𝑖 ( 𝑖
) = 0.070139 + 0.081619 = 0.151758.
𝑝2 𝑛𝑖∗ −1

Por lo tanto:

(20,000)(1.96)2 (0.151758) 11659.870656


𝑛𝑚 = 2 2
= = 998.7004 = 999.
(20,000)(0.02355) + (1.96) (0.151758) 11.675044

La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 20,000, 𝑛𝑀 = 998.7004, 𝑁1 = 11,000 y 𝑁2 = 9,000.

Por lo tanto:

11,000
𝑛𝑚 1 = (998.7004) = 549.28522 = 549
20,000
9,000
𝑛𝑚 2 = (998.7004) = 449.41518 = 450.
20,000

La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento de
99% es de: 999 hombres: 549 menores de 30 años y 450 mayores de 30 años.

Ejemplo 7.4. En la ciudad de México un sexólogo desea realizar una investigación para
conocer el número de mujeres que han tenido relaciones sexuales premaritales (se
encontró que el número de mujeres era de 𝑁 = 40,000). Además, se piensa que el nivel
de vida influye en la decisión de tener relaciones sexuales antes del matrimonio, por lo
que se clasificó a la población en tres estratos: pobres (estrato 1), nivel medio (estrato 2)
y ricos (estrato 3). La población de cada estrato es 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 =
5,000. Para el estudio se tomó una muestra aleatoria simple de la población de mujeres
distribuidas de la siguiente manera: 𝑛1 = 2,000, 𝑛2 = 1,400 y 𝑛3 = 600 mujeres.
287
1.- ¿Has tenido relaciones sexuales premaritales?
2.- ¿El año en que naciste es par?

Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas afirmativas en los entrevistados por estrato son: 520 para el primer estrato,
360 para el segundo y 180 para el tercero.

a) La estimación de la proporción de mujeres residentes en la ciudad de México que han


tenido relaciones sexuales premaritales.

∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁

donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180,
𝑎 𝑎 520 𝑎 360 𝑎 180
𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 𝑛1 = 2,000 , 𝜙̂2 = 𝑛2 = 1,400 , 𝜙̂3 = 𝑛3 = 600 , 𝑝 = 5/6, 𝑝𝐼 = 0.5,
𝑖 1 2 3

520 5 360 5
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙 −(1− )0.5 −(1− )0.5
𝜋̂𝑖 = : 𝜋̂1 = 2,000
5
6
= 0.212, 𝜋̂2 = 1,400
5
6
= 0.2086 y
𝑝
6 6
180 5
−(1− )0.5
600 6
𝜋̂3 = 5 = 0.26.
6

Por lo tanto:

(19,000)(0.212) + (16,000)(0.2086) + (5,000)(0.26)


𝜋̂𝑠𝑡 = = 0.2166.
40,000

Esto significa que la proporción de mujeres residentes en la ciudad de México que


han tenido relaciones sexuales premaritales es de 0.2166, es decir, el 21.66%.

b) La varianza y la desviación estándar de la proporción.

288
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1

donde: 𝑁 = 40,000, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180,
𝑎 520 360 180
𝑝 = 5/6, 𝜙̂𝑖 = 𝑖 : 𝜙̂1 = , 𝜙̂2 = y 𝜙̂3 = .
𝑛𝑖 2,000 1,400 600

Por lo tanto:

520 520 360 360


19,0002 19,000−2,000 (1− ) 16,000 2 16,000−1,400 1,400(1−1,400)
𝑉̂ (𝜋̂𝑠𝑡 ) = (40,000) ( 19,000 ) 2,000
5 2
2,000
+ (40,000) ( 16,000 ) 5 2
( ) (2,000) ( ) (1,400)
6 6
180 180
5,000 2 5,000−600 600(1−600)
+ (40,000) ( ) 5 2
= 0.000064.
5,000 ( ) (600)
6

La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.

c) IC de 95% para la proporción poblacional.

𝜋̂𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜋̂𝑠𝑡 )

donde: 𝜋̂𝑠𝑡 = 0.2166, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.

Por lo tanto:

0.2166 ± (1.96)(0.007974)
0.2166 ± 0.015629
0.200971 ≤ 𝜋𝑠𝑡 ≤ 0.232229

Por lo tanto, se estima que la proporción de mujeres residentes en la ciudad de México


que han tenido relaciones sexuales premaritales está entre 0.200971 y 0.232229.

d) El total estratificado.
289
𝜏̂ = 𝑁𝜋̂𝑠𝑡

donde: 𝑁 = 40,000 y 𝜋̂𝑠𝑡 = 0.2166.

Por lo tanto:

𝜏̂ = (40,000 )(0.2166) = 8,664 mujeres.

e) El intervalo de confianza de 95% para el total poblacional.

𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁√𝑉̂ (𝜋̂)

donde: 𝜏̂ = 8,664, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑁 = 40,000 y

√𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.

Por lo tanto:

8,664 ± (1.96)(40,000)(0.007974)
8,664 ± 625.1616
8,038.8384 ≤ 𝜏 ≤ 9,289.1616

Entonces se estima que el total de mujeres residentes en la ciudad de México que han
tenido relaciones sexuales premaritales está entre 8,038.83 y 9,289.1616.

f) Si 𝑛 = 4,000 es una muestra preliminar. El tamaño de muestra para estimar la


proporción poblacional con una precisión del 10% de la proporción preliminar y una
confiabilidad de 95%, es:

2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊
⁄2) 𝑖=1 𝑖 𝑝2

donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3,


290
5
𝑑 = 0.1(𝜋̂𝑠𝑡 ) = 0.75(0.2166) = 0.02166, 𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000,

𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400, 𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520,


𝑁𝑖 𝑁1 19,000
𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 = : 𝑊1 = = 40,000 = 0.475,
𝑁 𝑁
𝑁2 16,000 𝑁2 5,000
𝑊2 = = 40,000 = 0.4, 𝑊3 = = 40,000 = 0.125,
𝑁 𝑁

𝑎𝑖 520 360 180


𝜙̂𝑖 = : 𝜙̂1 = , 𝜙̂2 = , 𝜙̂3 = ,
𝑛𝑖 2,000 1,400 600
520 520
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) ̂ 1 (1−𝜙
𝜙 ̂ 1) 19,000 (1− )
2,000 2,000
𝑊𝑖 : 𝑊1 = 40,000 ( 2 ) = 0.131602,
𝑝2 𝑝2 5
( )
6
360 360
̂ 2 (1−𝜙
𝜙 ̂ 2) 16,000 (1− )
1,400 1,400
𝑊2 = 40,000 ( 5 2
) = 0.110028,
𝑝2 ( )
6
180 180
̂ 3 (1−𝜙
𝜙 ̂ 3) 5,000 (1− )
𝑊3 = 40,000 ( 600
5 2
600
) = 0.0378 y
𝑝2 ( )
6

̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖)
∑3𝑖=1 𝑊𝑖 = 0.131602 + 0.110028 + 0.0378 = 0.27943.
𝑝2

Por lo tanto:


(40,000)(1.96)2 (0.27943) 42,938.3315
𝑛 = = = 2,164.2651 = 2165.
(40,000)(0.02166)2 + (1.96)2 (0.27943) 19.839682

La asignación de la muestra proporcional:

𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁

donde: 𝑁 = 40,000, 𝑛∗ = 2,164.2651, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000

Por lo tanto:

19,000
𝑛1∗ = (2,164.2651) = 1,028.0259 = 1,028
40,000
16,000
𝑛2∗ = (2,164.2651) = 865.706 = 866
40,000

291
5,000
𝑛3∗ = (2,164.2651) = 270.5331 = 271.
40,000

El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada y una confiabilidad de 95%, es de: 2,165 mujeres: 1,028
pobres, 866 de nivel medio y 271 de clase alta.

g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión (𝑑) del 0.05 una confiabilidad de 95% y un nivel de
aseguramiento (𝛾) de 90%, es:

2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1

donde: 𝑁 = 40,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 3, 𝑑 = 0.02166,


5
𝑝 = 6 , 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000, 𝑁3 = 5,000, 𝑛𝑖 : 𝑛1 = 2,000, 𝑛2 = 1,400,
𝑁𝑖 19,000
𝑛3 = 600, 𝑎𝑖 : 𝑎1 = 520, 𝑎2 = 360, 𝑎3 = 180, 𝑊𝑖 = : 𝑊1 = 40,000 = 0.475,
𝑁
16,000 5,000 𝑎 520 360 180
𝑊2 = 40,000 = 0.4, 𝑊3 = 40,000 = 0.125, 𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 2,000 , 𝜙̂2 = 1,400, 𝜙̂3 = 600,
𝑖

2 2 2 2
𝜒𝑖(𝛾,𝑛 ∗ : 𝜒1(𝛾,𝑛 ∗
1 −1)
= 1,135.4, 𝜒2(𝛾,𝑛 ∗
2 −1)
= 964.3807, 𝜒3(𝛾,𝑛 ∗
3 −1)
= 326.4674,
𝑖 −1)

2 520 520
̂ 1 (1−𝜙
𝜙 ̂ 1) 𝜒1(𝛾,𝑛∗ −1) (1− ) 1,135.4
𝑊1 ( 1
) = 0.475 (2,000 2,000
2 ) 1,028.0259−1 = 0.145488,
𝑝2 𝑛1∗ −1 5
( )
6

2 360 360
̂ 2 (1−𝜙
𝜙 ̂ 2) 𝜒2(𝛾,𝑛 ∗ −1) (1− ) 964.3807
2 1,400 1,400
𝑊2 ( ) = 0.4 ( 5 2
) 865.706−1 = 0.122711,
𝑝2 𝑛2∗ −1 ( )
6

2 180 180
̂ 3 (1−𝜙
𝜙 ̂ 3) 𝜒3(𝛾,𝑛 ∗ (1− ) 326.4674
3 −1)
𝑊3 ( ∗ ) = 0.125 ( 600
5 2
600
) (270.5331−1) = 0.045785 y
𝑝2 𝑛3 −1 ( )
6
2
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) 𝜒𝑖(𝛾,𝑛∗ −1)
∑3𝑖=1 𝑊𝑖 ( 𝑖
) = 0.145488 + 0.122711 + 0.045785 = 0.313984.
𝑝2 𝑛𝑖∗ −1

Por lo tanto:

292
(40,000)(1.96)2 (0.313984)
𝑛𝑚 =
(40,000)(0.02166)2 + (1.96)2 (0.313984)
48,248.0374
𝑛𝑚 = = 2,415.7326 = 2,416.
19.972425

La asignación de la muestra proporcional:

𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚

donde: 𝑁 = 40,000, 𝑛𝑚 = 2,415.7326, 𝑁𝑖 : 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 = 5,000.

Por lo tanto:

19,000
𝑛𝑚 1 = (2,415.7326) = 1,147.473 = 1,148
40,000
16,000
𝑛𝑚 2 = (2,415.7326) = 966.293 = 967
40,000
5,000
𝑛𝑚 3 = (2,415.7326) = 301.9666 = 302.
40,000

El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento
de 99% es de: 2,417 mujeres: 1,148 pobres, 967 de nivel medio y 302 de clase alta.

EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción y el total, de tal
manera que sean estimados con una precisión de 5% de la proporción preliminar y un
nivel de aseguramiento de 90%? Además considerar que 𝑝𝐼 = 0.5 y que el mecanismo de
aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a
𝑝 = 5/6 y la fracción restante con las letras sobrantes del abecedario.

293
Ejercicio 7.5. Una persona está interesada en estimar la proporción de hombres con
experiencias homosexuales en el estado de Nuevo León (el total de hombres es de 𝑁 =
16,000). Además, la persona cree que la edad influye en tal problema, por lo que clasificó
a la población en dos estratos: menores o iguales a 30 (estrato 1) y mayores de 30 (estrato
2), donde la población de cada estrato es 𝑁1 = 9,000 y 𝑁2 = 7,000. Para el estudio se tomó
una muestra aleatoria simple (𝑛 = 650) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 350 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:

1.- ¿Has tenido alguna experiencia homosexual en algún momento de tu vida?


2.- ¿Naciste el primero de abril?

De los resultados de la encuesta se tiene que el número de respuestas “Si” en los


entrevistados por estrato es: de 40 para el estrato 1 y de 36 para el estrato dos.

Ejercicio 7.6. Una persona está interesada en estimar la proporción de hombres con doble
vida marital oculta en un municipio del Estado de México (el total de hombres es de 𝑁 =
22,000). Además, la persona cree que la religión influye en tal problema, por lo que
clasificó a la población en dos estratos: católicos (estrato 1) y cristianos (estrato 2), donde
la población de cada estrato es 𝑁1 = 15,000 y 𝑁2 = 7,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 700) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 200 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:

1.- ¿Tienes doble vida marital oculta?


2.- ¿Has viajado al extranjero?

De los resultados de la encuesta se tiene que el número de respuestas “Si” en los


entrevistados por estrato es: de 25 para el estrato 1 y de 11 para el estrato dos.

Ejercicio 7.7. Un investigador está interesado en estimar la proporción de hombres que


han visitado por lo menos una vez antros homosexuales en el estado Jalisco (el total de
294
hombres es de 𝑁 = 28,000). Además, la persona cree que la edad influye en tal situación,
por lo que clasificó a la población en dos estratos: menores o iguales a 25 años (estrato 1)
y mayores a 25 años (estrato 2), donde la población de cada estrato es 𝑁1 = 16,000 y 𝑁2 =
12,000. Para el estudio se tomó una muestra aleatoria simple (𝑛 = 900) de la población
objetivo, que se distribuyó de la siguiente manera: 𝑛1 = 500 y 𝑛2 = 300 hombres. Cada
hombre de la muestra recibe una ficha con las siguientes preguntas:

1.- ¿Has visitado por lo menos una vez antros homosexuales?


2.- ¿Has viajado al extranjero?

De los resultados de la encuesta se tiene que el número de respuestas “Si” en los


entrevistados por estrato es: de 28 para el estrato 1 y de 20 para el estrato dos.

Ejercicio 7.8. Una empresa está interesada en estimar la proporción de mujeres que han
sido víctimas de abuso sexual en el estado Guerrero (el total de mujeres es de 𝑁 =
24,000). Además, la empresa cree que la procedencia influye en tal situación, por lo que
clasificó a la población en dos estratos: procedencia rural (estrato 1) y procedencia urbana
(estrato 2), donde la población de cada estrato es 𝑁1 = 13,000 y 𝑁2 = 11,000. Para el
estudio se tomó una muestra aleatoria simple (𝑛 = 760) de la población objetivo, que se
distribuyó de la siguiente manera: 𝑛1 = 400 y 𝑛2 = 360 mujeres. Cada mujer de la
muestra recibe una ficha con las siguientes preguntas:

1.- ¿Has sufrido de abuso sexual a lo largo de tu vida?


2.- ¿Tienes VISA americana?

De los resultados de la encuesta se tiene que el número de respuestas “si” en las


entrevistadas por estrato es: de 18 para el estrato 1 y de 11 para el estrato dos.

295
Capítulo 8. Pruebas por grupos

CAPÍTULO 8
Pruebas por grupos

En estadística agrupar
es sensato
siempre y cuando,
la situación amerite este trato.
EESF

El método pruebas por grupos (en inglés Group Testing) consiste en aplicar pruebas a un
conjunto de elementos en lugar de realizar pruebas individuales. Para comprender de
mejor manera este método suponga que se tienen 100 personas sospechosas de padecer
el virus de la influenza AH1N1. Para saber quiénes padecen esta enfermedad se
necesitaría hacer una prueba a cada una de estas personas, es decir, hacer una prueba de
laboratorio para cada persona. Sin embargo, Dorfman (1943) propuso que para ahorrar
tiempo y dinero se puede juntar el material (sangre en el caso de Dorfman) de 𝑥 personas
y mezclarlos perfectamente y en lugar de realizar pruebas individuales, ahora se realizará
una sola prueba a la mezcla resultante de estos 𝑥 individuos. Por lo tanto, si se mezcla la
sangre de 10 individuos por grupo, sólo se realizarán 10 pruebas de laboratorio. Si un
grupo resulta negativo se concluye que los 𝑥 individuos que lo conforman están libres de
este virus. Por otro lado, si el grupo resulta positivo significa que al menos uno de los 𝑥
individuos presenta el virus de la influenza y, si se desea saber quién es este individuo,
se sugiere realizar una prueba individual a los individuos que conforman al grupo que
arrojo el resultado positivo. No obstante, para efectos de estimación del porcentaje de
individuos que padecen este virus no es necesario realizar una prueba individual a los
elementos de un grupo positivo. Otros ejemplos de aplicación este método es juntar el
material genético de plantas y realizar pruebas sobre la mezcla obtenida (Montesinos-

296
López et al., 2011; Montesinos-López et al., 2012a), estimación de prevalencia animal,
detección de agentes infecciosos entre otros (Montesinos-López et al., 2012b)

8.1 Pruebas por grupo bajo MAS

Por lo antes expresado, si se conoce el tamaño de la población (𝑁) y el tamaño del grupo
(𝑥), el número de pruebas de laboratorio a realizar es igual a 𝐺 = 𝑁/𝑥. Sin embargo, si se
toma una muestra de 𝑛 elementos de esta población 𝑁 y se define a 𝑥 como el tamaño del
grupo, el número de pruebas a realizar será igual a 𝑔 = 𝑛/𝑥.

La proporción muestral

El estimador de máxima verosimilitud (EMV) de la prevalencia mínima fue definido por


Kline et al. (1989) como:

𝑦 1⁄𝑥
𝑝 = 1 − (1 − ⁄𝑔)

donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del


grupo.

El estimador de la varianza 𝑺𝟐𝒑

𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2

El estimador del total

𝜏̂ = 𝑁𝑝

Los intervalos de confianza para la proporción y el total

𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁𝑆𝑝
297
donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

El estimador del tamaño de muestra (pools)

2 1 − (1 − 𝑝)𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2)
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2

donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la


distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

El estimador del tamaño de muestra modificado (pools)

De acuerdo a Montesinos-López et al. (2012a) el tamaño de muestra modificado bajo


enfoque AIPE es:
2

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2

2 1 2 4𝑑
𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

2 1
−1 2( −1)
𝑦
donde: 𝑃𝑔 = 𝑔, ℎ(𝑃𝑔 ) = √(1−𝑃𝑔)𝑥 𝑃𝑔
,
1 (1−𝑃𝑔 ) 𝑥
ℎ′ (𝑃𝑔 ) = 𝑥 (1 −
2𝑃𝑔
), 𝛾 es la
𝑥2 2
−1 𝑥
2√(1−𝑃𝑔 )𝑥 𝑃𝑔

probabilidad de que el IC para la proporción no sea mayor que la amplitud deseada, 𝑍𝛾

298
es el cuantil 𝛾 de la distribución normal estándar y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 −
𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 8.1. En el estado de Zacatecas un grupo de encuestadores quiere conocer


cuántas mujeres de entre 30 y 50 años de edad tienen cáncer de mama. Esto con el objetivo
de poder exigir al centro de salud una cantidad mayor de mamografías gratuitas. Puesto
que el costo de una mamografía es muy elevado, se decide utilizar el método de pruebas
por grupo, donde la población fue de 𝑁 = 5,000 mujeres tomando una muestra de
tamaño 𝑛 = 500 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y
la población son 𝑔 = 50 y 𝐺 = 500 respectivamente. De estos pools muestreados
resultaron 𝑦 = 15 positivos.

a) La proporción de interés.

𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
1⁄
𝑝 = 1 − (1 − 15⁄50) 10

𝑝 = 1 − (1 − 0.3)0.1
𝑝 = 0.035.

b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ).

𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2

donde: 𝐺 = 500, 𝑔 = 50, 𝑝 = 0.035 y 𝑥 = 10.

299
Por lo tanto:

500−50 1−(1−0.035)10 0.299718


𝑆𝑝2 = ( ) (50(10)2 (1−0.035)10−2 )=(0.9) (3,760.0058) = (0.9)(0.00008) = 0.000072.
500

La desviación estándar: Sp = √0.000072 = 0.008485.

c) El IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.035, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.008485.

Por lo tanto:

0.035 ± 1.96(0.008485)
0.035 ± 0.016631
0.018369 ≤ 𝑃 ≤ 0.051631

Con 95% de confianza se estima que la proporción de mujeres de entre 30 y 50 años


de edad que tienen cáncer de mama está entre 1.83% y 5.16%.

d) El total verdadero de mujeres que tienen cáncer de mama.

𝜏̂ = 𝑁𝑝

donde: 𝑁 = 5,000 y 𝑝 = 0.035. Por lo tanto: 𝜏̂ = 5,000(0.035) = 175 mujeres.

e) El IC para el total con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝

donde: 𝜏̂ = 175, 𝑆𝑝 = 0.008485, 𝑁 = 5,000 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.


300
Por lo tanto:

𝜏̂ ± (1.96)(5,000)(0.008485)
175 ± 83.153
91.847 ≤ 𝜏 ≤ 258.153

Con 95% de confianza se estima que el total de mujeres que tienen cáncer de mama
está entre 91.847 y 258.153.

f) Si 𝑔 es una muestra preliminar, el número de pools para estimar 𝑝 con una precisión
de 0.05 y con una confiabilidad de 95%, es:

2 1 − (1 − 𝑝)𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2)
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2

donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035, 𝑑 = 0.05 y 𝑥 = 10.

Por lo tanto:

1 − (1 − 0.035)10
500(1.96)2 8.4626
102 (1 − 0.035)10−2
𝑔∗ = 10 = = 6.6797 = 7 pools.
2 2 1 − (1 − 0.035) 1.2669
500(0.05) + (1.96)
102 (1 − 0.035)10−2

g) Finalmente, el número de pools para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y además un nivel de aseguramiento del 99% (𝛾 = 0.99), es:
2

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2

2 1 2 4𝑑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

301
𝑦 15
donde: 𝑃𝑔 = 𝑔 = 50 = 0.3, 𝑥 = 10, 𝑑 = 0.05, 𝑍𝛾 = 𝑍0.99 = 2.3263,

𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.035,

2 2
−1 −1
(1−𝑃𝑔 )𝑥 𝑃𝑔 (1−0.3)10 (0.3)
ℎ(𝑃 ) = √
𝑔 =√ = 0.063172,
𝑥2 102

1 1
2( −1)
′ 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1−0.3)2(10−1) 2(0.3)
ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ) = 10 (1 − )
−1 𝑥 2 10
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 2√(1−0.3)10 (0.3)
−1

1 (0.7)(−1.8) 1 1.900306
ℎ′ (𝑃𝑔 ) = (1 − 0.06) = ( ) (0.94) = 0.141383.
10 2√(0.7)−0.8 (0.3) 10 1.263431

Por lo tanto:

2
1 4(0.05)
500(1.96)2 ( ) (0.063172 + √(0.063172)2 + (2.3263)|0.141383|√0.3(1 − 0.3))
4 1.96
𝑔𝑚 = 2
1 4(0.05)
500(0.05)2 + (1.96)2 ( ) (0.063172 + √(0.063172)2 + (2.3263)|0.141383|√0.3(1 − 0.3))
4 1.96

1
1,920.8 (4) (0.063172 + 0.139177)2 19.6618
𝑔𝑚 = = = 15.2499 = 16.
1 1.2893
1.25 + (1.96)2 (4) (0.063172 + 0.139177)2

Ejemplo 8.2. Una empresa privada quiere conocer cuántos hombres de entre 20 y 40 años
de edad tienen cáncer de próstata. Esto con el objetivo de poder exigir al centro de salud
una cantidad mayor de estudios gratuitos. Puesto que el costo de un examen antígeno
prostático específico (PSA) es muy elevado, se decide utilizar el método de pruebas por
grupo, donde la población fue de 𝑁 = 3,500 hombres tomando una muestra de tamaño
𝑛 = 400 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la
población son 𝑔 = 40 y 𝐺 = 350, respectivamente. De estos pools muestreados resultaron
𝑦 = 6 positivos.
a) La proporción de interés.

𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
1⁄
𝑝 = 1 − (1 − 6⁄40) 10

𝑝 = 1 − (1 − 0.15)0.1

302
𝑝 = 0.0161.

b) La varianza y desviación estándar de la proporción muestral (𝑆𝑝 ).

𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2

donde: 𝐺 = 350, 𝑔 = 40, 𝑝 = 0.0161 y 𝑥 = 10.

Por lo tanto:

350−40 1−(1−0.0161)10 0.149823


𝑆𝑝2 = ( 350
) (40(10)2 (1−0.0161)10−2 )=(0.885714) (3,512.915278) = 0.000037.

La desviación estándar: Sp = √0.000037 = 0.006146.

c) El IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.0161, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.006146.

Por lo tanto:

0.0161 ± 1.96(0.006146)
0.0161 ± 0.012046
0.004054 ≤ 𝑃 ≤ 0.028146

Con 95% de confianza se estima que la proporción de hombres de entre 20 y 40 años


de edad que tienen cáncer de próstata está entre 0.40% y 2.81%.

d) El total verdadero de hombres que tienen cáncer de próstata.

303
𝜏̂ = 𝑁𝑝

donde: 𝑁 = 3,500 y 𝑝 = 0.0161.

Por lo tanto:

𝜏̂ = 3,500(0.0161) = 56.35 = 57 hombres.

e) El IC para el total con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝

donde: 𝜏̂ = 56.35, 𝑆𝑝 = 0.006146, 𝑁 = 3,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

56.35 ± (1.96)(3,500)(0.006146)
56.35 ± 42.16156
14.18844 ≤ 𝜏 ≤ 98.51156

Con 95% de confianza se estima que el total de hombres que tienen cáncer de próstata
está entre 14.1884 y 98.5115.

f) Si 𝑔 es una muestra preliminar, el tamaño de muestra, número de pools, para estimar


𝑝 con una precisión de 3% y con una confiabilidad de 95%, es:

2 1 − (1 − 𝑝)𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ⁄2 𝑥 2 (1 − 𝑝) 𝑥−2

donde: 𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96, 𝑝 = 0.0161, 𝑑 = 0.03 y 𝑥 = 10.

304
Por lo tanto:

1 − (1 − 0.0161)10
350(1.96)2 2.293768
102 (1 − 0.0161)10−2
𝑔∗ = = = 7.1334 = 8 pools.
1 − (1 − 0.0161)10 0.321554
350(0.03)2 + (1.96)2 2
10 (1 − 0.0161)10−2

g) Finalmente, el tamaño de muestra, número de pools, para estimar 𝑝 con una precisión
de 3%, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99), es:

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2

2 1 2 4𝑑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

𝑦 6
donde: 𝑃𝑔 = 𝑔 = 40 = 0.15, 𝑥 = 10, 𝑑 = 0.03, 𝑍𝛾 = 2.4341,

𝐺 = 350, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96,

2 2
−1 −1
(1−𝑃𝑔 )𝑥 𝑃𝑔 (1−0.15)10 (0.15)
ℎ(𝑃 ) = √
𝑔 =√ = 0.041331,
𝑥2 102

1 1
2( −1)
′ 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1−0.15)2(10−1) 2(0.15)
ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ) = 10 (1 − )
−1 𝑥 2 10
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 2√(1−0.15)10 (0.15)
−1

1 (0.85)(−1.8) 1 1.339818
ℎ′ (𝑃𝑔 ) = 10 (1 − 0.03) = ( ) (0.97) = 0.157221.
2√(0.85)−0.8 (0.15) 10 0.826624

Por lo tanto:

2
1 4(0.03)
350(1.96)2 ( ) (0.041331 + √(0.041331)2 + (2.4341)|0.157221|√0.15(1 − 0.15))
4 1.96
𝑔𝑚 = 2
1 4(0.03)
350(0.03)2 + (1.96)2 ( ) (0.041331 + √(0.041331)2 + (2.4341)|0.157221|√0.15(1 − 0.15))
4 1.96

1
1,344.56 (4) (0.041331 + 0.100372)2 6.749604
𝑔𝑚 = = = 20.1911 = 21.
1 0.334285
0.315 + (1.96)2 (4) (0.041331 + 0.100372)2

305
EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 90%?

Ejercicio 8.1. La Secretaría de Salud del Estado de Nuevo León quiere conocer cuántos
niños de entre 5 y 12 años de edad tienen cáncer. Puesto que el costo de los estudios son
muy elevados, se decide utilizar el método de pruebas por grupo, donde la población fue
de 𝑁 = 4,500 niños tomando una muestra de tamaño 𝑛 = 480 con 𝑥 = 12, de modo que
el número de pools a formar con la muestra y la población son 𝑔 = 40 y 𝐺 = 375
respectivamente, de estos pools muestreados resultaron 𝑦 = 8 positivos.

Ejemplo 8.2. Una empresa particular quiere conocer cuántos ancianos de entre 55 y 70
años de edad tienen el virus XXY. Se decide utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,000 ancianos tomando una muestra de tamaño 𝑛 =
300 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población
son 𝑔 = 30 y 𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 5
positivos.

Ejemplo 8.3. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Monterrey tienen el virus de la hepatitis B. Se decide utilizar el método
de pruebas por grupo. La población es de 𝑁 = 2,880 personas y se toma una muestra de
tamaño 𝑛 = 270 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y
la población son 𝑔 = 30 y 𝐺 = 320, respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos.

8.2 Pruebas por grupo en pruebas imperfectas bajo MAS

306
Proporción muestral

Tanto 𝑆𝑒 como 𝑆𝑝 deben ser más grandes que 0.5 para que exista el EMV, lo cual aplica a
la mayoría de las pruebas de laboratorio que son útiles. Cuando, 1 − 𝑆𝑝 ≤ 𝑦/𝑔 ≤ 𝑆𝑒 el
EMV es:

1⁄
𝑦 𝑥
𝑆𝑒 − ⁄𝑔
𝑝 =1−( )
𝑆𝑒 + 𝑆𝑝 − 1

donde 𝑦 denota el número de grupos positivos, 𝑔 el número de grupos y 𝑥 el tamaño del


grupo.

El estimador de la varianza

2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( )
𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥

El estimador del total

𝜏̂ = 𝑁𝑝

Los intervalos de confianza para la proporción y el total

𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝

donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1


grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

307
Estimación del tamaño de muestra (pools)

2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )

𝑔∗ = 2
−2
2 2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ( 2 ( ) )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1

𝑦
donde 𝑓 = ⁄𝑔 , 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la

distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden


obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

Estimación del tamaño de muestra modificado (pools)

El tamaño de muestra (pools) modificado bajo el enfoque AIPE se muestra a


continuación

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2

2 1 4𝑑 2
𝐺𝐻𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

2 1
2 −2 2( −1)
𝑦 1−𝑃𝑔 𝑥 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔
donde: 𝑃𝑔 = 𝑔, 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 ) 𝑥 ′
, ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ),
𝑔 −1 𝑥
2√(1−𝑃𝑔 )𝑥 𝑃𝑔

2
−1
(1−𝑃𝑔 )𝑥 𝑃𝑔
ℎ(𝑃 ) = √
𝑔 , 𝛾 es la probabilidad de que el IC para la proporción estratificada no
𝑥2

sea mayor que la amplitud deseada, y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la


distribución t-Student con 𝑔 − 1 grados de libertad por estrato. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-

308
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 8.3. En el estado de Sonora, una investigadora quiere conocer cuántos hombres
mayores de 50 años tienen cáncer de próstata. Esto con el objetivo de comenzar una
campaña de prevención. Puesto que el costo de un análisis es muy elevado, se decide
utilizar el método de Group Testing para la población 𝑁 = 5,500, tomando una muestra
de tamaño 𝑛 = 660, con 𝑥 = 11, de modo que el número de pools a formar con la muestra
y la población sea de 𝑔 = 60 y 𝐺 = 500. Respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos, además 𝑆𝑒 = 0.98 y 𝑆𝑝 = 0.97.

a) La estimación de la proporción de interés.

1⁄ 1⁄
𝑦 𝑥
0.98 − 6⁄60
11
𝑆𝑒 − ⁄𝑔
𝑝 =1−( ) = 1−( ) = 0.006934.
𝑆𝑒 + 𝑆𝑝 − 1 0.98 + 0.97 − 1

b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ).

2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( )
𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥

donde: 𝐺 = 500, 𝑔 = 60, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97 𝑦 = 6 y 𝑥 = 11.

Por lo tanto:

2
−2
500 − 60 (0.98 − 6⁄60)11 (6⁄60)(1 − 6⁄60)
2
𝑆𝑝 = ( )( )( 2 )
500 60(11)2 (0.98 + 0.97 − 1) ⁄11

𝑆𝑝2 = (0.88)(0.000174)(0.090843) = 0.000014.

309
La desviación estándar: 𝑆𝑝 = √0.000014 = 0.003741.

c) El IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.006934, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.003741.

Por lo tanto:

0.006934 ± 1.96(0.003741)
0.006934 ± 0.007332
0 ≤ 𝑃 ≤ 0.014266.

Con 95% de confianza se estima que la proporción de hombres mayores de 50 años


que tienen cáncer de próstata está entre 0 y 1.42%.

d) El total verdadero de hombres.

𝜏̂ = 𝑁𝑝

donde: 𝑁 = 5,500 y 𝑝 = 0.006934.

Por lo tanto:

𝜏̂ = 5,500(0.006934) = 38.137 hombres.

e) El intervalo de confianza para el total con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝

310
donde: 𝜏̂ = 38.137, 𝑆𝑝 = 0.003741, 𝑁 = 5,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 .

Por lo tanto:

𝜏̂ ± (1.96)(5,500)(0.003741)
38.137 ± 40.32798
0 ≤ 𝜏 ≤ 78.46498.

Con 95% de confianza se estima que el total de hombres mayores de 50 años que
tienen cáncer de próstata está entre 0 y 78.46498.

f) Si 𝑔 es una muestra preliminar, el tamaño de muestra (pools) con una precisión de


0.05 de la proporción preliminar (𝑑) y con una confiabilidad de 95%, es:

2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )

𝑔∗ = 2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )

donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97,


𝑦
𝑓 = ⁄𝑔 = 6⁄60 = 0.1 y 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467.

Por lo tanto:

2
−2
2 (0.1)(1 − 0.1) 0.98 − 0.1 11
500(1.96) ( 2 ( ) )
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1
𝑔∗ = 2
−2
(0.1)(1 − 0.1) 0.98 − 0.1 11
500(0.0003467)2 + (1.96)2 ( 2 ( ) )
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1

1.818998
𝑔∗ = = 491.754 = 492 pools.
0.003699

311
g) El número de pools para estimar 𝑝 con una precisión de 0.05 de la proporción
preliminar, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99)
es:

𝑔𝑚
2

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
= 2

2 1 2 4𝑑
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

donde: 𝐺 = 500, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝑥 = 11, 𝑆𝑒 = 0.98, 𝑆𝑝 = 0.97,


𝑦 6
𝑦 = 6, 𝑔 = 60, 𝑃𝑔 = 𝑔 = 60 = 0.1, . 𝑑 = 𝑑(𝑝) = 0.05(0.006934) = 0.0003467,
2 2
−2
2 1 − 𝑃𝑔 𝑥 2 1 − 0.1 11−2
𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1)𝑥 ( ) = (0.98 + 0.97 − 1)11 ( )
𝑆𝑒 − 𝑃𝑔 0.98 − 0.1
2
2 0.9 11−2
𝐻= (0.95)11 ( ) = 0.951053, 𝑍𝛾 = 2.3263,
0.88
2 2
−1 −1
𝑥
√(1 − 𝑃𝑔 ) 𝑃𝑔 √(1 − 0.1)11 (0.1)
ℎ(𝑃𝑔 ) = = = 0.030014 y
𝑥2 112
1 1
2( −1)
′ 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1−0.1)2(11−1) 2(0.1)
ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ) = 11 (1 − )
−1 𝑥 2 11
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 2√(1−0.1)11 (0.1)
−1

1 1.211143
ℎ′ (𝑃𝑔 ) = ( ) (0.981818) = 0.163714.
11 0.660312

Por lo tanto:

2
1 4(0.0003467)
500(1.96)2 ( ) (0.030014 + √(0.030014)2 + (2.3263)|0.163714|√0.1(1 − 0.1))
4 1.96
𝑔𝑚 = 2
1 4(0.0003467)
500(0.951053)(0.0003467)2 + (1.96)2 ( ) (0.030014 + √(0.030014)2 + (2.3263)|0.163714|√0.1(1 − 0.1))
4 1.96

1
500(1.96)2 (4) (0.030014 + 0.031332)2
𝑔𝑚 =
1
0.000057 + (1.96)2 (4) (0.030014 + 0.031332)2

312
1.8072
𝑔𝑚 = = 492.290 = 493 pools.
0.003671

Ejemplo 8.4. Con el objetivo de comenzar una campaña de prevención, la Secretaría de


Salud del Estado de México quiere conocer cuántas mujeres mayores a 30 años tienen
cáncer de tiroides. Puesto que el costo de un análisis es muy elevado, se decide utilizar
muestreo por grupos. El tamaño de la población es de 𝑁 = 4,600 tomando una muestra
de tamaño 𝑛 = 480 con 𝑥 = 8, de modo que el número de pools a formar con la muestra
y la población es 𝑔 = 60 y 𝐺 = 575, respectivamente. De estos pools muestreados
resultaron 𝑦 = 5 positivos, 𝑎𝑑𝑒𝑚á𝑠 𝑆𝑒 = 0.97 y 𝑆𝑝 = 0.98.

a) La estimación de la proporción de interés.

1⁄ 1⁄
𝑦 𝑥
0.97 − 5⁄60
8
𝑆𝑒 − ⁄𝑔
𝑝 =1−( ) = 1−( ) = 0.008587.
𝑆𝑒 + 𝑆𝑝 − 1 0.97 + 0.98 − 1

b) La varianza y la desviación estándar de la proporción muestral (𝑆𝑝 ).

2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( 2)
𝐺 𝑔𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)𝑥

donde: 𝐺 = 575, 𝑔 = 60, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝑦 = 6 y 𝑥 = 8.

Por lo tanto:

2
−2
5 8
(5⁄60)(1 − 5⁄60)
2
575 − 60 (0.97 − ⁄60)
𝑆𝑝 = ( ) ( 2 )
575 60(8)2 (0.97 + 0.98 − 1) ⁄8
( )
𝑆𝑝2 = (0.895652)(0.000321)(0.077375) = 0.000022.

La desviación estándar: 𝑆𝑝 = √0.000022 = 0.004716.

313
c) El IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.008587, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.004716.

Por lo tanto:

0.008587 ± 1.96(0.004716)
0.008587 ± 0.009243
0 ≤ 𝑃 ≤ 0.01783.

Con 95% de confianza se estima que la proporción de mujeres mayores a 30 años con
cáncer de tiroides está entre 0 y 1.78%.

d) El total verdadero de mujeres con cáncer de tiroides.

𝜏̂ = 𝑁𝑝

donde: 𝑁 = 4,600 y 𝑝 = 0.008587.

Por lo tanto:

𝜏̂ = 4,600(0.008587) = 39.5002 = 40 mujeres.

e) El intervalo de confianza para el total con una confiabilidad de 95%.

𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝

donde: 𝜏̂ = 39.5002, 𝑆𝑝 = 0.004716, 𝑁 = 4,600 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 .

314
Por lo tanto:

𝜏̂ ± (1.96)(4,600)(0.004716)
39.5002 ± 42.519456
0 ≤ 𝜏 ≤ 82.019656.

Con 95% de confianza se estima que el total de mujeres con cáncer de tiroides está
entre 0 y 82.019656.

f) Si 𝑔 es una muestra preliminar. El tamaño de muestra (pools) con una precisión de


0.05 y con una confiabilidad de 95% es:

2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ( (
⁄2) 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 ) )

𝑔∗ = 2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )

donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,


𝑦 5
𝑓 = ⁄𝑔 = 60 y 𝑑 = 0.05.

Por lo tanto:

2
−2
5 5 5 8
(60 ) (1 − 60 ) 0.97 − 60
575(1.96)2 ( )
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1

𝑔∗ = ( )
2
−2
5 5 5 8
(60 ) (1 − 60 ) 0.97 − 60
575(0.05)2 + (1.96)2 ( )
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1
( )
3.296239
𝑔∗ = = 2.2839 = 3 pools.
1.443232

315
g) Finalmente, el tamaño de pool para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99) es:

2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2

2 1 2 4𝑑
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)

donde: 𝐺 = 575, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑥 = 8, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,


𝑦 5
𝑃𝑔 = 𝑔 = 60 , . 𝑑 = 0.05, 𝑍𝛾 = 2.3263,
2
2 −2
2 −2 2 5 8
1−𝑃𝑔 𝑥 1−
60
𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 ) 𝑥 = (0.97 + 0.98 − 1) ( 8
5 ) = 0.931411,
𝑔 0.97−
60

2 2
−1 5 8−1 5
√(1−𝑃𝑔)𝑥 𝑃𝑔 √(1−60) ( )
ℎ(𝑃𝑔 ) = = 60
= 0.037281 y
𝑥2 82

1 1
2( −1) 5 2( −1) 5
1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1− ) 8 2( )
ℎ′ (𝑃𝑔 ) = 𝑥 2
(1 − )=8 60
(1 − 60
)
−1 𝑥 2 8
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 5 −1 5
2√(1− )8 ( )
60 60

1 1.164474
= ( ) (0.979166) = 0.238939.
8 0.596499

Por lo tanto:

1 4(0.05) 5 5
575(1.96)2 ( ) (0.037281 + √(0.037281)2 + (2.3263)|0.238939|√ (1 − ))
4 1.96 60 60
𝑔𝑚 = 2

1 √(0.037281)2 4(0.05) 5 5
575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + + (2.3263)|0.238939|√ (1 − ))
4 1.96 60 60

1
575(1.96)2 (4) (0.037281 + 0.130637)2
𝑔𝑚 =
1
575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + 0.130637)2
4
15.570987
𝑔𝑚 = = 11.3991 = 12 pools.
1.365983

316
EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. El tipo de prueba es imperfecta, por lo que los valores de
𝑆𝑒 y 𝑆𝑝 son 0.98 y 0.97, correspondientemente. Además, si la muestra en cada ejercicio es
una muestra preliminar, ¿Cuál es el tamaño de muestra para estimar la proporción, de
tal manera que sea estimado con una precisión de 10% de la proporción preliminar y un
nivel de aseguramiento de 80%?

Ejercicio 8.4. Un investigador quiere conocer cuántas vacas tienen tuberculosis bovina
en el estado de Sonora. Se decidió utilizar el método de pruebas por grupo, donde la
población fue de 𝑁 = 1,500 vacas y se tomó una muestra de tamaño 𝑛 = 280 con 𝑥 = 5,
de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 56 y
𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos.

Ejemplo 8.5. Una empresa particular quiere detectar la presencia de platas transgénicas
de maíz en el estado de Tamaulipas. Se decidió utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,600 plantas y se tomó una muestra de tamaño 𝑛 =
405 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y la población
fue de 𝑔 = 45 y 𝐺 = 400, respectivamente. De estos pools muestreados resultaron 𝑦 = 7
positivos.

Ejemplo 8.6. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Guadalajara tienen el virus de la hepatitis C. Se decidió utilizar el método
de pruebas por grupo, donde la población fue de 𝑁 = 3,680 personas y se tomó una
muestra de tamaño 𝑛 = 400 con 𝑥 = 8, de modo que el número de pools a formar con la
muestra y la población fue de 𝑔 = 50 y 𝐺 = 460, respectivamente. De estos pools
muestreados resultaron 𝑦 = 5 positivos.

8.3 Prueba por grupos bajo MAE

317
Se pueden aplicar pruebas por grupo a una población estratificada para mejorar la
precisión al estimar parámetros. En esta tesitura, a continuación se presentan los
estimadores correspondientes a la prueba por grupos bajo MAE.

La proporción estratificada

1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = , 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖

donde 𝑦𝑖 denota el número de grupos (pools) positivos en el estrato 𝑖, 𝐸 es el número de


𝑛𝑖
estratos en que se divide la población, 𝑔𝑖 = es el número de pools en el estrato 𝑖, 𝑛𝑖 es
𝑥

el tamaño de muestra en el estrato i, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la


𝑁𝑖
población por estrato y 𝐺𝑖 = .
𝑥

El estimador de la varianza estratificada

𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1

donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 .

El estimador del total estratificado

𝜏̂ = 𝑁𝑝𝑠𝑡

Los intervalos de confianza para la proporción y el total

𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ


𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ

donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1


grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de

318
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

Estimación del tamaño de muestra (pools)

2 1 − (1 − 𝑝𝑖 )𝑥
𝐸
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]

𝑔 =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑊 [
𝑖

𝑁𝑖
donde 𝑑 es la precisión requerida, 𝑊𝑖 = , 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
𝑁

distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden


obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

Estimación del tamaño de muestra modificado (pools)

De manera análoga al tamaño de muestra modificado bajo MAS, el tamaño de muestra


modificado bajo MAE es:

2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖

donde 𝑔𝑚 es el tamaño de muestra (pools) modificado, 𝛾 es la probabilidad de que el IC


2
para la proporción estratificada no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el

cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de
libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las
distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión

319
significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

Ejemplo 8.5. En el estado de Guerrero, una empresa particular quiere conocer cuántos
de sus trabajadores tienen el virus XXY. El método que se utilizó fue el muestreo por
grupos. La población (𝑁 = 2,490) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos
son los siguientes: sector 1 (𝑁1 = 900), sector 2 (𝑁2 = 870) y sector 3 (𝑁3 = 720). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, con 𝑥 =
6respectivamente, de modo que el número de pools fue 𝑔1 = 4, 𝑔2 = 6 y 𝑔3 = 9. De los
pools muestreados resultaron 𝑦1 = 1, 𝑦2 = 1 y 𝑦3 = 2 positivos, respectivamente.

a) La proporción estratificada.

1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖

donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2,
𝑁𝑖 900 870 720
𝐺𝑖 = : 𝐺1 = = 150, 𝐺2 = = 145, 𝐺3 = = 120,
𝑥 6 6 6
𝑛𝑖 24 36 54
𝑔𝑖 = : 𝑔1 = = 4, 𝑔2 = = 6, 𝑔3 = = 9,
𝑥 6 6 6
1⁄ 1⁄
𝑦𝑖 𝑥 1 6
𝑝𝑖 = 1 − (1 − 𝑔 ) : 𝑝1 = 1 − (1 − 4) = 0.046816,
𝑖

1⁄ 1⁄
1 6 2 6
𝑝2 = 1 − (1 − 6) = 0.029930 y 𝑝3 = 1 − (1 − 9) = 0.041021.

Por lo tanto:

150(0.046816) + 145(0.029930) + 120(0.041021) 16.28477


𝑝𝑠𝑡 = = = 0.0392 ó 3.92%.
150 + 145 + 120 415

320
b) El total estratificado.

𝜏̂ = 𝑁𝑝𝑠𝑡

donde: 𝑁 = 2,490 y 𝑝𝑠𝑡 = 0.0392.

Por lo tanto:

𝜏̂ = 2,490(0.0392) = 97.608.

c) La varianza y desviación estándar de la población estratificada.

𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1

donde: 𝑁𝑖 : 𝑁1 = 900, 𝑁2 = 870, 𝑁3 = 720, 𝑥 = 6, 𝐸 = 3, 𝐺 = 415,


𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120, 𝑔𝑖 : 𝑔1 = 4, 𝑔2 = 6, 𝑔3 = 9,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021.
150−4 1−(1−0.046816)6
𝑆𝑝21 = ( 150
) (4(6)2 (1−0.046816)6−2 ) = 0.002047,

145−6 1−(1−0.029930)6
𝑆𝑝22 = ( ) (6(6)2 (1−0.029930)6−2 ) = 0.000835 y
145

120−9 1−(1−0.041021)6
𝑆𝑝23 = ( ) (9(6)2 (1−0.041021)6−2 ) = 0.00075.
120

Por lo tanto:

2 2 2
𝑆𝑝2ℎ = (150⁄415) (0.002047) + (145⁄415) (0.000835) + (120⁄415) (0.00075)

𝑆𝑝2ℎ = 0.000267 + 0.000102 + 0.000063 = 0.000432.

La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000432 = 0.020785.

d) El Intervalo de confianza para la proporción estratificada con confiabilidad del 95%.


321
𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ

donde: 𝑝𝑠𝑡 = 0.0392, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 .

Por lo tanto:

0.0392 ± (1.96)(0.020785)
0.0392 ± 0.0407386
0 ≤ 𝑃𝑠𝑡 ≤ 0.079939.

La proporción verdadera de trabajadores con el virus XXY está entre 0% y 7.99%.

e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.

𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ

donde: 𝜏̂ = 97.608, 𝑁 = 2,490, 𝑆𝑝ℎ = 0.020785 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.

Por lo tanto:

97.608 ± (2,490)(1.96)(0.020785)
97.608 ± 101.439114
0 ≤ 𝜏 ≤ 199.0471.

f) Si 𝑔 = 19 es una muestra preliminar, el tamaño de muestra (pools) necesario para


estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:

322
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]
𝑔∗ =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ∑
⁄2 𝑖=1 𝑊 𝑖 [ ]
𝑥 2 (1 − 𝑝𝑖 )𝑥−2

donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3,


𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021,
𝐺𝑖 150 145 120
𝑊𝑖 = : 𝑊1 = 415 , 𝑊2 = 415 , 𝑊3 = 415,
𝐺
1−(1− 𝑝1 )𝑥 150 1−(1−0.046816)6
𝑊1 𝑥 2 (1− 𝑝 𝑥−2
= (415) 62 (1−0.046816)6−2 = 0.003041,
1)

1−(1− 𝑝2 )𝑥 145 1−(1−0.029930 )6


𝑊2 𝑥 2 (1− 𝑝 𝑥−2
= (415) 62 (1−0.029930 )6−2 = 0.001826,
2)

1−(1− 𝑝3 )𝑥 120 1−(1−0.041021)6


𝑊3 𝑥 2 (1− 𝑝 𝑥−2 = (415) 62 (1−0.041021)6−2 = 0.002110 y
3)

1−(1−𝑝𝑖 )𝑥
∑3𝑖=1 𝑊𝑖 [ ] = 0.006977.
𝑥 2 (1−𝑝𝑖 )𝑥−2

Por lo tanto:

(415)(2.1009)2 (0.006977) 12.7799


𝑔∗ = 2 2
= = 11.9628 = 12 pools.
(415)(0.05) + (2.1009) (0.006977) 1.0683

La asignación de la muestra en forma proporcional:

𝐺𝑖 ∗
𝑔𝑖∗ = (𝑔 )
𝐺

donde: 𝐺 = 415, 𝑔∗ = 11.9628, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145 y 𝐺3 = 120.

Por lo tanto:

𝑔1∗ = 150⁄415 (11.9628) = 4.3239 = 4

𝑔2∗ = 145⁄415 (11.9628) = 4.1798 = 4

𝑔3∗ = 120⁄415 (11.9628) = 3.4591 = 4.

323
El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95%
es de 12: 4, 4 y 4 para los sectores 1, 2 y 3, respectivamente.

g) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión


absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es:

2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
𝐺𝑑 2 + 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖

donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡19−1,1−0.025 = 2.1009, 𝐺 = 415, 𝐸 = 3,


𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 145, 𝐺3 = 120,
𝑝𝑖 : 𝑝1 = 0.046816, 𝑝2 = 0.029930, 𝑝3 = 0.041021,
150 145 120
𝑊𝑖 : 𝑊1 = 415 , 𝑊2 = 415, 𝑊3 = 415,
2 2
1−(1−𝑝1 )𝑥 𝜒1(𝛾, 𝑔∗ −1) 150 1−(1−0.046816)6 𝜒1(0.99,4.3239−1)
𝑊1 [𝑥 2 (1−𝑝 ]( 1
) = (415) 62 (1−0.046816)6−2 ( ) = 0.011924,
1 )𝑥−2 𝑔1∗ −1 4.3239−1

2 2
1−(1−𝑝2 )𝑥 𝜒2(𝛾, 𝑔∗ −1) 145 1−(1−0.029930 )6 𝜒2(0.99,4.1798−1)
𝑊2 [𝑥 2 (1−𝑝 ]( 2
) = (415) 62 (1−0.029930 )6−2 ( ) = 0.007323,
2 )𝑥−2 𝑔2∗ −1 4.1798−1

2 2
1−(1−𝑝3 )𝑥 𝜒3(𝛾, 𝑔∗ −1) 120 1−(1−0.041021)6 𝜒3(0.99,3.4591−1)
𝑊3 [𝑥 2 (1−𝑝 ]( 3
) = (415) 62 (1−0.041021)6−2 ( ) = 0.009665 y
3 )𝑥−2 𝑔3∗ −1 3.4591−1

2
𝜒𝑖(𝛾,𝑔 ∗ −1)
3 1−(1−𝑝𝑖 )𝑥 𝑖
∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.028912.
𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1

Por lo tanto:

(415)(2.1009)2 (0.028912) 52.958661


𝑔𝑚 = = = 45.4537 = 46 pools.
(415)(0.05)2 + (2.1009)2 (0.028912) 1.165111

La asignación proporcional de la muestra:

𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚
324
donde: 𝐺 = 415, 𝑔𝑚 = 45.4537, 𝑔𝑖 : 𝑔1 = 150, 𝑔2 = 145 y 𝑔3 = 120.

Por lo tanto:

𝑔𝑚1 = 150⁄415 (45.4537) = 16.429 = 17

𝑔𝑚 2 = 145⁄415 (45.4537) = 15.8814 = 16

𝑔𝑚 3 = 120⁄415 (45.4537) = 13.1432 = 13.

El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y


nivel de aseguramiento de 99% es de 46: 17, 16 y 13 para los sectores 1, 2 y 3
respetivamente.

Ejemplo 8.6. En el estado de Colima, una empresa particular quiere conocer cuántos de
sus trabajadores tienen paludismo. El método a utilizar es muestreo por grupos. La
población (𝑁 = 2,500) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los
siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 800) y sector 3 (𝑁3 = 750). De los tres
sectores se tomaron las siguientes muestras: 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, con 𝑥 = 5 , de
modo que el número de pools fue 𝑔1 = 6, 𝑔2 = 5 y 𝑔3 = 4, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 1 y 𝑦3 = 1 positivos, respectivamente.
a) La proporción estratificada.

1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖

donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, 𝑦𝑖 : 𝑦1 = 2, 𝑦2 = 1, 𝑦3 = 1,
𝑁𝑖 950 800 750
𝐺𝑖 = : 𝐺1 = = 190, 𝐺2 = = 160, 𝐺3 = = 150,
𝑥 5 5 5
𝑛𝑖 30 25 20
𝑔𝑖 = : 𝑔1 = = 6, 𝑔2 = = 5, 𝑔3 = = 4,
𝑥 5 5 5
1⁄ 1⁄
𝑦 𝑥 2 5
𝑝𝑖 = 1 − (1 − 𝑔𝑖 ) : 𝑝1 = 1 − (1 − 6) = 0.077892,
𝑖

325
1⁄ 1⁄
1 5 1 5
𝑝2 = 1 − (1 − 5) = 0.043648 y 𝑝3 = 1 − (1 − 4) = 0.055913.

Por lo tanto:

190(0.077892) + 160(0.043648) + 150(0.055913) 30.17011


𝑝𝑠𝑡 = = = 0.0603 ó 6.03%.
190 + 160 + 150 500

b) El total estratificado.

𝜏̂ = 𝑁𝑝𝑠𝑡

donde: 𝑁 = 2,500 y 𝑝𝑠𝑡 = 0.0603.

Por lo tanto:

𝜏̂ = 2,500(0.0603) = 150.75.

c) La varianza y desviación estándar de la población estratificada.

𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1

donde: 𝑁𝑖 : 𝑁1 = 950, 𝑁2 = 800, 𝑁3 = 750, 𝑥 = 5, 𝐸 = 3, 𝐺 = 500,


𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150, 𝑔𝑖 : 𝑔1 = 6, 𝑔2 = 5, 𝑔3 = 4,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
190−6 1−(1−0.077892)5
𝑆𝑝21 = ( ) (6(5)2 (1−0.077892)5−2 ) = 0.002745,
190

160−5 1−(1−0.043648)5
𝑆𝑝22 = ( ) (5(5)2 (1−0.043648)5−2 ) = 0.001772 y
160

150−4 1−(1−0.055913)5
𝑆𝑝23 = ( ) (4(5)2 (1−0.055913)5−2 ) = 0.002891.
150

Por lo tanto:

326
2 2 2
𝑆𝑝2ℎ = (190⁄500) (0.002745) + (160⁄500) (0.001772) + (150⁄500) (0.002891)

𝑆𝑝2ℎ = 0.000396 + 0.000181 + 0.00026 = 0.000837

La desviación estándar: 𝑆𝑝ℎ = √𝑆𝑝2ℎ = √0.000837 = 0.028931.

d) El Intervalo de confianza para la proporción estratificada con una confiabilidad del


95%.

𝑝𝑠𝑡 ± 𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ

donde: 𝑝𝑠𝑡 = 0.0603, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 .

Por lo tanto:

0.0603 ± (1.96)(0.028931)
0.0603 ± 0.056705
0.003595 ≤ 𝑃𝑠𝑡 ≤ 0.117005.

La proporción verdadera de trabajadores con paludismo está entre 0.35% y 11.7%.

e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.

𝜏̂ ± 𝑁𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ

donde: 𝜏̂ = 150.75, 𝑁 = 2,500, 𝑆𝑝ℎ = 0.028931 y 𝑡𝑔−1,1−𝛼⁄2 = 𝑍1−𝛼/2 = 1.96.

Por lo tanto:

150.75 ± (2,500)(1.96)(0.028931)
150.75 ± 141.7619

327
8.9881 ≤ 𝜏 ≤ 292.5119.

h) Si 𝑔 = 15 es una muestra preliminar, el tamaño de muestra (pools) necesario para


estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:

2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]
𝑔∗ =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ∑
⁄2 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑊 [
𝑖

donde: 𝑥 = 6, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3,


𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
𝐺𝑖 190 160 150
𝑊𝑖 = : 𝑊1 = 500 , 𝑊2 = 500 , 𝑊3 = 500,
𝐺
1−(1− 𝑝1 )𝑥 190 1−(1−0.077892)5
𝑊1 𝑥 2 (1− 𝑝 = (500) 52 (1−0.077892)5−2 = 0.006462,
1 )𝑥−2

1−(1− 𝑝2 )𝑥 160 1−(1−0.043648)5


𝑊2 𝑥 2 (1− 𝑝 = (500) 52 (1−0.043648)5−2 = 0.002927,
2 )𝑥−2

1−(1− 𝑝3 )𝑥 150 1−(1−0.055913)5


𝑊3 𝑥 2 (1− 𝑝 = (500) 52 (1−0.055913)5−2 = 0.003565 y
3 )𝑥−2

1−(1−𝑝𝑖 )𝑥
∑3𝑖=1 𝑊𝑖 [ ] = 0.006462 + 0.002927 + 0.003565 = 0.012954.
𝑥 2 (1−𝑝𝑖 )𝑥−2

Por lo tanto:


(500)(2.1448)2 (0.012954) 29.795282
𝑔 = = = 22.7515 = 23 pools.
(500)(0.05)2 + (2.1448)2 (0.012954) 1.309591

La asignación proporcional de la muestra:

𝐺𝑖 ∗
𝑔𝑖∗ = (𝑔 )
𝐺

donde: 𝐺 = 500, 𝑔∗ = 22.7515, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150.

328
Por lo tanto:

𝑔1∗ = 190⁄500 (22.7515) = 8.6456 = 9

𝑔2∗ = 160⁄500 (22.7515) = 7.2805 = 7

𝑔3∗ = 150⁄500 (22.7515) = 6.8255 = 7.

El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95%


es de 23: 9, 7 y 7 para los sectores 1, 2 y 3, respectivamente.

i) El tamaño de muestra (pools) con un nivel de confiabilidad de 95%, una precisión


absoluta de 0.05 y un nivel de aseguramiento (𝛾) de 0.99, es:

2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
𝐺𝑑 2 + 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖

donde: 𝑥 = 5, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡15−1,1−0.025 = 2.1448, 𝐺 = 500, 𝐸 = 3,


𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160, 𝐺3 = 150,
𝑝i : 𝑝1 = 0.077892, 𝑝2 = 0.043648 y 𝑝3 = 0.055913.
190 160 150
𝑊𝑖 : 𝑊1 = , 𝑊2 = , 𝑊3 = ,
500 500 500
2 2
1−(1−𝑝1 )𝑥 𝜒1(𝛾,𝑔∗ −1) 190 1−(1−0.077892)5 𝜒1(0.99,8.6456−1)
𝑊1 [𝑥 2 (1−𝑝 ]( 1
) = (500) 52 (1−0.077892)5−2 ( ) = 0.016501,
1 )𝑥−2 𝑔1∗ −1 8.6456−1

2 2
1−(1−𝑝2 )𝑥 𝜒2(𝛾,𝑔 ∗ −1) 160 1−(1−0.043648)5 𝜒2(0.99,7.2805−1)
2
𝑊2 [𝑥 2 (1−𝑝 ]( ) = (500) 52 (1−0.043648)5−2 ( ) = 0.008054,
2 )𝑥−2 𝑔2∗ −1 7.2805−1

2 2
1−(1−𝑝3 )𝑥 𝜒3(𝛾,𝑔 ∗ −1) 150 1−(1−0.055913)5 𝜒3(0.99,6.8255−1)
𝑊3 [𝑥 2 (1−𝑝 ]( 3
) = (500) 52 (1−0.055913)5−2 ( ) = 0.010108 y
3 )𝑥−2 𝑔3∗ −1 6.8255−1

2
𝜒𝑖(𝛾,𝑔 ∗
3 1−(1−𝑝𝑖 )𝑥 𝑖 −1)
∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.034663.
𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1

Por lo tanto:

329
(500)(2.1448)2 (0.034663) 79.727795
𝑔𝑚 = = = 56.5664 = 57 pools.
(500)(0.05)2 + (2.1448)2 (0.034663) 1.409456

La asignación proporcional de la muestra:

𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚

donde: 𝐺 = 500, 𝑔𝑚 = 56.5664, 𝐺𝑖 : 𝐺1 = 190, 𝐺2 = 160 y 𝐺3 = 150.

Por lo tanto:

𝑔𝑚1 = 190⁄500 (56.5664) = 21.4952 = 22

𝑔𝑚 2 = 160⁄500 (56.5664) = 18.1012 = 18

𝑔𝑚 3 = 150⁄500 (56.5664) = 16.9699 = 17

El tamaño de muestra (pools) con precisión absoluta de 0.05, confiabilidad de 95% y


nivel de aseguramiento de 99%, es de 57: 22, 18 y 17 para los sectores 1, 2 y 3,
respectivamente.

EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 5% de la proporción preliminar y un nivel de
aseguramiento de 80%?

Ejemplo 8.7. En la ciudad de Guadalajara, Jalisco, una empresa particular quiere conocer
cuántos de sus empleados tienen el virus XYY. El método a utilizar es muestreo por
grupos. La población (𝑁 = 2,690) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos

330
son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3 (𝑁3 = 840). De los
sectores se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5, de
modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 3 y 𝑦3 = 1 positivos, respectivamente.

Ejemplo 8.8. En el estado de Guanajuato, un investigador desea conocer cuántas vacas


de los ranchos ganaderos con cercana ubicación tienen el virus XXY. El método a utilizar
es muestreo por grupos. La población (𝑁 = 1,900) de los ranchos fue dividida en 𝐸 = 3
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 700), sector 2 (𝑁2 = 600), y sector 3
(𝑁3 = 600). En los tres sectores se tomaron las siguientes muestras: 𝑛1 = 48, 𝑛2 = 30,
𝑛3 = 24, con 𝑥 = 6,, de modo que el número de pools fue 𝑔1 = 8, 𝑔2 = 5 y 𝑔3 = 4 de los
cuales resultaron positivos 𝑦1 = 1, 𝑦2 = 2 y 𝑦3 = 1, respectivamente.

Ejemplo 8.9. Una empresa particular desea conocer cuántos de sus empleados tienen el
virus de la hepatitis C. El método a utilizar es muestreo por grupos. La población (𝑁 =
2,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector
1 (𝑁1 = 1,100), sector 2 (𝑁2 = 1,000), y sector 3 (𝑁3 = 700). En los tres sectores se
tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5 para cada sector,
de modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron
positivos 𝑦1 = 4, 𝑦2 = 2 y 𝑦3 = 1, respectivamente.

8.4 Prueba por grupo con 𝑺𝒆 y 𝑺𝒑 bajo MAE

Cuando la prueba a realizar no es perfecta (sensibilidad y especificidad menores a uno)


se sugiere utilizar los siguientes estimadores para prueba por grupo bajo MAE:

La proporción estratificada

1⁄
𝑦 𝑥
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖∗ (𝑆𝑒 − 𝑔𝑖 )
𝑖

𝑝𝑠𝑡 = , 𝑝𝑖∗ = 1 − ( )
∑𝐸𝑖=1 𝐺𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)

331
donde 𝑆𝑒 es la sensibilidad, 𝑆𝑝 es la especificidad, 𝑦𝑖 denota el número de grupos (pools)
𝑛𝑖
positivos en el estrato 𝑖, 𝐸 es el número de estratos en que se divide la población, 𝑔𝑖 = 𝑥

es el número de pools en el estrato 𝑖, 𝑥 es el tamaño del grupo, 𝑁𝑖 es el tamaño de la


𝑁𝑖
población en el estrato 𝑖 y 𝐺𝑖 = .
𝑥

El estimador de la varianza

𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )( ⁄𝑥)−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )( )( )
𝑖=1
𝐺𝑖 𝑔𝑖 𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥

𝑦
donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 y 𝑓𝑖 = 𝑔𝑖 .
𝑖

El estimador del total

𝜏̂ ∗ = 𝑁𝑝𝑠𝑡

Los intervalos de confianza para la proporción y el total


𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡

donde 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑔 − 1


grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

Estimación del tamaño de muestra (pools)

332
2
−2
2 𝐸 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔∗ = 2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊𝑖 [ ( ) ]
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1

donde 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la


distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos se pueden
obtener usando la tabla clásica de la distribución t-Student. Además, sin una pérdida de
precisión significativa el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .

Estimación del tamaño de muestra modificado (pools)

De manera análoga al tamaño de muestra modificado bajo MAS (prueba imperfecta), el


tamaño de muestra modificado bajo MAE para prueba imperfecta es:

2 2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( 𝑔 −𝑖 1 )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑖
𝑔𝑚 = 2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
2 𝐸
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑ 𝑊 [ ( ) ] ( 𝑖
⁄2) 𝑖=1 𝑖 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1 )

donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que


2 ∗
la amplitud deseada, 𝜒𝑖(𝛾,𝑔 ∗
−1) es el cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖 −
𝑖

1 grados de libertad por estrato y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la


distribución t-Student con 𝑔 − 1 grados de libertad también por estrato. Los cuantiles
requeridos se pueden obtener usando las tablas clásicas de las distribuciones t-Student y
Ji-Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2)
puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .

EJEMPLOS

333
Ejemplo 8.7. En el estado de Colima, el Centro de Salud quiere conocer cuántas de las
personas instaladas en hospitales tienen dengue con el objetivo de iniciar una campaña
contra esta enfermedad. El método a utilizar es muestreo por grupos. Se utilizarán tres
de los hospitales con mayor número de internos; los cuales cuentan con una población
(𝑁 = 2,190) de 𝑁1 = 600, 𝑁2 = 750 y 𝑁3 = 840 pacientes, respectivamente. Se tomaron
muestras de tamaño 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, con 𝑥 = 5 en cada hospital, de modo que
el número de pools es 𝑔1 = 4, 𝑔2 = 7 y 𝑔3 = 10, de los cuales resultaron positivos 𝑦1 = 1,
𝑦2 = 1 y 𝑦3 = 2. Ademásse utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 95%.

a) La proporción estratificada.

1⁄
𝑦 𝑥
∑𝐸 ∗ 𝑆𝑒− 𝑖
𝑖=1 𝐺𝑖 𝑝𝑖 𝑔

𝑝𝑠𝑡 = ∑𝐸
, 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1
𝑖
)
𝑖=1 𝐺𝑖

donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5,
𝑁𝑖 600 750 840
𝐺𝑖 = : 𝐺1 = = 120, 𝐺2 = = 150, 𝐺3 = = 168,
𝑥 5 5 5
𝑛𝑖 20 35 50
𝑔𝑖 = : 𝑔1 = = 4, 𝑔2 = = 7, 𝑔3 = = 10,
𝑥 5 5 5
1⁄
0.97−
1 5
𝑝1∗ = 1 − (0.97+0.95−1) 4
= 0.04784219,

1⁄
0.97−
1 5
𝑝2∗ = 1 − (0.97+0.95−1) 7
= 0.021054443 y

1⁄
0.97−
2 5
𝑝3∗ = 1 − (0.97+0.95−1) 10
= 0.034970522.

Por lo tanto:


120(0.04784219) + 150(0.021054443) + 168(0.034970522)
𝑝𝑠𝑡 =
120 + 150 + 168

14.77427696
𝑝𝑠𝑡 = = 0.0337 ó 3.37% personas con dengue.
438

334
b) El total estratificado.

𝜏̂ ∗ = 𝑁𝑝𝑠𝑡


donde: 𝑁 = 2,190 y 𝑝𝑠𝑡 = 0.0337.

Por lo tanto:

𝜏̂ ∗ = 2,190(0.0337) = 73.803.

c) La varianza y desviación estándar de la población estratificada.

𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 =( )( 2
)( 2)
𝐺𝑖 𝑔𝑖 𝑥
𝑖=1 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑥

donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑘 = 5,
𝑁𝑖 600 750 840
𝐺𝑖 = : 𝐺1 = = 120, 𝐺2 = = 150, 𝐺3 = = 168,
𝑥 5 5 5
𝑛 20 35 50 𝑦 1 1 2
𝑔𝑖 = 𝑥𝑖 : 𝑔1 = = 4, 𝑔2 = = 7, 𝑔3 = = 10, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10,
5 5 5 𝑖
2
−2
120−4 (0.97−1⁄4 )5 (1⁄4)(1−1⁄4)
𝑆𝑝2∗1 = ( )( )( 2 ) = 0.003169,
120 4(5)2 (0.97+0.95−1) ⁄5

2
−2
150−7 (0.97−1⁄7)5 (1⁄7)(1−1⁄7)
𝑆𝑝2∗2 =( )( )( 2 ) = 0.000934 y
150 7(5)2 (0.97+0.95−1) ⁄5

2
−2
168−10 (0.97−2⁄10)5 (2⁄10)(1−2⁄10)
𝑆𝑝2∗3 = ( )( )( 2 ) = 0.000945.
168 10(5)2 (0.97+0.95−1) ⁄5

Por lo tanto:

2 2 2
𝑆𝑝2∗𝑠𝑡 = (120⁄438) (0.003169) + (150⁄438) (0.000934) + (168⁄438) (0.000945)

335
𝑆𝑝2∗𝑠𝑡 = 0.000238 + 0.00011 + 0.000139 = 0.000487.

La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.000487 = 0.022068.

d) El IC para la proporción estratificada con una confiabilidad del 95%.


𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡


donde: 𝑝𝑠𝑡 = 0.0337 , 𝑆𝑝∗𝑠𝑡 = 0.022068 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.

Por lo tanto:

0.0337 ± (1.96)(0.022068)
0.0337 ± 0.043253
0 ≤ 𝑃𝑠𝑡 ≤ 0.076973.

La proporción verdadera de personas con dengue está entre 0% y 7.69%.

e) El IC para el total estratificado con una confiabilidad de 95%.

𝜏̂ ∗ ± 𝑁𝑡𝑛−1,1−𝛼⁄2 𝑆𝑝∗𝑠𝑡

donde: 𝜏̂ ∗ = 73.803, 𝑁 = 2, 190, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.022068.

Por lo tanto:

73.803 ± (2,190)(1.96)(0.022068)
73.803 ± 94.724683
0 ≤ 𝜏 ∗ ≤ 168.527683.

336
f) Si 𝑔 = 21 es una muestra preliminar, el tamaño de muestra (pools) necesarios para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:

2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 (
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
) ]
𝑔∗ = 2
−2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 2
𝑡(𝑔−1,1−𝛼 𝐸
⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95,


𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5, 𝐸 = 3,
𝑁𝑖 600 750 840
𝐺𝑖 = 𝑥
: 𝐺1 = 5
= 120, 𝐺2 = 5
= 150, 𝐺3 = 5
= 168,
𝑛 20 35 50
𝑔𝑖 = 𝑥𝑖 : 𝑔1 = = 4, 𝑔2 = = 7, 𝑔3 = = 10,
5 5 5
𝑦 1 1 2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086,
𝑖

𝐺𝑖 𝐺1 120 𝐺2 150 𝐺3 168


𝑊𝑖 = : 𝑊1 = = 438, 𝑊2 = = 438, 𝑊3 = = 438,
𝐺 𝐺 𝐺 𝐺
2 2
−2
𝑓 (1−𝑓1 ) 𝑆𝑒−𝑓1 𝑥−2 120 1⁄ (1−1⁄ )
4 4 0.97−1⁄4 5
𝑊1 [ 2 1 2 ( ) ] = ( ) 2 (0.97+0.95−1) (
2 0.97+0.95−1) = 0.003593,
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 438 5

2 2
−2 1⁄ (1−1⁄ ) −2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥 150 7 7 0.97−1⁄7 5
𝑊2 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) 2 (𝑆𝑒+𝑆𝑝−1) ] = (438) 52 (0.97+0.95−1) (
2 0.97+0.95−1) = 0.002350,

2 2
2⁄ (1−2⁄ ) −2
𝑓 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥
−2 168 0.97−2⁄10 5
𝑊3 [ 2 3 2 ( ) ] = ( ) 2 10 10
( ) = 0.003856 y
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 438 5 (0.97+0.95−1)2 0.97+0.95−1

2
𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] = 0.009799.
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1

Por lo tanto:

(438)(2.086)2 (0.009799) 16.488001


𝑔∗ = (438)(0.05)2 +(2.086)2 (0.009799) = = 14.5571 = 15 pools.
1.132643

La asignación de la muestra proporcional:

337
𝐺𝑖
𝑔𝑖∗ = (𝑔)
𝐺

donde: 𝐺 = 438, 𝑔∗ = 15, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168.

Por lo tanto:

𝑔1∗ = 120⁄438 (14.5571) = 3.9882 = 4

𝑔2∗ = 150⁄438 (14.5571) = 4.9853 = 5

𝑔3∗ = 168⁄438 (14.5571) = 5.5835 = 6.

El tamaño de muestra (pools) con precisión de 0.05 y confiabilidad de 95% es de 15:


4, 5 y 6 para los hospitales 1, 2 y 3, respectivamente.

g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.

2 2
2 𝐸 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
2
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1
𝑔𝑚 = 2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
2 2 𝐸
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ∑𝑖=1 𝑊𝑖 [ 2 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( ∗ 𝑖 )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑔𝑖 − 1

donde: 𝑁𝑖 : 𝑁1 = 600, 𝑁2 = 750, 𝑁3 = 840, 𝐺 = 438, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.95,


𝑛𝑖 : 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, 𝑦𝑖 : 𝑦1 = 1, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 5,
𝑁𝑖 600 750 840
𝐺𝑖 = : 𝐺1 = = 120, 𝐺2 = = 150, 𝐺3 = = 168,
𝑥 5 5 5
𝑛 20 35 50
𝑔𝑖 = 𝑥𝑖 : 𝑔1 = = 4, 𝑔2 = = 7, 𝑔3 = = 10, 𝐸 = 3,
5 5 5
𝑦 1 1 2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 4, 𝑓2 = 7, 𝑓3 = 10, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(21−1,1−0.025) = 2.086,
𝑖

𝐺𝑖 𝐺1 120 𝐺2 150 𝐺3 168


𝑊𝑖 = : 𝑊1 = = 438, 𝑊2 = = 438, 𝑊3 = = 438,
𝐺 𝐺 𝐺 𝐺
2
2
−2 𝜒21(𝛾,𝑔∗ −1) 1 1
(1−4)
1
0.97−4 5
−2 2
𝜒1(0.99,3.9882−1)
𝑓1 (1−𝑓1 ) 𝑆𝑒−𝑓1 𝑥 1 120 4
𝑊1 [ 2 (𝑆𝑒+𝑆𝑝−1)2 ( ) ]( )=( ) 2 (0.97+0.95−1)2 ( ) ( )
𝑥 𝑆𝑒+𝑆𝑝−1 𝑔1∗ −1 438 5 0.97+0.95−1 3.9882−1

= (0.273973)(0.008861)(1.4802228)(3.7886) = 0.013614,

338
2
2 −2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥
−2 𝜒22(𝛾,𝑔∗ −1) 150
1 1
(1− ) 0.97−
1 5 2
𝜒2(0.99,4.9853−1)
2 7 7 7
𝑊2 [ 2( ) ]( )=( ) 2( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝑔2∗ −1 438 52 (0.97+0.95−1) 0.97+0.95−1 4.9853−1

= (0.342466)(0.005787)(1.185582)(3.3245) = 0.007811,
2
2 −2
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥
−2 𝜒23(𝛾,𝑔∗ −1) 168
2 2
(1− ) 0.97−
2 5 2
𝜒3(0.99,5.5835−1)
3 10 10 10
𝑊3 [ ( ) ]( )=( ) ( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔3∗ −1 438 52 (0.97+0.95−1)2 0.97+0.95−1 5.5835−1

= (0.383562)(0.007561)(1.329460)(3.1296) = 0.012066 y

3 2
−2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥 𝜒𝑖(𝛾, 𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2 2
( ) ]( ) = 0.033491.
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1
𝑖=1

Por lo tanto:

(438)(2.086)2 (0.033491) 63.83088


𝑔𝑚 = 2 2
= = 51.4461 = 52 pools.
(438)(0.05) + (2.086) (0.033491) 1.240733

La asignación de la muestra proporcional:

𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚

donde: 𝐺 = 438, 𝑔𝑀 = 51.4461, 𝐺1 = 120, 𝐺2 = 150 y 𝐺3 = 168.

Por lo tanto:

𝑔𝑚1 = 120⁄438 (51.4461) = 14.0948 = 14

𝑔𝑚 3 = 150⁄438 (51.4461) = 17.6185 = 18

𝑔𝑚 3 = 168⁄438 (51.4461) = 19.7328 = 20.

El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y


aseguramiento de 99% es de 52: 14, 18 y 20 para los hospitales 1, 2 y 3,
respectivamente.

Ejemplo 8.8. En el estado de Tamaulipas, la Secretaría de Salud desea conocer cuántas

339
de las personas hospitalizadas tienen influenza con el objetivo de tomar medidas de
precaución. El método que se empleo fue el muestreo por grupos. Se utilizaron tres de
los hospitales con mayor número de internos, los cuales cuentan con una población (𝑁 =
2,835) de 𝑁1 = 1050, 𝑁2 = 945 y 𝑁3 = 840, respectivamente. Se tomaron muestras de
tamaño 𝑛1 = 70 y 𝑛2 = 𝑛3 = 56, con 𝑥 = 7 en cada hospital, de modo que el número de
pools fue 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, de los cuales resultaron positivos 𝑦1 = 3, 𝑦2 = 1 y 𝑦3 = 2,
respectivamente. Además se utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 98%.

a) La proporción estratificada.

1⁄
𝑦 𝑥
∑𝐸 ∗ 𝑆𝑒− 𝑖
𝑖=1 𝐺𝑖 𝑝𝑖 𝑔𝑖

𝑝𝑠𝑡 = ∑𝐸
, 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1)
𝑖=1 𝐺𝑖

donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7,
𝑁𝑖 1,050 945 840
𝐺𝑖 = : 𝐺1 = = 150, 𝐺2 = = 135, 𝐺3 = = 120,
𝑥 7 7 7
𝑛𝑖 70 56
𝑔𝑖 = : 𝑔1 = = 10, 𝑔2 = 𝑔3 = = 8,
𝑥 7 7
1⁄
0.97−
3 7
𝑝1∗ = 1 − (0.97+0.98−1) 10
= 0.048659719,

1⁄
0.97−
1 7
𝑝2∗ = 1 − (0.97+0.98−1) 8
= 0.016592988 y

1⁄
0.97−
2 7
𝑝3∗ = 1 − (0.97+0.98−1) 8
= 0.038827647.

Por lo tanto:


150(0.048659719) + 135(0.016592988) + 120(0.038827647)
𝑝𝑠𝑡 =
150 + 135 + 120

14.19832892
𝑝𝑠𝑡 = = 0.035 ó 3.5% personas con dengue.
405

340
b) El total estratificado.

𝜏̂ ∗ = 𝑁𝑝𝑠𝑡


donde: 𝑁 = 2,835 y 𝑝𝑠𝑡 = 0.035.

Por lo tanto:

𝜏̂ ∗ = 2,835(0.035) = 99.225.

c) La varianza y desviación estándar de la población estratificada.

𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 =( )( ) ( 2)
𝐺𝑖 𝑔𝑖 𝑥 2
𝑖=1 (𝑆𝑒 + 𝑆𝑝 − 1)𝑥

donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98, 𝐸 = 3,


𝑛𝑖 : 𝑛1 = 70, 𝑛2 = 𝑛3 = 56, 𝑦𝑖 : 𝑦1 = 3, 𝑦2 = 1, 𝑦3 = 2, 𝑥 = 7, 𝐺 = 405,
𝑁𝑖 1,050 945 840
𝐺𝑖 = : 𝐺1 = = 150, 𝐺2 = = 135, 𝐺3 = = 120,
𝑥 7 7 7
𝑛𝑖 𝑦 3 1 2
𝑔𝑖 = : 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, 𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8,
𝑥 𝑖

2
3 −2 3 3
150−10 (0.97− )7 ( )(1− )
𝑆𝑝2∗1 =( )( 10
)( 10
2 )
10
= 0.000806,
150 10(7)2 (0.97+0.98−1) ⁄7

2
1 −2 1 1
135−8 (0.97− )7 ( )(1− )
𝑆𝑝2∗2 =( )( 8
)( 8
2 )
8
= 0.000356 y
135 8(7)2 (0.97+0.98−1) ⁄7

2
2 −2 2 2
120−8 (0.97− )7 ( )(1− )
𝑆𝑝2∗3 = ( )( 8
)( 8
2 )
8
= 0.000796.
120 8(7)2 (0.97+0.98−1) ⁄7

Por lo tanto:

2 2 2
𝑆𝑝2∗𝑠𝑡 = (150⁄405) (0.000806) + (135⁄405) (0.000356) + (120⁄405) (0.000796)

341
𝑆𝑝2∗𝑠𝑡 = 0.000111 + 0.00004 + 0.000069 = 0.00022.

La desviación estándar: 𝑆𝑝∗𝑠𝑡 = √𝑆𝑝2∗𝑠𝑡 = √0.00022 = 0.014832.

d) El IC para la proporción estratificada con una confiabilidad del 95%.


𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡


donde: 𝑝𝑠𝑡 = 0.035, 𝑆𝑝∗𝑠𝑡 = 0.014832 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.

Por lo tanto:

0.035 ± (1.96)(0.014832)
0.035 ± 0.029071
0.005929 ≤ 𝑃𝑠𝑡 ≤ 0.064071.

La proporción verdadera de personas con influenza está entre 0.59% y 6.4%.

e) El IC para el total estratificado con la confiabilidad de 95%.

𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡

donde: 𝜏̂ ∗ = 99.225, 𝑁 = 2,835, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 y 𝑆𝑝∗𝑠𝑡 = 0.014832.


Por lo tanto:

99.225 ± (2,835)(1.96)(0.014832)
99.225 ± 82.415491
16.5845 ≤ 𝜏 ∗ ≤ 181.6405.

f) Si 𝑔 = 26 es una muestra preliminar, el tamaño de muestra (pools) necesarios para


estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:

342
2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊𝑖 [ ( ) ]
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔∗ = 2
−2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 2
𝑡(𝑔−1,1−𝛼 𝐸
⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1

donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,


𝑁𝑖
𝑥 = 7, 𝐸 = 3, 𝐺𝑖 = : 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120,
𝑥
𝑦 3 1 2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡(𝑔−1,1−𝛼⁄2) = 𝑡(26−1,1−0.025) = 2.0595,
𝑖

𝐺𝑖 150 𝐺2 135 𝐺3 120


𝑊𝑖 = : 𝑊1 = 415, 𝑊2 = = 415, 𝑊3 = = 415,
𝐺 𝐺 𝐺
2
2 3 3 3 −2
7
𝑓 (1−𝑓1 ) 𝑆𝑒−𝑓1 𝑥−2 150 10
(1− )
10
0.97−
𝑊1 [ 2 1 2 ( ) ] = ( ) 2 (0.97+0.98−1) 2 ( 10
) = 0.003123,
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 415 7 0.97+0.98−1

2
2 1 1 1 −2
−2 (1− ) 0.97− 7
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥 135 8 8 8
𝑊2 [ ( ) ]=( ) ( ) = 0.000983,
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 415 72 (0.97+0.98−1)2 0.97+0.98−1

2
2 2 2 2 −2
−2 (1− ) 0.97− 7
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥 120
𝑊3 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) 2 (𝑆𝑒+𝑆𝑝−1) ] = 8 8
(415) 72 (0.97+0.98−1) 8
2 (0.97+0.98−1) = 0.001972 y

2
𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] = 0.006078.
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1

Por lo tanto:

(415)(2.0595)2 (0.006078) 10.69873


𝑔∗ = (415)(0.05)2 +(2.0595)2 (0.006078) = = 10.062 = 11 pools.
1.06328

La asignación de la muestra proporcional:

𝐺𝑖
𝑔𝑖∗ = (𝑔)
𝐺

donde: 𝐺 = 415, 𝑔∗ = 15, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120,

Por lo tanto:

343
150
𝑔1∗ = (10.062) = 3.6368 = 4
415
135
𝑔2∗ = (10.062) = 3.2731 = 4
415
120
𝑔3∗ = (10.062) = 2.9095 = 3.
415

El tamaño de muestra (pools) con una precisión de 0.05 y confiabilidad de 95% es de


11: 4, 4 y 3 para los hospitales 1, 2 y 3, respectivamente.

g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.

2 2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1
𝑔𝑚 = 2 2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑑 2 + 𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1

donde: 𝑁𝑖 : 𝑁1 = 1,050, 𝑁2 = 945, 𝑁3 = 840, 𝐺 = 415, 𝑆𝑒 = 0.97, 𝑆𝑝 = 0.98,


𝑁𝑖
𝑥 = 7, 𝐸 = 3, 𝐺𝑖 = : 𝐺1 = 150, 𝐺2 = 135, 𝐺3 = 120,
𝑥
𝑦 3 1 2
𝑓𝑖 = 𝑔𝑖 : 𝑓1 = 10, 𝑓2 = 8, 𝑓3 = 8, 𝑡𝑔−1,1−𝛼⁄2 = 𝑡26−1,1−0.025 = 2.0595,
𝑖

𝐺𝑖 150 𝐺2 135 𝐺3 120


𝑊𝑖 = : 𝑊1 = , 𝑊2 = = , 𝑊3 = = ,
𝐺 415 𝐺 415 𝐺 415
2
2 2 3 3 3 −2 2
𝑓1 (1−𝑓1 ) 𝑆𝑒−𝑓1 −2 𝜒1(𝛾,𝑔 ∗ −1) 150 (1−10) 0.97− 7 𝜒1(0.99,3.6368−1)
𝑥 1 10 10
𝑊1 [ ( ) ]( )=( ) ( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔1∗ −1 415 72 (0.97+0.98−1)2 0.97+0.98−1 3.6368−1

= 0.003123(4.0199) = 0.012554,
2
2 2 1 1 1 −2 2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 −2 𝜒2(𝛾,𝑔 ∗ −1) 135 (1−8) 0.97−8 7 𝜒2(0.99,3.2731−1)
𝑥 2 8
𝑊2 [ 2( ) ]( )=( ) 2( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝑔2∗ −1 415 72 (0.97+0.98−1) 0.97+0.98−1 3.2731−1

= 0.000983(4.3208) = 0.004247,
2
2 2 2 2 2 −2 2
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 −2 𝜒3(𝛾,𝑔 ∗ −1) 120 (1−8) 0.97−8 7 𝜒3(0.99,2.9095−1)
𝑥 3 8
𝑊3 [ ( ) ]( )=( ) ( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔3∗ −1 415 72 (0.97+0.98−1)2 0.97+0.98−1 2.9095−1

= 0.001972(4.7142) = 0.009296 y
3 2
−2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥 𝜒𝑖(𝛾, 𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2 ( ) ] ( ) = 0.026097.
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1
𝑖=1

344
Por lo tanto:

(415)(2.0595)2 (0.026097) 45.936963


𝑔𝑚 = 2 2
= = 40.0081 = 41 pools.
(415)(0.05) + (2.0595) (0.026097) 1.148191

La asignación proporcional de la muestra:

𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚

donde: 𝐺 = 415, 𝑔∗ = 40.0081, 𝐺𝑖 : 𝐺1 = 150, 𝐺2 = 135 y 𝐺3 = 120.

Por lo tanto:

150
𝑔𝑚1 = (40.0081) = 14.4608 = 15
415
135
𝑔𝑚 3 = (40.0081) = 13.0146 = 14
415
120
𝑔𝑚 3 = (40.0081) = 11.5686 = 12.
415

El tamaño de muestra (pools) con una precisión de 0.05, confiabilidad de 95% y


aseguramiento de 99% es de 41: 15, 14 y 12 para los hospitales 1, 2 y 3
respectivamente.

EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Considere una sensibilidad de 97% y una especificidad de
98% donde se requiera. Además, suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 90%?
345
Ejercicio 8.10. En el estado de Chihuahua la Secretaría de Salud quiere conocer cuántos
de sus trabajadores han padecido la enfermedad XY. El método que se utilizó fue
muestreo por grupos. La población (𝑁 = 3,600) de la Secretaría fue dividida en 𝐸 = 3
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3
(𝑁3 = 840). De cada sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 =
25, con 𝑥 = 5 para cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 =
5 de los cuales resultaron positivos 𝑦1 = 2, 𝑦2 = 3 y 𝑦3 = 1, respectivamente.

Ejercicio 8.11. En el estado de Durango, un investigador desea conocer cuántos cerdos


de una serie de granjas colindantes tienen el virus XZY. El método empleado fue
muestreo por grupos. La población (𝑁 = 2,000) de los ranchos fue dividida en 𝐸 = 2
sectores. Los datos son los siguientes: sector 1 (𝑁1 = 1100) y sector 2 (𝑁2 = 900). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 28 y 𝑛2 = 24, con 𝑥 = 4 para cada sector,
de modo que el número de pools es 𝑔1 = 7 y 𝑔2 = 6 de los cuales resultaron positivos
𝑦1 = 2 y 𝑦2 = 1, respectivamente.

Ejercicio 8.12. L a e m p r e s a GAMESA desea conocer cuántos de sus trabajadores


tienen el virus de la hepatitis B. El método empleado fue muestreo por grupos. La
población (𝑁 = 3,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los
siguientes: sector 1 (𝑁1 = 1,400), sector 2 (𝑁2 = 1,300) y sector 3 (𝑁3 = 1,100). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30 y 𝑛3 = 25, con 𝑥 = 5 para
cada sector, de modo que el número de pools es 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5 de los cuales
resultaron positivos 𝑦1 = 2, 𝑦2 = 1 y 𝑦3 = 3, respectivamente.

346
Capítulo 9. Muestreo inverso

CAPÍTULO 9

Muestreo inverso

Cuando la presencia de un evento raro quieras detectar,


la estadística y su ingenio te pueden ayudar
sólo basta el problema identificar
para así de la mejor manera poderlo solucionar.
EESF

Para detectar la presencia de un evento raro en una población es necesario probar miles
de individuos, y el costo de dichas pruebas por lo general excede los recursos humanos
y económicos disponibles, además de ser una actividad laboriosa y que consume mucho
tiempo y esfuerzo. El muestreo inverso es un método antiguo (Haldane, 1945; Finney,
1949) para estimar una proporción 𝑃. La técnica se basa en la distribución binomial
negativa con una serie de ensayos Bernoulli en el que no se deja de muestrear hasta
obtener un número predeterminado de individuos con la característica de interés. Sin
embargo, cuando la probabilidad de encontrar el atributo deseado es prácticamente nula
(𝑃 ≤ 0.1), usar el muestreo binomial (donde se fija previamente el número de elementos
de la muestra) no es la mejor opción. Según Haldane (1945), el uso de una distribución
binomial no siempre proporciona una estimación insesgada y precisa de 𝑃 cuando ésta
es pequeña (𝑃 ≤ 0.1).

347
9.1 Estimación de parámetros de interés bajo muestreo inverso.

Suponga que 𝑌𝑖 = 𝑦𝑖 individuos son analizados hasta encontrar el primer individuo


positivo. Se puede demostrar que 𝑌𝑖 (𝑖 = 1,2, … , 𝑟) tiene distribución geométrica.
Además, 𝑌1 , 𝑌2 , 𝑌3 , … , 𝑌𝑟 son observados para obtener el r-ésimo individuo positivo.
También se registra el número total de individuos para encontrar 𝑟 individuos positivos,
siendo igual a 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . La prevalencia es denotada por 𝑝, el número de individuos
probados hasta encontrar el primer individuo positivo es 𝑌𝑖 = 𝑦𝑖 , y el número de veces
que el experimento se lleva a cabo está denotado por 𝑟. Es importante mencionar que en
este documento se considera que: (i) el tamaño de muestra es el valor de 𝑟 que representa
el número requerido de individuos positivos para detener el proceso de muestreo y las
pruebas, y (ii) el número total de individuos probados es el valor de 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 . Por lo
tanto, el estadístico suficiente 𝑇 = ∑𝑟𝑖=1 𝑌𝑖 tiene una distribución binomial negativa (dbn)
con parámetro 𝑟 y probabilidad de éxito 𝑃 (George & Elston, 1993).

El estimador de la proporción

De acuerdo con George & Elston (1993), el estimador de máxima verosimilitud (EMV) de
𝑃 usando muestreo inverso es:

𝑟
𝑝=
𝑛

donde 𝑟 es el número fijado requerido de individuos positivos. Este EMV de 𝑃 para


muestreo inverso asume una prueba diagnóstica perfecta (especificidad y sensibilidad
iguales a uno).

La varianza y desviación estándar de la proporción muestral.

𝑝2 (1−𝑝)
La varianza está dada por 𝑆𝑝2 = . Si se toma en cuenta el factor de corrección por
𝑟

población finita, entonces la varianza es igual a:

348
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝2 = ( )( )
𝑁 𝑟

𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √( )( )
𝑁 𝑟

donde 𝑞 = (1 − 𝑝).

El estimador del total verdadero.

𝜏̂ = 𝑁𝑝

Los intervalos de confianza para la proporción y el total

𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1


grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .

El tamaño de muestra para estimar la proporción

2 2

𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟 = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde 𝑑 es la precisión fijada.

El tamaño de muestra modificado para estimar la proporción

349
2
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 2 2 2
2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑟𝑚𝐹 = 𝑟𝑚 ( ), 𝑟𝑚 = ( ) [√𝑝 𝑞 + √𝑝 𝑞 + ]
𝑁 + 𝑟𝑚 /𝑝 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2

donde 𝜔 = 2𝑑 es la precisión fijada, 𝑞 = 1 − 𝑝, 𝑍𝛾 es el cuantil 𝛾 de la distribución normal

estándar (Montesinos-López et al., 2012b).

EJEMPLOS

Ejemplo 9.1. Suponga que un investigador está interesado en estimar la proporción de


computadoras con virus en una empresa cuyo número de equipos es igual a 𝑁 =
4,300. Se decidió usar muestreo inverso bajo MAS. Dado que la prevalencia de
computadoras infectadas es baja, se estableció detener el proceso de muestreo hasta que
se encontraron 𝑟 = 5 computadoras infectadas. Además, se llevó el registro del total de
computadoras extraídas y analizadas, es decir, se extrajo sin remplazo una computadora
y se analizó para determinar su estado: infectada o no infectada. Este proceso de
extracción continuó hasta que se encontraron cinco computadoras infectadas. El total de
computadoras analizadas hasta que se encontraron las cinco infectadas fue de 𝑛 = 250.
Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción preliminar, una
confiabilidad de 100(1 − 𝛼)%=95% y un nivel de aseguramiento (𝛾) de 99%.

a) Proporción de computadoras infectadas.

𝑟 5
𝑝 = 𝑛 = 250 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.

b) Desviación estándar de la proporción muestral (𝑆𝑝 ).

𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √( )( )
𝑁 𝑟

donde: 𝑁 = 4,300, 𝑛 = 250, 𝑟 = 5, 𝑝 = 0.02 y 𝑞 = 0.98.


350
Por lo tanto:

4,300 − 250 (0.02)2 (0.98)


𝑆𝑝 = √( )( ) = √(0.94186)(0.0000784) = 0.008593.
4,300 5

c) IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.02, 𝑆𝑝 = 0.008593 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

0.02 ± (1.96)(0.008593)
0.02 ± 0.016842
0.003158 ≤ 𝑃 ≤ 0.036842.

d) Total verdadero de computadoras infectadas.

𝜏̂ = 𝑁𝑝

donde: 𝑁 = 4,300 y 𝑝 = 0.02.

Por lo tanto:

𝜏̂ = (4,300)(0.02) = 86.

e) IC para el total verdadero con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

351
donde: 𝜏̂ = 86, 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96
y 𝑆𝑝 = 0.008593.

Por lo tanto:

86 ± (4,300)(1.96)(0.008593)
86 ± 72.421804
13.578196 ≤ 𝜏 ≤ 158.421804.

f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y


𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002.

Por lo tanto:

(4,300)(1.96)2 (0.02)2 (0.98) 6.475401


𝑟∗ = = = 70.0082 = 71.
(4,300)(0.002)2 + (1.96)2 (0.02)(0.98) 0.092495

g) Tamaño de muestra modificado para estimar la proporción verdadera con una


precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%.

2
2
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑟𝑚𝐹 = 𝑟𝑚 ( ), 𝑟𝑚 = ( ) [√𝑝2 𝑞 + √𝑝2 𝑞 + ]
𝑁 + 𝑟𝑚 /𝑝 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2

donde: 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98,

352
𝑍𝛾 = 2.33 y 𝜔 = 2𝑑 = 2(0.002) = 0.004.

Primeramente se obtiene 𝑟𝑚 suponiendo una población infinita. Por lo tanto:

2
2
1.96 2(0.004)|1.5(0.02)4 − (0.02)3 |(2.33)
𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + ]
0.004 1.96(0.02)2

𝑟𝑚 = 240,100[0.019799 + 0.02401]2
𝑟𝑚 = 460.806758.

Finalmente se obtiene 𝑟𝑚𝐹 suponiendo una población finita. Por lo tanto:

4,300
𝑟𝑚𝐹 = 460.806758 ( ) = 72.4742 = 73.
460.806758
4,300 + 0.02

Ejemplo 9.2. En una empresa distribuidora de carne, cuya población es de 𝑁 = 4,000


vacas, un investigador decide usar muestreo inverso bajo MAS para estimar la
proporción de vacas con virus. Dado que la prevalencia de vacas infectadas es baja se
establece detener el proceso de muestreo hasta que se encuentren 𝑟 = 6 vacas infectadas.
Además, se lleva el registro del total de vacas seleccionadas y analizadas, es decir, se
extraerá sin remplazo una vaca y se determinara su estado:infectada o no infectada. Este
proceso de extracción continuará hasta que se encuentren 6 vacas infectadas. Los
resultados indican que el total de vacas analizadas hasta encontrar las 6 infectadas fue de
𝑛 = 300. Los cálculos se realizarán con una precisión (𝑑) de 10% de la proporción
preliminar, una confiabilidad de 100(1 − 𝛼)%=95% ( y un nivel de aseguramiento (𝛾) de
99% (𝛾 = 99/100 = 0.99).

a) Proporción de vacas infectadas.

𝑟 6
𝑝 = 𝑛 = 300 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.

b) Desviación estándar de la proporción muestral (𝑆𝑝 ).


353
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √( )( )
𝑁 𝑟

donde: 𝑁 = 4,000, 𝑛 = 300, 𝑟 = 6, 𝑝 = 0.02 y 𝑞 = 0.98.

Por lo tanto:

4,000 − 300 (0.02)2 (0.98)


𝑆𝑝 = √( )( ) = √(0.925)(0.000065) = 0.007773.
4,000 6

c) IC de 95% para la proporción verdadera.

𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝑝 = 0.02, 𝑆𝑝 = 0.007773 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96.

Por lo tanto:

0.02 ± (1.96)(0.007773)
0.02 ± 0.015235
0.004765 ≤ 𝑃 ≤ 0.035235.

d) Total verdadero de vacas infectadas.

𝜏̂ = 𝑁𝑝

donde: 𝑁 = 4,000 y 𝑝 = 0.02.

Por lo tanto:

354
𝜏̂ = (4,300)(0.02) = 80.

e) IC para el total verdadero con una confiabilidad de 95%.

𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝

donde: 𝜏̂ = 80, 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96 y 𝑆𝑝 = 0.007773.

Por lo tanto:

80 ± (4,000)(1.96)(0.007773)
80 ± 60.94032
19.05968 ≤ 𝜏 ≤ 140.94032.

f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.

2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞

donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98 y


𝑑 = 0.10(𝑝) = 0.10(0.02) = 0.002.

Por lo tanto:

(4,000)(1.96)2 (0.02)2 (0.98)


𝑟∗ =
(4,000)(0.002)2 + (1.96)2 (0.02)(0.98)
6.023628
𝑟∗ = = 65.9798 = 66.
0.091295

g) Tamaño de muestra modificado para estimar la proporción verdadera con una


precisión de 10% de la proporción preliminar (𝑝), una confiabilidad de 95% y el nivel
de aseguramiento (𝛾) de 99%.
355
2
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 2 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑟𝑚𝐹 = 𝑟𝑚 ( ), 𝑟𝑚 = ( ) [√𝑝2 𝑞 + √𝑝2 𝑞 + ]
𝑁 + 𝑟𝑚 /𝑝 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2

donde: 𝑁 = 4,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96, 𝑝 = 0.02, 𝑞 = 0.98,


𝑍𝛾 = 2.3263 y 𝜔 = 2𝑑 = 2(0.002) = 0.004.

Primeramente se obtiene 𝑟𝑀𝐼 suponiendo una población infinita. Por lo tanto:

2
2
1.96 2(0.004)|1.5(0.02)4− (0.02)3 |(2.3263)
𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + ]
0.004 1.96(0.02)2

𝑟𝑚 = 240,100[0.019799 + 0.024004]2
𝑟𝑚 = 460.6805.

Finalmente se obtiene 𝑟𝑀𝐹 suponiendo una población finita. Por lo tanto:

4,000
𝑟𝑚𝐹 = 460.6805 ( ) = 68.1630 = 69.
460.6805
4,000 + 0.02

EJERCICIOS

En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total


con una confiabilidad de 95%. Suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la proporción, de tal manera que
sea estimado con una precisión de 10% de la proporción preliminar y un nivel de
aseguramiento de 99%?

Ejercicio 9.1. En una empresa distribuidora de jamón, cuya población es de 𝑁 =


3,700 cerdos, se decide usar muestreo inverso bajo MAS para estimar la proporción de
cerdos con virus Dado que la prevalencia de cerdos infectados es baja se establece

356
detener el proceso de muestreo hasta encontrar 𝑟 = 7 cerdos infectados. Además, se lleva
el registro del total de cerdos extraídos y analizados, es decir, se extraerá sin remplazo
un cerdo y se analizará si está infectado. Este proceso de extracción continuará hasta que
se encuentren seis cerdos infectados. El total de cerdos analizados hasta encontrar los 6
infectados fue de 𝑛 = 310.

Ejercicio 9.2. En una empresa distribuidora de tomates, cuya población es de 𝑁 = 4,200


plantas de este vegetal, se decide usar muestreo inverso bajo MAS para estimar la
proporción de plantas de tomate con el virus TYLV,. Dado que la prevalencia de
plantas infectadas es baja se establece detener el proceso de muestreo hasta encontrar 𝑟 =
8 plantas infectadas. Además, se lleva el registro del total de plantas extraídas y
analizadas, es decir, se extraerá sin remplazo una planta y se analizará si está infectada.
Este proceso de extracción continuará hasta que se encuentren 8 plantas infectadas. El
númerode plantas analizadas hasta encontrar las 8 infectadas fue de 𝑛 = 350.

Ejercicio 9.3. Para estimar la proporción de niños con el virus D68, cuya población es
de 𝑁 = 3,900 niños, se decide usar muestreo inverso bajo MAS. Dado que la prevalencia
de niños infectados es baja se establece detener el proceso de muestreo hasta encontrar
𝑟 = 9 niños infectados. Además, se lleva el registro del total de niños extraídos y
analizados, es decir, se extraerá sin remplazo un niño y se analizará si está infectado. Este
proceso de extracción continuará hasta que se encuentren 9 niños infectados. El número
total de niños analizados hasta encontrar los 9 infectados fue de 𝑛 = 400.

357
Apéndice de la distribución normal
estándar y la distribución t-Student

Apéndice. Tablas de la distribución normal y la distribución t-Student

1 − 𝛼/2

𝑍0

𝑍0 𝑍0 𝑧2
1
𝑃(𝑍 < 𝑍0 ) = ∫ 𝑓𝑍 (𝑧)𝑑𝑧 = ∫ 𝑒 − 2 𝑑𝑧 = 1 − 𝛼/2
−∞ −∞ √2𝜋

Cuadro A.1. Distribución normal estándar acumulada.


𝒁 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0. 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7794 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8340 0.8389
1. 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8907 0.8944 0.8962 0.8962 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

358
1.5 0.9332 0.9345 0.9345 0.9345 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9896 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9985 0.9985
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

1 − 𝛼/2

𝑡0

𝑡0 𝑡0 −(𝑣+1)/2
1 [(𝑣 + 1)/2]! 𝑡 2
𝑃(𝑇 < 𝑡0 ) = ∫ 𝑓𝑇 (𝑡)𝑑𝑡 = ∫ ( + 1) 𝑑𝑡
−∞ −∞ √𝑣𝜋 [𝑣/2]! 𝑣

359
Cuadro A.2. Puntos porcentuales de la distribución t-Student.
𝟏 − 𝜶/𝟐
𝒗 0.75 0.9 0.95 0.975 0.99 0.995 0.9975 0.999 0.9995
1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192
2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995 4.0293 4.7853 5.4079
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.2224 3.6458 3.9651
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.1966 3.6105 3.9216
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453 3.1534 3.5518 3.8495
21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.1352 3.5272 3.8193
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787 3.0669 3.4350 3.7066
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739

360
Cuadro A.3. Tabla de números aleatorios.
1 2 3 4 5 6 7 8 9 10
1 75382 51664 50906 54843 32905 00326 27504 54471 00639 59454
2 92841 20566 69880 83226 06380 12130 29205 47054 12072 75769
3 12323 18644 05090 44424 18839 28290 08163 94933 10957 56948
4 08602 51296 74600 68975 37789 00555 68290 57422 73964 47549
5 80399 82376 00388 44573 39881 65838 95955 74046 67407 08054
6 59343 66130 36434 15838 26049 30525 19053 73768 88440 88518
7 00157 82067 71231 57445 33793 42351 01015 04516 60531 83546
8 12069 46302 58624 11725 55014 78605 23840 36910 83589 31919
9 78768 48680 07404 03965 06590 12564 87693 24586 85125 26639
10 12291 50741 29658 33636 40345 67222 33055 58750 21024 15078
11 38758 14871 30273 22217 25539 75232 02119 20767 17775 49060
12 64359 06412 56553 50521 49695 27291 19963 81782 39570 33457
13 67085 90221 12143 24797 40468 70393 59830 85755 65445 08335
14 46890 59592 77610 36664 62336 94456 94958 60791 60083 35078
15 75896 47732 00256 56919 88753 99865 98709 22575 63238 85008
16 87252 4615 80751 05987 36320 41249 73544 75104 86853 59982
17 33171 33551 76533 27365 49256 07832 90820 94734 63906 58669
18 53214 65370 56121 68027 03850 02720 56545 93593 25249 44074
19 67284 19394 95100 96675 06348 36950 17983 57583 93635 37879
20 94800 27736 44906 45537 53098 02820 63161 93488 14455 84774
21 55743 86547 55519 98759 91388 55747 73916 68889 08697 94903
22 60847 43456 64951 08092 58965 98844 89869 81876 35354 72294
23 54218 34014 69127 97810 31995 62818 83871 49159 15614 15023
24 95910 92814 99051 46006 95474 70557 77123 35273 81916 45520
25 92038 24983 32726 99122 24716 98556 26547 06054 46048 52676
26 61866 31950 75273 31815 08289 12285 78943 16326 85289 52314
27 18192 71986 58539 66858 23643 60033 85983 28576 78315 79695
28 11947 43172 24672 02783 88966 31306 33822 95164 31097 68762
29 77536 03361 46239 07783 07028 43727 18278 51924 49441 95899
30 61195 52546 154040 56659 04906 45803 40089 18752 35955 97595
31 96086 37247 47876 29096 05979 50278 12486 37933 70894 53595
32 57948 88044 09427 31507 29869 53686 61184 51042 01733 37122
33 00071 45330 31633 34998 05337 65871 98680 76361 76444 79152
34 64131 60054 68308 67086 66028/ 98994 10238 90929 65631 21799
35 74871 16848 81178 58108 66976 31938 37952 52266 13064 50615
36 32490 27246 07531 63193 48241 89570 57062 24051 37501 42452
37 54114 09886 60690 50105 01333 74612 13895 81015 90443 09726
38 75639 00336 43295 47260 37433 49422 65098 81849 14698 17194
39 02171 92713 13839 79191 30050 84055 43180 14378 17322 21188
40 38573 98474 59606 04698 83919 03702 69763 15985 06710 86808
41 78406 23706 48524 56716 26576 50599 98923 61473 83705 58718
42 15989 96405 66295 10264 85656 80210 62378 15065 64875 91762
43 11058 02658 33542 43663 44334 73636 11795 03577 93330 00162
44 39694 08359 38053 52340 71901 12748 72159 90238 90203 41173
45 45041 34528 79417 27992 11550 90446 13282 98381 80568 96066
46 33618 12142 65407 58142 65625 92494 29937 32828 84419 58729
47 01547 38640 65101 26159 53347 73750 04059 29580 30011 62774
48 46120 97243 30236 27911 13340 43979 01488 28199 19023 00411
49 26199 00214 58641 65512 86399 58314 42240 25969 87060 15186
50 72431 70513 14583 24788 53413 26620 44690 40453 50362 74107

361
Figura A.1. Varianzas de distribuciones infinitas (𝑆 2 ), en función de su forma y rango
(ℎ = rango = máximo 𝑋𝑖 − mínimo 𝑋𝑖 ).

ℎ2 ℎ2 ℎ
Normal: 𝑆 2 = 36 Uniforme discreta: 𝑆 2 = 12 + 6

ℎ2 ℎ2
Uniforme continua: 𝑆 2 = 12 Eclipse: 𝑆 2 = 16

ℎ2 ℎ2
Triangular simétrica: 𝑆 2 = 24 Triangular asimétrica: 𝑆 2 = 18

ℎ2
Triangular doble: 𝑆 2 = 8

362
Referencias bibliográficas

Azorin, F. (1972). Curso de muestreo y aplicaciones. Madrid, España: Ediciones Aguilar.

Blair, J., & Presser, S. (1993). Survey procedures for conducting cognitive interviews to
pretest questionnaires: A review of theory and practice. Proceedings of the Section on
Survey Research Methods, Annual Meetings of the American Statistical Association,
370-375.

Bradburn, N. M., & Sudman, S. (1988). Polls and Surveys: Understanding What They
Tells Us. San Francisco, United States: Jossey-Bass.

Cassel, C. M., Sarndal, C. E., & Wretman, J. H. (1977). Foundations of Inference in Survey
Sampling. New York, United States: Wiley.

Cochran, W. G. (1977). Sampling techniques. New York: John Wiley and Sons.

Cochran, W. G. (1985). Técnicas de muestreo. México, DF: Cecsa.

Danger, S., Huizing, N., Walker, A., Rowland, A., Anderson, R., & Sciaccaluga, R. (1996).
EU Information Society Guide. Brussels, Belgium: The EU Committee on the
American Chamber of Commerce in Belgium.

Deming, W. E. (1950). Some Theory of Sampling. New York, United States: John Wiley &
Sons.

Dorfman, R. (1943). The detection of defective members of large populations. The Annals
of Mathematical Statistics, 14(4): 436-440.

Dowling, F. A., & Shachtman, R. H. (1975). On the Relative Efficiency of Randomized


Response Models. Journal of the American Statistical Association, 70(349): 84−87.

George, V. T., & Elston, R. C. (1993). Confidence limits based on the first occurrence of an
event. Statistics in medicine, 12(7): 685-690.

Horvitz, D. G., Shah, B. V., & Simmons, W. R. (1967). The Unrelated Question
Randomized Response Model. Proceedings of the Social Statistics Section, ASA: 65–
72.

Kelley, K., & Rausch, J. R. (2011). Sample size planning for longitudinal models: Accuracy
in parameter estimation for polynomial change parameters. Psychological
Methods, 16(4): 391-405.

363
Kelley, K. (2007). Sample size planning for the coefficient of variation from the accuracy
in parameter estimation approach. Behavior Research Methods, 39(4): 755-766.

Kelley, K., Maxwell, S. E., & Rausch, J. R. (2003). Obtaining power or obtaining precision
delineating methods of sample-size planning. Evaluation & the Health
Professions, 26(3): 258-287.

Kish, L. (1972). Muestreo de encuestas. México, DF: Trillas.

Kupper, L. L., & Hafner, K. B. (1989). How appropriate are popular sample size
formulas?. The American Statistician, 43(2): 101-105.

Lohr, S. L. (2000). Muestreo: diseño y análisis. México, DF: International Thomson


Editores.

Méndez, I., & Quintana, C. R. H. (2007). Muestreo: Respuesta aleatorizada. En:


http://www.dpye.iimas.unam.mx/finales2007/MuestreoRespuestaAleatorizada.pp
t. Especialidad en Estadística Aplicada. IIMAS, UNAM.

Méndez, I., Eslava, G., & Romero, P. (2004). Conceptos Básicos de Muestreo. México, DF:
IIMAS, UNAM.

Montesinos-López, O. A., Montesinos-López, A., Crossa, J., & Eskridge, K. (2012a).


Sample size under inverse negative binomial group testing for accuracy in parameter
estimation. Plos One, 7(3): e32250.

Montesinos-López, O. A., Montesinos López, A., Santos-Fuentes, E. E., Valladares-Celis,


P. E., & Magaña-Echeverría, M. A. (2011). Tamaños de muestra para estimar
prevalencia animal que aseguran cortos intervalos de confianza. Revista mexicana de
ciencias pecuarias, 2(2): 229-244.

Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Hernández-
Suárez, C. M. (2010). Sample size for detecting and estimating the proportion of
transgenic plants with narrow confidence intervals. Seed Science Research, 20(02):
123-136.

Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Sáenz, R. A.
(2011). Optimal sample size for estimating the proportion of transgenic plants using
the Dorfman model with a random confidence interval. Seed Science Research, 21(3):
235-245.

Montesinos-López, O. A., Montesinos-López, A., Luna-Espinoza, I., Lugo, G., Sanely, L.,
& Espinosa Solares, T. (2012b). Prueba de grupo: Una eficiente alternativa para
estimar prevalencia animal. Revista mexicana de ciencias pecuarias, 3(4): 515-531.

Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics.
New York, United States: McGrawHill.

364
Newcombe, R. G. (1998). Two-sided confidence intervals for the single proportion:
comparison of seven methods. Statistics in medicine, 17(8): 857-872.

Pérez, L. C. (2000). Técnicas de muestreo estadístico. Teoría, práctica y aplicaciones


informáticas. México, DF: Alfaomega-Rama.

Raj, D. (1972). The Design of Sample Surveys. New York, United States: McGraw-Hill.

Rendón, S. G. (1997). Métodos estadísticos. Muestreo, diseños experimentales, estadística


no paramétrica. México, DF: Universidad Autónoma de Chapingo.

Sardnal, C. E., Swensson, B., & Wretman, J. H. (1992). Model assisted survey sampling.
New York, United States: Springer.

Scheaffer, R. L., Mendenhall, W., & Lyman, O. (1987). Elementos de muestreo. México,
DF: Grupo Editorial Iberoamérica.

Siegel, S. (1977). Estadística no paramétrica. México, DF: Trillas.

Tanur, J. M. (1983). Methods for large-scale surveys and experiments. Sociological


methodology, 14:1–71.

Vollset, S. E. (1993). Confidence intervals for a binomial proportion. Statistics in


medicine, 12(9): 809-824.

Wang, H., Chow, S. C., & Chen, M. (2005). A Bayesian approach on sample size
calculation for comparing means. Journal of Biopharmaceutical Statistics, 15(5): 799-
807.

Warner, S. L. (1965). A Survey Technique for Eliminating Evasive

365

View publication stats

También podría gustarte