Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
Índice
Pág.
2.2 Variables.................................................................................................................................................................................................... 18
Escala nominal.......................................................................................................................................................................................... 21
3
3.1 Definición y tipos de muestreo aleatorio simple .................................................................................................................................. 74
EJEMPLOS ...................................................................................................................................................................................................... 93
EJERCICIOS .................................................................................................................................................................................................... 99
El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional ................................... 101
4
3.5 Estimación de parámetros de interés para pruebas imperfectas bajo MAS .................................................................................... 117
Estimación de una proporción poblacional con pruebas imperfectas (Se y Sp menores a uno) ................................................... 117
4.4 Estimación de parámetros de interés para una proporción bajo MAE ............................................................................................ 151
4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas bajo MAE ................................................ 166
5
Población aleatoria ................................................................................................................................................................................. 182
5.3 Estimación de parámetros de interés para promedio bajo muestreo sistemático .......................................................................... 186
5.4 Estimación de parámetros de interés para la proporción bajo muestreo sistemático .................................................................... 198
5.5 Estimación de parámetros de interés para pruebas imperfectas bajo muestreo sistemático. ....................................................... 211
6.4 Estimación de parámetros con M conocida bajo muestreo por conglomerados ............................................................................ 229
6
Cálculo de la media y el total poblacional con M conocida .............................................................................................................. 229
6.5 Estimación de parámetros de interés con M desconocida bajo muestreo por conglomerados ..................................................... 243
7
7.5 Alternativa al modelo de respuesta aleatorizada ............................................................................................................................... 267
8.2 Pruebas por grupo en pruebas imperfectas bajo MAS ...................................................................................................................... 306
8
8.3 Prueba por grupos bajo MAE ............................................................................................................................................................... 317
9
Prologo
Pero, ¿qué hace no tan sencillo conocer las características generales y particulares de
una población? La respuesta está en la variabilidad. Si los elementos de la población de
interés fueran exactamente los mismos, bastaría examinar uno de ellos para
caracterizarlos completamente. Sin embargo, las poblaciones son bastantes heterogéneas;
esta es la realidad. La presencia de la variabilidad en los elementos de una población es
la razón principal por la cual cultivamos la estadística.
Una forma de caracterizar a las poblaciones es mediante parámetros, los cuales son
funciones definidas sobre el conjunto población. El valor más pequeño, el valor más
grande, la suma de los cuadrados de los valores, el valor que más se repite, el promedio
de los valores, la proporción de elementos que tienen cierta cualidad, son sólo algunos
ejemplos de parámetros. Por diversas razones plenamente argumentadas, el
conocimiento aproximado de estos parámetros, como la prevalencia de drogadictos en
una ciudad, el promedio de hijos por familia, el ingreso promedio por familia, el
promedio de años de estudios por persona, entre muchos otros, ha ayudado para tener
un mejor desempeño en el proceso administrativo de organizaciones tanto públicas como
privadas.
10
Para tener un conocimiento pleno de los parámetros poblacionales se necesita de la
enumeración o medición de todas las unidades de la población. Sin embargo, realizar
esta actividad, en general, es imposible o impráctico. Por ejemplo, en un lote de semillas
se desea conocer la proporción que tienen la capacidad de germinar. Germinar todas las
semillas no tendría sentido pues nos quedaríamos sin material. También el conocer la
opinión de la población mexicana sobre los organismos genéticamente modificados
demandaría varias decenas de millones de pesos, además de que no localizaríamos a
todas las personas para preguntarles su opinión.
Así pues, dado que efectuar el censo es costoso, impráctico, tardado o imposible, una
alternativa consiste en usar información parcial de la población pero seleccionada
aleatoriamente. Este método es conocido como muestreo probabilístico, el cual tiene dos
características: a) cada unidad de la población tiene una probabilidad positiva y conocida
de ser seleccionada y b) cada unidad tiene una probabilidad positiva y conocida de ser
parte de la muestra. Con la muestra seleccionada aleatoriamente se tendrán argumentos
científicamente defendibles para usar el razonamiento inductivo y concluir que la
evidencia encontrada en la muestra también es válida para la población.
Ante esta tesitura, Kupper & Hafner (1989) y Kelley (2007) señalan que en la
estimación de parámetros por intervalos debe considerarse la naturaleza estocástica de
la amplitud del intervalo para no subestimar el tamaño de muestra. Esta forma de
abordar el proceso de estimación, es decir, considerando la naturaleza estocástica del
intervalo de estimación, no se considera en la gran cantidad de libros que existen sobre
muestreo probabilístico.
A diferencia de los textos con enfoque tradicional, este libro presenta las técnicas
clásicas del muestreo estadístico pero considerando la naturaleza estocástica de los
intervalos de estimación. A lo largo del texto se opera con el concepto de nivel de
aseguramiento, el cual se define como la probabilidad de lograr la precisión deseada, es
decir, como la probabilidad, preestablecida de antemano, de que la amplitud del
intervalo de estimación sea menor o igual a la deseada. Explícitamente, en los capítulos
3, 4, 5 y 6 se expone la metodología del muestreo aleatorio simple, estratificado,
sistemático, y por conglomerados en una etapa, respectivamente. También se presentan
los muestreos de respuesta aleatorizada, por grupos e inverso en los capítulos 7, 8 y 9,
respectivamente.
Agradecimientos
En especial nuestros estudiantes por apoyo brindado en las revisiones preliminares del
presente libro.
12
Capítulo 1. Intrducción
CAPÍTULO 1
Introducción
13
justifica principalmente por la carencia de recursos y porque en muchos casos el
producto a analizar se tiene que destruir. Por ello, gran parte de los conocimientos,
actitudes y decisiones humanas está basado en el análisis de información parcial, o mejor
dicho, en el uso del muestreo. Al hacer la evaluación con solamente una fracción de la
población o del recurso, se espera que las conclusiones también pertenezcan a la
población; sin embargo para que esta suposición sea válida y la muestra elegida
represente a la población es importante tomar la muestra usando los métodos de
muestreo estadístico apropiados.
El uso del muestreo como un medio para obtener conocimiento y tomar decisiones es
normal y cotidiano en las actividades humanas. En estudios de mercado, el muestreo
sirve para conocer las preferencias y actitudes de los consumidores hacia determinado
producto o servicio; en tiempos electorales para saber la preferencia de los ciudadanos
hacia los candidatos que desean representarlos; en los estudios demográficos y sociales,
para conocer los niveles de empleo y desempleo, los ingresos y niveles de escolaridad en
los habitantes de una ciudad o país, la prevalencia y la incidencia de la drogadicción, en
la industria, para el control de calidad en el proceso de producción. En conclusión, el
muestreo se utiliza prácticamente en todas las áreas del conocimiento.
Por lo antes expresado los objetivos centrales son del presente libro son: a) exponer el
nuevo paradigma para la estimación de tamaños de muestra, b) exponer con claridad la
importancia de la aleatorización y cada uno de los esquemas de muestreo, así como las
circunstancias donde cada uno de ellos es de gran utilidad, c) exponer sin formalidad
matemática la derivación de cada una de las fórmulas para determinar el tamaño de
muestra bajo cada uno de los esquemas de muestreo, d) proporcionar ejemplos y
ejercicios para cada uno de los esquemas de muestreo para facilitar la compresión y
estimación correcta. Es importante resaltar que los datos utilizados en los ejemplos son
ficticios y en ningún momento se deben de considerar estimaciones válidas.
15
Capítulo 2. Conceptos básicos de estadística
CAPÍTULO 2
Estadística
Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden resumir en
algunos de los puntos ya descritos con la finalidad de inferir sobre la población
16
(estimación y prueba de hipótesis). Como en todas las áreas del conocimiento, el
muestreo emplea una terminología específica que define de manera apropiada los
conceptos que se utilizan, por lo que es conveniente revisar algunos de ellos, en particular
de la estadística, y presentar la simbología que se emplea en las técnicas de muestreo.
Conjunto
Por ejemplo, las computadoras dentro de una empresa o laboratorio pueden constituir
un conjunto; también los estudiantes y las sillas dentro de un salón de clases lo integran.
Cabe mencionar que no es un requisito que los objetos sean de la misma naturaleza,
aunque la mayoría de los casos que involucran las técnicas de muestreo los objetos suelen
ser de la misma clase, o al menos muy semejantes.
Como se dijo, las técnicas de muestreo y en general los métodos estadísticos se aplican a
un conjunto de datos propios de un conjunto de objetos. Denominamos población al
conjunto de objetos y de valores. El segundo es una función del primero y, aunque con
frecuencia no se distinguen explícitamente, el contexto en que se usa el término de
población deja en claro la referencia. En este libro se usará población para referirse al
conjunto de mediciones que se hacen sobre una característica de interés en todos y cada
uno de los elementos del conjunto de objetos. La población es el conjunto que incluye
todas las partes constitutivas de un recurso; así mismo la población es un conjunto de
números que tienen las unidades en que se hace la medición.
En general, el análisis no suele incluir las unidades de medición de los valores de una
variable, es decir, éstos se analizan simplemente como números. Sin embargo, resulta
conveniente recordar que los valores de una variable siempre representan dimensiones
17
físicas o de otra naturaleza, como peso, volumen, longitud, etcétera, y que éstas son
medidas en unidades como kilogramos, metros cúbicos, centímetros, etcétera, por lo que
los resultados del análisis son coherentes si se usan las unidades de medición, lo cual
facilita enormemente su interpretación.
Población y muestra
2.2 Variables
Una variable es una característica de los elementos de una población y se obtiene con una
medición o calificación. La altura de los estudiantes es una variable, lo mismo que la
marca de computadoras portátiles que se encuentran en el mercado actual. El peso de
cada silla o cada estudiante también es una variable.
Una variable continua, como su nombre lo indica, es aquélla donde son posibles todos
los valores dentro de un intervalo de los números reales, al menos teóricamente, ya que
por limitaciones de los instrumentos de medición, muchos valores en ese intervalo no
18
son observables. En general, este tipo de variables incluye mediciones en kilogramos,
centímetros, etcétera, cuya precisión puede incrementarse indefinidamente para afinar
gradualmente el instrumento de medición.
Una variable discreta se puede medir en una escala que no incluya todos los valores
posibles dentro de un intervalo de los números reales. Ejemplos de este tipo de variables
son los conteos, el número de personas de un lugar, el número de libros en una biblioteca,
entre otros.
Hemos mencionado que en el muestreo nos interesan los valores medidos del
subconjunto muestra, que son seleccionados del conjunto población. A estos valores se les
denomina datos, es decir, un dato es el valor específico que tiene la característica de interés
de un elemento de la población. Conviene mencionar que dato se puede referir a un valor
conocido o existente pero que aún no ha sido determinado. En este libro un dato es un
valor que ya ha sido determinado. En este contexto, el experimento es el procedimiento
que permite obtener un dato. Este procedimiento incluye dos puntos: la forma de elegir
el objeto, y la determinación del valor mediante algún método.
Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que
miden la longitud de un virus o una bacteria; aunque los métodos estadísticos para
analizar los datos de ambos casos pueden ser los mismos.
20
Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. Su
instrumentación, selección y validez son temas de estudio de otras disciplinas, pero la
comparación entre técnicas de medición sí es un motivo de aplicación de los métodos
estadísticos. En este libro no abordaremos las técnicas de medición.
Las reglas que clasifican los datos en distintas categorías se denominan escalas de
medición: nominal, ordinal, intervalo y proporción (Siegel, 1977).
Escala nominal
La escala nominal se utiliza para clasificar a la población en categorías. Por ejemplo, los
seres humanos se clasifican en hombres y mujeres; los colores se clasifican en rojo, azul,
verde, etcétera. En este tipo de datos no existe una relación de orden ni se pueden realizar
operaciones aritméticas como suma, multiplicación, división o resta. Sin embargo, se
pueden establecer frecuencias y proporciones, así como calcular la moda y establecer
relaciones de equivalencia.
Escala ordinal
La escala ordinal clasifica y ordena las observaciones. Sin embargo, no puede definirse
una distancia entre las observaciones. Las relaciones admisibles en esta escala son: >, < o
=. Por ejemplo, la frecuencia con que un grupo de personas lee una revista científica
podría clasificarse en: regularmente, a veces, pocas veces, casi nunca y nunca. Otro
ejemplo es la definición de la jerarquía militar de un regimiento: teniente> subteniente>
21
sargento 3ro.> sargento 1ro.> cabo. Otro ejemplo es la llegada a la meta de un corredor
en una competencia de 20 participantes: su clasificación C es tal que 𝐶 ∈ {1,2,...,20}. La
popular escala tipo Likert corresponde a esta escala de medida.
Las medidas que se pueden calcular en esta escala son: moda, frecuencia, coeficiente
de contingencia y mediana. Las pruebas estadísticas no paramétricas se usan para este
tipo de datos, en particular las estadísticas de rango, así como los coeficientes de
correlación con base en rangos, es decir, el coeficiente de Sperman y el de Kendall.
Además, actualmente son muy populares los modelos lineales generalizados para
estudios de asociación y predicción cuando la variable dependiente es de tipo ordinal, en
particular la regresión logística y multinomial.
Escala de intervalo
Esta escala incluye las dos anteriores, es decir, clasifica, ordena y además establece la
proporción entre dos intervalos contiguos. Necesita una unidad de medida y un punto
cero arbitrario (no es el cero que pertenece a los reales). En esta escala, además, la
proporción de dos intervalos cualesquiera es independiente de la unidad de medida y
del punto cero. Por ejemplo, la temperatura en grados Celsius o Fahrenheit se mide en
una escala de intervalo, ya que la unidad de medida y el punto cero son arbitrarios.
Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Las
técnicas paramétricas incluyen el cálculo de medias, la desviación estándar, el coeficiente
de correlación de Pearson, etcétera. Las pruebas estadísticas admisibles son la t-Student
y la F de Snedecor, etcétera. Las únicas medidas que no se pueden obtener son el
coeficiente de variación y la media geométrica, pues necesitan el cero de los números
reales.
Escala de proporción
Además de todas las características anteriores, la escala de proporción ubica al punto cero
en el origen. En esta medida, además de conocer la proporción, se debe conocer la
22
distancia entre dos puntos. Admite también todas las operaciones matemáticas y de igual
manera se pueden establecer relaciones de igualdad y orden. Las pruebas estadísticas
admisibles son todas las pruebas paramétricas, así como todas las pruebas estadísticas
anteriores más el coeficiente de variación y la media geométrica. Un ejemplo es el peso
en kilogramos de los estudiantes del primer semestre en alguna universidad. Otro
ejemplo es el diámetro en metros de una plantación de parotas localizadas en Tecomán,
Colima.
Existe un número infinito de parámetros para una población dada. Sin embargo, muchos
no tienen utilidad, en cambio otros manifiestan el interés de la evaluación. Por ejemplo,
la suma de todos los valores correspondientes al gasto de agua por familia en una
localidad (población). El promedio, el total, la varianza, la desviación estándar, el
coeficiente de variación, la moda, la mediana, el porcentaje o la proporción son algunos
ejemplos de parámetros.
Parámetros y estimadores
Parámetros
Sobre el conjunto población se pueden definir funciones muy diversas como el valor
más pequeño, el más grande, el que ocupa la posición central una vez que los valores
han sido ordenados ascendente o descendentemente, la suma de todos los valores
después de elevarlos al cuadrado, el valor que se repite el mayor número de veces y
muchos otros más. Todas esas funciones son parámetros. Los parámetros suelen ser
representados por letras griegas como 𝜇, 𝜏 o 𝜎.
23
Estimadores
Son funciones que se pueden proponer para calcular o estimar los parámetros. Un
parámetro es cuando las funciones se definen sobre el conjunto población; pero si
esas funciones se definen para los datos de una muestra, entonces se trata de una
estimación del parámetro. Además, a cada parámetro le corresponde uno o más
estimadores. Existe un número infinito de estimadores, pero sólo algunos tienen
interés práctico.
2.6 Sumatorias
La sumatoria es muy importante para comprender mejor los conceptos detrás del
muestreo. Algunos parámetros y estimadores incluyen en su definición la suma de varios
valores o datos. Si 𝑦𝑖 es cualquiera de esos datos, digamos el i-ésimo de ellos, y se tienen
𝑛 datos, la suma de esos datos se simboliza con el operador de sumatoria (Σ):
𝑛
𝑦1 + 𝑦2 + ⋯ + 𝑦𝑛 = ∑ 𝑦𝑖
𝑖=1
El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una
lista. Es importante hacer notar que el subíndice puede emplear cualquier símbolo,
aunque convencionalmente se emplean letras intermedias minúsculas como i, j, k,
etcétera; incluso, los mismos datos pueden usar subíndices diferentes para indicar las
operaciones apropiadas. Asimismo, un símbolo de dato como y puede tener más de un
subíndice cuando los datos tienen más de dos criterios o sentidos de clasificación, como
puede ser el caso de un cuadro o una matriz que tenga renglones y columnas, como 𝑦𝑖𝑗 ,
24
donde i es el renglón y j la columna, o al revés. Si existen más de dos criterios de
clasificación, podrán emplearse más de dos subíndices para identificar apropiadamente
cada dato.
En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de una
variable, un parámetro o un estimador, para señalar que ese símbolo pertenece al objeto
identificado con la etiqueta que se usa como subíndice. Por ejemplo, 𝜎𝑦 se refiere a la
desviación estándar (de los datos) de la variable 𝑦.
Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En los ejemplos,
i puede tomar valores entre 1 y 𝑛, mientras que 𝑦𝑖 puede ser cualquier valor de la variable
𝑦. Por decir, si estamos hablando de la variable ingreso familiar en el estado de Colima (𝑦),
entonces 𝑦𝑖 representa el ingreso de la familia i.
∎ ∑ 𝑐 = 𝑐 + 𝑐 + 𝑐 + ⋯ + 𝑐 = 𝑛𝑐
𝑖=1
𝑛 𝑛
= 𝑥1 + 𝑦1 + 𝑥2 + 𝑦2 + · · · +𝑥𝑛 + 𝑦𝑛
= (𝑥1 + 𝑥2 +· · · +𝑥𝑛 ) + (𝑦1 + 𝑦2 +· · · +𝑦𝑛 )
𝑛 𝑛
= ∑ 𝑥𝑖 + ∑ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑟 𝑛
Por ejemplo:
25
5 2 5
Para ser más explícitos, una variable aleatoria es una función, 𝑋(. ) donde a cada
resultado posible 𝑠 en el espacio muestral 𝑆 se le asigna un número real, 𝑋(𝑠).
La definición de variable aleatoria, 𝑋 puede verse como una regla que asocia a cada
resultado de 𝑠 𝑆 un número real 𝑋(𝑠). En la Figura 2.1 se aprecia una visualización
gráfica de una variable aleatoria.
En otras palabras, una variable aleatoria es una función cuyo dominio es el espacio
muestral del experimento aleatorio y tiene como rango el conjunto o un subconjunto de
los números reales.
26
Es de pensar que el concepto de variable aleatoria se genera por el hecho de que
estamos acostumbrados a contar o medir en números las variables que nos interesan. Por
ejemplo, considérese el lanzamiento de dos monedas balanceadas. Se tiene interés en el
número de águilas que resulten de tal experimento. Note que se pueden observar 0, 1 ó
2 águilas. Además, el espacio de resultados tiene cuatro elementos:
A los elementos del rango de una variable aleatoria generalmente se representan por
letras minúsculas. De esta forma, la expresión 𝑋(𝑠) = 𝑥 representa la asignación del
número real 𝑥 al punto muestral 𝑠. En términos de funciones, 𝑋(𝑠) = 𝑥 representa a la
función 𝑋 evaluada en el elemento muestral s, cuya imagen es 𝑥.
Ahora, asignemos probabilidades a los puntos muestrales de tal forma que los cuatro
mismos tengan la misma probabilidad, es decir, si E1={ss}, E2 = {sa}, E3 = {as} y E4 = {aa},
entonces,
1
P(Ek) = , para 𝑘 = 0, 1, 2.
4
A1 = { s є 𝑆: X(s) = x1 }
28
2.7.1 Variables Aleatorias Discretas
Note que podemos tener variables aleatorias que toman valores dentro de un conjunto
finito, infinito contable* o infinito. Para ejemplificar, consideremos las siguientes
situaciones:
En otros términos, podemos decir que una variable aleatoria X es discreta si existe una
correspondencia uno a uno entre los valores que toma X y algunos o todos los números
enteros positivos.
*
Un conjunto es llamado infinito contable si se puede establecer una correspondencia uno a uno con el conjunto de
los enteros positivos
29
Donde B es cualquier subconjunto de números reales. Llamaremos a Q(.) la distribución
de la variable aleatoria X. Q(B) nos proporciona la probabilidad de que X pertenezca al
conjunto B, es decir, Q(.) nos indica cómo se distribuye la probabilidad de los eventos.
Distribuciones Discretas
Note que si X es una variable aleatoria discreta que toma valores en un conjunto finito o
infinito contable C, entonces la función f(x) = P(X=x) es una función de densidad discreta
y, por lo tanto, la distribución de X puede determinarse por:
P(X є B) = f ( x)
BC
En tal caso, diremos que X es una variable aleatoria discreta con función de densidad
𝑓(𝑥).
Los modelos que se presentan a continuación son de uso común debido a su derivación
inmediata de situaciones reales, o en todo caso, son muy utilizados para calcular las
probabilidades de eventos de situaciones cotidianas.
30
Distribución Uniforme Discreta. Una variable aleatoria tiene distribución uniforme
discreta con parámetro 𝑛 si y sólo si su función de densidad está dada por:
1
para x x1 , x 2 ,..., x n
f ( x) n
0 de otra forma
1
para x 1, 2,..., 6
f ( x) 6
0 de otra forma
Distribución Binomial. Una variable aleatoria X se dice que tiene distribución binomial
con parámetros 𝑛, 𝑝 si y sólo si su función de densidad está dada por:
n x n x
p q para x 0, 1,..., n
f ( x) x
0
de otra forma
donde: 𝑛 1, 0 p 1 , 𝑞 = 1 − 𝑝
Generalmente una variable aleatoria binomial se deriva del hecho de representar los
éxitos de un experimento binomial, donde un experimento binomial tiene las siguientes
características:
31
2. En cada prueba se pueden presentar dos resultados; al de interés se le llama éxito
y al otro fracaso.
3. La probabilidad de éxito es constante e igual a 𝑝 en cada prueba ( 0 p 1 ) y, la
Ejemplo: Suponga que una maquina llena “correctamente” cada botella con probabilidad
0.95. Se tiene interés en conocer la distribución de la variable aleatoria X: número de
botellas llenadas correctamente de un total de 𝑛.
n
0.95 x 0.05 n x para x 0, 1,..., n
f ( x) x
0
de otra forma
pq x 1 para x 1,2,...
f ( x)
0 de otra forma
32
P(X=1) = q1-1p
P(X=2) = q2-1p
P(X=3) = q3-1p
P(X=x) = qx-1p
Distribución Poisson. Una variable aleatoria X se dice que tiene distribución Poisson con
parámetro λ>0 si y sólo si su función de densidad está dada por:
e x
para x 0, 1, 2,...,
f ( x) x!
0 de otra forma
n x n x e x
lim p q , si 𝑛𝑝→λ
n x x!
La distribución Poisson es muy utilizada para modelar el número de eventos que ocurren
raramente en el tiempo, espacio, etc.
33
Ejemplo: El número de accidentes mensuales en una fábrica se distribuye de acuerdo a
una variable aleatoria Poisson con parámetro 𝜆 = 3. Determine la probabilidad de que
para un mes determinado ocurran 3, 4 o 5 accidentes.
Como X tiene distribución Poisson con parámetro 3, entonces la probabilidad de que para
un mes determinado se presenten 3, 4 o 5 accidentes es igual a
33 34 35
f(3)+f(4)+f(5) = e 3
3! 4! 5!
m n m
x k x para x 0, 1,..., m
f ( x) n (1)
k
0 de otra forma
Ejemplo: Una caja contiene 20 focos, de los cuales 5 son defectuosos y, se extrae una
muestra desordenada (aleatoria) de tamaño 8.
34
La caja puede verse como la urna, los focos defectuosos como las bolas rojas, y los
focos no defectuosos como las bolas blancas. Si se extrae una muestra de tamaño 8,
entonces la probabilidad de que la muestra contenga exactamente x = 0, 1, …, 5 focos
defectuosos esta dado por:
5 15
x 8 x
para x 0, 1,..., 5
f ( x) 20
8
0 de otra forma
La distribución normal
1 (𝑦−𝜇)2 1 (𝑦−𝜇)2
− −
si 𝑦 ∈ ℝ0.00
2𝜎2 𝑒 2𝜎2
𝑓𝑌 (𝑦) = {√2𝜋𝜎 2 𝑒 √2𝜋𝜎 2
000000000000 de otra forma00000000000
donde: 𝐸[𝑌] = 𝜇 −<𝜇 <
𝑉𝑎𝑟[𝑌] = 𝜎 2 𝜎2 > 0
35
𝑒 y 𝜋 son constantes conocidas con valores aproximadamente iguales a 2.7183 y 3.1416,
respectivamente. El lector debe notar que 𝜇 y 𝜎 2 son los parámetros de la distribución,
es decir, 𝑌~𝑁(𝜇, 𝜎 2 ).
La distribución normal tiene forma acampanada con un sólo pico o moda que es igual
a la mediana y media porque es una distribución simétrica. Además, cuando 𝑌~𝑁(𝜇 =
90, 𝜎 2 = 25) el porcentaje de niños con una estatura de entre 80 y 100 cm es de 95.45%
(área sombreada en la Figura 2.2). Los puntos en que cambia la dirección de la concavidad
de la campana se llaman puntos de inflexión, y están situados a una distancia de 𝜎
unidades por encima y por debajo de la media μ. El área total bajo la curva es de 1 o 100%,
ya que es una distribución de probabilidad completamente definida.
Figura 2.2. La distribución normal para la variable estatura (𝑌) y una media de 90 cm y
𝐷𝐸 = 5 cm.
36
Sea Y una variable aleatoria distribuida 𝑁(𝜇, 𝜎 2 ). Definamos la variable aleatoria 𝑍 =
(𝑌 − 𝜇)/𝜎. Esta nueva variable aleatoria tiene distribución 𝑁(0,1). A una variable
aleatoria normal que tiene media cero y varianza uno se le llama normal estándar. Su
función de densidad es:
1 𝑧2
𝑒 − 2 𝑧 ∈ 𝑠𝑖 𝑧 ∈ ℝ = ⋯ si 0000
𝑓𝑍 (𝑧) = {√2𝜋
. 0 = ⋯ 0000de otra forma0 … . .00
La forma de la variable aleatoria 𝑍 se ilustra en la Figura 2.3. En ella se aprecia que los
valores con mayor ocurrencia de la variable aleatoria 𝑍 están entre -3.6 y 3.6, la media
(igual a la mediana) es igual a cero y su 𝐷𝐸 (igual a la varianza) es uno. La importancia
de esta función de densidad radica en que las probabilidades en cualquier miembro de
la familia, es decir, cualquier normal con media 𝜇 y varianza 𝜎 2 , puede calcularse con la
distribución normal estándar. La ventaja estriba en que tiene media cero y varianza uno
(Mood et al., 1974) y facilita el cálculo de probabilidades porque la variable aleatoria
normal original es una función no integrable, por lo que la integración se obtiene con
tablas de la normal estándar o un software estadístico.
37
2.8 Teorema Central del Límite
El Teorema Central del Límite es importante porque en él se basa gran parte de los
métodos estadísticos. Este teorema provee de una aproximación efectiva a las
probabilidades determinadas por sumas de variables aleatorias independientes y explica
la gran importancia de la distribución normal en la teoría de probabilidades. Su
enunciado preciso es el siguiente: sean 𝑌1 , 𝑌2 , … , 𝑌𝑛 una muestra aleatoria de una función
de probabilidades 𝑓𝑌 (𝑦) (es decir, variables aleatorias independientes e idénticamente
2
distribuidas), con media 𝜇𝑌 y varianza 𝜎..𝑌 . Sea 𝑌̅ = (𝑌1 + 𝑌2 +· · · +𝑌𝑛 )/𝑛 la media
aritmética de las variables aleatorias que integran la muestra. Para un tamaño de muestra
𝑛, la distribución de la variable aleatoria 𝑌̅ es aproximadamente normal con media 𝜇𝑌 y
2
varianza 𝜎..𝑌 /𝑛, es decir,
2
Ȳ ∼ 𝑁(𝜇𝑌 , 𝜎..𝑌 /𝑛)
cuando 𝑛 → ∞
Ȳ − 𝜇𝑌 Ȳ − 𝜇𝑌
= ∼ 𝑁(0, 1)
2 𝜎𝑦̅
√𝜎..𝑌
𝑛
El Teorema Central del Límite establece que para un tamaño de muestra grande, la
distribución de 𝑌̅ es aproximadamente normal, independientemente de la función de
probabilidades de la variable aleatoria 𝑌 (Mood et al., 1974).
38
Cuando la población muestreada tiene una distribución de probabilidad normal, no
se requiere el Teorema Central del Límite. En este caso, utilizamos otro teorema que
establece que si la población muestreada es una distribución de probabilidad normal, la
distribución de probabilidad de 𝑌̅ es exactamente normal para cualquier tamaño de muestra.
La distribución t-Student fue publicada por primera vez en 1908 por el químico irlandés
W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba
la publicación de trabajos de investigación; por tal motivo publicó su trabajo con el
seudónimo Student. Por dicha razón esta distribución lleva el nombre de t-Student.
−(𝑣+1)/2
1 Γ[(𝑣 + 1)/2] 𝑡 2
𝑓𝑇 (𝑡) = { √𝑣𝜋 ( + 1) 𝑠𝑖 − ∞ < 𝑡 < ∞. .
Γ[𝑣/2] 𝑣
0 …. de otra forma … …
39
cuando 𝑛 es grande. Por ello, la forma de ambas distribuciones es muy semejante. No
obstante, una variable normal estándar siempre tiene varianza 1, mientras que la
varianza de una variable t-Student es superior a 1. Esto se puede apreciar en la Figura
2.4, donde se compara la distribución normal estándar con la distribución t-Student con
1, 3, 5 y 10 grados de libertad. Es decir, se observa que las dos funciones de densidad son
simétricas respecto al origen, pero la distribución t-Student posee mayor masa de
probabilidad en los extremos. Sin embargo, desde el punto de vista práctico, las
diferencias entre estas dos distribuciones son relevantes cuando el tamaño de muestra es
menor o igual a 30. En el presente libro sugerimos obtener los valores de las tablas que
se utilizan para los ejemplos y ejercicios de los capítulos posteriores a partir de la
distribución t-Student, cuando el tamaño de la muestra sea menor o igual a 30; de lo
contrario, obtenerlos de la distribución normal estándar.
Figura 2.4. Comparación entre las distribuciones normal estándar y t-Student con 1, 3,
5 y 10 grados de libertad.
40
conocer una población con base en la muestra recurrimos a dos procedimientos
generales, que se diferencian en la manera de seleccionar las unidades de la población y
el método usado para determinar el tamaño de la muestra. Los procedimientos se llaman
muestreo probabilístico y muestreo no probabilístico (Rendón, 1997).
Muestreo probabilístico. Comprende los métodos que usan un mecanismo aleatorio para
la selección de las unidades de la muestra. Cada unidad de la población tendrá una
probabilidad conocida de ser seleccionada, así como una probabilidad de ser incluida en
la muestra; ninguna de tales probabilidades es igual a cero. Entonces, los métodos de este
tipo de muestreo establecen una estructura probabilística que es la base para desarrollar
la teoría del muestreo. Otra característica importante en estos métodos de muestreo es
que la calidad, el error o la precisión de los estimadores pueden ser determinados y
expresados en términos probabilísticos. Algunos métodos de muestreo probabilístico
son: el aleatorio simple, el aleatorio estratificado, el sistemático con iniciación aleatoria,
el por conglomerados, el de respuesta aleatorizada, etcétera (Bradburn, 1998). Este tipo
de métodos de muestreo se desarrollará más adelante.
El marco de muestreo, o marco muestral, está constituido por un listado, real o virtual,
de todas las unidades de muestreo.
Unidad de muestreo
43
Idealmente, cada elemento de la población debe estar incluido en una y sólo una
unidad muestral. Por eso se dice que las unidades muestrales son excluyentes entre sí y
exhaustivas sobre la población. No siempre se satisface cabalmente esta condición ideal y su
aceptación depende de las condiciones en que se suscite.
Hacer el listado de las unidades muestrales que conforman la población parece una
labor simple, pero en la práctica es una tarea muy complicada, porque algunas
poblaciones tienen características que demandarán tareas particulares al momento de
obtener el marco de muestreo. El marco de muestreo es real o virtual porque en ocasiones
se puede tener físicamente la lista de todas las unidades, mientras que en otras bastaría
con tener la posibilidad de generarlo para lograr el objetivo propuesto.
1. El planteamiento de objetivos
Es trascendental que se definan desde el principio las unidades muestrales que serán
tomadas en cuenta y se establezcan reglas claras para que el encuestador las
identifique al momento de ubicarlas y hacer la medición. Recuérdese que la población
que se quiere muestrear debe coincidir con la población sobre la cual se desea tener
información.
Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y que
no se omitan datos esenciales. Particularmente, en el caso de poblaciones humanas
existe la tendencia a hacer un número excesivo de preguntas innecesarias. Nótese que
un cuestionario demasiado largo produce una baja general en la calidad de las
respuestas, tanto en las preguntas importantes como en las secundarias.
45
muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos, ya
que es quien suele entender la magnitud del error tolerable de una encuesta para
hacerla compatible con una buena decisión.
a) Decida lo que quiere escribir. Éste es el paso más importante para redactar un
cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se motive
a las personas de la muestra a responder sin problema alguno.
b) Siempre verifique sus preguntas antes de realizar la encuesta. Lo ideal es que las
preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferentes
versiones de las interrogantes y pregunten a los entrevistados en la prueba
preliminar la forma en que interpretaron las preguntas.
46
c) Elabore las preguntas de manera sencilla y clara. Las preguntas que a usted
pueden parecerle claras tal vez no lo sean para quien las escucha por teléfono o
para alguien que hable otro idioma. Con una muestra de 53 personas, Belson
(1981, 240) probó la pregunta ¿Qué proporción de tiempo que ve la televisión lo
dedica a ver noticias? Sólo 14 de ellas interpretaron de manera correcta la palabra
proporción como porcentaje, parte o fracción. Otras las interpretaron como cuánto
tiempo o cuáles programas de noticias ve.
d) Utilice preguntas específicas en lugar de preguntas generales.
e) Relacione las preguntas que elabore con el concepto de interés.
f) Decida si debe utilizar preguntas abiertas o cerradas.
g) Informe sobre la pregunta que se planteó realmente.
h) Evite preguntas que induzcan o motiven al entrevistado a decir lo que usted
quiere escuchar.
i) Utilice preguntas de opción forzosa.
j) Plantee sólo un concepto en cada pregunta.
k) Preste atención al efecto del orden de las preguntas.
6. El marco de muestreo
7. La selección de la muestra
Existe actualmente gran variedad de planes para seleccionar una muestra. Por cada
plan considerado se pueden hacer estimaciones del tamaño de la muestra partiendo
47
de un conocimiento del nivel de precisión deseado y la varianza de la población. Los
costos relativos y el tiempo empleado en cada plan se estudian antes de tomar una
decisión (Lohr, 2000).
8. La encuesta piloto
48
Cuanta más información de una población se tenga inicialmente, más fácil será el
diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida es
una guía potencial de futuros muestreos por los datos que revela sobre la media, la
desviación estándar y la naturaleza de la variabilidad de las medidas principales, así
como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente si
se prevé lo necesario para reunir y registrar ese tipo de información.
Hay otro aspecto importante en el que una muestra completa facilita la obtención
de otras posteriores: el encuestador habilidoso aprende a reconocer los errores de
ejecución y a evitar que se repitan.
Ventajas
El objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear
recursos mínimos para obtener determinada información, o bien en conseguir la máxima
información con recursos prefijados (Bradburn, 1998).
Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en
los siguientes puntos:
Se empleará el muestreo cuando la población sea tan grande que el censo exceda
las posibilidades del investigador.
Se tomarán muestras cuando la población sea suficientemente uniforme como
para que cualquier muestra dé una buena presentación de la misma.
Se tomarán muestras cuando el proceso de medida o investigación de los
caracteres de cada elemento sea destructivo (consumo de un artículo para juzgar
su calidad, determinación de una dosis letal, etcétera).
Se utilizará el muestreo cuando las personas respondan con desagrado y así
disminuir el número de elementos que serán encuestados.
49
Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el
costo absoluto como el costo relativo (con relación a la cantidad de información
obtenida).
Este criterio suele conocerse como el criterio de economía.
El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al
valor real de la característica en estudio) resulta ser muy buena. Este criterio suele
conocerse con el nombre de criterio de calidad.
El muestreo es conveniente cuando la formación del personal y la intensidad de
los controles y supervisión son onerosos.
En general, el muestreo será conveniente cuando constituya la solución de mayor
eficiencia en el sentido del costo-beneficio.
Desventajas
Las características óptimas a las cuales deberían ajustarse las investigaciones por
muestreo, son las siguientes:
50
Precisión. La proximidad al valor verdadero de las características poblacionales
estimadas.
51
2.15 Errores de las encuestas
En general, en las encuestas puede haber varias fuentes de error (Bradburn, 1998), como
las siguientes:
Error de muestreo o de estimación. Error que surge cuando sólo se miden las unidades
de una muestra de la población, es decir, cuando sólo se estudia una fracción de
la población. Este error es particular para cada una de las muestras posibles de
tamaño 𝑛, y se define como la diferencia entre el valor del estimador y el valor del
parámetro.
52
Cuando la información se recolecta mediante una enumeración total se está expuesto
a cometer los cuatro últimos errores. Si la recolección se realiza mediante un
muestreo, entonces estaremos expuestos a los cinco errores y en tal caso a los cuatro
últimos se les denomina errores no debidos al muestreo.
Una muestra preliminar o piloto es una muestra que antecede a la definitiva, cuya
selección se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se
utilizará en el estudio definitivo.
Definir la precisión de los estimadores cuando no se tiene idea de los valores entre los
cuales ésta (precisión) puede considerarse razonable. Algunos autores sugieren que la
muestra preliminar podrá considerarse como parte de la muestra definitiva solamente
cuando los métodos de selección, medición, incluyendo el cuestionario y el marco de
muestreo, no hayan sufrido cambios o modificaciones severas.
53
En estadística se pone especial énfasis en los significados de exactitud y precisión ya que
estos conceptos son esenciales para un mejor entendimiento de esta disciplina.
En la Figura 2.5 se ilustran estos conceptos estadísticos. Note que el peor escenario
(Figura 2.5, cuadrante a) consiste en tener estimaciones inexactas, es decir, sesgadas, e
imprecisas. En ocasiones se tienen estimadas exactas pero no son de utilidad pues son
muy imprecisas (Figura 2.5, cuadrante b). Imagine que alguien estime que su edad esta
entre un año y 100 años, la cual es exacta pero inservible por la enorme imprecisión. Un
tercer escenario consiste en disponer de estimaciones inexactas, es decir, sesgadas, pero
muy precisas (Figura 2.5, cuadrante c). Es precisamente la gran precisión lo que hace que
en ocasiones este tipo de estimadores, sesgados, sean preferibles que los insesgados,
además de que el sesgo tiende a cero conforme aumenta el tamaño de la muestra. El
estimador ideal es aquel que produzca estimadas exactas y precisas (Figura 2.5,
cuadrante d).
54
c) Estimaciones inexactas pero precisas d) Estimaciones exactas y precisas
Por ello, cuando realizamos un estudio por muestreo es importante preguntarnos cuál
es la cantidad de error tolerable o la precisión de la estimación. La persona que utilizará
los resultados del muestreo debe definir el error, pues conoce el fenómeno en cuestión y
lo delicado de las conclusiones que se desprendan del análisis. Así, en el muestreo
probabilístico es usual referirse a la precisión de la estimación en los términos siguientes:
Esto significa que debemos especificar que 𝜃 y 𝜃̂ difieren en valor absoluto en una
cantidad menor que 𝑑.
1−𝛼 = confiabilidad
𝑃⌊|𝜃̂ − 𝜃| ≤ 𝑑⌋ = 1 − 𝛼
que es igual a:
𝑃⌊−𝑑 ≤ 𝜃̂ − 𝜃 ≤ 𝑑⌋ = 1 − 𝛼 (2.1)
56
Para los investigadores inexperimentados en el diseño de encuestas donde se necesitan
muestras, fijar la precisión es una labor confusa. En muchas ocasiones los investigadores
no saben cuánto grado de precisión desean ni tienen idea alguna de la respuesta. Sin
embargo, la elección adecuada de la precisión es fundamental para la toma de decisiones
acertadas, por lo que a continuación damos algunos elementos para su determinación.
Por otro lado, si el parámetro que se desea estimar es el total, ya sea a partir de
variables dicotómicas o continuas, se procede de igual forma y se recomienda un error
menor de 8% del total preliminar. Por ejemplo, si se desea estimar el total de drogadictos
en el estado de Colima en el año 2015, para fijar la precisión necesitamos una estimación
tentativa del total. Si suponemos que éste es de 5,000, entonces la precisión será 𝑑 =
0.05*5,000 = 250, es decir, 5% del total preliminar. Esta forma de estimar la precisión del
total es exactamente la misma (𝑑=(porcentaje/100) × valor preliminar del parámetro a estimar)
que para estimar la precisión para una proporción o un promedio. El lector debe
recordar que la precisión se debe calcular para el parámetro de mayor interés en su
investigación, de lo contrario, debe determinar una precisión para cada parámetro y con
ello obtener más de un tamaño de muestra, lo cual, además de desgastarlo, lo puede
confundir. También hay que dejar claro que si se determina la precisión usando la
expresión que presentamos anteriormente, (𝑑=(porcentaje/100) × valor preliminar del
parámetro a estimar), el tamaño de muestra requerido usando el mismo porcentaje de error
para estimar la proporción o total será igual. Lo mismo ocurrirá con el tamaño de muestra
para el promedio y el total. A esta forma de fijar la precisión se le llama precisión relativa.
58
Por último, es importante mencionar que el nivel de precisión se decidirá por la
cantidad de recursos disponibles para el estudio, ya que se pueden obtener resultados
muy confiables con precisiones muy altas, pero ello implica mayores costos. Por otro
lado, para estimar la precisión sugerimos extraer una muestra piloto que permita obtener
estimaciones preliminares de los parámetros, conocer la calidad del cuestionario, las
dificultades de los encuestadores, los problemas del marco de muestreo y otros detalles
que nos auxilien en el diseño de la encuesta definitiva. Finalmente, también es importante
dejar claro que en la mayoría de encuestas donde se trabaja con personas, los márgenes
de error más usados son 3% y 5%, ya que garantizan resultados bastante confiables y
costos razonables.
Cuadro 2.2. Segundo ejemplo para el uso de las tablas de la normal estándar.
Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Cuadro 2.3. Tercer ejemplo para el uso de las tablas de la normal estándar.
Z
Ahora suponga que el investigador selecciona una confiabilidad de 85%; esto implica
que 𝛼 = 0.15. Por lo tanto, el valor de tablas que se busca es 𝑍0 = 𝑍𝛼/2 = 𝑍0.075 . En
términos de probabilidad, buscamos 𝑍0 tal que 𝑃(𝑍 < 𝑍0 ) = 1 − 0.075 =
61
0.925. Nuevamente, en el Cuadro 2.3 se busca el valor de probabilidad más próximo a
0.925. En seguida se obtienen los valores de 𝑍 para este valor de la columna e hilera en
que se ubica. Para este caso el valor de 𝑍 en la columna es igual a 0.04 y el de la hilera 1.4.
De esta manera 𝑍0 = 1.4 + 0.04 = 1.44. Es importante enfatizar que al usar esta tabla no
se obtienen valores exactos sino aproximados.
Finalmente, para facilitar el uso del Cuadro A.1, en el Cuadro 2.4 se presentan los
valores de 𝑍𝛼/2 para los niveles de confianza más comunes.
Por ejemplo, suponga que un investigador fija para su estudio una confiabilidad de
90% y cuenta con un tamaño de muestra de 𝑛 = 6; esto implica que 𝛼 = 0.1 (en términos
de proporción). Entonces, el valor de tablas que se desea es 𝑡0 = 𝑡6−1,1−0.05, es decir, se
busca el valor de 𝑡0 tal que 𝑃(𝑡 < 𝑡0 ) = 1 − 0.05 = 0.95. Para encontrar dicho valor de 𝑡0 ,
62
en el Cuadro 2.5 se busca en la primera columna los 𝑣 = 6−1 = 5 grados de libertad, en la
segunda hilera el valor 𝛼/2 = 0.05, y en la intercepción se obtiene el valor de 𝑡0 = 2.0150.
Para cerciorarnos de que no habrá dudas para obtener los valores 𝑡0 de tablas, damos
otro ejemplo: suponga que otro investigador fija para su estudio una confiabilidad de
98% y cuenta con un tamaño de muestra de 𝑛 = 16. Por lo tanto, 𝛼/2 = 0.01 y el valor de
tablas que se desea es 𝑡0 = 𝑡(15,1−0.01), que es equivalente a buscar el valor de 𝑡0 tal que
𝑃(𝑡 < 𝑡0 ) = 1 − 0.01. Para encontrar ese valor, en el Cuadro 2.5 se busca en la primera
columna los 𝑣 = 16 − 1 = 15 grados de libertad, en la segunda hilera el valor de 𝛼/2 =
0.01, y en la intercepción de éstas se obtiene el valor de 𝑡0 = 2.6025.
Un enfoque alternativo, según Kelly (2007), para el marco de potencia analítica para
la determinación de tamaños de muestra es el que se basa en la exactitud en la estimación
de parámetros (AIPE). El objetivo de AIPE es obtener parámetros estimados que
correspondan con exactitud al valor de la población que representan. Conceptualmente,
la exactitud puede ser definida como la distancia observada entre la estimación del
parámetro y su valor verdadero poblacional. Precisión, sin embargo, es la
reproductibilidad de la estimación y se define como la variabilidad de la estimación
resultante. El sesgo es también un concepto importante en el contexto de exactitud y
precisión. El mantener precisión constante generalmente lleva a discrepancias más
grandes entre las estimaciones y el valor de la población, porque la estimación insesgada
(centrada) es una propiedad deseable en los estimadores (fórmulas para hacer las
estimaciones de parámetros).
La definición formal de exactitud es dada por la raíz cuadrada del error cuadrado
medio y puede ser expresada de la siguiente manera:
2 2 2
𝑅𝑀𝑆𝐸 = √𝐸 [(𝜃̂ − 𝜃) ] = √[𝐸(𝜃̂ − 𝐸[𝜃̂]) ] + (𝐸[𝜃̂ − 𝜃])
donde 𝜃 es el valor verdadero del parámetro de la población (Hellmann & Fowler, 1999;
Rozeboom, 1996). Se puede observar que la raíz cuadrada del error cuadrático medio se
puede desintegrar en dos componentes: la varianza, que es la medida de precisión, y el
cuadrado del sesgo. Por lo tanto, cuando el sesgo es cero (𝐸 [𝜃̂ - 𝜃] = 0), tanto la precisión
como la exactitud son equivalentes y se pueden utilizar indistintamente.
64
la desviación estándar o en la métrica de la variable dependiente. Cuanto más corta sea
la amplitud de un intervalo de confianza existe menor incertidumbre acerca de los
posibles valores del parámetro poblacional. Es decir, siendo este más estrecho aumenta
la probabilidad de que el punto obtenido represente con precisión el valor real de la
población. Por lo tanto, para que un investigador reduzca las principales fuentes de
incertidumbre debe tratar de desterrar la aleatoriedad e imprecisión (Casti, 1990). La
filosofía AIPE para la estimación del tamaño de muestra puede facilitar mejor el avance
del conocimiento científico que el método de pruebas de hipótesis que se reduce a un
método dicotómico de rechazo o no rechazo.
Ambos tipos de enfoques, tanto el de potencia analítica como el AIPE, pueden ofrecer
beneficios en ciertas situaciones, dependiendo de la(s) pregunta(s) de investigación. Está
claro que ambos enfoques son importantes y en muchas circunstancias pueden usarse en
conjunto para ayudar a producir estudios de calidad.
65
estimaciones que calculen con exactitud el parámetro de la población correspondiente.
En el marco de AIPE, la exactitud es relativa y se refiere a la correspondencia entre el
valor de la población y su estimado. Ambos, la precisión y entonces la exactitud de un
estimado, se refieren al ancho del IC formado alrededor del parámetro. La selección de
un tamaño de muestra se realiza para lograr que este intervalo sea estrecho y lleve a
estimaciones exactas si el estimador es insesgado. Probabilísticamente, mediante una
planeación del tamaño de muestra tal que el ancho del intervalo de confianza calculado
sea estrecho, los parámetros estimados tendrían mejor correspondencia al valor
poblacional, dado que habrá menor incertidumbre en los puntos estimados obtenidos. A
menudo, obtener los parámetros estimados exactos, lleva a un mejor entendimiento del
fenómeno estudiado que la decisión rechazo - no rechazo vía la prueba de la hipótesis
nula. En el campo de la investigación científica, la imprecisión es una característica de un
parámetro estimado que debe eliminarse tanto como sea posible. Porque la “predicción
y explicación son pilares en los cuales descansan las metas de la empresa científica”
(Casti, 1990). Lograr parámetros estimados exactos no sólo facilitaría la predicción del
parámetro de interés, sino que también podría ayudar cuando se formaran explicaciones
sobre por qué y cómo la(s) variable(s) dependiente(s) e independiente(s) están (o no
están) relacionadas entre ellas. Cuando las predicciones son exactas y las explicaciones
viables están disponibles para algunos fenómenos, la verosimilitud del conocimiento
puede ser realzada en un área en particular, lo cual puede tener mayores consecuencias,
dado que pueden desarrollarse y posteriormente probarse teorías más fuertes y precisas.
Para estimar el tamaño de muestra bajo el MAS con enfoque tradicional se usan con
mayor frecuencia las siguientes fórmulas:
Z 2 pq
n
d2
Por otra parte, existe una forma no tan popular para el cálculo de tamaño de muestra
pero que asegura exactitud en la estimación de parámetros (Kupper & Hafner, 1989;
Kelley et al., 2003; Kelley & Rausch, 2011; Montesinos-López, Montesinos-López, Luna-
Espinoza, Gaytán-Lugo, & Espinosa-Solares, 2012a). Desde el enfoque AIPE, el tamaño
de la muestra se determina de tal manera que la amplitud (anchura) esperada del IC será
suficientemente estrecha. El enfoque AIPE consta de dos pasos. El primero proporciona
el tamaño de muestra requerido bajo el enfoque tradicional de tal manera que la amplitud
esperada del IC será menor o igual al valor especificado a priori por el investigador. A
este valor se le conoce como precisión o margen de error. Sin embargo, la probabilidad
de que la amplitud del IC calculado con la muestra obtenida en el paso anterior sea menor
que el margen de error especificado a priori, está alrededor de 0.5 (50%) (Kupper &
Hafner, 1989; Kelley et al., 2003). Una vez obtenido el tamaño de muestra tradicional se
procederá a calcular un tamaño de muestra con mayor precisión; para esto es necesario
incrementarlo hasta asegurar que la anchura del IC sea menor o igual a la precisión
especificada a priori con una alta probabilidad. A esta probabilidad se le llama nivel de
67
aseguramiento (𝛾). Por ejemplo, si un investigador estima un tamaño de muestra bajo el
enfoque AIPE para estimar el promedio con un nivel de confianza de 95%, con una
precisión 0.5 y un nivel de aseguramiento del 99%, entonces el tamaño de muestra
resultante le asegurará que la amplitud del IC de 95% sea menor o igual 0.5 (precisión
fijada a priori) con una probabilidad de al menos 99%. Es decir, se tiene una probabilidad
de 1% de que no se cumpla la precisión fijada a priori en la amplitud del IC de 95%
(Kupper & Hafner, 1989; Kelley et al., 2003; Kelley, 2007).
pˆ m / n
pL B / 2 , y ,n y 1
(2.2)
pU B1 / 2 , y 1,n y
w pU pL
68
donde: 𝑝𝑈 = Límite superior y 𝑝𝐿 = Límite inferior.
wr ( pU pL ) / p (2.3)
n
n y
wr ( p, n) wr p 1 p
n y
y 0 y
donde: 𝑤
̅𝑟 (𝑝, 𝑛) es la amplitud requerida del intervalo de confianza y es calculada
utilizando las fórmula anterior, para 𝑌 = 𝑦 dados 𝑝 y 𝑛.
n
n y
wr ( p, n) wr p 1 p re
n y
y 0 y
donde: 𝑟𝑒 es el error relativo, se sugiere que sea menor a 0.1 (10%), 𝑦 es el número de
éxitos observados, y 𝑛 es el tamaño de muestra preliminar requerido.
donde: 𝑤
̅ 𝑟𝑖 = Amplitud relativa promedio observada e i = representa la iteración
respetiva.
n
n y
P( wˆ r re) I ( wr , y, p) p 1 p
n y (2.4)
y 0 y
donde 𝐼(𝑤𝑟 , 𝑦, 𝑝) es una función indicadora que muestra si el valor de CIRW, calculado
̂𝑟 es considerada una
con las ecuaciones 2.2 y 2.3, no es más grande que el valor de 𝑟𝑒, y 𝑤
̅
variable aleatoria porque no se conoce el valor exacto de 𝑝.
(𝑛𝑚100 , 𝑛𝑚300 y 𝑛𝑚800 ), cada uno con su correspondiente probabilidad de que la anchura
relativa del IC esperado (CIRW) sea menor que el valor especificado ( re 0.3 y
̂
̅𝑟 < 𝑟𝑒)). Para un IC del 95%, 𝑝 es la proporción en la población, 𝑟𝑒 = 0.3 es el CIRW
𝑃(𝑤
deseado, y el tamaño de la muestra preliminar es calculado usando la ecuación 𝑤
̅𝑟 (𝑝, 𝑛).
̂
̅𝑟 < 𝑟𝑒) es la probabilidad de que la media del CIRW sea menor que el valor
𝑃(𝑤
especificado ( re 0.3 ), donde 𝑟𝑒 = 0.3 es el error relativo o precisión relativa deseada.
Por lo tanto, se concluye que utilizando la Ec. 2.4 sólo se garantiza una probabilidad de
que se cumpla la amplitud del IC de alrededor de 50%.
70
0.1 1600 0.4878 1700 0.8439 1900 0.9992 2400 1.00
0.15 1009 0.5094 1109 0.9607 1309 1.00 1809 1.00
0.2 713 0.5000 813 0.9982 1013 1.00 1513 1.00
0.25 536 0.4834 636 0.9999 836 1.00 1336 1.00
0.3 417 0.4773 517 1.00 717 1.00 1217 1.00
0.35 333 0.5000 433 1.00 633 1.00 1133 1.00
0.4 270 0.4769 370 1.00 570 1.00 1070 1.00
0.45 220 0.4211 320 1.00 520 1.00 1020 1.00
0.5 181 0.5522 281 1.00 481 1.00 981 1.00
Para que la probabilidad de la amplitud relativa del IC sea alta se usa la siguiente
expresión:
n
n y
P( ŵr re ) I ( wr , y , p ) p 1 p
n y
y 0 y
donde: 𝛾= Nivel de aseguramiento (gama).
EL Cuadro 2.7 muestra los tamaños de muestra requerido (𝑛) para IC de 95% y
99%,donde 𝑝 es la proporción en la población, 𝛾 es el grado deseado de acercamiento a
un IC para 𝑝 que no sea más amplio que 𝑟𝑒, 𝑟𝑒 es el CIRW relativo deseado, y 𝑛𝑚 es el
tamaño de muestra modificado y requerido cuando se utiliza un nivel de aseguramiento
𝛾. Por lo tanto, se concluye que utilizando un nivel de aseguramiento (enfoque AIPE) se
garantiza que con una probabilidad previamente fijada 𝛾, se cumpla la amplitud del IC,
el cual depende del nivel de aseguramiento 𝛾 (comúnmente de 90 y 99%).
p 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3
0.05 117577 29592 7496 3374 119370 30483 7937 3662 120820 31194 8280 3889
0.1 55714 14026 3554 1600 56509 14420 3747 1729 57154 14736 3899 1826
0.15 35093 8838 2240 1009 35558 9069 2353 1082 35932 9250 2442 1138
0.2 24782 6243 1583 713 25080 6391 1656 760 25321 6507 1711 796
0.25 18596 4687 1189 536 18795 4784 1238 567 18952 4862 1274 589
0.3 14472 3649 927 417 14604 3714 959 439 14708 3764 981 453
71
0.35 11526 2908 739 333 11610 2949 760 346 11677 2980 772 354
0.4 9316 2352 598 270 9366 2376 610 277 9402 2393 616 280
0.45 7598 1919 489 220 7619 1930 493 223 7634 1935 494 223
0.5 6223 1573 401 181 6224 1574 402 182 6224 1574 402 182
IC=99%.
𝑛𝑝 con ( 0.5) 𝑛𝑚 con 0.90 𝑛𝑚 con 0.99
P 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3 0.05 0.1 0.2 0.3
0.05 202500 50824 12805 5735 204867 52002 13380 6120 206774 52938 13840 6416
0.1 95939 24083 6068 2717 96991 24606 6325 2886 97834 25021 6525 3020
0.15 60419 15169 3823 1712 61029 15473 3974 1811 61524 15716 4090 1888
0.2 42659 10712 2700 1209 43053 10907 2796 1273 43369 11063 2870 1320
0.25 32003 8038 2026 907 32266 8168 2091 949 32474 8269 2140 980
0.3 24899 6255 1577 706 25074 6341 1619 734 25212 6408 1651 753
0.35 19825 4982 1256 562 19937 5037 1284 580 20025 5079 1302 591
0.4 16019 4027 1016 455 16084 4058 1032 465 16135 4081 1041 470
0.45 13059 3284 829 371 13088 3298 835 375 13108 3306 838 375
0.5 10691 2689 679 304 10692 2690 680 305 10692 2690 680 305
72
Capítulo 3. Muestreo aleatorio simple
CAPÍTULO 3
Muestreo aleatorio simple
Que el muestreo es imperfecto,
No lo vengo a discutir.
Pero es el mejor amigo,
Que te ayuda a decidir.
OAML
La definición de MAS se refiere a que cada una de las unidades de la población tienen la
misma probabilidad de ser seleccionadas (Raj, 1972). Si sabemos que cada muestra
posible tiene la misma probabilidad de ser elegida, nos preguntamos ¿cuántas muestras
posibles existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la
selección con reemplazo y la selección sin reemplazo.
Definición
Se denomina muestreo aleatorio simple o completamente al azar al diseño que,
habiendo decidido que el tamaño de la muestra será de 𝑛 unidades de muestreo
(o simplemente de tamaño 𝑛), le asigna la misma probabilidad de ser elegida a
cada una de todas las muestras posibles de ese tamaño. Es decir, cualquiera de las
muestras distintas que podemos obtener de la población tendrá la misma
probabilidad de ser elegida (Cochran, 1985).
Con reemplazo
En el muestreo con reemplazo, si el tamaño de la muestra es 𝑛 y el de la población
es 𝑁, existen 𝑁 𝑛 muestras diferentes. El procedimiento de selección consiste en
seleccionar una unidad que tiene la posibilidad de ser incluida nuevamente en la
muestra. Esta opción genera fórmulas de estimación más fáciles, pero en la
práctica tiene poco sentido medir en más de una ocasión la misma unidad
muestral, salvo en diseños específicos u otros más elaborados en los que las
complicaciones teóricas sugieren simplificar los supuestos en que se sustenta su
análisis.
Sin reemplazo
En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como
combinaciones se pueden hacer de N elementos de tamaño 𝑛 (𝑁 𝐶𝑛 ), cantidad que
se calcula con:
𝑁!
𝐶𝑁 𝐶𝑛 =
𝑛! (𝑁 − 𝑛)!
74
Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada
muestra posible, lo que haría suponer que todas las muestras posibles deberían
configurarse antes de seleccionarlas (sería imposible en poblaciones grandes).
Simplemente obsérvese que el número posible de muestras de una población con 100
unidades muestrales y una muestra de tamaño 15, sin reemplazo, es 100C15 =
100!/[15!(100−15)!] = 2.53338×1017, y con reemplazo es 10015 = 1×1030 muestras posibles.
Afortunadamente, la definición se satisface simplemente dejando que cada unidad
muestral tenga la misma oportunidad de ser incluida en la muestra; esa probabilidad es
𝑛/𝑁 y solamente necesitamos conocer una muestra, que será la que usaremos.
∑𝑁
𝑖=1 𝑦𝑖
Media de la población = 𝜇𝑦 = 𝜇 =
𝑁
Otro parámetro de gran interés es el total (𝜏𝑦 ) de la variable 𝑦 para toda la población:
∑𝑛𝑖=1 𝑦i
𝜇̂ = 𝑦̅ = (3.1)
𝑛
𝜏̂ = 𝑁𝑦̅ (3.2)
77
Los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) aportados por Scheaffer,
Mendenhall & Lyman (1987) se llaman estimaciones. Los estimadores son variables
aleatorias que tienen propiedades estadísticas derivadas de la probabilidad, mientras que
las estimaciones son simplemente números con las unidades de medición
correspondientes.
Estimación de la varianza
𝑁 − 𝑛 𝜎 2y
𝜎 2𝑦̅ = (3.3)
𝑁 𝑛
Al no conocer el parámetro 𝜎 2y incluido en la expresión (3.3), utilizamos su estimador
(Scheaffer et al., 1987).
78
𝑁 − 𝑛 𝑆 2𝑦 𝑛 𝑆 2𝑦 𝑆 2𝑦
𝑆 2𝑦̅ = = [1 − ] = [1 − 𝑓] (3.4)
𝑁 𝑛 𝑁 𝑛 𝑛
𝜇𝜏̂ = 𝜏̂ = 𝑁𝜇 (3.5)
𝜎 2𝜏̂ = 𝑁𝜎 2𝑦 (3.6)
Como no conocemos los parámetros incluidos en estas expresiones (3.5 y 3.6), utilizamos
sus estimadores muestrales.
79
Por lo general, la desviación estándar de los estimadores, es decir, la raíz cuadrada
positiva de sus varianzas, se conoce como error estándar de la media y del total,
respectivamente.
Debemos recordar que nos interesa estimar la media o el total de la población, es decir, 𝜇
o 𝜏, basándonos en la información de la muestra, esto es, 𝑦̅, 𝑆𝑦2̅ y 𝑆𝜏̂2 , los cuales ya hemos
calculado. Asimismo, suponiendo que los estimadores 𝜇̂ y 𝜏̂ tienen una distribución
normal, la media y el total poblacional se pueden estimar por intervalo.
𝑝𝐿 = 𝑦̅ − 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅
(3.9)
𝑝𝑈 = 𝑦̅ + 𝑡(𝑛−1,1−𝛼/2) √𝑆𝑦2̅
𝑁−𝑛 𝑆𝑦2
donde 𝑆𝑦2̅ = , 𝑡(𝑛−1,1−𝛼/2) es el cuantil 1 − 𝛼/2 de la distribución t-Student con 𝑛 − 1
𝑁 𝑛
80
𝑦̅0 indica el valor de la media muestral obtenido con la muestra específica. Asimismo,
implícitamente se acepta un error de 100𝛼%, esto es, que el valor del parámetro no esté
entre tales límites. El número 𝑡(𝑛−1,1−𝛼/2) representa el valor de una variable t-Student
con (𝑛 − 1) grados de libertad y que deja del lado izquierdo de la curva una probabilidad
de 1 − 𝛼/2. Este valor se obtiene de la distribución t-Student.
𝑆 2𝑦 𝑁−𝑛 𝑆 2 𝑁−𝑛
donde 𝜏̂ = 𝑁𝑦̅, 𝑆𝜏̂ = √𝑁 2 = 𝑁√ 𝑛𝑦
𝑛 𝑁 𝑁
81
Determinar el tamaño de muestra es uno de los problemas importantes al que debe
enfrentarse el usuario del muestreo. En la determinación de 𝑛 se debe considerar tanto el
aspecto teórico como el práctico. Por un lado es necesario identificar el parámetro que se
debe estimar, el esquema de muestreo a utilizar, la elección del estimador y las
especificaciones del mismo. Por otro lado el aspecto práctico tiene gran influencia en la
decisión del tamaño de muestra a usar, ya que deben tomarse en cuenta factores como el
dinero y tiempo disponibles, el objetivo del estudio, la cantidad de información que se
captará, el personal especializado, el tipo y la calidad de los materiales, los instrumentos
para las mediciones, etcétera.
𝑆2
𝑊 = 2𝑡(𝑛−1,1− 𝛼/2) √ 𝑛 (3.11)
Esta varianza muestral (𝑆 2 ) será calculada con base en una muestra preliminar de
tamaño 𝑛′, la cual sólo será de utilidad para calcular el tamaño de muestra definitivo,
pero no para el proceso de cálculo de estimaciones por intervalo. El tamaño de muestra
preliminar 𝑛′ se determina de manera arbitraria, pero dependerá de los recursos
económicos y humanos disponibles, así como del tiempo y las condiciones físicas y
administrativas del estudio. Está claro que a medida que se incremente 𝑛′ la estimación
de la varianza poblacional será mejor. En caso de no realizar una encuesta piloto para la
estimación de la varianza, se proponen las dos siguientes alternativas:
83
En el Cuadro A.1 se presentan fórmulas sencillas de las varianzas de distribuciones a
partir de la forma y el rango de variación de la variable estudiada. Deming (1966) y Kish
(1950) presentan cuadros similares.
El tamaño de muestra óptimo 𝑛 se define como el número entero más pequeño 𝑛𝑚 tal
que
𝑆2
𝑃 {𝐷 = 𝑡(𝑛𝑚 −1,1−𝛼/2) √ ≤ 𝑑} ≥ 𝛾;
𝑛𝑚
equivalentemente,
(𝑛𝑚 −1)𝑆 2
Note que = 𝜒𝑛2𝑚 −1 tiene distribución Ji-Cuadrada con 𝑛𝑚 − 1 grados de libertad,
𝜎2
(𝑛𝑚 −1)𝑆 2 𝑛𝑚 −1
es decir, tiene distribución gamma con parámetros 𝛼 = y 𝛽 = 2. Si
𝜎2 2
(𝑛𝑚 −1)𝑆 2
= 𝐺𝑎((𝑛𝑚 − 1)/2,2), entonces
𝜎2
𝜎 2 𝑡𝑛2𝑚 −1,1−𝛼/2
𝐺𝑎((𝑛𝑚 − 1)/2,2) (3.14)
(𝑛𝑚 − 1)𝑑 2
84
2
𝑛𝑚 −1 2𝜎2 𝑡(𝑛 𝑚 −1,1−𝛼/2)
tiene distribución gamma con parámetros 𝜎 ∗ = y 𝛽∗ = (𝑛𝑚 −1)𝑑2
1.
2
2
𝜎 2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝑃{ 𝐺𝑎((𝑛𝑚 − 1)/2,2) ≤ 𝑛𝑚 } ≥ 𝛾 (3.15)
(𝑛𝑚 − 1)𝑑2
Por lo tanto, usando (3.15) y (3.17), el tamaño de muestra óptimo 𝑛𝑚 para lograr la
precisión deseada al estimar el promedio, es el entero más pequeño 𝑛𝑚 tal que:
2
(𝑛𝑚 −1) 2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝑛𝑚 ≥ 𝐺𝑎 −1 (𝛾; , (𝑛𝑚 −1)𝑑2
), (3.16)
2
(𝑛𝑚 −1)
donde 𝐺𝑎−1 es el 100𝛾 cuantil de la distribución Gamma con parámetros 𝛼 ∗ = y
2
2
2𝜎2 𝑡(𝑛𝑚 −1,1−𝛼/2)
𝛽∗ = (𝑛𝑚 −1)𝑑2
, 𝑡(𝑛𝑚 −1,1−𝛼/2) es el percentil 100(1 − 𝛼/2) la distribución t-Student
1 𝛼
Si 𝜒 es una variable aleatoria que tiene distribución Gamma con parámetros 𝑎, 𝑏, entonces 𝑋 tiene distribución
𝛽
𝛼𝑏
Gamma con parámetros 𝑎, .
𝛽
85
ecuación (3.16) determina la probabilidad de que 𝑃(𝑊 ≤ 𝜔 = 2𝑑) = 𝛾, donde 𝑊 es la
amplitud del IC. A continuación se presenta un ejemplo para mostrar el grado de
subestimación que se origina por utilizar la ecuación (3.14) en la determinación del
tamaño de muestra 𝑛.
Cuadro 3.1. Tamaños de muestra, determinados con la ecuación (3.12), para estimar
promedios poblacionales, con la correspondiente probabilidad de que la mitad de la
amplitud del IC 𝐷 sea menor que la especificada 𝑑 = 10 y con 95% de confiabilidad.
𝑃(𝐷 ≤ 𝑑) es la probabilidad de que la mitad de la amplitud especificada del IC 𝐷 sea
menor que el valor especificado 𝑑 = 10. 𝑃(𝐷 < 𝑑) se calcula con la ecuación (3.15). Los
incrementos son 𝑛𝑚10 = 𝑛 + 10, 𝑛𝑚25 = 𝑛 + 25, y 𝑛𝑚50 = 𝑛 + 50.
𝝈 𝒏 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟏𝟎 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟐𝟓 𝑷(𝑫 ≤ 𝒅) 𝒏𝒎𝟓𝟎 𝑷(𝑫 ≤ 𝒅)
El ejemplo del Cuadro 3.1 es hecho con diversos valores para la desviación estándar
(𝜎). En este mismo ejemplo, para cada tamaño de muestra se calcula la probabilidad de
que la mitad de la amplitud del IC, 𝐷, sea menor que la amplitud deseada 𝑑 = 10.
Observe que el tamaño de muestra requerido para estimar el promedio poblacional,
calculado a partir de la ecuación (3.12), da como resultado una probabilidad alrededor
de 0.50 de que la mitad del IC 𝐷 sea menor o igual a la especificada 𝑑 = 10 (véanse las
columnas dos y tres del Cuadro 3.1). Por ejemplo, con 𝜎 = 50 el tamaño de
muestra obtenido con la ecuación (3.12) es 𝑛 = 97 elementos y 𝑃(𝐷 < 10) = 0.477. Con
𝜎 = 80, 𝑛 = 246, pero sólo el 47.1% de las veces la mitad de los intervalos de confianza
serán menores o iguales a 𝑑 = 10.
86
Cuando el tamaño de la muestra se incrementa en diez, (𝑛𝑚10 , Columna 4, Cuadro 3.1),
la 𝑃(𝐷 ≤ 𝑑 = 10) también se incrementa. Por ejemplo, con 𝜎 = 50 y 𝑛 = 107,
𝑃(𝐷 < 10) = 0.750; y con 𝑛 = 122, con un incremento de 25, 𝑃(𝐷 < 10) = 0.965. Por lo
tanto, los resultados del Cuadro 3.1 muestran que para obtener 𝑃(𝐷 ≤ 𝑑) = 10 con una
alta probabilidad de éxito, se requiere un tamaño de muestra más grande que los
proporcionados por la fórmula tradicional, Ecuación 3.12.
El alto grado de subestimación que se muestra en el Cuadro 3.1 es de esperarse, porque
aproximadamente en la mitad de las muestras 𝑆 2 será más grande que 𝜎 2 , y
consecuentemente, debido a que la amplitud del IC, 𝑊; depende de 𝑆 2 , 𝑊 será más
grande que el valor especificado 𝜔 = 2𝑑 aproximadamente en 50% del total de muestras.
Sin embargo, el valor deseado de 𝑊 es el valor predeterminado 𝜔 = 2𝑑. Por lo tanto, si
se usa la ecuación (3.14) para determinar el tamaño de muestra, la probabilidad de que
la amplitud del IC sea menor que la amplitud deseada 𝜔 = 2𝑑 es alrededor de 0.5, es
decir 𝑃(𝑊 ≤ 𝜔) ≥ 𝛾 ≈ 0.5.
entonces la ecuación (3.16) tiene una solución cerrada en términos de 𝑛𝑚 . En este caso 𝑛𝑚
es:
2
−1
(𝑛 − 1) 2𝜎 2 𝑡(𝑛−1,1− 𝛼/2)
𝑛𝑚 = 𝐺𝑎 (𝛾; , 2
). (3.17)
2 (𝑛 − 1)𝑑
87
2
donde 𝜒(𝑛−1,𝛾) es el percentil 100𝛾 de la distribución Ji-Cuadrada con 𝑛 − 1 grados de
libertad y 𝑡(𝑛−1,1− 𝛼/2) es el percentil 100(1 − 𝛼/2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas
de las distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión
significativa, en la ecuación (3.18), el valor 𝑡(𝑛−1,1− 𝛼/2) puede sustituirse por el cuantil 1 −
𝛼/2 de la distribución normal estándar, 𝑍1−𝛼/2 .
En los resultados presentados en el Cuadro 3.1 columna 2 (calculados con ecuación 3.12)
no se considera la naturaleza estocástica del IC. Esto provoca un problema serio de
subestimación en el tamaño de muestra, 𝑛, e induciendo a que no se logre la precisión
2 2
𝑡(𝑛−1,1− 𝛼/2) 𝑆
deseada 𝑑. Ante este problema, el tamaño de muestra 𝑛 = , expuesta en la
𝑑2
ecuación (3.12), es considerado como una variable aleatoria porque está basado en una
2 2
𝑡(𝑛−1,1− 𝛼/2) 𝑆
2
estimación de 𝜎 , es decir, 𝑛̂ = . Utilizando un procedimiento similar al usado
𝑑2
2 2
𝑛 − 1 2𝑡(𝑛−1,1− 𝛼/2) 𝜎
𝑛̂~𝐺𝑎 ( , ) (3.19)
2 (𝑛 − 1)𝑑 2
2 2
𝑛−1 2𝑡(𝑛−1,1− 𝛼/2) 𝜎
con parámetros 𝛼 = ∗
y 𝛽 = ∗
(𝑛−1)𝑑2
, donde 𝑛 es el valor proporcionado por la
2
Por otro lado, la media de cada fdp es igual al tamaño de muestra 𝑛 calculado con la
ecuación (3.12), lo que indica que el tamaño de muestra que proporciona la ecuación
(3.12) en realidad es la media de la fdp de 𝑛̂, razón por la cual 𝑃(𝑛̂ ≤ 𝑛) ≈ 0.5. Además, la
pdf de 𝑛̂ es asimétrica porque es una v.a. gamma, observándose (Cuadro 3.2, columna
9) que a menor precisión (valores más grandes de 𝑑) más asimétrica es su distribución.
89
Figura 3.1. Fdp de 𝑛̂, con 𝜎 = 60, IC con 95% de confiabilidad, y 𝑑 = 5, 6, 7, 8 y 9, los cuales
arrojan los valores siguientes de 𝑛 = 554, 385, 283, 217 y 171.
Con los resultados anteriores se entiende mejor el por qué los tamaños de muestra que
proporciona la ecuación (3.12) producen una subestimación grave en el tamaño de
muestra. Se observa en la Figura 3.1 y el Cuadro 3.2 que el tamaño de muestra 𝑛 que
arroja la ecuación (3.12) es el valor esperado de la fdp de 𝑛̂, por ello solo garantiza una
probabilidad alrededor de 0.5 de que la amplitud del IC resultante sea menor a la
amplitud fijada a priori 𝜔.
91
100 455 220 135 94 449 214 129 88
110 542 260 158 110 536 255 152 104
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛= 2 (3.22)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼 𝑆 (
⁄2) 𝑛 −1 )
∗
𝑛𝑚 = (3.21)
𝜒2 ∗
𝑁𝑑 2 + 2
𝑡(𝑛−1,1−𝛼 𝑆 2 ( (𝛾,𝑛 −1) )
⁄2) 𝑛∗ − 1
92
donde 𝑛 es el tamaño de muestra obtenido con la ecuación 3.22, 𝛾 es la probabilidad de
2
que el IC para el promedio no sea mayor que la amplitud deseada, 𝜒(𝛾,𝑛 ∗ −1) es el cuantil
EJEMPLOS
∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
6+7+9+8+5+4+7+8+7+6
𝑦̅ = = 6.7
10
2
∑𝑛𝑖=1 𝑦𝑖2 − 𝑛𝑦̅ 2
𝑆 =
𝑛−1
62 + 72 + ⋯ + 72 + 62 − 10(6.7)2
𝑆2 = = 2.2333
9
93
𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = ( )( )
𝑁 𝑛
1,000 − 10 2.2333
𝑆𝑦2̅ = ( )( ) = 0.221
1,000 10
𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
Por lo tanto:
6.7 ± (2.262)(0.4702)
6.7 ± 1.0634
5.6366 ≤ 𝜇 ≤ 7.7634
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de fallas por impresora está entre 5.6366 y 7.7634.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
Por lo tanto:
94
6,700 ± (1,000)(2.262)(0.4702)
6,700 ± 1,063.4
5,636.6 ≤ 𝜏 ≤ 7,763.4
Es decir, con 95% de confianza se estima que el total de fallas en la población está entre
5,636.6 y 7,763.4.
g) Ahora si se supone que las impresoras seleccionadas son una muestra preliminar de
tamaño 𝑛 = 10. El tamaño de muestra necesario para estimar el promedio de fallas de
tal manera que el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅) y
una confiabilidad de 95% es:
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2
Por lo tanto:
95
muestreo esté correcto y obtener una estimación de la varianza. Si en el muestreo
piloto se encuentra que todo funciona correctamente, ya no se miden todas las
unidades muestrales del tamaño de muestra definitivo (𝑛∗), sino solamente las
faltantes (𝑛∗ − 𝑛) para completarlo, pues se utilizan las de la muestra piloto (𝑛). En
este ejemplo solamente se seleccionarían 40 impresoras al azar de la población porque
𝑛 = 10.
h) El tamaño de muestra necesario para estimar el promedio de fallas de tal manera que
el promedio tenga una precisión de 7% del promedio preliminar (𝑦̅), una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 99%.
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
Por lo tanto:
74.1529
1, 000(2.262)2 (2.2333) (49.38 − 1) 17,514.3709
𝑛𝑚 = = = 73.7524 = 74
74.1529 237.475371
1,000(0.469)2 + (2.262)2 (2.2333) (49.38 − 1)
∑𝑛𝑖=1 𝑦𝑖
𝑦̅ =
𝑛
120 + 150 + 100 + ⋯ + 65 + 110
𝑦̅ = = 90.3333
15
𝑁 − 𝑛 𝑆2
𝑆𝑦2̅ = ( )( )
𝑁 𝑛
420 − 15 637.381
𝑆𝑦2̅ = ( )( ) = 40.9745
420 15
𝑦̅ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
Por lo tanto:
90.3333 ± (2.145)(6.4011)
90.3333 ± 13.7304
76.6029 ≤ 𝜇 ≤ 104.0637
97
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del gasto
promedio por estudiante está entre 76.6029 y 104.0637.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅
Por lo tanto:
37,940 ± (420)(2.145)(6.4011)
37,940 ± 5,766.751
32,137.249 ≤ 𝜏 ≤ 43,706.751
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆
2
Por lo tanto:
98
(420)(2.145)2 (637.381)
𝑛∗ = = 68.2281 = 69
(420)(6)2 + (2.145)2 (637.381)
Entonces, 69 son las unidades muestrales necesarias para tener una precisión de ±6
pesos con 0.95 de probabilidad de incluir en el intervalo de estimación al promedio
verdadero. En otras palabras, se deben seleccionar aleatoriamente 𝑛∗ = 69 estudiantes,
lo que garantiza que se cumplirá con una precisión especificada (𝑑 = 6 pesos) para el
promedio con una probabilidad de 0.95.
h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio por estudiante,
de tal manera que el promedio tenga una precisión de ±6 pesos, una confiabilidad de
95% y un nivel de aseguramiento (𝛾) de 99%?
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆 ( 𝑛∗ − 1 )
𝑛𝑚 =
𝜒2 ∗
2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 𝑆 2 ( (𝛾,𝑛 −1) )
⁄2) 𝑛∗ − 1
Por lo tanto:
97.1017
420(2.145)2 (637.381) (68.2281 − 1) 1,779,012.471
𝑛𝑚 = = = 91.9113 = 92.
97.1017 19,355.74398
420(6)2 + (2.145)2 (637.381) (68.2281 − 1)
EJERCICIOS
En los ejercicios siguientes estime el IC para el promedio y el total con una confiabilidad
de 95%. Además, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra
para estimar el promedio, con una precisión del 5% de la media, una confiabilidad de
95% y un nivel de aseguramiento (γ) de 90%?
99
Ejercicio 3.1. Una empacadora de mango produce por hora 𝑁 = 1,000 rejas. Cada reja
tiene 100 mangos y el gerente de calidad seleccionó una muestra de 𝑛 = 15 rejas. La
información sobre el número de mangos dañados por reja se presenta a continuación: 4,
5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4 y 5.
Ejercicio 3.2. La Secretaría de Deportes del estado de Yucatán desea estimar los alumnos
a nivel bachillerato de la Universidad Autónoma de Yucatán (UAdY) que tienen buena
condición física, para que formen parte de la selección. Hay 𝑁 = 500 grupos y en
promedio cada grupo tiene 40 alumnos. Aleatoriamente se seleccionaron nueve grupos
que hicieron las pruebas necesarias. La información obtenida de los alumnos
seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12 y 10 (alumnos por grupo que tienen
condición física adecuada).
Ejercicio 3.3. Cada hora una exportadora de limón acondiciona 𝑁 = 1,800 limones. Se
desea saber si el limón cumple con las especificaciones de tamaño, y para ello se toma
una muestra aleatoria de 15 limones para medirlos. Los resultados son los siguientes: 3.2,
4.8, 4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6 y 5.9.
Ejercicio 3.4. La Secretaría de Turismo del estado de Michoacán desea estimar la cantidad
de personas de Jalisco que visitan al estado diariamente. En la caseta Guadalajara-
Michoacán ingresan por día 𝑁 = 700 vehículos en promedio. Se seleccionan 20 vehículos
aleatoriamente y en cada uno se revisa la cantidad de personas que vienen en interior del
vehículo. Los resultados son los siguientes: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6 y
5.
Otra tarea que suele ser de interés al estudiar una población es la determinación de la
proporción 𝑃 o 𝜋 de las unidades muestrales que pertenecen a dos grupos posibles. Por
100
ejemplo, para conocer la proporción de personas analfabetas de una población que apoya
a cierto partido político o iniciativa gubernamental, de estudiantes de la Facultad de
Telemática que tienen computadora portátil, de individuos de la ciudad de Colima que
creen en Dios, etcétera. Todos estos ejemplos tienen dos opciones de respuesta: sí o no.
Por lo tanto, para calcular dicha proporción se hace la suma de todas las respuestas
afirmativas (sí) y se divide sobre el total de respuestas (sí y no), porque sólo se
consideraron dos grupos posibles. En ocasiones son más de dos grupos a los que pueden
pertenecer las unidades muestrales; este caso no lo consideraremos aquí, pero aun así se
podría analizar si se considera que una unidad muestral pertenece o no a uno de los
grupos.
Esta aplicación también se conoce como muestreo por atributos, donde cada unidad de
muestreo tiene la posibilidad de pertenecer a un grupo si posee el atributo
correspondiente.
La medición
Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y
que solamente puede tomar los valores de cero o uno. De esta manera podremos usar las
101
fórmulas de los apartados anteriores, aunque conviene adecuar la simbología. Para esto,
sea 𝑃𝑦 la proporción de la población de uno de los dos grupos que posee el atributo
evaluado en 𝑌. La proporción de la población, 𝑃𝑌 , está definida por la siguiente expresión:
∑𝑁
𝑖=1 𝑦𝑖 𝐴
𝑃𝑌 = 𝑃 = =
𝑁 𝑁
Ahora bien, definamos la varianza de la población usando las mismas expresiones que
en el caso de una variable continua:
∑𝑁
𝑖=1(𝑦𝑖 − 𝜇)
2 ∑𝑁 2
𝑖=1 𝑦 𝑖 − 𝑁𝜇
2
𝜎 2𝑌 = 𝜎 2 = = (3.23)
𝑁−1 𝑁−1
La expresión ∑𝑁 2
𝑖=1 𝑦 𝑖 = ∑ 𝑦𝑖 = 𝑁𝑃 en (3.24) representa el número de unidades en la
𝑛 2 (∑𝑛𝑖=1 𝑦𝑖 )2 𝑎2 𝑎
∑ 𝑛
(𝑦 − 𝑦
̅) 2 ∑ 𝑖=1 𝑦 𝑖 − 𝑎 − 𝑎 (1 − 𝑛) 𝑛𝑝𝑞
𝑠 2𝑦 =
𝑖=1 𝑖
= 𝑛 = 𝑛 = = (3.25)
𝑛−1 𝑛−1 𝑛−1 𝑛−1 𝑛−1
Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua.
Existen otros procedimientos que se conocen como aproximación y que usan la
distribución normal, ello implica una corrección que hemos omitido por su poca
trascendencia práctica. Así se tiene que 𝑝 se distribuye aproximadamente normal con los
siguientes parámetros.
𝐸[𝑃̂] = 𝐸[𝑝] = 𝑃
𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞
𝑆 2𝑝 = ( )( ) = ( )( )
𝑁 𝑛 𝑁 𝑛
103
En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce como
error estándar del estimador de la proporción.
𝜏̂ = 𝑁𝑝
2
𝑁 − 𝑛 𝑆 2𝑦 𝑁 − 𝑛 𝑝𝑞
𝑆𝜏̂ = 𝑁 ( ) ( ) = 𝑁2 ( )( )
𝑁 𝑛 𝑁 𝑛
La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del
estimador del total.
Con el mismo procedimiento que el del caso de una variable continua obtenemos las
expresiones para los intervalos de confianza.
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
𝑁−𝑛
donde 𝑆𝑝 = 𝑁
𝑝𝑞 .
𝑛
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
104
𝑁−𝑛
donde 𝑆𝑝 = 𝑁
𝑝𝑞 .
𝑛
El cálculo del tamaño de muestra efectivo (𝑛) que asegura intervalos de confianza cortos
se realizará bajo el enfoque AIPE, asumiendo una prueba perfecta y homogeneidad en la
población. El Estimador de Máxima Verosimilitud (EMV) de una proporción binomial
(pruebas individuales) asumiendo una prueba perfecta, como se mencionó, es 𝑝̂ = 𝑦/𝑛,
donde 𝑦 es el número de éxitos observados en la muestra de tamaño 𝑛. De acuerdo con
Vollset (1993) and Newcombe (1998), su correspondiente IC de Wald es
105
donde 𝑉(𝑝̂ ) = 𝑝̂ (1 − 𝑝̂ ), 𝑍1−𝛼/2 es el cuantil 1 − 𝛼/2 de una distribución normal estándar,
𝑝̂ es el EMV (𝑝̂ = 𝑦/𝑛) de 𝑝. Este IC es fácil de calcular y permite derivar fórmulas de
tamaño de muestra cerradas. Sin embargo, cuando 𝑛 y 𝑝 son pequeños, este IC a menudo
produce límites negativos. Además, la probabilidad de cobertura de este IC algunas veces
es menor que 100(1 − 𝛼)%.
𝑉(𝑝̂)
puede expresar de la siguiente manera: 𝑊 = 2𝑍1−𝛼/2 √ . Esto implica que la mitad de
𝑛
𝑉(𝑝̂ )
𝐷 = 𝑍1−𝛼/2 √ (3.27)
𝑛
Para estimar el tamaño de la muestra necesario para la proporción (𝑝) para una
amplitud del IC deseada, 𝑛 debe obtenerse de la ecuación (3.27) (hacer 𝐷 = 𝑑), arrojando
la siguiente expresión:
2
𝑍1−𝛼/2 𝑝̂ (1 − 𝑝̂ )
𝑛𝑝 = (3.28)
𝑑2
106
estrecha para estimar la proporción de 𝑃. Sin embargo, el estimador no garantiza que la
amplitud observada (𝐷) de cualquier IC sea lo suficientemente estrecha porque se utiliza
una estimación de 𝑉(𝑝). En realidad, la amplitud del IC, 𝐷, es una variable aleatoria que
fluctúa de muestra a muestra. Se ha mostrado que alrededor del 50% de las veces el valor
observado 𝐷 es menor o igual a 𝑑 (Montesinos-López, Montesinos-López, Crossa,
Eskridge, & Hernández-Suárez, 2010). Por esta razón en la siguiente sección se propone
un método de muestreo que asegura con una probabilidad alta de que la amplitud del
intervalo de confianza sea corta.
𝑉(𝑝̂)
La amplitud del IC para 𝑝 es 𝐷 = 𝑍1−𝛼/2 √ y 𝐷 debe ser menor o igual que un valor
𝑛
determinado (𝑑), con una probabilidad (𝛾). Por lo tanto, el tamaño de muestra óptimo se
define como el valor entero más pequeño (𝑛𝑚 ) tal que
𝑃{𝐷 ≤ 𝑑} ≥ 𝛾
𝑝̂ (1 − 𝑝̂ )
𝑃 {𝑍1−𝛼/2 √ ≤ 𝑑} ≥ 𝛾 (3.29)
𝑛𝑚
2
ℎ(𝑝̂ ) ∼̇ 𝑁 (ℎ(𝑝), (ℎ′ (𝑝)) 𝜎 2 ), es decir,
(1 − 2𝑝)2
√ pˆ (1 pˆ ) ∼̇ 𝑁 (√𝑝(1 − 𝑝), )
4𝑛𝑚
107
1−2𝑝
donde ℎ(𝑝)=√𝑝(1 − 𝑝), ℎ′ (𝑝) = . Por lo tanto, la ecuación (3.29) puede
2√𝑝(1−𝑝)
reescribirse como:
𝑑 √𝑛𝑚
√ pˆ (1 pˆ ) − √𝑝(1 − 𝑝) 𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
𝑃(𝑊 ≤ 𝜔) = 𝑃 ≤ = 𝛾⇔
(1 − 2𝑝)2 (1 − 2𝑝)2
√ √
4𝑛𝑚 4𝑛𝑚
( )
𝑑 √𝑛𝑚 𝑑 √𝑛𝑚
𝑍1−𝛼/2 − √𝑝(1 − 𝑝) 𝑍1−𝛼/2 − √𝑝(1 − 𝑝)
𝑃(𝑊 ≤ 𝜔) ≈ 𝑃 𝑍 ≤ ≈𝛾⇔ ≈ 𝑍𝛾 ⇔
(1 − 2𝑝)2 (1 − 2𝑝)2
√ √
4𝑛𝑚 4𝑛𝑚
( )
𝑑 |1 − 2𝑝|𝑍𝛾
𝑛𝑚 − √𝑝(1 − 𝑝)√𝑛𝑚 − ≈0 (3.30)
𝑍1−𝛼/2 2
Note que la Ecuación (3.30) tiene una forma cuadrática: 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, con 𝑥 = √𝑛𝑚 ,
𝑑 |1−2𝑝|𝑍𝛾 −𝑏±√𝑏 2 −4𝑎𝑐
𝑎=𝑍 , 𝑏 = −√𝑝(1 − 𝑝), y 𝑐 = − , con dos soluciones dadas por 𝑥 = .
𝛼 2 2𝑎
1−
2
−𝑏+√𝑏2 −4𝑎𝑐
Utilizando 𝑥 = para un valor fijo de 𝑑, el tamaño de muestra requerido es:
2𝑎
2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑍1−𝛼/2
𝑛𝑚 =
2𝑑
𝑍1−𝛼/2
( )
2
2 2𝑑|1 − 2𝑝|𝑍𝛾
𝑍1− 𝛼 (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + )
2 𝑍1−𝛼/2
𝑛𝑚 =
4𝑑2
2
𝑛𝑝 2𝑑|1 − 2𝑝|𝑍𝛾
𝑛𝑚 = [1 + √1 + ] (3.31)
4 𝑍1−𝛼/2 𝑝(1 − 𝑝)
108
donde 𝑛𝑝 es el tamaño de muestra preliminar (ecuación 3.28) sin nivel de aseguramiento
(𝛾 = 0.5). 𝛾 representa el grado deseado de seguridad (probabilidad requerida) para
lograr una amplitud del IC (𝑊) que no supere al valor deseado (𝜔), 𝑍𝛾 es el cuantil 𝛾 de
la distribución normal estándar. Note que si 𝛾 = 0.5, 𝑍𝛾 = 0 porque corresponde al
cuantil 50% de una distribución normal estándar y esto provoca que la ecuación (3.31)
se reduzca a la ecuación (3.28), la cual proporciona el número requerido de unidades,
asumiendo varianza conocida 𝑉(𝑝̂ ), pero esto implica que la amplitud deseada se logre
solamente alrededor del 50% de las veces. La ecuación (3.31) garantiza que 𝐷 será menor
o igual a 𝑑 con una probabilidad 𝛾. En otras palabras, sólo 100(1 − 𝛾)% de las veces 𝐷
será mayor que la amplitud deseada (𝑑). Hay que dejar claro que los tamaños de muestra
derivados anteriormente son para poblaciones infinitas, a continuación se presenta la
contraparte para población finita. El lector interesado en más detalles para estimar el
tamaño de muestra para una proporción puede consultar Montesino-López et al. (2012).
El tamaño de muestra para estimar una proporción bajo población finita sin nivel de
aseguramiento es
2
∗
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
2 1 2𝑑|1 − 2𝑝|𝑍𝛾
𝑁𝑡(𝑛−1,1−𝛼/2) (4) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + 𝑡 )
(𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 2
2 1 2𝑑|1 − 2𝑝|𝑍𝛾
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) ( ) (√𝑝(1 − 𝑝) + √𝑝(1 − 𝑝) + )
4 𝑡(𝑛−1,1−𝛼/2)
109
2
2𝑑|1−2𝑝|𝑍𝛾
√𝑝𝑞+√𝑝𝑞+𝑡
donde 𝑛𝑚 = (𝑛−1,1−𝛼/2)
y 𝑞 = 1 − 𝑝.
2𝑑
𝑡(𝑛−1,1−𝛼/2)
( )
EJEMPLOS
Ejemplo 3.3 Con la finalidad de estimar la proporción de estudiantes que fuman en una
universidad, cuya población es de 𝑁 = 430 estudiantes, se seleccionó una muestra
aleatoria de 𝑛 = 80 estudiantes. Si la muestra indica que 30 de los estudiantes
seleccionados fuman, calcular lo que se solicita.
∑𝑛𝑖=1 𝑦𝑖 𝑎 30
𝑝= = = = 0.375 ó 37.5% de estudiantes fumadores.
𝑛 𝑛 80
𝑞 = 1 − 𝑝 = 1 − 0.375 = 0.625 ó 62.5% de estudiantes no fumadores.
𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √( )( )
𝑁 𝑛
430 − 80 (0.375)(0.625)
𝑆𝑝 = √( )( ) = √(0.8139)(0.0029) = 0.0488.
430 80
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
110
donde: 𝑝 = 0.375, 𝑆𝑝 = 0.0488 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.375 ± (1.96)(0.0488)
0.375 ± 0.09565
0.2793 ≤ 𝑃 ≤ 0.4707
𝜏̂ = 𝑁𝑝
donde: 𝑁 = 430 y 𝑝 = 0.375. Por lo tanto: 𝜏̂ = (430)(0.375) = 161.25.
e) IC del total verdadero de estudiantes que fuman, con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
Por lo tanto:
161.25 ± (430)(1.96)(0.0488)
161.25 ± 41.1295
120.0938 ≤ 𝜏 ≤ 202.4062
Con 95% de confianza se estima que el total de estudiantes que fuman está entre
120.0938 y 202.4062.
2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
Por lo tanto:
(430)(1.96)2 (0.375)(0.625)
𝑛∗ = = 257.2393 = 258.
(430)(0.0375)2 + (1.96)2 (0.375)(0.625)
2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
𝑁 (𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼/2)
( )
430
𝑛𝑚𝐹 = 670.330193 ( ) = 261.9595 = 262 estudiantes..
430 + 670.330193
𝑁 − 𝑛 𝑝𝑞
𝑆𝑝 = √( )( )
𝑁 𝑛
Por lo tanto:
2,000 − 50 (0.44)(0.56)
𝑆𝑝 = √( )( ) = √(0.975)(0.0049) = 0.0693.
2,000 50
113
𝑝 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
Por lo tanto:
0.44 ± (1.96)(0.0693)
0.44 ± 0.1358
0.3041 ≤ 𝑃 ≤ 0.5759
Por lo tanto:
𝜏̂ = (2,000)(0.44) = 880
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝
Por lo tanto:
114
880 ± (2,000)(1.96)(0.0693)
880 ± 271.6
608.2787 ≤ 𝜏 ≤ 1,151.7213
Con 95% de confianza, se estima que el total de computadoras infectadas por el virus
XXX, está entre 608.2787 y 1,151.7213.
2
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
2
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 + 𝑡
𝑁 (𝑛−1,1−𝛼/2)
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 =
𝑁 + 𝑛𝑚 2𝑑
𝑡(𝑛−1,1−𝛼/2)
( )
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚
Por lo tanto:
2,000
𝑛𝑚𝐹 = 197.457895 ( )
2,000 + 197.457895
𝑛𝑚𝐹 = 179.7148 = 180.
EJERCICIOS
En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(𝛾) del 80%?
116
Economía. Se aplicó la encuesta a 𝑛 = 100 personas tomadas al azar de un total de 𝑁 =
10,000. La encuesta arrojó que 15 personas conocían el perfil de egreso.
Ejercicio 3.7. La Secretaría de Salud del estado de Michoacán desea encuestar a 𝑛 = 5,000
personas seleccionadas aleatoriamente de una población de 𝑁 = 567,996 para saber si la
población michoacana conoce los productos transgénicos. Los resultados muestran que
1,570 personas conocen los productos transgénicos.
Ejercicio 3.8. Se aplicó una encuesta para saber cuántas personas de la ciudad de México
utilizan tarjetas bancarias. La ciudad de México tiene 𝑁 = 6,500 personas y la encuesta
se realizó a 𝑛 = 1,000 personas tomadas al azar. Los resultados arrojaron que 925
personas utilizaban tarjeta bancaria.
117
estimadores de la proporción, los IC y el tamaño de muestra son distintos. A continuación
se presentan los estimadores apropiados.
𝑝 + 𝑆𝑝 − 1
𝑝∗ = , 𝑞 ∗ = 1 − 𝑝∗ (3.32)
𝑆𝑒 + 𝑆𝑝 − 1
𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( ) (3.33)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛
Esto implica que su correspondiente desviación estándar es igual a 𝑆𝑝∗ = √𝑆𝑝2∗ . Por
otro lado, un intervalo de confianza para 𝑝 esta dado por 𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗ . Finalmente,
la fórmula para determinar el tamaño de muestra con población finita es igual a:
2
∗
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
𝑛 = 2 (3.34)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑞
Sin embargo, es necesario resaltar que la fórmula anterior (𝑛∗ ) garantiza que la
amplitud del intervalo de confianza se cumpla solamente 50% de las veces. Por ello a
continuación se brinda la expresión apropiada para determinar el tamaño de muestra
que asegura precisión en la estimación de la proporción. Primero se proporciona la
118
expresión para una población infinita (𝑛𝑚 ) y en seguida se ajusta para una población
finita (𝑛𝑚𝐹 ).
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚 = ( ) ((3.35)
2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛m
donde 𝑛𝑚 se calcula con la expresión 3.35.
EJEMPLOS
Ejemplo 3.5. Con el objetivo de estimar la proporción de estudiantes que tienen dengue
en la Facultad de Psicología de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 580 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) y especificidad (𝑆𝑝) son de 0.96 y 0.98, respectivamente. Los resultados arrojaron
que 80 de los estudiantes seleccionados tienen dengue. Calcular lo siguiente:
𝑎
𝑝= , 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝∗ = 𝑛 , 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1
119
donde: 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑎 = 80 y 𝑛 = 150.
Por lo tanto:
80
𝑝= = 0.5333 = 53.33%
150
𝑞 = 1 − 𝑝 = 0.4667 = 46.67%
80
+ 0.98 − 1
150 0.513333
𝑝∗ = = = 0.5461 = 54.61%
0.96 + 0.98 − 1 0.94
𝑞 ∗ = 1 − 0.5461 = 0.4539 = 45.39%
𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
donde: 𝑁 = 580, 𝑛 = 150, 𝑆𝑒 = 0.96, 𝑆𝑝 = 0.98, 𝑝 = 0.5333 y 𝑞 = 0.4667.
Por lo tanto:
𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗
Por lo tanto:
120
0.5461 ± (1.96)(0.037309)
0.5461 ± 0.073126
0.472974 ≤ P ≤ 0.619226
𝜏̂ = 𝑁𝑝∗
Por lo tanto:
𝜏̂ = (580)(0.5461) = 316.738
𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗
Por lo tanto:
316.738 ± (580)(1.96)(0.037309)
316.738 ± 42.412871
274.3251 ≤ 𝜏 ≤ 359.1508
Es decir, con 95% de confianza se estima que el total de estudiantes está entre 274.3251
y 359.1508.
121
f) Si 𝑛 = 150 estudiantes es una muestra preliminar, entonces el tamaño de muestra real
para estimar la proporción verdadera con una precisión del 10% de la proporción
preliminar (𝑝∗ ), una confiabilidad del 95%, una sensibilidad de 0.96 y una
especificidad del 0.98, es:
2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
Por lo tanto:
∗
580(1.96)2 (0.5333)(0.4667)
𝑛 =
580(0.05461)2 (0.96 + 0.98 − 1)2 + (1.96)2 (0.5333)(0.4667)
554.5612511
𝑛∗ = = 223.2076 = 224 estudiantes
2.484508502
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑁 𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )
122
infinita:
580
𝑛𝑚𝐹 = 369.117582 ( ) = 225.5655 = 226 estudiantes.
580 + 369.117582
a) Proporción verdadera de los pacientes que tienen influenza H1N1, con sensibilidad
del 97% y especificidad del 98%.
𝑎
𝑝= , 𝑞 = 1 − 𝑝,
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝 = 𝑛
∗
, 𝑞 ∗ = 1 − 𝑝∗
𝑆𝑒 + 𝑆𝑝 − 1
Por lo tanto:
123
320
𝑝= = 0.8 = 80%
400
𝑞 = 1 − 𝑝 = 0.2 = 20%
320
∗
+ 0.98 − 1
400 0.78
𝑝 = = = 0.8211 = 82.11%
0.97 + 0.98 − 1 0.95
𝑞 ∗ = 1 − 0.8211 = 0.1789 = 17.89%.
𝑁−𝑛 1 𝑝𝑞
𝑆𝑝2∗ = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
Por lo tanto:
𝑝∗ ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝∗
Por lo tanto:
0.8211 ± (1.96)(0.017521)
0.8211 ± 0.034341
0.786759 ≤ 𝑃 ≤ 0.855441
124
Es decir, con una confiabilidad de 95% se estima que la proporción verdadera de
pacientes con influenza H1N1 está entre 0.786759 y 0.855441.
𝜏̂ ± 𝑡(𝑛−1,1−𝛼/2) 𝑁𝑆𝑝∗
1067.43 ± (1,300)(1.96)(0.017521)
1067.43 ± 44.643508
1022.786492 ≤ 𝜏 ≤ 1112.073508
Es decir, con 95% de confianza se estima que el total de pacientes está entre 1,022.7865
y 1,112.0735.
2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
125
Por lo tanto:
∗
1,300(1.96)2 (0.8)(0.2)
𝑛 =
1,300(0.03)2 (0.97 + 0.98 − 1)2 + (1.96)2 (0.8)(0.2)
799.0528
𝑛∗ =
1.6706
𝑛∗ = 478.3029 = 479 pacientes.
2𝑑|1 − 2𝑝|𝑍𝛾
√𝑝𝑞 + √𝑝𝑞 +
𝑁 𝑡(𝑛−1,1−𝛼/2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) ,, 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 (𝑆𝑒 + 𝑆𝑝 − 1)2
𝑡(𝑛−1,1−𝛼/2)
( )
126
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ),
𝑁 + 𝑛𝑚
Por lo tanto:
1,300
𝑛𝑚𝐹 = 854.802387 ( )
1,300 + 854.802387
𝑛𝑚𝐹 = 515.7053 = 516 pacientes..
EJERCICIOS
En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad
de 95%. De igual manera, suponga que la muestra es preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción, con una precisión de 5% de la proporción preliminar,
una confiabilidad de 95% y un nivel de aseguramiento(γ) del 90%?
Ejercicio 3.9. Con el objetivo de estimar la proporción de estudiantes que tienen varicela
en la facultad de turismo de la Universidad Nacional Autónoma de México (UNAM),
cuya población es de 500 estudiantes, se seleccionó una muestra aleatoria de 150
estudiantes. A cada estudiante se le realizó una prueba de laboratorio cuya sensibilidad
(𝑆𝑒) es de 0.97 y especificidad (𝑆𝑝) de 0.98. Los resultados arrojaron que 20 de los
estudiantes seleccionados tienen varicela.
Ejercicio 3.91. Con la finalidad de estimar la proporción de pacientes que tienen el virus
XXX en el hospital metropolitano del estado de Jalisco, cuya población es de 850
pacientes. se seleccionó una muestra aleatoria de 100 pacientes. A cada paciente se le
realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.98 y especificidad (𝑆𝑝)
de 0.98. Los resultados arrojaron que 17 de los pacientes seleccionados tienen el virus
XXX.
127
Ejercicio 3.92. La Secretaría de Salud del estado de Guanajuato desea conocer la
proporción de estudiantes afectados con el virus XY, para esto se tienen una población
de 𝑁 = 750 estudiantes con una muestra al azar 𝑛 = 100 individuos. A cada estudiante
se le realizó una prueba de laboratorio cuya sensibilidad (𝑆𝑒) es de 0.95 y especificidad
(𝑆𝑝) de 0.97. Los resultados arrojaron que 50 de los pacientes seleccionados tienen el virus
XY.
128
Capítulo 4. Muestreo aleatorio estratificado
CAPÍTULO 4
Muestreo aleatorio estratificado
En este mundo complejo
nunca es fácil elegir.
Pero con datos y muestras
tú lo podrás conseguir,
De una forma inteligente,
que te conduzca a un buen fin.
OAML
129
haber traslapes entre los estratos. Las unidades que se incluyan en un estrato deben tener
un valor similar en cuanto a la variable de interés, aunque al no conocer esos valores, se
puede usar otra característica para formar los estratos con la esperanza de lograr que los
valores sean muy parecidos dentro de cada estrato. Los estratos formados funcionan
independientemente, y se les aplica un muestreo aleatorio simple para elegir los
elementos concretos que formarán parte de la muestra y obtener así las estimaciones de
los parámetros que nos interesan. En ocasiones las dificultades que plantean los estratos
son demasiado grandes, pues exigen un conocimiento detallado de la población, como
tamaño geográfico, género, edades, niveles de estudio, etcétera (Pérez, 2000).
Algunos motivos para utilizar el muestreo aleatorio estratificado en lugar del muestreo
aleatorio simple son:
Produce estimaciones más precisas que las que se obtienen a partir del segundo
método.
El costo por observación puede ser reducido mediante la estratificación de la
población.
Se puede obtener información de parámetros poblacionales para cada estrato de
la población.
Se simplifica el trabajo administrativo y el de control, ya que se puede usar
personal específico para cada estrato.
130
El tamaño de muestra será menor si la estratificación está bien definida, en
comparación con el MAS.
Notación
Para esta técnica de muestreo necesitamos una notación adicional que distingue los
elementos de la población, como la siguiente:
131
4.2 ¿Cómo seleccionar una muestra aleatoria estratificada?
Supongamos que hemos tomado nuestra muestra aleatoria estratificada, y entonces nos
preguntamos, ¿cómo debemos usarla para estimar los principales parámetros? Es decir,
contestarnos preguntas como: ¿cuál es la media de nuestra población? o ¿cuál es el total? Si 𝜇𝑖
y 𝜏𝑖 son la media y el total para el estrato 𝑖, respetivamente, resulta obvio que 𝜏1 + 𝜏2 +
⋯ + 𝜏𝐸 = 𝜏, donde 𝜏 es el total de la población.
Para comprender mejor las expresiones que nos darán la estimación de 𝜇 y 𝜏, debemos
tomar en cuenta que 𝑦̅𝑖 es un estimador insesgado de 𝜇𝑖 y que 𝑁𝑦̅𝑖 es un estimador
𝑁
insesgado del total del estrato 𝜏𝑖 = ∑𝑗=1
𝑖
𝑦𝑖𝑗 , tal como en el muestreo aleatorio simple.
Hasta aquí todo parece razonable, como formar el estimador de 𝜏(𝜏̂ ) con la suma de los
132
𝜏̂𝑖 y de esta manera construir un estimador para la media de la población al dividir 𝜏̂ entre
𝑁, el cual hereda la propiedad de insesgamiento (Scheaffer et al., 1987).
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁
Nótese que se ha usado el subíndice estr en 𝑦̅ para señalar que la estimación se hace
con el muestreo estratificado. Dado que cada estrato se maneja de manera independiente,
las 𝑦̅𝑖 con 𝑖 = 1,2, … 𝐸 también son independientes. Por lo tanto, la varianza de 𝑦̅𝑒𝑠𝑡𝑟 es la
suma de las varianzas de las medias de cada estrato. Este estimador es insesgado.
1
𝑆 2𝑦𝑒𝑠𝑡𝑟 = 𝑉( 𝑦̅𝑒𝑠𝑡𝑟 ) = [𝑁 2 𝑉̂ (𝑦̅1 ) + 𝑁22 𝑉̂ (𝑦̅2 ) + ⋯ + 𝑁𝐸2 𝑉̂ (𝑦̅𝐸 )]
𝑁2 1
1 𝑁1− 𝑛1 𝑆2 𝑁𝐸− 𝑛𝐸 𝑆2
= [𝑁12 ( ) (𝑛1 ) + ⋯ + 𝑁𝐸2 ( ) (𝑛𝐸 )]
𝑁2 𝑁1 1 𝑁𝐸 𝐸
1 𝑁𝑖− 𝑛𝑖 𝑆2
= ∑𝐸𝑖=1 𝑁𝑖2 ( ) ( 𝑛𝑖 )
𝑁2 𝑁𝑖 𝑖
2
𝐸 𝑁𝑖 𝑁𝑖− 𝑛𝑖 𝑆𝑖2
= ∑ 𝑖=1 𝑁 2 ( ) (𝑛 )
𝑁𝑖 𝑖
𝑁𝑖− 𝑛𝑖 𝑆2
= ∑𝐸𝑖=1 𝑊𝑖2 ( ) ( 𝑛𝑖 )
𝑁𝑖 𝑖
error de muestreo (𝑡√𝑉̅ (𝑦̅𝑒𝑠𝑡𝑟 )) consiste en leer el valor de t en las tablas de la t-Student,
como se hizo en el muestreo aleatorio simple, y cuando es mayor de 30 utilizaremos la
tabla 𝑍 de la distribución normal estándar.
133
𝐸
1 2
𝑁𝑖− 𝑛𝑖 𝑆𝑖2
𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √ 2 ∑ 𝑁𝑖 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1
𝜏̂𝑒𝑠𝑡𝑟 = 𝑁𝑦𝑒𝑠𝑡𝑟 = 𝑁1 𝑦1 + 𝑁2 𝑦2 + … + 𝑁𝐸 𝑦𝐸 = ∑ 𝑁𝑖 𝑦𝑖
𝑖=1
𝐸
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
𝑉̅ (𝑁𝑦̅𝑒𝑠𝑡𝑟 ) = 𝑁 𝑉(𝑦𝑒𝑠𝑡𝑟 ) = 𝑁 ∑ 𝑊𝑖2 (
2 2
)( ) (4.1)
𝑁𝑖 𝑛𝑖
𝑖=1
El intervalo de confianza
134
𝐸
2
𝑁𝑖 −𝑛𝑖 𝑆𝑖2
𝑁𝑦𝑒𝑠𝑡𝑟 ± 𝑡(𝑛−1,1−𝛼/2) √∑ 𝑁𝑖 ( )( )
𝑁𝑖 𝑛𝑖
𝑖=1
De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos, se
obtendrá información más precisa, por lo que a los estratos grandes les corresponden
tamaños muestrales grandes. También es fácil inferir que si en algún estrato hay mucha
variabilidad, debe considerarse un tamaño de muestra mayor.
Por último, es importante considerar que si el costo de obtener una observación varía
entre estratos, se deberán tomar muestras pequeñas en estratos donde el costo sea alto y
viceversa, con el fin de minimizar el costo total del muestreo. Así, la calidad de la
135
información que se obtenga en las estimaciones provendrá directamente de 𝑛, ya que al
incrementarse ésta, la varianza de la media decrecerá. Para lograr la precisión deseada
usamos:
𝑑 = 𝑡(𝑛−1,1−𝛼⁄2) √𝑉(𝜃)
2 𝐸 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛 = 2 𝐸 2 (4.2)
𝑁𝑑 2 + 𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
Por analogía al MAS bajo AIPE, a continuación sólo se proporciona, sin mostrar su
obtención, la expresión para calcular el tamaño de muestra modificado bajo el MAE.
𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑡(2𝑛−1,1−𝛼⁄2) ∑𝐸𝑖=1 𝑊𝑖 𝑆 2𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1
𝑛𝑚 = 2 ∗ (4.3)
2 2 ∑ 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑖=1 𝑊𝑖 𝑆 𝑖 ( )
𝑛𝑖∗ − 1
𝑁1 𝑁2 𝑁𝐸
𝑛𝑚 1 = 𝑛𝑚 , 𝑛𝑚 2 = 𝑛𝑚 , … , 𝑛𝑚 𝐸 = 𝑛 (4.4)
𝑁 𝑁 𝑁 𝑚
Selección de estratos
En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato, pero
¿siempre es así? Definitivamente no. En estadística cada problema es una nueva
experiencia, la cual no necesariamente tiene una respuesta única y un razonamiento
lógico para llegar a la solución más satisfactoria. Este trabajo puede resultar un poco
complicado y tornarse desesperante en algunas ocasiones, por lo que a continuación se
dan algunas ideas útiles.
137
¿Qué hago cuando…?
¿Cómo delimitar los estratos?
¿Se debe estratificar después de seleccionar la muestra?
A veces es una tarea sencilla debido a que los estratos están implícitos y se conoce el
comportamiento con base en registros antiguos, en nuestra experiencia o simplemente en
la naturaleza de los resultados que deseamos obtener.
¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso
cuantitativo. Habrá que construirlos dado un interés particular, porque muchas veces
sólo hasta el momento de diseñar la investigación se conocen los rangos de las
estimaciones. Pero también podría tener el rango de salida de los datos y algunas
frecuencias en categorías generales de la variable de interés o de alguna variable
altamente correlacionada. En este caso podemos usar el sencillo método acumulativo de la
raíz cuadrada de la frecuencia.
138
EJEMPLOS
Ejemplo 4.1. En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se desea
estimar el promedio de plantas por hectárea que en determinada etapa del cultivo se
infectaron de alguna enfermedad. De acuerdo con las condiciones ecológicas en la región,
se siembran tres variedades de limón. Considerando que el desarrollo de la enfermedad
puede ser distinto de una variedad a otra, la población de parcelas se estratificó en 𝐸 = 3
estratos. Los tamaños de los estratos son: 𝑁1 = 270, 𝑁2 = 180 y 𝑁3 = 330; 𝑁 = 𝑁1 +
𝑁2 + 𝑁3 = 780. Suponga que para realizar las estimaciones se tomó una muestra de
𝑛 = 63 parcelas. Los datos se presentan en Cuadro 4.1.
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁
74 + 70 + 78 + ⋯ + 79 + 68
𝑦̅3 = = 73.8095
21
139
Por lo tanto:
𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟
Por lo tanto:
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ∑( ) ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1
Por lo tanto:
140
330 2 330 − 21 15.5619
+( ) ( )( ) = 0.6295
780 330 21
Por lo tanto:
57.1612 ± (1.96)(0.7934 )
57.1612 ± 1.5551
55.6061 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 58.7163
Por lo tanto:
44,585.736 ± (780)(1.96)(0.7934)
44,585.736 ± 1,212.9499
43,372.7861 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 45,798.6859
141
El total de plantas infectadas por hectárea en la población está entre 43,372.7861 y
45,798.6859.
2 𝐸 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛∗ = 2 𝐸 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
Por lo tanto:
(780)(1.96)2 (48.7679)
𝑛∗ =
(780)(1.7148)2 + (1.96)2 (48.7679 )
146,130.4764
𝑛∗ = = 58.6877 = 59 árboles (parcelas)
2,489.96722
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
142
270
𝑛1∗ = (58.6877) = 20.3150 = 21
780
180
𝑛2∗ = (58.6877) = 13.5433 = 14
780
330
𝑛3∗ = (58.6877) = 24.8294 = 25.
780
2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑆 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1
𝑛𝑚 = 2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊 𝑆 ( )
⁄2) 𝑖=1 𝑖 𝑖 𝑛𝑖∗ − 1
2
𝜒32 (𝛾, 𝑛3∗ − 1) 330 36.2034
𝑊3 𝑆3 ( )= (15.5619) ( ) = 10.0027, y
𝑛3∗ − 1 780 24.8294 − 1
3
2
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑆𝑖 ( ) = 33.0533 + 53.3183 + 10.0027 = 96.3743
𝑛𝑖∗ − 1
𝑖=1
Por lo tanto:
(780)(1.96)2 (96.3743)
𝑛𝑚 =
(780)(1.7148)2 + (1.96)2 (96.3743 )
288,780.5785
𝑛𝑚 = = 108.4071 = 109 parcelas (muestra).
2,663.8520
143
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
270
𝑛𝑚 1 = (108.4071) = 37.5255 = 38
780
180
𝑛𝑚 2 = (108.4071) = 25.0170 = 26
780
330
𝑛𝑚 3 = (108.4071) = 45.8645 = 46
780
144
∑𝐸𝑖=1 𝑁𝑖 𝑦̅𝑖
𝑦̅𝑒𝑠𝑡𝑟 =
𝑁
Por lo tanto:
𝜏̂ 𝑒𝑠𝑡𝑟 = 𝑁𝑦̅𝑒𝑠𝑡𝑟
Por lo tanto:
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝑆𝑖2
𝑆𝑦2̅𝑒𝑠𝑡𝑟 = ∑( ) ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1
145
72 + 62 + 72 + ⋯ + 52 + 62 − (12)(6.3333)2
𝑆𝑖2 : 𝑆12 = = 1.5152
12 − 1
42 + 52 + 42 + ⋯ + 62 + 62 − (10)(5)2
𝑆22 = = 0.8889
10 − 1
32 + 32 + 32 + ⋯ + 32 + 42 − (9)(3.5556)2
𝑆32 = = 0.2728 y
9−1
2
32 + 22 + 32 + ⋯ + 52 + 22 − (9)(3.2222)2
𝑆4 = = 1.4444
9−1
Por lo tanto:
Por lo tanto:
4.675 ± (1.96)(0.1547)
4.675 ± 1.5551
4.3717 ≤ 𝜇𝑒𝑠𝑡𝑟 ≤ 4.9783
Esto significa que el promedio de faltas justificadas está entre 4.3717 y 4.9783.
Por lo tanto:
1,870 ± (400)(1.96)(0.1547)
1,870 ± 121.3201
1,748.6821 ≤ 𝜏𝑒𝑠𝑡𝑟 ≤ 1,991.3179
2 𝐸 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
𝑛 = 2 𝐸 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑆𝑖
Por lo tanto:
(400)(1.96)2 (1.0643)
𝑛∗ =
(400)(0.23375)2 + (1.96)2 (1.0643)
1,635.445952
𝑛∗ =
25.934890
𝑛∗ = 63.0597 = 64 alumnos
147
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
120
𝑛1∗ = (63.0597) = 18.9179 = 19
400
100
𝑛2∗ = (63.0597) = 15.7649 = 16
400
90
𝑛3∗ = (63.0597) = 14.1884 = 15
400
90
𝑛4∗ = (63.0597) = 14.1884 = 15.
400
2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑡(𝑛−1,1−𝛼 ∑ 𝑊
⁄2) 𝑖=1 𝑖 𝑖𝑆 ( ∗ )
𝑛𝑖 − 1
𝑛𝑚 = 2 ∗
2 𝐸 2 𝜒𝑖 (𝛾, 𝑛𝑖 − 1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊 𝑖 𝑆𝑖 ( ∗ )
𝑛𝑖 − 1
4
𝜒𝑖2 (𝛾, 𝑛𝑖∗ − 1)
∑ 𝑊𝑖 𝑆𝑖2 ( ) = 0.8801 + 0.4552 + 0.1325 + 0.6891 = 2.1569.
𝑛𝑖∗ − 1
𝑖=1
148
Por lo tanto:
(400)(1.96)2 (2.1569)
𝑛𝑚 =
400(0.23375)2 + (1.96)2 (2.1569 )
3,314.3788
𝑛𝑚 = = 109.9603 = 110 alumnos (muestra).
30.1416
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
120
𝑛𝑚 1 = (109.9603) = 32.9881 = 33
400
100
𝑛𝑚 2 = (109.9603) = 27.4901 = 28
400
90
𝑛𝑚 3 = (109.9603) = 24.7411 = 25
400
90
𝑛𝑚 4 = (109.9603) = 24.7411 = 25.
400
EJERCICIOS
En los ejercicios siguientes estime un IC para la media y el total con una confiabilidad de
95%. Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la media de tal manera que sean estimados con una
precisión de 5% de la media, una confiabilidad de 95% y un nivel de aseguramiento de
80%?
Ejercicio 4.1. Un químico realizó un estudio con el objetivo de estimar el número de
coliformes fecales que son bioindicadores de contaminación en el Río Colima, cuya
149
longitud es de 𝑁 = 15,000 metros, de los cuales 𝑁1 = 4,000 metros pertenecen a la zona
pre-urbana, 𝑁2 = 8,000 corresponden a la zona urbana, y 𝑁3 = 3,000 a la zona
posturbana. Cabe mencionar que este estudio se realizó en las cuatro estaciones del año,
pero aquí presentamos solamente los resultados de la primavera. Para el estudio se tomó
una muestra de 𝑛 = 12 metros distribuidos de la siguiente manera: 𝑛1 = 4 metros para la
zona pre-urbana, 𝑛2 = 5 metros para la zona urbana, y 𝑛3 = 3 metros para la zona post-
urbana. Los resultados se presentan en el Cuadro 4.3.
Ejercicio 4.3. Un investigador desea estimar el daño promedio de tres cepas causantes de
la enfermedad de chagas. Supóngase que 300 ratones tienen la cepa uno, 350 la cepa dos
150
y 350 la cepa tres. Además, como se espera que el daño varíe dependiendo de la cepa, se
toma una muestra estratificada de tamaño 𝑛 = 50 de la población (Cuadro 4.5).
Ejercicio 4.4. En una entidad hay tres variedades de nances (500 plantas de la variedad
uno; de la dos, 10,000; y de la tres, 7,000 plantas) y se quiere estimar el promedio de
taninos por árbol. Se toma una muestra de 𝑛 = 44 plantas distribuidas de la siguiente
manera: 𝑛1 = 10 (variedad 1), 𝑛2 = 20 (variedad 2) y 𝑛3 = 14 (variedad 3) (véase el
Cuadro 4.6).
151
Estimación de la proporción poblacional
Defínase:
1 éxito
𝑦𝑖𝑗 = {
0 fracaso
que representa al 𝑗-ésimo componente del 𝑖-ésimo estrato. El éxito consiste en tener la
característica 𝐶.
Esta variable se comporta como una variable aleatoria del tipo binomial, por lo que el
estimador de la proporción de la característica de interés para el estrato 𝑖 es:
𝐸
𝑦𝑖𝑗
𝑝𝑖 = ∑ .
𝑛𝑖
𝑖=1
𝑁𝑖 − 𝑛𝑖 𝑝𝑖 (1 − 𝑝𝑖 )
𝑆𝑝2𝑖 = ( ) .
𝑁𝑖 𝑛𝑖
152
𝐸
1 1
𝑝𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖
𝑁 𝑁
𝑖=1
𝐸
𝜏̂ 𝑠𝑡 = (𝑁1 𝑝1 + ⋯ + 𝑁𝐸 𝑝𝐸 ) = ∑ 𝑁𝑖 𝑝𝑖 = 𝑁𝑝𝑠𝑡
𝑖=1
1
𝑆𝑦2̅𝑠𝑡 = (𝑁 2 𝑆 2 + ⋯ + 𝑁𝐸2 𝑆𝑝2𝐸 )
𝑁 2 1 𝑝1
𝐸
1
= 2 ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑁
𝑖=1
= ∑ 𝑁𝑖2 𝑆𝑝2𝑖
𝑖=1
𝐸
1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑝̂ 𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1
𝐸
1 𝑁𝑖 −𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑡̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √ 2 ∑ 𝑁𝑖2 ( )( )
𝑁 𝑁𝑖 𝑛𝑖
𝑖=1
Con una analogía al MAS para proporción bajo AIPE, la expresión para el tamaño de
muestra modificado en el MAE para proporción se proporciona a continuación:
Asignación de la muestra
∗
𝑁𝑖
𝑛𝑚 = 𝑛 = 𝑊𝑖 𝑛𝑚 ; 𝑖 = 1,2, … , 𝐸,
𝑖 𝑁 𝑚
o específicamente como:
∗
𝑁1 ∗ ∗
𝑁2 ∗ ∗
𝑁𝑖
𝑛𝑚 1
= 𝑛 , = 𝑛𝑚 2
= 𝑛 , … , 𝑛𝑚 3
= 𝑛∗
𝑁 𝑁 𝑁
154
Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor,
es decir, la asignación de 𝑛𝑚 entre los estratos es proporcional al tamaño de cada estrato.
EJEMPLOS
Ejemplo 4.3. La Secretaría de Educación Pública del estado de Chiapas desea conocer el
porcentaje y el total de personas que ven telenovelas. Suponga que la población de
individuos en el estado es de 𝑁 = 10,000, de los cuales 30% son niños (estrato 1), 50% son
jóvenes (estrato 2) y el resto son adultos (estrato 3). Se estratificó la población de esa forma
ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para
estimar el porcentaje y total de personas que ven telenovelas se tomó una muestra
aleatoria de 𝑛 = 300 individuos distribuidos de la siguiente manera 𝑛1 = 90 del estrato
uno, 𝑛2 = 150 del estrato dos y 𝑛3 = 60 del estrato tres. Los resultados fueron: en el
estrato uno, 30 niños; en el dos, 70; y en el estrato tres, 40.
𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1
Por lo tanto:
1
𝑝𝑠𝑡 = (3,000(0.3333) + 5,000(0.4666) + 2,000(0.6666))
10,000
1 4,666.6667
𝑝𝑠𝑡 = (1,000 + 2,333.3333 + 1,333.3333) = 0.4667 = 46.67%.
10,000 10,000
155
b) El total estratificado.
𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡
Por lo tanto:
𝐸
1
𝑆𝑦2̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
2
𝑁
𝑖=1
Por lo tanto:
1
𝑆𝑦2̅𝑠𝑡 = ((3,000)2 (0.002395) + (5,000)2 (0.001609) + (2,000)2 (0.003592))
10,0002
𝑆𝑦2̅𝑠𝑡 = 0.000761.
156
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠𝑡
Por lo tanto:
0.4667 ± (1.96)(0.027586)
0.4667 ± 0.054069
0.412631 ≤ 𝑃𝑠𝑡 ≤ 0.520769.
Esto quiere decir que la proporción verdadera de personas que ven telenovelas está
entre 41.26 y 52.07%, con una confiabilidad de 95%.
Por lo tanto:
4,666.6667 ± (10,000)(1.96)(0.027586)
4,666.6667 ± 540.6856
4,125.9811 ≤ 𝜏𝑠𝑡 ≤ 5,207.3523.
El total de personas que ven telenovelas está entre 4,125.9811y 5,207.3523, con una
confiabilidad de 95%.
157
f) Si 𝑛 = 300 es una muestra preliminar. El tamaño de la muestra para estimar la
proporción con una precisión del 0.05 de la proporción preliminar y confiabilidad de
95% es:
2 𝐸
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
Por lo tanto:
∗
(10,000)(1.96)2 (0.23556 )
𝑛 = = 1,425.0487 = 1,426 personas.
(10,000)(0.023335)2 + (1.96)2 (0.23556 )
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
3,000
𝑛1∗ = 10,000 (1,425.0487) = 427.5146 = 428
5,000
𝑛2∗ = 10,000 (1,425.0487) = 712.5244 = 713
158
2,000
𝑛3∗ = 10,000 (1,425.0487) = 285.0097 = 286.
La muestra para estimar la proporción estratificada con una precisión del 0.05 de la
proporción estratificada preliminar y confiabilidad de 95% es de 1,426 personas: 428
niños, 713 jóvenes y 286 adultos.
Por lo tanto:
(10,000)(1.96)2 (0.271627)
𝑛𝑚 =
(10,000)(0.023335)2 + (1.96)2 (0.271627)
𝑛𝑚 = 1,608.1531 = 1,609 personas.
159
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
3,000
𝑛𝑚 1 = (1,608.1531) = 482.4459 = 483
10,000
5,000
𝑛𝑚 2 = (1,608.1531) = 804.0766 = 805
10,000
2,000
𝑛𝑚 3 = (1,608.1531) = 321.6306 = 322
10,000
La muestra para estimar la media estratificada con una precisión del 0.05 de la
proporción estratificada preliminar, una confiabilidad del 90% y un aseguramiento
del 99%, es de 1,609 personas: 483 niños, 805 jóvenes y 322 adultos.
Ejemplo 4.4. En Colima hay 𝑁 = 5,000 personas mayores de 60 años (𝑁1 = 2,600 son
mujeres y 𝑁2 = 2,400 son hombres). Para estimar el porcentaje y el total de personas que
padecen diabetes, se tomó una muestra aleatoria de 𝑛 = 220, donde 𝑛1 = 120 son
mujeres y 𝑛2 = 100 son hombres. Se estratificó la población porque la enfermedad es
influida por el género. De las mujeres, 40 padecen diabetes y de los hombres, 50.
a) La proporción estratificada.
𝐸
1
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖
𝑁
𝑖=1
Por lo tanto:
160
1 2,066.6667
𝑝𝑠𝑡 = (2,600(0.3333) + 2,400(0.5)) = = 41.33% personas diabéticas.
5,000 5,000
b) El total estratificado.
𝜏̂𝑠𝑡 = 𝑁𝑝𝑠𝑡
Por lo tanto:
𝐸
1
𝑆𝑦2̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝𝑖
2
𝑁
𝑖=1
Por lo tanto:
1
𝑆𝑦2̅𝑠𝑡 = ((2,600)2 (0.001767) + (2,400)2 (0.002396)) = 0.001030
5,0002
161
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦̅𝑠𝑡
Por lo tanto:
0.4133 ± (1.645)(0.032094)
0.4133 ± 0.052795
0.360505 ≤ 𝑃𝑠𝑡 ≤ 0.466095.
Por lo tanto:
2,066.6667 ± (5,000)(1.645)(0.032094)
2,066.6667 ± 263.97315
1,802.6935 ≤ 𝜏𝑠𝑡 ≤ 2,330.6398.
162
2
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛∗ = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
Por lo tanto:
∗
(5,000)(1.645)2 (0.23555 )
𝑛 =
(5,000)(0.05)2 + (1.645)2 (0.23555 )
3,187.0209
𝑛∗ = = 242.5914 = 243 personas.
13.1374
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
2,600
𝑛1∗ = (242.5914) = 126.1475 = 127
5,000
2,400
𝑛2∗ = (242.5914) = 116.4439 = 117.
5,000
La muestra para estimar la media con precisión de 0.05 y confiabilidad de 90% debe
163
de ser de 243 personas: 127 hombres y 117 mujeres.
Por lo tanto:
(5,000)(1.645)2 (0.311989)
𝑛𝑚 =
(5,000)(0.05)2 + (1.645)2 (0.311989)
4,221.250169
𝑛𝑚 = = 316.3348 = 317 personas.
13.34425
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
164
2,600
𝑛𝑚 1 = (316.3348) = 164.4941 = 165
5,000
2,400
𝑛𝑚 2 = (316.3348) = 151.8407 = 152.
5,000
EJERCICIOS
Ejercicio 4.5. Un investigador estudió los niveles de colesterol sérico en 500 personas
mayores de 45 años (300 mujeres y 200 hombres). Dado que piensa que el género influye
en la variable respuesta, estratificó la población por género. Para poder estimar la
cantidad de personas que tiene altos niveles de colesterol, tomó una muestra aleatoria
simple de 120 personas: 84 hombres y 36 mujeres. Al momento de realizar las mediciones
encontró que tres mujeres y cinco hombres tenían un alto nivel de colesterol.
Ejercicio 4.6. Un agrónomo sembró tres variedades de manzanas. En total sembró 5,000
plantas: 1,000 pertenecen a la variedad uno, 2,500 a la dos y 1,500 a la tres. Para calcular
el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria
de 250 plantas: 100 de la primera variedad, 100 de la segunda y 50 de la tercera. El número
de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno, cuatro en la
variedad dos y seis en la variedad tres.
165
Ejercicio 4.7. En una población urbana de 3,500 personas del estado de Michoacán, se
desea conocer la cantidad de personas que utilizan Internet. Supóngase que en dicha
población 45% son adolescentes, 30% niños y el resto adultos. Para estimar el porcentaje
y total de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos
distribuidos de la siguiente manera: adolescentes: 𝑛1 = 200, niños: 𝑛2 = 150 y adultos:
𝑛3 = 250. Los resultados del número de personas que usan Internet por estrato son: 70,
30 y 40, respectivamente.
Ejercicio 4.8. A un centro de salud asisten aproximadamente 7,000 personas de los cuales
4,000 son adolescentes y 3,000 son adultos. Se desea conocer el porcentaje de personas
que hacen ejercicio diariamente y para ello se toma una muestra aleatoria de 350
individuos (150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio
diariamente. Los resultados obtenidos son los siguientes: 12 en el estrato de adolescentes
hacen ejercicio diariamente, mientras que seis en el de adultos.
4.5 Estimación de parámetros de interés para una proporción con pruebas imperfectas
bajo MAE
Cuando una población es estratificada y los elementos de sus estratos requieren de una
prueba de laboratorio o algún dispositivo especializado se recurre al MAE (proporción)
para pruebas imperfectas. Lógicamente que al tomar en cuenta la sensibilidad y
especificidad, los estimadores para la proporción estratificada, los IC’s, el total y el
tamaño de muestra son distintos. A continuación se presentan los estimadores
apropiados.
166
𝑎
donde 𝑝𝑖 = 𝑛𝑖 , 𝑞𝑖 = 1 − 𝑝𝑖 , 𝑎𝑖 denota el número de individuos positivos de la muestra de
𝑖
𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = 2
( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛𝑖
𝑖=1
∗
otro lado, un IC para 𝑝𝑠𝑡 ∗
es dado por 𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . El total es 𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
y su
correspondiente IC es: 𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦∗̅𝑠𝑡 . La fórmula para determinar el tamaño de
muestra de manera tradicional es igual a:
2 𝐸
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
Sin embargo, hay que resaltar que la ecuación anterior garantiza que la amplitud del
IC se cumplirá solamente 50% de las veces. Por ello a continuación se brinda la expresión
apropiada para determinar el tamaño de muestra que asegura exactitud en la estimación
de la proporción estratificada:
EJEMPLOS
Ejemplo 4.5. En cierto poblado hay una hectárea con 3,000 árboles de limón. Se desea
saber el porcentaje y el total de árboles que han sido atacados con una plaga. De la
población 1,100 son árboles adultos, 1,000 árboles jóvenes y 900 árboles ancianos. Se
realiza una prueba a 800 árboles, 400 adultos, 250 jóvenes y 150 ancianos. Los resultados
indican que 40, 20 y 6 árboles fueron dañados por la plaga, respectivamente. La prueba
tiene 0.99 de sensibilidad y 0.98 de especificidad.
a) La proporción estratificada.
𝐸
1 𝑝𝑖 + 𝑆𝑝 − 1
∗
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑝𝑖∗ =
𝑁 𝑆𝑒 + 𝑆𝑝 − 1
𝑖=1
Por lo tanto:
∗
1
𝑝𝑠𝑡 = (1,100(0.0825) + 1,000(0.0619) + 900(0.0206))
3,000
168
∗
171.19
𝑝𝑠𝑡 = = 0.057 ó 6% árboles dañados.
3,000
b) El total estratificado.
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
∗
donde: 𝑁 = 3,000 y 𝑝𝑠𝑡 = 0.057.
Por lo tanto:
𝜏̂ ∗ = 3,000(0.057) = 171.
𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
𝑖=1
1,000−250 (0.08)(0.92)
𝑆𝑝2∗2 = (1,000(0.99+0.98−1)2 ) ( ) = 0.00023467 y
250
900−150 (0.04)(0.96)
𝑆𝑝2∗3 = (900(0.99+0.98−1)2 ) ( ) = 0.00022673.
150
Por lo tanto:
(1,100)2 (0.00015218) + (1,000)2 (0.00023467) + (900)2 (0.00022673)
𝑆𝑦2∗
̅𝑠𝑡 =
(3,000)2
602.4551
𝑆𝑦2∗
̅𝑠𝑡 = = 0.0000669395.
9,000,000
169
d) IC para la proporción estratificada con confiabilidad del 95%.
∗
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
∗
donde: 𝑝𝑠𝑡 = 0.057, 𝑆𝑦∗̅𝑠𝑡 = 0.00818165 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96.
Por lo tanto:
0.057 ± (1.96)(0.00818165)
0.057 ± 0.016036034
0.040963966 ≤ 𝑃𝑠𝑡 ≤ 0.073036034.
𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
Por lo tanto:
171 ± (3,000)(1.96)(0.00818165)
171 ± 48.108102
122.891898 ≤ 𝜏 ≤ 219.108102.
f) Si 𝑛 = 800 es una muestra preliminar. El tamaño de la muestra para estimar la
media con precisión de 0.05 y una confiabilidad del 95% (Se utilizan 𝑝 y 𝑞
originales):
2
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
∗
𝑛 = 2
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
170
donde: 𝑁 = 3,000, 𝑑 = 0.05, 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼/2 = 1.96, 𝐸 = 3,
𝑁𝑖 : 𝑁1 = 1,100, 𝑁2 = 1,000, 𝑁3 = 900, 𝑆𝑒 = 0.99, 𝑆𝑝 = 0.98,
𝑝𝑖 : 𝑝1 = 0.1, 𝑝2 = 0.08, 𝑝3 = 0.04, 𝑞𝑖 : 𝑞1 = 0.9, 𝑞2 = 0.92, 𝑞3 = 0.96 y
𝐸
𝑁1 𝑁2 𝑁3
∑ 𝑊𝑖 𝑝𝑖 𝑞𝑖 = 𝑝1 𝑞1 + 𝑝2 𝑞2 + 𝑝3 𝑞3
𝑁 𝑁 𝑁
𝑖=1
1,100 1,000 900
= (0.1)(0.9) + (0.08)(0.92) + (0.04)(0.96)
3,000 3,000 3,000
= 0.033 + 0.02453 + 0.01152 = 0.0691.
Por lo tanto:
(3,000)(1.96)2 (0.0691 )
𝑛∗ =
(3,000)(0.99 + 0.98 − 1)2 (0.05)2 + (1.96)2 (0.0691 )
796.36368
𝑛∗ = = 108.7601 = 109 árboles.
7.322204
𝑁𝑖 ∗
𝑛𝑖 = (𝑛 )
𝑁
Por lo tanto:
1,100
𝑛1 = 3,000 (108.7601) = 39.8787 = 40
1,000
𝑛2 = 3,000 (108.7601) = 36.2533 = 36
900
𝑛3 = 3,000 (108.7601) = 32.6280 = 33.
171
g) El tamaño de la muestra modificado con una confiabilidad del 95%, una precisión
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99 es:
2 𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1
𝑛𝑚 =
2 𝜒 2 (𝛾, 𝑛∗ − 1)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) ∑𝐸𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖 ( 𝑖 ∗ 𝑖 )
𝑛𝑖 − 1
Por lo tanto:
(3,000)(1.96)2 (0.112289)
𝑛𝑚 =
(3,000)(0.05)2 (0.99 + 0.98 − 1)2 + (1.96)2 (0.112289)
1294.108267
𝑛𝑚 =
7.488119
𝑛𝑚 = 172.8215 = 173 árboles.
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
172
1,100
𝑛𝑚 1 = 3,000 (172.8215) = 63.3679 = 63
1,000
𝑛𝑚 2 = 3,000 (172.8215) = 57.6072 = 58
900
𝑛𝑚 3 = 3,000 (172.8215) = 51.8465 = 52.
a) Proporción estratificada.
𝐸
1 𝑝𝑖 + 𝑆𝑝 − 1
∗
𝑝𝑠𝑡 = ∑ 𝑁𝑖 𝑝𝑖∗ , 𝑝𝑖∗ =
𝑁 𝑆𝑒 + 𝑆𝑝 − 1
𝑖=1
Por lo tanto:
173
∗
1
𝑝𝑠𝑡 = (700(0.1771) + 800(0.1771) + 500(0.0729))
2,000
∗
302.1
𝑝𝑠𝑡 = = 0.151 ó 15.1% árboles contaminados.
2,000
b) Total estratificado.
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
∗
donde: 𝑁 = 2,000 y 𝑝𝑠𝑡 = 0.151
Por lo tanto:
𝜏̂ ∗ = 2,000(0.151) = 302.
𝐸
1 𝑁𝑖 − 𝑛𝑖 𝑝𝑖 𝑞𝑖
𝑆𝑦2∗
̅𝑠𝑡 = 2 ∑ 𝑁𝑖2 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )
𝑁 𝑁𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛𝑖
𝑖=1
2∗ 800−150 (0.2)(0.8)
𝑆𝑝2 = (800(0.99+0.97−1)2 ) ( ) = 0.00094004 y
150
2∗ 500−150 (0.1)(0.9)
𝑆𝑝3 = (500(0.99+0.97−1)2 ) ( ) = 0.00045572.
150
Por lo tanto:
174
Desviación estándar: 𝑆𝑦∗̅𝑠𝑡 = √𝑆𝑦2∗
̅𝑠𝑡 = √0.0002548 = 0.015962.
∗
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
∗
donde: 𝑝𝑠𝑡 = 0.151, 𝑆𝑦∗̅𝑠𝑡 = 0.015962 y 𝑡(𝑛−1,1−𝛼/2) = 𝑍1−𝛼⁄2 = 1.96.
Por lo tanto:
0.151 ± (1.96)(0.015962)
0.151 ± 0.031285
∗
0.119715 ≤ 𝑃𝑠𝑡 ≤ 0.182285.
𝜏̂ ∗ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑦∗̅𝑠𝑡
Por lo tanto:
302 ± (2,000)(1.96)(0.015962)
302 ± 62.57104
239.4289 ≤ 𝜏 ≤ 364.571.
175
f) Suponga que 𝑛 = 500 es una muestra preliminar. Determina el tamaño de la muestra
para estimar la media con precisión de 0.03 y confiabilidad de 95%. Utilizar 𝑝 y 𝑞
originales.
2 𝐸
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
𝑛 = 2 𝐸
𝑁(𝑆𝑒 + 𝑆𝑝 − 1)2 𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝𝑖 𝑞𝑖
Por lo tanto:
(2,000)(1.96)2 (0.1425 )
𝑛∗ =
(2,000)(0.99 + 0.97 − 1)2 (0.03)2 + (1.96)2 (0.1425 )
1,094.856
𝑛∗ = = 496.239 = 497 árboles.
2.206308
𝑁𝑖 ∗
𝑛𝑖 = (𝑛 )
𝑁
Por lo tanto:
700
𝑛1 = 2,000 (496.239) = 173.6837 = 174
176
800
𝑛2 = 2,000 (496.239) = 198.4956 = 199
500
𝑛3 = 2,000 (496.239) = 124.0598 = 125.
La muestra para estimar la media con precisión de 0.03 y confiabilidad de 95% debe
de ser de 497 árboles: 174 grandes, 199 medianos, y 125 chicos.
Por lo tanto:
(2,000)(1.96)2 (0.162475)
𝑛𝑚 =
(2,000)(0.03)2 (0.99 + 0.97 − 1)2 + (1.96)2 (0.162475)
1,248.3279
𝑛𝑚 = = 546.7930 = 547 árboles.
2.2830
177
La asignación de la muestra proporcional:
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
700
𝑛𝑚 1 = 2,000 (546.7930) = 191.3775 = 192
800
𝑛𝑚 2 = 2,000 (546.7930) = 218.7172 = 219
500
𝑛𝑚 3 = 2,000 (546.7930) = 136.6983 = 137.
EJERCICIOS
En los ejercicios siguientes estime los parámetros considerando una Sensibilidad de 97%
y una Especificidad de 98% donde se requiera:
Ejercicio 4.9. Una empresa estudió los niveles de azúcar en la sangre en 450 personas
mayores de 40 años (250 mujeres y 200 hombres). Dado que cree que el sexo influye en la
178
variable respuesta, estratificó la población por sexo. Para poder estimar la cantidad de
personas que tienen altos niveles de azúcar, tomó una muestra aleatoria simple de 110
personas: 50 hombres y 60 mujeres. Al momento de realizar las mediciones encontró que
cuatro mujeres y tres hombres tenían un alto nivel de azúcar.
Ejercicio 4.10. Una empresa agraria sembró tres variedades de limón. En total sembró
4,600 plantas: 1,200 pertenecen a la variedad uno, 2,000 a la dos y 1,400 a la tres. Para
calcular el porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra
aleatoria de 300 plantas: 120 de la primera variedad, 100 de la segunda y 80 de la tercera.
El número de plantas dañadas por estrato es el siguiente: 14 plantas en la variedad uno,
10 en la variedad dos y 8 en la variedad tres.
Ejercicio 4.11. En una población urbana de 4,200 personas del estado de Sonora se desea
conocer la cantidad de personas que utilizan internet mediante su dispositivo móvil.
Supóngase que en dicha población 40% son adolescentes, 30% niños y el resto adultos.
Para estimar el porcentaje y total de personas que utilizan internet se tomó una muestra
aleatoria de 660 individuos distribuidos de la siguiente manera: adolescentes: 𝑛1 = 240,
niños: 𝑛2 = 220 y adultos: 𝑛3 = 200. Los resultados del número de personas que usan
internet por estrato son: 75, 35 y 38, respectivamente.
Ejercicio 4.12. A un centro médico asisten aproximadamente 6,500 personas de los cuales
3,200 son adolescentes y 2,800 son adultos. Se desea conocer el porcentaje de personas
que practican algún deporte diariamente. Para ello se toma una muestra aleatoria de 340
individuos (160 son adolescentes y 180 adultos) y se les pregunta si practican algún
deporte diariamente. Los resultados obtenidos son los siguientes: 11 en el estrato de
adolescentes y 6 en el de adultos.
179
Capítulo 5. Muestreo Sistemático
CAPÍTULO 5
Muestreo sistemático
La estadística produce
resultados muy precisos,
cuando es bien utilizada
y se respetan sus principios.
OAML
Muestra sistemática
Es una muestra que se obtiene con una unidad muestral por cada 𝑘 unidades en la
población de tamaño 𝑁, una vez que se obtuvo el primer elemento, el cual se selecciona
aleatoriamente dentro de los primeros 𝑘 elementos que conforman el marco de
muestreo. De esta manera se toman el valor apropiado de 𝑘 y se dice que se tiene una
muestra de 1 en 𝑘. A este tipo de muestra la denotaremos como 𝑌𝑠𝑦 .
180
Regularmente, 𝑁 es un múltiplo de 𝑘. A cada conjunto de 𝑘 unidades se le llama grupo.
Cabe señalar que existe el muestreo sistemático cuando 𝑁 no es múltiplo de 𝑘.
181
Si se conoce la estructura de la población, la anterior dificultad puede resolverse
considerando el muestreo sistemático como equivalente al muestreo aleatorio simple, y
por lo tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria
simple del estimador bajo estudio.
Población aleatoria
Una población es aleatoria (Figura 5.1) si sus elementos están ordenados al azar con
respecto a la característica de interés. Autores como Kish (1972), Scheaffer et al. (1987) y
Azorin (1972), entre otros, coinciden al indicar que el muestreo sistemático bajo estas
condiciones es equivalente al muestreo aleatorio simple. Esto significa que la varianza
bajo MAS es aproximadamente igual a la varianza bajo muestreo sistemático.
Población ordenada
Una población es ordenada (Figura 5.2) si los elementos dentro de la población están
ordenados de acuerdo con algún esquema y con respecto a la variable de interés.
182
Scheaffer et al. (1987) indican que una muestra sistemática de tal población proporciona
más información que una muestra aleatoria simple por unidad de costo (por ende, se
obtiene una mayor eficiencia en la generación de datos) debido a que la varianza
sistemática del estimador será menor que la varianza del mismo cuando se emplee el
muestreo aleatorio simple. La varianza sistemática del estimador no se puede estimar
directamente, por ello empleamos una aproximación conservadora (que es mayor de la
que se esperaría): se calcula la varianza del estimador con las expresiones vistas en el
capítulo 3 (muestreo aleatorio simple).
Población periódica
Una población es periódica cuando sus elementos tienen una variación cíclica con
respecto a la variable de interés. Scheaffer et al. (1987) señalan que una muestra
sistemática extraída de esta población proporciona menos información que una muestra
aleatoria simple por unidad de costo. Como en las situaciones anteriores, la varianza
sistemática del estimador no puede calcularse a partir de una sola muestra sistemática.
Es decir, se puede aproximar su valor empleando las expresiones correspondientes que
da el muestreo aleatorio simple pero, como es de esperarse, esta aproximación
subestimará la varianza verdadera (sistemática).
Como una alternativa para que esta subestimación sea mínima, se sugiere cambiar
varias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la
población y al mismo tiempo seleccionar la correspondiente muestra sistemática. En
183
consecuencia se puede suponer que la muestra así extraída es sistemática y proviene de
una población aleatoria.
Para lecturas adicionales, véanse, por ejemplo, Kish (1972), capítulo 4; Azorin (1972),
capítulo 21; y Scheaffer et al. (1987), capítulo 7.
Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.
Procedimiento:
184
2) Luego, de manera rígida o sistemática (de ahí proviene el nombre del
procedimiento), tomar el elemento 𝑖 + 𝑘 que está 𝑘 lugares del 𝑖-ésimo en la
lista, el 𝑖 + 2𝑘 que está 2𝑘 lugares después, y así sucesivamente hasta
completar el tamaño 𝑛 de la muestra. Nótese que la tabla de números
aleatorios u otro mecanismo de selección se emplea una sola vez en 𝑖.
Notación:
𝑁: tamaño de la población.
𝑛: tamaño de la muestra.
𝑘 = 𝑁/𝑛: intervalo de selección o muestreo.
Azorin (1972) señala que esta diferencia de tamaños no suele ser importante cuando
la población es superior a 50. Por otro lado, Kish (1972) indica que este problema se
puede resolver de varias maneras y el investigador deberá seleccionar la más
conveniente. De las soluciones propuestas por dicho autor, describiremos la más
usual: considerar el marco de muestreo (lista) como si fuera circular.
Procedimiento:
185
2) Sea 𝑘 el entero más próximo a 𝑁/𝑛.
3) Seleccionar aleatoriamente un número entero entre 1 y 𝑁.
4) En seguida, seleccionar cada 𝑘-ésima unidad hasta completar los 𝑛 elementos
En este caso puede darse un valor tentativo de 𝑘; sin embargo, podría ser muy
grande y nos daría un tamaño de muestra menor que el requerido en el estudio.
Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente
la muestra y así seleccionar la 𝑘 que proporcione el tamaño requerido. Sin embargo,
hay muchos casos en los que esto no es posible y es necesario tener una precisión
dada al principio. Ello hace difícil la tarea de estimar un valor adecuado de 𝑘 (Pérez,
2000).
Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una
muestra estimando los parámetros de mayor interés, como la media y el total poblacional.
Después se procede a estimar los parámetros con sus correspondientes varianzas y por
último los intervalos de confianza.
∑𝑛𝑖=1 𝑦𝑖
𝜇̂ = 𝑦̅𝑠 =
𝑛
𝜏̂ 𝑠 = 𝑁𝑦̅𝑠
186
A continuación se presentan los estimadores correspondientes a las varianzas de la
media y del total.
𝑁 − 𝑛 𝑠2
̂
𝑉 (𝑦̅𝑠 ) = ( )( )
𝑁 𝑛
𝑁 − 𝑛 𝑠2
𝑉(𝜏̂ 𝑠 ) = 𝑁 2 ( )( )
𝑁 𝑛
𝑁 − 𝑛 𝑠2
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 𝑛
𝑁 − 𝑛 𝑠2
𝜏̂ 𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑁 2 ( )( )
𝑁 𝑛
𝜎2
𝑉(𝑦̅𝑠 ) = [1 + (𝑛 − 1)𝜌𝑋𝑌 ]
𝑛
187
En la fórmula anterior aparece la medida de correlación 𝜌𝑋𝑌 que indica la relación que
existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy
ligado a este indicador. Si 𝜌𝑋𝑌 está alrededor de uno, quiere decir que los elementos están
estrechamente relacionados entre sí y eso producirá una mayor varianza de la media que
en el muestreo simple aleatorio (éste será el más indicado). En caso contrario, si 𝜌𝑋𝑌 está
cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la
varianza es aproximadamente igual al muestreo simple aleatorio (Scheaffer et al., 1987).
Por lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son
apropiados cuando el coeficiente de correlación (𝜌𝑋𝑌 ) es casi cero, de lo contrario la
muestra debe ser seleccionada bajo MAS o MAE.
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎
𝑛∗ = 2 5.2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎
2
188
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
5.3
2
𝜒(𝛾, 𝑛∗ −1)
2 2
𝑁𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
EJEMPLOS
𝑁 1,000
𝑘= = = 100.
𝑛 10
Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo
aleatoriamente el primer elemento entre los primeros 100 (Cuadro 5.2).
189
∑𝑛𝑖=1 𝑦𝑖
𝑦̅𝑠 =
𝑛
2.5 + 2.6 + 2.7 + 2.6 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8
𝑦̅𝑠 = = 2.72 o 2.72% de grasa.
10
𝑁 − 𝑛 𝑆𝑠2
𝑆𝑦2̅𝑠 = ( )( )
𝑁 𝑛
1,000 − 10 0.024
𝑆𝑦2̅𝑠 = ( )( ) = 0.002376
1,000 10
d) IC del promedio de grasa por e nv ase de leche con una confiabilidad de 95%.
Por lo tanto:
2.72 ± (2.2622)(0.048744)
2.72 ± 0.110269
2.609731 ≤ 𝜇 ≤ 2.830269.
Es decir, con una confiabilidad de 95% se estima que el promedio de grasa por
envase de leche está entre 2.609731 y 2.830269.
190
e) Cantidad total de grasa que se encuentra en los envases.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
Por lo tanto:
2,720 ± (1,000)(2.2622)(0.048744)
2,720 ± 110.268677
2,609.7313 ≤ 𝜏 ≤ 2,830.2687
Es decir, con 95% de confianza se estima que el total de grasa por envase está entre
2,609.7313 y 2,830.2687.
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 2
⁄2) 𝑆𝑠
Por lo tanto:
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
Por lo tanto:
70.9881
(1, 000)(2.2622)2 (0.024) ( )
46.8285 − 1
𝑛𝑚 = 70.9881
(1,000)(0.05)2 + (2.2622)2 (0.024) ( )
46.8285 − 1
190.249335
𝑛𝑚 = = 70.7181 = 71.
2.690249
Ejemplo 5.2. Un sembradío tiene 6,000 plantas de caña de azúcar. Por el arreglo de las
plantas (en surcos) es fácil enumerarlas del uno al 6,000. Suponga que se quieren conocer
los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación. Por
lo tanto, se toma una muestra sistemática de 𝑛 = 30. Primeramente se determina el valor
de 𝑘.
𝑁 6,000
𝑘= = = 200.
𝑛 30
a) Promedio muestral.
∑𝑛𝑖=1 𝑦𝑖
𝑦̅𝑠 =
𝑛
11.06 + 10.61 + 14.41 + ⋯ + 12.16
𝑦̅𝑠 = = 13.5647 gr. de sacarosa por planta.
30
𝑁 − 𝑛 𝑆𝑠2
𝑆𝑦2̅𝑠 = ( )( )
𝑁 𝑛
6,000 − 30 6.2571
𝑆𝑦2̅𝑠 = ( )( ) = 0.207527
6,000 30
193
d) IC para el promedio de sacarosa por planta de caña de azúcar.
Por lo tanto:
13.5647 ± (2.0452)(0.455551)
13.5647 ± 0.931693
12.633 ≤ 𝜇 ≤ 14.4964.
Es decir, con una confiabilidad de 95% se estima que el valor de los gramos
promedio de sacarosa por caña de azúcar se encuentra entre 12.633y 14.4964.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑦̅𝑠
Por lo tanto:
81,388.2 ± (6,000)(2.0452)(0.455551)
81,388.2 ± 5,590.157431
75,798.0426 ≤ 𝜏 ≤ 86,978.3574
Es decir, con 95% de confianza se estima que el total (gramos) de sacarosa en las 6,000
plantas de caña de azúcar está entre 75,798.0426 y 86,978.3674 gramos.
194
g) Suponga que la muestra seleccionada es a preliminar de tamaño 𝑛 = 30. ¿Cuál es el
tamaño de muestra necesario para estimar el promedio de sacarosa por planta de caña
de azúcar, con una precisión de 0.05 gramos de sacarosa y una confiabilidad de 95%?
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑆𝑠
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 2
⁄2) 𝑆𝑠
Por lo tanto:
∗
(6, 000)(2.0452)2 (6.2571) 157,034.8031
𝑛 = 2 2
= = 3,814.0701 = 3,815.
(6,000)(0.05) + (2.0452) (6.2571) 41.1725
h) ¿Cuál sería el tamaño de muestra necesario para estimar el promedio de grasa por
envase de tal manera que el promedio tenga una precisión de 0.05% de grasa por
envase, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%?
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 2
𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑠 ( 𝑛∗ − 1 )
Por lo tanto:
4,019.2
(6,000)(2.0452)2 (6.2571) (3,814.0701 − 1)
𝑛𝑚 = 4,019.2
(6,000)(0.05)2 + (2.0452)2 (6.2571) (3,814.0701 − 1)
165,523.9123
𝑛𝑚 = = 3,886.6965 = 3,887.
42.5873
195
EJERCICIOS
Ejercicio 5.1. Asistieron 𝑁 = 5,000 personas a una fiesta y fueron enumeradas del uno al
5,000. Se desea conocer la cantidad promedio de cervezas ingeridas por persona y se tomó
una muestra sistemática de 25 personas (véase el Cuadro 5.4).
196
Ejercicio 5.2. Una empresa de limones de Tecomán, Colima, empaca 𝑁 = 2,000 cajas de
limones por turno. Se desea estimar el número de limones dañados por caja. Se toma una
muestra sistemática de 𝑛 = 20. Use la información del Cuadro 5.5.
Ejercicio 5.3. En una colonia de la ciudad de Guadalajara hay 𝑁 = 2,500 casas, las cuales
se enumeraron del uno al 2,500. La Comisión Nacional del Agua desea estimar el gasto
promedio de agua en cientos de litros por casa, para ello tomó una muestra sistemática
de 𝑛 = 12. Use la información del Cuadro 5.6.
197
Ejercicio 5.4. En una empresa que se dedica a la digitalización de documentos, escanea
𝑁 = 1,500 cajas por día. Se desea conocer la cantidad de Documentos No Escaneados
Adecuadamente (DNEA), por lo que se enumeraron las cajas del uno al 1,500 y se tomó
una muestra 𝑛 = 15 cajas (véase la información del Cuadro 5.7).
Al igual que en los métodos anteriores, en ocasiones se desea estimar una proporción, es
decir, la frecuencia de una característica en particular. De esta forma, la observación que
posea la característica de interés tomará el valor de 1 o 0.
No es difícil justificar que la variable medida tiene una distribución binomial con
parámetros 𝑛 y 𝑝, donde 𝑛 representa el tamaño de la muestra y 𝑝 la proporción o
frecuencia relativa de éxitos en las 𝑛 observaciones. Las ecuaciones que se presentarán en
las subsecciones siguientes son idénticas a las expuestas en la sección dedicada a
198
proporciones en el capítulo de muestreo simple aleatorio y poseen las mismas
propiedades estadísticas.
Las varianzas de las poblaciones no necesariamente son las mismas en ambos casos.
Si nos referimos a una muestra sistemática proveniente de una población aleatoria con
un tamaño poblacional grande, las varianzas pueden llegar a ser las mismas (Scheaffer et
al., 1987).
∑𝑛𝑖=1 𝑦𝑖
𝑝𝑠 = 𝑦̅𝑠 = (5.4)
𝑛
𝜏𝑠 = 𝑁𝑝𝑠 (5.5)
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( ) (5.6)
𝑁 𝑛
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝜏2𝑠 = 𝑁 2 ( )( ) (5.7)
𝑁 𝑛
donde 𝑞𝑠 = 1 − 𝑝𝑠 .
Por último, para los estimadores (5.6 y 5.7) presentamos intervalos de confianza, que
nos indican los límites de la proporción y el total con una confiabilidad de (1−𝛼) por
ciento, y después la forma de seleccionar el tamaño de muestra para la proporción y el
total, la cual sigue el mismo procedimiento visto en capítulos anteriores.
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 𝑛
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝜏̂𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁 √( )( )
𝑁 𝑛
199
La selección del tamaño de muestra para la proporción
Para determinar el tamaño de muestra que estime 𝑝𝑠 o 𝜏̂𝑠 se elige una precisión que
estamos dispuestos a aceptar. Es decir,
2
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠
𝑛∗ = 2 (5.9)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠
2
2𝑑|1 − 2𝑝𝑠 |𝑍𝛾
√𝑝𝑠 𝑞𝑠 + √𝑝𝑠 𝑞𝑠 + 𝑡
(𝑛−1,1−𝛼⁄2)
𝑛𝑚 = (5.10)
2𝑑
𝑡(𝑛−1,1−𝛼⁄2)
( )
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ) (5.11)
𝑁 + 𝑛𝑚
200
EJEMPLOS
𝑁 10,000
𝑘= = = 555.5556.
𝑛 18
Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 556, el entero más cercano. Por ello, el
primer alumno que será encuestado se elegirá aleatoriamente entre el primero y el 10,000.
Los datos se presentan en la Cuadro 5.8.
∑𝑛𝑖=1 𝑦𝑖 𝑎 8
𝑝𝑠 = = = = 0.444444 ó 44.44% de alumnos satisfechos.
𝑛 𝑛 18
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.5 = 0.555556 ó 55.55% de alumnos insatisfechos.
201
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √( )( )
𝑁 𝑛
Por lo tanto:
10,000−18 (0.444444)(0.555556)
𝑆𝑝𝑠 = √( )( ) = √(0.9982)(0.013717) = 0.117014.
10,000 18
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
Por lo tanto:
0.444444 ± (2.1098)(0.117014)
0.444444 ± 0.246876
0.197568 ≤ 𝑃𝑠 ≤ 0.69132.
𝜏̂ = 𝑁𝑝𝑠
donde: 𝑁 = 10,000 y 𝑝𝑠 = 0.444444.
Por lo tanto:
202
𝜏̂ = (10,000)(0.444444) = 4,444.44.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
Por lo tanto:
4,444.44 ± (10,000)(2.1098)(0.117014)
4,444.44 ± 2,468.761372
1,975.6786 ≤ τs ≤ 6,913.2014.
Con 95% de confianza se estima que el total de alumnos satisfechos está entre
1,975.6786 y 6,913.2014.
2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠
Por lo tanto:
(10,000)(2.1098)2 (0.444444)(0.555556)
𝑛∗ =
(10,000)(0.05)2 + (2.1098)2 (0.444444)(0.555556)
10,990.753456
𝑛∗ = = 421.1166 = 422.
26.099075
203
g) Ahora bien, el tamaño de muestra para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad de 95% y un nivel de aseguramiento (𝛾) de 99%
es:
10,000
𝑛𝑚𝐹 = 451.580882 ( ) = 432.0695 = 433..
10,000 + 451.580882
Ejemplo 5.4. Se tiene una población de 600 estudiantes y se pretende saber cuántos de
ellos poseen licencia para conducir. Para realizar la estimación se toma una muestra
sistemática de 19 estudiantes. A continuación obtenemos 𝑘:
𝑁 600
𝑘= = = 31.5789
𝑛 19
204
Dado que 𝑁 no es múltiplo de 𝑛,tomamos 𝑘 = 32 (el entero más cercano) y el primer
elemento se elige al azar entre el uno y 600. La encuesta arrojó los datos que aparecen en
el Cuadro 5.9.
Cuadro 5.9. Estudiantes que tienen licencia para conducir.
Número de Respuesta Número de Respuesta
estudiantes estudiantes
11 0 331 0
43 1 363 0
75 0 395 1
107 0 427 0
139 0 459 1
171 1 491 0
203 1 523 1
235 1 555 0
267 0 587 1
299 0
a) Estimación puntual para la proporción de estudiantes que cuentan con una licencia
para conducir.
∑𝑛𝑖=1 𝑦𝑖 𝑎 8
𝑝𝑠 = = = = 0.4211 ó 42.11% de estudiantes con licencia.
𝑛 𝑛 19
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.4211 = 0.5789 o 57.89% sin licencia.
𝑁 − 𝑛 𝑝𝑠 𝑞𝑠
𝑆𝑝𝑠 = √( )( )
𝑁 𝑛
Por lo tanto:
205
600 − 19 (0.4211)(0.5789)
𝑆𝑝𝑠 = √( )( ) = √0.012424 = 0.111463.
600 19
𝑝𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
Por lo tanto:
0.4211 ± (2.101)(0.111463)
0.4211 ± 0.234184
0.186916 ≤ 𝑃𝑠 ≤ 0.655284.
𝜏̂ = 𝑁𝑝𝑠
Por lo tanto:
𝜏̂ = (600)(0.4211) = 252.66.
e) IC del total verdadero de estudiantes con licencia, con una confiabilidad de 95%.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝𝑠
206
Por lo tanto:
252.66 ± (600)(2.101)(0.111463 )
252.66 ± 140.510258
112.149742 ≤ 𝜏𝑠 ≤ 393.170258
Con 95% de confianza se estima que el total de estudiantes con licencia está entre
112.149742 y 393.170258.
2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑠 𝑞𝑠
𝑛∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝑝𝑠 𝑞𝑠
Por lo tanto:
(600)(2.101)2 (0.4211)(0.5789)
𝑛∗ =
(600)(0.021055)2 + (2.101)2 (0.4211)(0.5789)
645.642553
𝑛∗ = = 481.0668 = 482.
1.3421
207
2
𝑍𝛾 = 2.5524 y 𝑑 = 0.021055.
2
2(0.021055)|1 − 2(0.4211)|(2.5524)
√(0.4211)(0.5789) + √(0.4211)(0.5789) +
𝑛𝑚 = 1.96
2(0.021055)
( 1.96 )
2
0.493736 + √0.243775 + 0.008653
𝑛𝑚 = ( )
0.021485
0.493736 + 0.502422 2
𝑛𝑚 = ( ) = 2,149.8015.
0.021485
600
𝑛𝑚𝐹 = 2,149.8015 ( ) = 469.0814 = 470.
600 + 2,149.8015
EJERCICIOS
208
b) Suponga que la muestra en cada ejercicio es preliminar. ¿Cuál es el tamaño demuestra
para estimar la proporción y el total de tal manera que sean estimados con una
precisión de 6% de la proporción y el total preliminar con una confiabilidad de 95%?
Ejercicio 5.5. Una empresa constructora tiene empleados a 𝑁 = 1,200 albañiles para una
mega construcción. Con la finalidad de estimar el porcentaje de albañiles a los que les
gusta la cerveza, se toma una muestra sistemática de 𝑛 = 12 albañiles (Cuadro 5.10).
Ejercicio 5.6. Una empresa que produce 𝑁 = 5,000 colchones por semana, decide tomar
una muestra sistemática de 𝑛 = 10 colchones, el objetivo es estimar el porcentaje de
colchones que no cumplen con los requerimientos de calidad (Cuadro 5.11).
1 210 1
2 710 1
3 1,210 0
4 1,710 0
5 2,210 1
6 2,710 1
7 3,210 1
8 3,710 1
9 4,210 1
209
Cuadro 5.11. 10 4,710 1 Muestra de
colchones
210
Cuadro 5.13. Jaliscienses que han visitado Palenque Chiapas.
Número de
𝒏 Cumple
muestra
1 100 0
2 1,100 0
3 2,100 1
4 3,100 0
5 4,100 1
6 5,100 0
7 6,100 0
8 7,100 0
9 8,100 0
10 9,100 0
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠∗ =𝑛 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1
𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
) (5.12)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
donde 𝑞𝑠 = 1 − 𝑝𝑠 .
𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑝𝑠 ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) √( )( )
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑛
211
El tamaño de muestra sin aseguramiento para estimar la proporción
2
∗
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2 (5.13)
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( ) (5.15)
𝑁 + 𝑛𝑚
EJEMPLOS
Ejemplo 5.5. La Secretaría de Salud del estado de Nayarit está interesada en conocer
cuántos de los trabajadores del gobierno han consumido algún tipo de droga en las
últimas 2 semanas, esto mediante un análisis de sangre. Se tienen 𝑁 = 8,000 trabajadores
y se tomó una muestra de 16. La prueba tiene una sensibilidad (𝑆𝑒) de 0.83 y una
especificidad (𝑆𝑝) de 0.97.
𝑁 8,000
𝑘= = = 500.
𝑛 16
212
Cuadro 5.14. Trabajadores sometidos al análisis.
No. de trabajador Resultado No. de trabajador Resultado
187 0 4,187 0
687 1 4,687 0
1,187 0 5,187 0
1,687 0 5,687 1
2,187 0 6,187 0
2,687 0 6,187 0
3,187 1 7,187 0
3,687 1 7,687 0
𝑎
𝑝𝑠 = , 𝑞𝑠 = 1 − 𝑝𝑠
𝑛
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠 = 𝑛
∗
, 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1
Por lo tanto:
4
𝑝𝑠 = = 0.25 = 25%
16
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.25 = 0.75 = 75%
4
16
+ 0.97 − 1 0.22
𝑝𝑠∗ = = = 0.275 = 27.5%
0.83 + 0.97 − 1 0.8
𝑞𝑠∗ = 1 − 0.275 = 0.725 = 72.5%.
𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
Por lo tanto:
213
8,000 − 16 1 (0.25)(0.75)
𝑆𝑝2𝑠 = ( 2
)
8,000 (0.83 + 0.97 − 1) 16
𝑆𝑝2𝑠 = (0.998)(1.5625)(0.011719) = 0.018274
Por lo tanto:
0.275 ± (2.1314)(0.135181)
0.275 ± 0.288125
0 ≤ P ≤ 0.563125.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼/2) 𝑆𝑝𝑠
Por lo tanto:
2,200 ± (8,000)(2.1314)(0.135181)
2,200 ± 2,304.998267
0 ≤ 𝜏 ≤ 4,504.998267
214
Es decir, con 95% de confianza se estima que el total de trabajadores está entre 0 y
4,504.9983.
2
∗
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
Por lo tanto:
8,000(2.1314)2 (0.25)(0.75)
𝑛∗ =
8,000(0.075)2 (0.83 + 0.97 − 1)2 + (2.1314)2 (0.25)(0.75)
6,814.2989
𝑛∗ = = 229.8106 = 230 trabajadores.
29.6518
g) El tamaño de muestra real para estimar la proporción verdadera con una precisión
de 0.075, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99 es:
215
2
0.433013 + √0.1875 + 0.091577 1
𝑛𝑚 = ( ) ( )
0.070376 0.64
2
0.433013 + 0.528278 1
𝑛𝑚 = ( ) ( ) = 291.527627..
0.070376 0.64
8,000
𝑛𝑚𝐹 = 291.527627 ( ) = 281.2776 = 282 trabajadores..
8,000 + 291.527627
𝑁 2,000
𝑘= = = 100.
𝑛 20
La primera persona a quien se le preguntará será elegida aleatoriamente entre uno y 100,
consecutivamente cada 100 se tomará a otra persona (véase el Cuadro 5.15).
𝑎
𝑝𝑠 = 𝑞𝑠 = 1 − 𝑝𝑠
𝑛
216
𝑎
+ 𝑆𝑝 − 1
𝑝𝑠∗ = 𝑛 𝑞𝑠∗ = 1 − 𝑝𝑠∗
𝑆𝑒 + 𝑆𝑝 − 1
Por lo tanto:
14
𝑝𝑠 = = 0.7 = 70%
20
𝑞𝑠 = 1 − 𝑝𝑠 = 1 − 0.7 = 0.3 = 30%
14
20
+ 0.98 − 1 0.68
𝑝𝑠∗ = = = 0.85 = 85%
0.82 + 0.98 − 1 0.8
𝑞𝑠∗ = 1 − 0.85 = 0.15 = 15%.
𝑁−𝑛 1 𝑝𝑠 𝑞𝑠
𝑆𝑝2𝑠 = ( )( 2
)
𝑁 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑛
Por lo tanto:
2,000 − 20 1 (0.7)(0.3)
𝑆𝑝2𝑠 = ( 2
)
2,000 (0.82 + 0.98 − 1) 20
𝑆𝑝2𝑠 = (0.99)(1.5625)(0.0105) = 0.016242
217
Por lo tanto:
0.85 ± (2.093)(0.127444)
0.85 ± 0.26674
0.58326 ≤ 𝑃 ≤ 1.11674
Por lo tanto:
1,700 ± (2,000)(2.093)(0.127444)
1,700 ± 533.480584
1,166.519416 ≤ 𝜏 ≤ 2,233.480584
Es decir, con 95% de confianza se estima que el total de empleados está entre
1,284.3176 y 2,233.480584.
f) Suponga que los datos conformaron una muestra preliminar ¿Cuál es el tamaño de
muestra real para estimar la proporción verdadera con una precisión de 0.05 y una
confiabilidad del 95%?
218
2
∗
𝑁𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
𝑛 = 2
𝑁𝑑 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 + 𝑡(𝑛−1,1−𝛼/2) 𝑝𝑠 𝑞𝑠
Por lo tanto:
∗
2,000(2.093)2 (0.7)(0.3)
𝑛 =
2,000(0.05)2 (0.82 + 0.98 − 1)2 + (2.093)2 (0.7)(0.3)
1,839.8726
𝑛∗ = = 446.5819 = 447 empleados.
4.1199
g) ¿Cuál es el tamaño de muestra real para estimar la proporción verdadera con una
precisión de 0.05, una confiabilidad del 95% y un nivel de aseguramiento (𝛾) de 0.99?
2
2(0.05)|1 − 2(0.7)|2.5395
√0.7(0.3) + √0.7(0.3) + 2.093 1
𝑛𝑚 = ( )
2(0.05) (0.82 + 0.98 − 1)2
( 2.093 )
2
0.458258 + √0.21 + 0.048533 1
𝑛𝑚 = ( ) ( )
0.047778 0.64
0.458258 + 0.508462 2 1
𝑛𝑚 = ( ) ( ) = 639.684019
0.047778 0.64
219
Finalmente se obtiene el tamaño de la muestra suponiendo una población finita:
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚
Por lo tanto:
2,000
𝑛𝑚𝐹 = 639.684019 ( ) = 484.6648 = 485 empleados.
2,000 + 639.684019
EJERCICIOS
Ejercicio 5.9. En el estado de Guerrero una organización privada quiere conocer cuántos
de sus empleados son positivos en el consumo de drogas, esto mediante un análisis de
sangre. Se tienen 𝑁 = 1,500 empleados y se tomó una muestra de 15. La prueba tiene una
sensibilidad (𝑆𝑒) de 0.82 y una especificidad (𝑆𝑝) de 0.97 (Cuadro 5.16).
12 1 812 1
112 1 912 1
212 0 1,012 1
312 0 1,112 0
412 0 1,212 0
220
Cuadro 512 0 1,312 0 5.16.
612 1 1,412 0
712 1
Ejercicio 5.10. Una clínica tiene 𝑁 = 2,800 enfermos y decide tomar una muestra
sistemática de 𝑛 = 14 enfermos. El objetivo es estimar el porcentaje de enfermos que
tienen diabetes. La prueba tiene una sensibilidad (𝑆𝑒) de 0.92 y una especificidad (𝑆𝑝) de
0.95 (Cuadro 5.17).
Ejercicio 5.11. La Secretaría de Salud del estado de Yucatán desea conocer el porcentaje
de Yucatecos que son diabéticos. Supóngase que la población del estado de Yucatán es
221
de 𝑁 = 10,000 personas de las cuales se toma una muestra sistemática de 𝑛 = 20
individuos. La prueba tiene una sensibilidad (𝑆𝑒) de 0.98 y una especificidad (𝑆𝑝) de 0.97.
Use la información del Cuadro 5.18.
222
223
Capítulo 6. Muestreo por conglomerados en una etapa
CAPÍTULO 6
224
que los primeros nos auxilian para hacer la selección aleatoria. Este es el principio del
diseño.
Como se sabe, si se desea realizar una selección aleatoria de unidades, debemos contar
con el marco de muestreo adecuado. Con frecuencia no es posible tener el marco de
muestreo u obtenerlo es costoso, además de que el costo crece al tener que medir
unidades separadas entre sí por una gran distancia física. En el muestreo por
conglomerados este costo se reduce sustancialmente, ya que al levantar la información
de elementos contiguos o muy cercanos entre sí se evita el costo de transportación y
puede operarse también aun sin tener un marco de muestreo completo.
El muestreo por conglomerados, en una, dos o más etapas, es un diseño efectivo para
obtener una cantidad específica de información a un costo mínimo, cuando se presentan
las siguientes situaciones:
Aun cuando fuese posible contar con un marco que contenga la lista de todos los
elementos de la población, la selección de una muestra aleatoria simple
ocasionaría costos excesivos; esto se puede ver claramente en poblaciones grandes
225
y dispersas, es decir, el costo aumenta como consecuencia de la distancia existente
entre unidades de estudio.
En los diseños por conglomerados es importante tener claro lo que será considerado
como conglomerados, ya que pueden ser naturales o convenientemente determinados.
Dado que cada problema tiene características propias, entonces la definición de
conglomerados también la tendrá. Por lo tanto, únicamente se puede hablar de aspectos
generales que es necesario que satisfagan los conglomerados, los cuales son:
Que las unidades que conforman cada conglomerado sean lo más diferentes entre
sí, y que estén lo más próximo posible unas de otras, es decir, que las unidades
dentro de cada conglomerado sean lo más heterogéneas y cercanas entre sí.
Que los conglomerados sean lo más similares entre sí, es decir, homogéneos.
En el diseño de muestreo por conglomerados en una etapa, se asume que todos los
elementos incluidos en los conglomerados seleccionados y que constituyen la muestra
serán estudiados. Además, cabe señalar que entre este diseño y el aleatorio simple existe
gran similitud en cuanto a las expresiones relacionadas con el tamaño de muestra, con la
diferencia de que el aleatorio simple utiliza unidades muestrales elementales, mientras
que el muestreo por conglomerados considera grupos de unidades elementales.
227
Muestreo estratificado Muestreo de conglomerados
Notación
228
𝑀
𝑖 𝑦
∑𝑖=1 𝑖𝑗
𝑦̅𝑖 = : la media a nivel de UMS del conglomerado 𝑖.
𝑀𝑖
∑𝑁
𝑖=1 𝑦𝑖
𝑦̅= : el total del promedio por UMP.
𝑁
𝑀
𝜏= ∑𝑁 𝑁
𝑖=1 𝜏𝑖 = ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗 : el total de la población.
𝑖
𝜏
𝜇= 𝑀: la media a nivel de UMS.
229
A continuación se presentan los estimadores suponiendo una muestra aleatoria de 𝑛
conglomerados y que cada uno contiene 𝑀𝑖 elementos (Scheaffer et al., 1987).
𝑛 𝑀
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1
𝑖
𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 = 𝑛 (6.1)
∑𝑖=1 𝑀𝑖 ∑𝑖=1 𝑀𝑖
∑𝑛𝑖=1 𝑦𝑖
𝜏̂𝑠 = 𝑀𝑦̅𝑠 = 𝑀 ( 𝑛 ) (6.2)
∑𝑖=1 𝑀𝑖
Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del total son de
UMS en toda la población (Scheaffer et al., 1987). Si se sustituye 𝑛 por 𝑁 se obtendrían los
parámetros 𝜇 y 𝜏. Se necesita la varianza de estos estimadores para conocer la dispersión
de los datos y para saber la precisión de las estimaciones. Estas varianzas se muestran a
continuación.
La varianza estimada de 𝒚
̅𝒔 y 𝝉̂𝒔
Al conocer los estimadores de las varianzas de 𝑦̅𝑠 y 𝜏𝑠 (6.3 y 6.4), se puede calcular sus
correspondientes intervalos de confianza, lo que dará los límites en los que se encuentran
230
las estimaciones, es decir, una idea acerca de la precisión de las estimaciones. Es
importante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones
(6.3 y 6.4) son sesgadas, pero pueden ser aceptables si 𝑛 es grande (digamos 𝑛 > 30) y el
sesgo desaparecería si los tamaños de los conglomerados fueran iguales (todas las 𝑀𝑖
iguales).
Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número de
𝑛 conglomerados que seleccionaremos. De la misma manera que en los diseños
231
anteriores, al no conocer 𝜎𝑐2 o el tamaño promedio del conglomerado, se complica la
decisión sobre el número de conglomerados necesarios para conseguir una cantidad
específica de información concerniente a un parámetro poblacional. Si este fuera el caso,
̅ que podrían estar disponibles en encuestas previas
usaríamos los estimadores de 𝜎𝑐2 y 𝑀
o, en todo caso, obtenerse a través de una encuesta piloto seleccionando una muestra
preliminar, digamos 𝑛, y con esta información podemos calcular el tamaño de muestra
definitivo 𝑛.
Procediendo de manera análoga a los diseños anteriores, 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝜃̂) es el error
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑 2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
232
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el
EJEMPLOS
Ejemplo 6.1. Una universidad tiene 𝑀 = 10,000 estudiantes inscritos en 𝑁 = 220 grupos
con diferente clave de estudiante. Con la finalidad de estimar el gasto promedio por
estudiante en útiles escolares, se toma una muestra aleatoria simple de 𝑛 = 5 grupos y se
pregunta a cada integrante de los grupos sobre su gasto en útiles escolares (Cuadro 6.1).
Los tamaños de los conglomerados son:
233
Cuadro 6.1. Gasto en útiles escolares por estudiante (pesos).
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5
(𝑀1 = 30) (𝑀2 = 32) (𝑀3 = 31) ( 𝑀4 = 36) (𝑀5 = 34)
104 81 107 116 96 102 91 100 113 124
086 78 106 111 108 112 84 104 118 74
114 121 101 93 114 116 70 87 105 122
106 93 97 67 124 101 79 81 96 87
74 114 64 94 103 106 92 101 119 89
125 92 109 79 98 114 131 94 118 132
114 107 97 91 96 94 88 126 113 94
090 114 102 114 103 109 96 102 97 88
98 101 93 109 124 91 99 69 127 134
120 101 121 109 103 96 100 78 119 111
97 98 130 121 105 99 77 122 115 141
99 92 90 112 104 83 69 73 100 91
112 98 103 99 115 83 102 80 127
112 107 79 104 70 123 94 123
104 114 100 81 109 113 136
125 89 110 67 122 128 114
93 89 102 70 90 92
129 72 107 112 94 82
𝒚𝟏 = 𝟑, 𝟎𝟗𝟒 𝒚𝟐 = 𝟑, 𝟏𝟖𝟒 𝒚𝟑 = 𝟑, 𝟐𝟑𝟖 𝒚𝟒 = 𝟑, 𝟑𝟑𝟔 𝒚𝟓 = 𝟑, 𝟕𝟏𝟔
a) La estimación de la media.
𝑛 𝑀𝑖
∑𝑛𝑖=1 𝑦𝑖 ∑𝑖=1 ∑𝑗=1 𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 =
∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖
Por lo tanto:
Por lo tanto:
𝑁−𝑛 1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2
Por lo tanto:
2 2
220 − 5 1 (3,094 − (101.6442)(30)) +. . . +(3,716 − (101.6442)(34))
𝑉̂ (𝑦̅𝑠 ) = ( )( )( )
220 (5)(45.45)2 5−1
𝑉̂ (𝑦̅𝑠 ) = 4.4079.
235
Por lo tanto:
101.6442 ± (2.1318)(2.0995)
101.6442 ± 4.4757
97.1685 ≤ 𝜇𝑠 ≤ 106.1199.
Es decir, con 90% de confianza se estima que la media poblacional está entre 97.1685
y 106.1199.
Por lo tanto:
1,016,442 ± (2.1318)(20,994.9994)
1,016,442 ± 44757.1397
971,684.8603 ≤ 𝜏𝑐 ≤ 1,061,199.1397.
Es decir, con 90% de confianza se estima que el total poblacional está entre
971,684.8603 y 1,061,199.1397.
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐
Por lo tanto:
(220)(2.1318)2 (46,595)
𝑛∗ =
(220)(45.45)2 (4.0658)2 + (2.1318)2 (46,595)
46,585,945.3241
𝑛∗ =
7,724,219.5966
𝑛∗ = 6.0311 = 7 grupos.
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
Por lo tanto:
9.2797
(220)(2.1318)2 (46,595) (
𝑛𝑚 = 6.0311 − 1)
9.2797
(220)(45.45)2 (4.0574)2 + (2.1318)2 (46,595) (
6.0311 − 1)
85,926,258.04
𝑛𝑚 =
7,872,029.548
𝑛𝑚 = 10.9153 = 11
Ejemplo 6.2. La empresa Pepsico procesa 1,000 rejas de refresco por día. Con la
finalidad de conocer si el proceso de producción cumple con el contenido de
carbohidratos, cierto día se selecciona una muestra aleatoria simple de 6 rejas (Cuadro
237
6.2)
𝑀
∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 ∑𝑗=1
𝑖
𝑦𝑖𝑗
𝜇̂ = 𝑦̅𝑠 = 𝑛 =
∑𝑖=1 𝑀𝑖 ∑𝑛𝑖=1 𝑀𝑖
Por lo tanto:
𝜏̂𝑐 = 𝑀𝑦̅𝑠
238
donde: 𝑀 = 24,000 y 𝑦̅𝑠 = 7.3028.
Por lo tanto:
𝑁−𝑛 1
𝑉̂ (𝑦̅𝑠 ) = ( 𝑁 ) (𝑛𝑀̅2 ) 𝜎𝑐2
[∑𝑛 ̅𝑠 𝑀𝑖 )2 ]
𝑖=1(𝑦𝑖 −𝑦
𝜎𝑐2 : estimada por 𝑠𝑐2 = :
𝑛−1
(168.3−(7.3028)(24))2 +⋯+(162.9−(7.3028)(24))2
𝑠𝑐2 = = 83.152.
(6−1)
Por lo tanto:
1,000 − 6 1
𝑉̂ (𝑦̅𝑠 ) = ( )( ) (83.1520) = 0.024009.
1,000 (6)(24)2
√𝑉̂ (𝑦̅𝑠 ) = √0.024009 = 0.154948.
Por lo tanto:
239
7.3028 ± (2.015)(0.154948)
7.3028 ± 0.31222
6.99058 ≤ 𝜇𝑠 ≤ 7.61502.
Por lo tanto:
175,267.2 ± (2.015)(3,718.752)
175,267.2 ± 7,493.28528
167,773.9147 ≤ 𝜏𝑠 ≤ 182,760.48528
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑐
𝑛 =
̅ 2 𝑑2 + 𝑡(𝑛−1,1−𝛼
𝑁𝑀 2 2
⁄2) 𝜎𝑐
Por lo tanto:
∗
(1,000)(2.015)2 (83.1520)
𝑛 =
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152)
240
337,615.8292
𝑛∗ =
49,487.362062
𝑛∗ = 6.8222 = 7 grupos
2
2 2
𝜒(𝛾, 𝑛∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
𝜒(𝛾, 𝑛∗ −1)
̅ 2 2 2 2
𝑁𝑀 𝑑 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑐 ( 𝑛∗ − 1 )
Por lo tanto:
16.5101
(1,000)(2.015)2 (83.152) (
𝑛𝑚 = 6.8222 − 1)
16.5101
(1,000)(24)2 (0.292112)2 + (2.015)2 (83.152) (
6.8222 − 1)
957,382.2785
𝑛𝑚 = = 19.1067 = 20 grupos.
50,107.1285
EJERCICIOS
En los siguientes ejercicios estimar un IC para la media y el total poblacional con una
confiabilidad de 95%, y suponer que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media poblacional de tal
manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 99%?
241
Ejercicio 6.1. La Secretaría de Salud cuenta con 200 hospitales distribuidos en el territorio
nacional, dentro de los cuales tiene laborando a 6,000 médicos con estudios de posgrado.
Para medir el nivel de satisfacción de los empleados en el trabajo, se toma una muestra
aleatoria simple de seis hospitales y un censo en cada uno. El nivel de satisfacción se mide
de 0 (nada satisfecho) a 10 (muy satisfecho) (Cuadro 6.3).
242
35 45 49 82
38 38 35 83
48 45 28 73
65 66 25 65
70 33 29 45
35 22 79 66
40 45 49 82
40
Para hallar el estimador del total y la media poblacional se recurre a la expresión del total
promedio por conglomerado (𝑦̅):
𝜏̂ 𝑠 = 𝑁𝑦̅ (6.8)
𝜏̂𝑠
𝜇̂ 𝑠 = 𝑦̅𝑠 = (6.9)
𝑀𝑎𝑝𝑟𝑜𝑥
̅y𝑀
donde 𝑦̅ = (∑𝑛𝑖=1 𝑦𝑖 )/𝑛 = (∑𝑛𝑖=1 𝜏𝑖 )/𝑛, 𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀 ̅ = (∑𝑛𝑖=1 𝑀𝑖 )/𝑛
243
La varianza estimada de la media y del total
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
̂ ̂ 2
𝑉 (𝜏̂ 𝑠 ) = 𝑉 (𝑁𝑦̅) = 𝑁 ( )( ) (6.10)
𝑁 𝑛 𝑛−1
Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de los mismos.
Los intervalos de confianza para estos estimadores se construyen de forma habitual.
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛 = 2 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( ∗ )
𝑛 −1
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
244
donde 𝑛𝑚 es el tamaño de muestra modificado, 𝛾 es la probabilidad de que el IC para que
2
el promedio del conglomerado no sea mayor que la amplitud deseada, 𝜒(𝛾, 𝑛∗ −1) es el
EJEMPLOS
245
producidos, divide la parcela en tramos de 4 𝑚2 , y selecciona una muestra aleatoria de
𝑛 = 15 tramos. El Cuadro 6.5 muestra el número de plantas y el total de cacahuates por
tramo.
10,000
donde: 𝑦̅𝑖 = 1,686.4, 𝑁 = = 2,500: Los tramos en los que se dividió la parcela.
4
Por lo tanto:
Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:
∑𝑛𝑖=1 𝑀𝑖
𝑀𝑎𝑝𝑟𝑜𝑥 ̅=𝑁
= 𝑁𝑀
𝑛
246
̅ = (35 + 34 + ⋯ + 26 + 29)/(15) = 30.9333,
donde: 𝑁 = 2,500, 𝑀
𝑀𝑖 : 𝑀1 = 35, 𝑀2 = 34, 𝑀3 = 28, … , 𝑀15 = 29 y 𝑛 = 15.
𝜏̂𝑠
𝑦̅𝑠 =
𝑀𝑎𝑝𝑟𝑜𝑥
4,216,000
𝑦̅𝑠 = 77,333.3333 = 54.5172 cacahuates en promedio por planta.
𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅)
𝑉̂ (𝑦̅𝑠 ) = 2
= 2
𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥
Por lo tanto:
(2,500)2 (10,528.1337)
𝑉̂ (𝑦̅𝑠 ) = = 11.0026.
(77,333.3333)2
247
𝑦̅𝑠 ± 𝑡(𝑛−1,1−𝛼⁄2) √𝑉̂ (𝑦̅𝑠 )
Por lo tanto:
54.5172 ± (1.7613)(3.3170)
54.5172 ± 5.8423
48.6749 ≤ 𝜇𝑠 ≤ 60.3595.
Es decir, con 90% de confianza se estima que la media poblacional está entre 48.6749
y 60.3595.
Por lo tanto:
4,216,000 ± (1.7613)(256,516.7356)
4,216,000 ± 451,802.9264
3,764,197.074 ≤ 𝜏𝑐 ≤ 4,667,802.926.
Es decir, con 90% de confianza se estima que el total poblacional está entre
3,764,197.074 y 4,667,802.926.
248
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛 = 2 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
Por lo tanto:
(2,500)(1.7613)2 (158,875.2571)
𝑛∗ =
(2,500)(168.64)2 + (1.7613)2 (158,875.2571)
1,232,148,195
𝑛∗ = 71,591,483.28 = 17.2108 = 18 tramos.
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
Por lo tanto:
32.2983
(2,500)(1.7613)2 (158,875.2571) (
𝑛𝑚 = 17.2108 − 1)
32.2983
(2,500)(168.64)2 + (1.7613)2 (158,875.2571) (
17.2108 − 1)
2,454,924,621
𝑛𝑚 = = 34.0581 = 35 tramos.
72,080,593.85
Ejemplo 6.4. Suponga que un predio localizado en una playa de Manzanillo tiene 1,000
palmeras de coco. Un investigador desea conocer la cantidad promedio de agua de coco
249
que producen las palmeras, para lo cual toma una muestra aleatoria de ocho palmeras y
mide la cantidad de agua por coco en cada palmera. En el Cuadro 6.6 se muestra el total
de agua en litros. Resuelva lo solicitado.
∑𝑛𝑖=1 𝑦𝑖 ∑𝑛𝑖=1 𝜏𝑖
𝑦̅ = =
𝑛 𝑛
Por lo tanto:
250
b) El total poblacional.
𝑛
𝑁
𝜏̂𝑠 = 𝑁𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
Por lo tanto:
Como en este caso se desconoce 𝑀, se hace una aproximación para estimar la media
poblacional:
∑𝑛𝑖=1 𝑀𝑖
̅=𝑁
𝑀𝑎𝑝𝑟𝑜𝑥 = 𝑁𝑀
𝑛
donde: 𝑁 = 1,000, 𝑛 = 8, 𝑀𝑖 : 𝑀1 = 8, 𝑀2 = 7, 𝑀3 = 9, … , 𝑀8 = 8 cocos por palmera y
̅ = (8 + 7 + 9 + 8 + 6 + 7 + 10 + 8)/8 = 7.875,
𝑀
Por lo tanto:
𝜏̂𝑠
𝑦̅𝑠 =
𝑀𝑎𝑝𝑟𝑜𝑥
251
Por lo tanto:
7,581.3
𝑦̅𝑠 = = 0.9627 litros de agua producidos por cada coco.
7,875
𝑉̂ (𝜏̂𝑠 ) 𝑁 2 𝑉̂ (𝑦̅)
𝑉̂ (𝑦̅𝑠 ) = 2
= 2
𝑀𝑎𝑝𝑟𝑜𝑥 𝑀𝑎𝑝𝑟𝑜𝑥
𝑁 − 𝑛 1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
𝑉̂ (𝑦̅) = ( )
𝑁 𝑛 𝑛−1
𝑁−𝑛 1 1,000 − 8 1
̂(𝑦̅ ) =
𝑉 ( ) 𝑠2𝑡 = [ ( )] [1.7416] = 0.21596.
𝑁 𝑛 1,000 8
Por lo tanto:
(1,000)2 (0.21596)
𝑉̂ (𝑦̅𝑠 ) = = 0.00348
(7,875)2
Por lo tanto:
0.9627 ± (1.8946)(0.059)
252
0.9627 ± 0.1118
0.8509 ≤ 𝜇𝑠 ≤ 1.0745.
Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua por
coco.
Por lo tanto:
7,581.25 ± (1.8946)(464.7111)
7,581.25 ± 880.4317
6,700.8129 ≤ 𝜏𝑠 ≤ 8,461.6817.
Entonces, el total de litros de agua de coco en el predio está entre 6,700.81 y 8,461.68.
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
𝑛∗ = 2 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝜎𝑡
donde: 𝑁 = 1,000, 𝜎𝑡2 : estimada por 𝑠𝑡2 = 1.7416, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑡(8−1,1−0.05) = 1.8946
y 𝑑 = (0.1)(7.5813) = 0.75813.
253
Por lo tanto:
∗
(1,000)(1.8946)2 (1.7416)
𝑛 =
1,000(0.75813)2 + (1.8946)2 (1.7416)
6,251.48915
𝑛∗ = = 10.7596 = 11 palmeras (muestra).
581.01259
2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
𝑛𝑚 = 2
2 2
𝜒(𝛾,𝑛 ∗ −1)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼⁄2) 𝜎𝑡 ( 𝑛∗ − 1 )
Por lo tanto:
22.8411
(1,000)(1.8946)2 (1.7416) ( )
𝑛𝑚 = 10.7597 −1
22.8411
1,000(0.75813)2 + (1.8946)2 (1.7416) ( )
10.7597 − 1
14,630.66374
𝑛𝑚 = = 24.8233 = 25.
589.39176
EJERCICIOS
En los siguientes ejercicios estime el IC para la media y el total poblacional con una
confiabilidad de 95% y suponga que la muestra en cada ejercicio es una muestra
preliminar. ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de
254
tal manera que sean estimados con una precisión de 5% de la media preliminar, una
confiabilidad de 95% y un nivel de aseguramiento de 90%?
Ejercicio 6.3. El dueño de una plantación forestal necesita estimar el volumen total de
biomasa en 𝑚3 que tiene su plantación. Ha pensado en hacer un muestreo por
conglomerados. Para esto divide la plantación en 300 sitios, de los cuales selecciona
aleatoriamente 40 y dentro de cada uno de ellos mide el volumen de todos los árboles
incluidos. En este caso las UMP (los conglomerados) son los sitios y las UMS son los
árboles. Úse los datos del Cuadro 6.7.
256
Capítulo 7. Muestreo basado en el método de respuesta aleatorizada
CAPÍTULO 7
P
ara que los resultados de una encuesta sean creíbles es necesario, entre otros
aspectos, que las preguntas tengan suficiente calidad o validez, lo que exige asumir
que las respuestas sean ciertas. Para creer en los resultados de una encuesta primero es
necesario creer en las respuestas de las personas que han sido entrevistadas. Sin embargo,
las respuestas sinceras pueden ser difíciles de obtener, y hay muchos problemas
implícitos al tratar de conseguirlas (Lohr, 2000).
257
Por otro lado, la deseabilidad social puede actuar de forma inconsciente, es decir, que
el individuo no controle intencionalmente su respuesta. La deseabilidad social también
es preocupante cuando las preguntas se refieren a temas íntimos como las relaciones
sexuales. En ese caso, las personas suelen mostrar resistencia a exponerse ante extraños
y son más propensos a responder según lo que se considera socialmente aceptable, por
lo que se cubre la verdad (Lohr, 2000). Es decir, cuando una encuesta incluye una o más
preguntas que se refieren a aspectos que pueden considerarse íntimos hacen que el
entrevistado se sienta en peligro o avergonzado si la responde con la verdad (Méndez,
Eslava, & Romero, 2004). Por ello, debe garantizarse que las preguntas y la forma de
hacerlas sean ingeniosas y con calidad para obtener resultados confiables.
Obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se
enfrentan a dificultades que son inherentes a toda persona encuestada: inclinaciones,
actitudes, frustraciones, timidez, formas de pensar, comportamientos, tiempo disponible,
desconfianzas y una propensión a mantener la intimidad. Esto conlleva a que en las
últimas décadas se hayan realizado investigaciones para asegurarse de la calidad y
veracidad de las respuestas obtenidas sobre temas íntimos. La necesidad del ser humano
por hacerse de información y por combatir la no respuesta lo han conducido a desarrollar
nuevas técnicas en la metodología del muestreo, entre ellas: la respuesta aleatorizada
(Méndez y Quintana, 2007).
Respuesta aleatorizada
Existen varios métodos para evitar la resistencia de las personas a responder con
sinceridad cuando el tema es delicado. Este capítulo presenta un método para estimar
258
proporciones: el método de Warner modificado que fue propuesto por Horvitz, Shah, &
Simmons (1967). Este método obtiene respuestas directas de las personas entrevistadas,
es decir, estima la proporción sin que el entrevistado revele su posición personal respecto
a la pregunta delicada. El objetivo de esta técnica es ayudar a que se den respuestas
veraces y se conserve la confiabilidad. El método presenta una forma sencilla de calcular
el tamaño de muestra necesario y con ello estimar la proporción con la precisión y
confiabilidad fijadas bajo el MAS y el MAE.
Cuando las personas que son entrevistadas se niegan a contestar o dan una
respuesta falsa a preguntas delicadas, porque creen que las exponen o las pueden
perjudicar en algún sentido.
Ventajas Desventajas
Aumenta la probabilidad de
Aumento en la complejidad de la pregunta.
contestar la verdad que en una
Dificultad en entender el método de aleatorización.
pregunta directa.
Requiere de tamaños de muestras grandes.
Mayor índice de respuesta.
259
7.3. El modelo de respuesta aleatorizada bajo el MAS
Este método de respuesta aleatorizada fue desarrollado por Warner en 1965 y consiste
en clasificar a las personas en los grupos 𝐴 y 𝐵, respectivamente. Cada persona estará en
uno de los grupos, 𝐴 o 𝐵. Sea 𝜋 la proporción de personas con ciertas características de
interés (grupo 𝐴). El objetivo es estimar 𝜋 sin preguntar a cada persona directamente si
pertenece o no al grupo 𝐴. A continuación se presenta el procedimiento propuesto por
Warner (1965):
1. Se construye un mazo de cartas, pero una fracción de ellas 𝑝, se marca con la letra
𝐴 (grupo 𝐴) y la fracción restante, 1 − 𝑝, con las letras faltantes del abecedario
(grupo 𝐵).
3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.
7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
260
obtuvo, es decir, si la carta que obtuvo está marcada con la letra 𝐴 debe responder
con la verdad a la pregunta delicada y ésta sería su única respuesta. Lo mismo
sucede si le tocó cualquier otra letra del abecedario, debe responder con la verdad
a la segunda pregunta y ésta sería su única respuesta.
8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a
la siguiente persona.
10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en este capítulo.
El mecanismo de aleatorización puede ser una baraja, un dado, una moneda, una urna,
etcétera, pero se debe tener claro cuál es su equivalente a la región 𝐴 y su respectiva
probabilidad. Recuérdese que el experimentador puede elegir arbitrariamente la fracción
𝑝 de cartas marcadas con 𝐴, pero no debe ser igual a 1/2 ni 𝑝 = 1, esta última porque el
entrevistado se daría cuenta que se le está preguntando si pertenece al grupo 𝐴. En
general, 𝑝 = 3/4 es adecuado. Este método requiere generalmente un tamaño de muestra
muy grande para obtener una varianza del estimador pequeña. Debido a que cada
respuesta produce poca información sobre la proporción poblacional, 𝜋. La técnica de
respuesta aleatorizada es una de las más simples de las que existen.
1
Si suponemos que 𝑝 ≠ 2, el estimador de máxima verosimilitud de 𝜋 es:
𝑝−1 𝑎
𝜋̂ = +
2𝑝 − 1 (2𝑝 − 1)𝑛
𝜏̂ = 𝑁𝜋̂
262
La varianza estimada de los estimadores de la proporción y del total
𝑁−𝑛 1 1 1 2
𝑆𝜋̂2 =( ) [ − (𝜋̂ − ) ]
𝑁 𝑛 1 2 2
16 (𝑝 − 2)
𝑁−𝑛 1 1 1 2
𝑆𝜏̂2 = 𝑁 2 𝑆𝜋̂2 2
=𝑁 ( ) [ − (𝜋̂ − ) ]
𝑁 𝑛 1 2 2
16 (𝑝 − )
2
𝜋̂ ± 𝑍𝛼/2 √𝑆𝜋̂2
𝜏̂ ± 𝑍𝛼/2 √𝑆𝜏̂2
Si se fija una precisión deseada con una confiabilidad de 100(1 − 𝛼)%, entonces 𝑑 =
263
2
𝑁𝑍1−𝛼/2 𝑘
𝑛= 2
𝑁𝑑 2 + 𝑍1−𝛼/2 𝑘
donde:
1 1 2
𝑘= 1 2
− (𝜋̂ − 2) .
16(𝑝− )
2
𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.
2
𝑁 2 𝑍1−𝑎/2 𝑘
𝑛= 2
𝑑 2 + 𝑁𝑍1−𝛼/2 𝑘
donde:
1 1 2
𝑘= 1
̂ − 2) .
2 − (𝜋
16(𝑝− )
2
𝑁 = el tamaño de la población.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra 𝐴.
𝑑 = la precisión fijada por el investigador.
𝜏̂ 𝑠𝑡 = 𝑁𝜋̂𝑠𝑡
1
Si 𝑝 ≠ 2 es igual en cada estrato, el estimador de máxima verosimilitud de 𝜋̂ℎ es:
𝑝−1 𝑎ℎ
𝜋̂𝑠𝑡 = + ; ℎ = 1,2, … 𝐸
2𝑝 − 1 (2𝑝 − 1)𝑛ℎ
𝐸
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2
𝑆𝜋̂2𝑠𝑡 = ∑( ) ( ) [ − (𝜋̂ℎ − ) ]
𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2
ℎ=1
𝐸
𝑁ℎ 2 𝑁ℎ − 𝑛ℎ 1 1 1 2
𝑆𝜏̂2𝑠𝑡 2
= 𝑁 ∑( ) ( ) [ − (𝜋̂ℎ − ) ]
𝑁 𝑁ℎ 𝑛ℎ 16(𝑝 − 1/2)2 2
ℎ=1
265
Con los estimadores de las varianzas de 𝜋̂𝑠𝑡 y 𝜏̂ 𝑠𝑡 se puede calcular intervalos que
contengan el valor del parámetro con una probabilidad preestablecida.
2
𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑛= 2
𝑁𝑑 2 + 𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
donde:
1 1 2
𝐾ℎ = − (𝜋
̂ ℎ − ) .
16(𝑝 − 1/2)2 2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar. 𝑝 = la proporción de
cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.
266
2
𝑁 2 𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
𝑛= 2
𝑑 2 + 𝑁𝑍1−𝛼/2 ∑𝐸ℎ=1 𝑊ℎ 𝐾ℎ
donde:
1 1 2
𝐾ℎ = − (𝜋̂ℎ − ) .
16(𝑝 − 1/2)2 2
𝑁 = el tamaño de la población.
𝜋̂ℎ = la proporción de interés en el estrato ℎ.
𝑍1−𝛼/2 = el cuantil 1 − 𝛼/2 de la distribución normal estándar.
𝑝 = la proporción de cartas que están marcadas con la letra A.
𝑑 = la precisión fijada por el investigador.
Como alternativa al método de Warner (1965), Horvitz et al. (1967) sugirieron que la
cooperación de los entrevistados podría mejorar si el segundo enunciado (pregunta 2) no
fuese delicado y no tuviese relación con el primero. A continuación se presenta esta
variación de la idea original de Warner (1965) propuesta por Horvitz et al. (1967):
1. Se construye un mazo de cartas, pero una fracción de ellas (𝑝) se marca con la letra
A (grupo A) y la fracción restante (1 − 𝑝) con las letras faltantes del abecedario
(grupo B).
3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea
que las cartas están marcadas con las letras del abecedario.
6. Responda a la pregunta delicada, por ejemplo: ¿ha consumido droga alguna vez?
Si la carta que obtuvo está marcada con la letra A, por el contrario responda a la
pregunta inocua, por ejemplo: ¿naciste el mes de abril? si obtuvo cualquier otra
letra del abecedario.
7. Se tiene que hacer énfasis en que debe de responder con la verdad a las preguntas
y que solamente tiene que responder una de ellas dependiendo de la letra que
obtuvo, es decir, si la carta que obtuvo está marcada con la letra A, debe responder
con la verdad a la pregunta delicada y esta sería su única respuesta. Similarmente,
si le tocó cualquier otra letra del abecedario, debe responder con la verdad a la
pregunta inocua y esta sería su única respuesta.
8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar
a la siguiente persona.
10. Con las 𝑛 respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores expuestos en éste capítulo.
268
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜏̂ = 𝑁𝜋̂ = 𝑁 ( )
𝑝
269
2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ) , 𝑛𝑚 = ( ).
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )
Dowling & Shachtman (1975) muestran que la varianza del estimador de interés (𝜋̂) de la
versión Horvitz et al. (1967) es menor que la propuesta originalmente por Warner (1965).
Esto significa que al usar la versión propuesta por Horvitz et al. (1967) se obtienen
estimaciones de la proporción y el total más precisas, por lo que se sugiere que el
investigador use esta versión para realizar sus estudios.
EJEMPLOS
a) La proporción de trabajadores que han robado a su empresa por lo menos una vez.
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝
𝑎
donde: 𝜙̂ = 𝑛 = 90/200, 𝑝 = 0.75 y 𝑝𝐼 = 10/365.
90 10
−(1−0.75)
Por lo tanto: 𝜋̂ = 200 365
= 0. 590868.
0.75
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜋̂) = ( )
𝑁 𝑝2 𝑛
90
donde: 𝑁 = 1,500, 𝑛 = 200, 𝑝 = 0.75 y 𝜙̂ = 200.
Por lo tanto:
90 90
1,500 − 200 200 (1 − 200)
𝑉̂ (𝜋̂) = ( ) = 0.001907.
1,500 0.752 (200)
271
La desviación estándar: √𝑉̂ (𝜋̂) = √0.001907 = 0.043669.
Por lo tanto:
0. 590868 ± (1.96)(0.043669)
0. 590868 ± 0. 085592
0.505276 ≤ 𝜋 ≤ 0. 67646.
d) El total de trabajadores que han robado a su empresa por lo menos una vez.
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜏̂ = 𝑁𝜋̂ = 𝑁 ( )
𝑝
Así se tiene que el total de trabajadores que han robado a su empresa por lo menos
una vez es de 886.
Por lo tanto:
886 ± (1.96)(1,500)(0.043669)
272
886 ± 128.38686
757.61314 ≤ 𝜏 ≤ 1,014.38686.
Con 95% de confianza se estima que el total de trabajadores que han robado a su
empresa por los menos una vez está entre 757.61314 y 1,014.38686.
2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
90
donde: 𝑁 = 1,500, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96, 𝑑 = 0.05, 𝑝 = 0.75 y 𝜙̂ = 200.
Por lo tanto:
90 90
(200) (1 − 200)
(1,500)(1.96)2
𝑛∗ = 0.752 = 466.038621 = 467.
90 90
(200) (1 − 200)
(1,500)(0.05)2 + (1.96)2
0.752
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )
273
90
𝜙̂ = 200 = 0.45 y 𝑍𝛾 = 1.2816.
1,500
𝑛𝑚𝐹 = 685.035717 ( ) = 470.2685 = 471..
1,500 + 685.035717
Ejemplo 7.2. Se elige una muestra aleatoria simple de 180 de los 1,400 trabajadores de la
empresa lechera Liconsa. Cada trabajador de la muestra recibe una ficha con las
siguientes preguntas:
274
𝜙̂ − (1 − 𝑝)𝑝𝐼
𝜋̂ =
𝑝
Por lo tanto:
36
− (1 − 0.8)0.5
𝜋̂ = 180 = 0.125.
0.8
𝑁 − 𝑛 𝜙̂(1 − 𝜙̂)
𝑉̂ (𝜋̂) = ( )
𝑁 𝑝2 𝑛
Por lo tanto:
36 36
1,400 − 180 180 (1 − 180)
𝑉̂ (𝜋̂) = ( ) = 0.00121.
1,400 0.82 (180)
Por lo tanto:
0.125 ± (1.96)(0.03479)
275
0.125 ± 0.068188
0.056812 ≤ 𝜋 ≤ 0.193188.
𝜏̂ = 𝑁𝜋̂
Por lo tanto:
Por lo tanto:
175 ± (1.96)(1,400)(0.03479)
175 ± 95.46376
79.53624 ≤ 𝜏 ≤ 270.46376
Con 95% de confianza se estima que el total de trabajadores que han observado
prácticas ilícitas en la empresa donde laboran está entre 79.53624 y 270.46376.
f) Suponga que los 180 trabajadores encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la proporción de tal manera que
sea estimada con una precisión de 𝑑 = 0.05 y una confiabilidad de 95%?
276
2 𝜙̂(1 − 𝜙̂)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
𝑛∗ =
2 𝜙̂(1 − 𝜙̂)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝2
36
donde: 𝑁 = 1,400, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96 , 𝑑 = 0.05, 𝑝 = 0.8 y 𝜙̂ = 180 = 0.2.
Por lo tanto:
(0.2)(1 − 0.2)
(1,400)(1.96)2
𝑛∗ = 0.82 = 301.4438 = 302.
2 2 (0.2)(1 − 0.2)
(1,400)(0.05) + (1.96)
0.82
g) ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera
que sea estimada con una precisión de 𝑑 = 0.05, una confiabilidad de 95% y un nivel
de aseguramiento (𝛾) de 99%?
2𝑑|1 − 2𝜙̂|𝑍𝛾
√𝜙̂(1 − 𝜙̂) + √𝜙̂(1 − 𝜙̂) +
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 1
𝑛𝑚𝐹 = 𝑛𝑚 ( ), 𝑛𝑚 = ( )
𝑁 + 𝑛𝑚 2𝑑 𝑝2
𝑡(𝑛−1,1−𝛼⁄2)
( )
2
2(0.05)|1−2(0.2)|(2.3263)
√0.2(1−0.2)+√0.2(1−0.2)+ 1
1.96
𝑛𝑚 = ( 2(0.05) ) ((0.8)2 )
1.96
2
0.4+√0.16+0.071213 1
𝑛𝑚 = ( ) ((0.8)2 )
0.05102
277
0.4+0.480846 2 1
𝑛𝑚 = ( ) ((0.8)2 ) = 465.73523.
0.05102
𝑁
𝑛𝑚𝐹 = 𝑛𝑚 ( )
𝑁 + 𝑛𝑚
1,400
𝑛𝑚𝐹 = 465.73523 ( ) = 349.4758 = 350.
1,400 + 465.73523
EJERCICIOS
Ejercicio 7.1. Una investigadora desea estimar el porcentaje y total de mujeres casadas
que sufrieron de maltrato físico por parte de su pareja durante el 2014. Supóngase que en
el municipio de Colima, Colima, se tiene una población de matrimonios de 𝑁 = 10,000,
de la cual se toma una muestra aleatoria simple de 𝑛 = 138 parejas (pero sólo se pregunta
a los esposos). Cada esposo recibe una ficha con las siguientes preguntas:
278
Ejercicio 7.2. Un investigador desea estimar el porcentaje y total de hombres solteros de
24 años que han tenido relaciones sexuales sin protección. Se toma una muestra aleatoria
simple de 𝑛 = 160 hombres de esta edad de un total de 𝑁 = 15,000. Cada hombre de la
muestra recibe una ficha con las siguientes preguntas:
A partir de un censo preliminar se determinó que del total de estos hombres, 9% nació
el 9 de junio de 1984. Por lo tanto, 𝑝𝐼 = 0.09. Supóngase que el mecanismo de
aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a
𝑝 = 0.85 y la fracción restante con las letras sobrantes del abecedario. De los resultados
de la encuesta se tiene que 40 respondieron que sí.
Ejercicio 7.3. Una investigadora desea estimar el porcentaje de hombres (de cierto
municipio) de entre 40 y 55 años que padecen o alguna vez padecieron disfunción eréctil.
Se toma una muestra aleatoria simple de 𝑛 = 186 hombres del total de la población (𝑁 =
8,000). A cada hombre se le preguntó (en fichas):
De los registros del Centro de Salud municipal se obtuvo que 19% de esos hombres
tienen 43 años. Por lo tanto, 𝑝𝐼 = 0.19. Supóngase que el mecanismo de aleatorización es
una baraja con una fracción de cartas marcadas con la letra A igual a 𝑝 = 0.9 y la fracción
restante con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene
que 48 respondieron que sí.
Ejercicio 7.4. Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad)
entre 16 y 20 años que padecen o alguna vez padecieron bulimia o anorexia. Se toma una
muestra aleatoria simple de 𝑛 = 210 mujeres del total de la población (mujeres de entre
16 y 20 años, 𝑁 = 4,000). Cada una de las mujeres de la muestra recibe una ficha con las
siguientes preguntas:
279
Pregunta 1: ¿padece o ha padecido bulimia o anorexia?
Pregunta 2: ¿su signo zodiacal es tauro?
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁
𝜏̂ = 𝑁𝜋̂𝑠𝑡
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙 𝑎
donde: 𝜋̂𝑖 = , 𝜙̂𝑖 = 𝑛𝑖 , 𝑁 es el tamaño de la población, 𝐸 es el número de estratos
𝑝 𝑖
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1
280
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑉̂ (𝜏̂ 𝑠𝑡 ) = 𝑁 ∑ ( ) (
2
)
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑁𝑖
donde: 𝑑 es la precisión fijada por el investigador y 𝑊𝑖 = .
𝑁
2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1
281
donde 𝛾 es la probabilidad de que el IC para la proporción estratificada no sea mayor que
2 ∗
la amplitud deseada, 𝜒𝑖(𝛾,𝑛 ∗
−1) es el cuantil 100𝛾 de la distribución Ji-cuadrada con 𝑛𝑖 −
𝑖
EJEMPLOS
Ejemplo 7.3. Una persona está interesada en estimar la proporción de hombres con
problemas de erección en el estado de Guanajuato (el total de hombres es de 𝑁 = 20,000).
Además, la persona cree que la edad influye en tal problema, por lo que clasificó a la
población en dos estratos: menores de 30 (estrato 1) y mayores de 30 (estrato 2), donde la
población de cada estrato es 𝑁1 = 11,000 y 𝑁2 = 9,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 800) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas “si” en los entrevistados por estrato son: de 45 para el estrato 1 y de 40 para
el estrato dos.
282
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁
Por lo tanto:
(11,000)(0.008) + (9,000)(0.06)
𝜋̂𝑠𝑡 = = 0.0314.
20,000
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1
Por lo tanto:
45 45
11,000 2 11,000 − 500 500 (1 − 500)
𝑉̂ (𝜋̂𝑠𝑡 ) = ( ) ( )
20,000 11,000 5 2
(6) (500)
40 40
9,000 2 9,000 − 300 300 (1 − 300)
+( ) ( ) = 0.000177.
20,000 9,000 5 2
(6) (300)
283
La desviación estándar: √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.
donde: 𝜋̂𝑠𝑡 = 0.0314, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.013292.
Por lo tanto:
0.0314 ± (1.96)(0.013292)
0.0314 ± 0. 026052
0.005348 ≤ 𝜋𝑠𝑡 ≤ 0. 057452
d) El total estratificado.
𝜏̂ = 𝑁𝜋̂𝑠𝑡
Por lo tanto:
284
Por lo tanto:
628 ± (1.96)(20,000)(0.013292)
628 ± 521.046817
106.953183 ≤ 𝜏 ≤ 1,149.046817
Por lo tanto, se estima que el total de hombres con problemas de erección en el estado
de Guanajuato está entre 106.9532 y 1149.0468.
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑁𝑖 𝑁1 11,000 𝑁2 9,000
𝑊𝑖 = : 𝑊1 = = = 0.55, 𝑊2 = = = 0.45,
𝑁 𝑁 20,000 𝑁 20,000
45 45
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) ̂ 1 (1−𝜙
𝜙 ̂ 1) 11,000 (1− )
𝑊𝑖 : 𝑊1 = 20,000 (500 5 2
500
) = 0.064865,
𝑝2 𝑝2 ( )
6
40 40
̂ 2 (1−𝜙
𝜙 ̂ 2) 9,000 (1− )
𝑊2 = 20,000 ( 300
5 2
300
) = 0.07488 y
𝑝2 ( )
6
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖)
∑2𝑖=1 𝑊𝑖 = 0.064865 + 0.07488 = 0.139745.
𝑝2
Por lo tanto:
∗
(20,000)(1.96)2 (0.139745) 10,736.88784
𝑛 = = = 923.2939 = 924.
(20,000)(0.02355)2 + (1.96)2 (0.139745) 11.628895
285
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
11,000
𝑛1∗ = (923.2939) = 507.811645 = 508
20,000
9,000
𝑛2∗ = (923.2939) = 415.482255 = 416.
20,000
La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada y una confiabilidad de 95% es de: 924 hombres: 508 menores
de 30 años y 416 mayores de 30 años.
g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión del 75% de la proporción preliminar, una confiabilidad
de 95% y un nivel de aseguramiento (𝛾) de 90% es:
2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1
5
donde: 𝑁 = 20,000, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96, 𝐸 = 2, 𝑑 = 0.02355, 𝑝 = 6,
𝑎 45 40 𝑁 11,000 9,000
𝜙̂𝑖 = 𝑛𝑖 : 𝜙̂1 = 500 , 𝜙̂2 = 300, 𝑊𝑖 = 𝑁𝑖 : 𝑊1 = 20,000 = 0.55, 𝑊2 = 20,000 = 0.45,
𝑖
2 2 2
𝜒𝑖(𝛾,𝑛 ∗
−1) : 𝜒1(𝛾,𝑛1∗ −1) = 548.0172, 𝜒2(𝛾,𝑛2∗ −1) = 451.7821,
𝑖
2 45 45
̂ 1 (1−𝜙
𝜙 ̂ 1) 𝜒1(𝛾,𝑛∗ −1) 11,000 (1− ) 548.0172
1 500 500
𝑊1 ( ) = 20,000 ( 5 2
) 507.811645−1 = 0.070139,
𝑝2 𝑛1∗ −1 ( )
6
2 40 40
̂ 2 (1−𝜙
𝜙 ̂ 2) 𝜒2(𝛾,𝑛∗ −1) 9,000 (1− ) 451.7821
𝑊2 ( 2
) = 20,000 (300 5 2
300
) (415.482255−1) = 0.081619 y
𝑝2 𝑛2∗ −1 ( )
6
286
2
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) 𝜒𝑖(𝛾,𝑛∗ −1)
∑2𝑖=1 𝑊𝑖 ( 𝑖
) = 0.070139 + 0.081619 = 0.151758.
𝑝2 𝑛𝑖∗ −1
Por lo tanto:
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
11,000
𝑛𝑚 1 = (998.7004) = 549.28522 = 549
20,000
9,000
𝑛𝑚 2 = (998.7004) = 449.41518 = 450.
20,000
La muestra para estimar la media estratificada con una precisión del 75% de la
proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento de
99% es de: 999 hombres: 549 menores de 30 años y 450 mayores de 30 años.
Ejemplo 7.4. En la ciudad de México un sexólogo desea realizar una investigación para
conocer el número de mujeres que han tenido relaciones sexuales premaritales (se
encontró que el número de mujeres era de 𝑁 = 40,000). Además, se piensa que el nivel
de vida influye en la decisión de tener relaciones sexuales antes del matrimonio, por lo
que se clasificó a la población en tres estratos: pobres (estrato 1), nivel medio (estrato 2)
y ricos (estrato 3). La población de cada estrato es 𝑁1 = 19,000, 𝑁2 = 16,000 y 𝑁3 =
5,000. Para el estudio se tomó una muestra aleatoria simple de la población de mujeres
distribuidas de la siguiente manera: 𝑛1 = 2,000, 𝑛2 = 1,400 y 𝑛3 = 600 mujeres.
287
1.- ¿Has tenido relaciones sexuales premaritales?
2.- ¿El año en que naciste es par?
Se sabe que 𝑝𝐼 = 0.5. Suponga que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a 𝑝 = 5/6 y la fracción restante con
las demás letras del abecedario. De los resultados de la encuesta se tiene que el número
de respuestas afirmativas en los entrevistados por estrato son: 520 para el primer estrato,
360 para el segundo y 180 para el tercero.
∑𝐸𝑖=1 𝑁𝑖 𝜋𝑖
𝜋̂𝑠𝑡 =
𝑁
520 5 360 5
̂ 𝑖 −(1−𝑝)𝑝𝐼
𝜙 −(1− )0.5 −(1− )0.5
𝜋̂𝑖 = : 𝜋̂1 = 2,000
5
6
= 0.212, 𝜋̂2 = 1,400
5
6
= 0.2086 y
𝑝
6 6
180 5
−(1− )0.5
600 6
𝜋̂3 = 5 = 0.26.
6
Por lo tanto:
288
𝐸
𝑁𝑖 2 𝑁𝑖 − 𝑛𝑖 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
̂
𝑉 (𝜋̂𝑠𝑡 ) = ∑ ( ) ( )
𝑁 𝑁𝑖 𝑝2 𝑛𝑖
𝑖=1
Por lo tanto:
donde: 𝜋̂𝑠𝑡 = 0.2166, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 𝑍1−0.025 = 1.96 y √𝑉̂ (𝜋̂𝑠𝑡 ) = 0.007974.
Por lo tanto:
0.2166 ± (1.96)(0.007974)
0.2166 ± 0.015629
0.200971 ≤ 𝜋𝑠𝑡 ≤ 0.232229
d) El total estratificado.
289
𝜏̂ = 𝑁𝜋̂𝑠𝑡
Por lo tanto:
Por lo tanto:
8,664 ± (1.96)(40,000)(0.007974)
8,664 ± 625.1616
8,038.8384 ≤ 𝜏 ≤ 9,289.1616
Entonces se estima que el total de mujeres residentes en la ciudad de México que han
tenido relaciones sexuales premaritales está entre 8,038.83 y 9,289.1616.
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
𝑛∗ =
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 )
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ∑ 𝑊
⁄2) 𝑖=1 𝑖 𝑝2
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖)
∑3𝑖=1 𝑊𝑖 = 0.131602 + 0.110028 + 0.0378 = 0.27943.
𝑝2
Por lo tanto:
∗
(40,000)(1.96)2 (0.27943) 42,938.3315
𝑛 = = = 2,164.2651 = 2165.
(40,000)(0.02166)2 + (1.96)2 (0.27943) 19.839682
𝑁𝑖 ∗
𝑛𝑖∗ = (𝑛 )
𝑁
Por lo tanto:
19,000
𝑛1∗ = (2,164.2651) = 1,028.0259 = 1,028
40,000
16,000
𝑛2∗ = (2,164.2651) = 865.706 = 866
40,000
291
5,000
𝑛3∗ = (2,164.2651) = 270.5331 = 271.
40,000
El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada y una confiabilidad de 95%, es de: 2,165 mujeres: 1,028
pobres, 866 de nivel medio y 271 de clase alta.
g) El tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión (𝑑) del 0.05 una confiabilidad de 95% y un nivel de
aseguramiento (𝛾) de 90%, es:
2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 𝑝2
( ∗
𝑛𝑖 − 1
)
𝑛𝑚 = 2
2 𝐸 𝜙̂𝑖 (1 − 𝜙̂𝑖 ) 𝜒𝑖(𝛾,𝑛𝑖∗−1)
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 ( ∗ )
𝑝2 𝑛𝑖 − 1
2 2 2 2
𝜒𝑖(𝛾,𝑛 ∗ : 𝜒1(𝛾,𝑛 ∗
1 −1)
= 1,135.4, 𝜒2(𝛾,𝑛 ∗
2 −1)
= 964.3807, 𝜒3(𝛾,𝑛 ∗
3 −1)
= 326.4674,
𝑖 −1)
2 520 520
̂ 1 (1−𝜙
𝜙 ̂ 1) 𝜒1(𝛾,𝑛∗ −1) (1− ) 1,135.4
𝑊1 ( 1
) = 0.475 (2,000 2,000
2 ) 1,028.0259−1 = 0.145488,
𝑝2 𝑛1∗ −1 5
( )
6
2 360 360
̂ 2 (1−𝜙
𝜙 ̂ 2) 𝜒2(𝛾,𝑛 ∗ −1) (1− ) 964.3807
2 1,400 1,400
𝑊2 ( ) = 0.4 ( 5 2
) 865.706−1 = 0.122711,
𝑝2 𝑛2∗ −1 ( )
6
2 180 180
̂ 3 (1−𝜙
𝜙 ̂ 3) 𝜒3(𝛾,𝑛 ∗ (1− ) 326.4674
3 −1)
𝑊3 ( ∗ ) = 0.125 ( 600
5 2
600
) (270.5331−1) = 0.045785 y
𝑝2 𝑛3 −1 ( )
6
2
̂ 𝑖 (1−𝜙
𝜙 ̂ 𝑖) 𝜒𝑖(𝛾,𝑛∗ −1)
∑3𝑖=1 𝑊𝑖 ( 𝑖
) = 0.145488 + 0.122711 + 0.045785 = 0.313984.
𝑝2 𝑛𝑖∗ −1
Por lo tanto:
292
(40,000)(1.96)2 (0.313984)
𝑛𝑚 =
(40,000)(0.02166)2 + (1.96)2 (0.313984)
48,248.0374
𝑛𝑚 = = 2,415.7326 = 2,416.
19.972425
𝑁𝑖
𝑛𝑚 𝑖 = (𝑛 )
𝑁 𝑚
Por lo tanto:
19,000
𝑛𝑚 1 = (2,415.7326) = 1,147.473 = 1,148
40,000
16,000
𝑛𝑚 2 = (2,415.7326) = 966.293 = 967
40,000
5,000
𝑛𝑚 3 = (2,415.7326) = 301.9666 = 302.
40,000
El tamaño de muestra para estimar la media estratificada con una precisión del 10%
de la proporción estratificada, una confiabilidad de 95% y un nivel de aseguramiento
de 99% es de: 2,417 mujeres: 1,148 pobres, 967 de nivel medio y 302 de clase alta.
EJERCICIOS
293
Ejercicio 7.5. Una persona está interesada en estimar la proporción de hombres con
experiencias homosexuales en el estado de Nuevo León (el total de hombres es de 𝑁 =
16,000). Además, la persona cree que la edad influye en tal problema, por lo que clasificó
a la población en dos estratos: menores o iguales a 30 (estrato 1) y mayores de 30 (estrato
2), donde la población de cada estrato es 𝑁1 = 9,000 y 𝑁2 = 7,000. Para el estudio se tomó
una muestra aleatoria simple (𝑛 = 650) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 350 (estrato 1) y 𝑛2 = 300 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
Ejercicio 7.6. Una persona está interesada en estimar la proporción de hombres con doble
vida marital oculta en un municipio del Estado de México (el total de hombres es de 𝑁 =
22,000). Además, la persona cree que la religión influye en tal problema, por lo que
clasificó a la población en dos estratos: católicos (estrato 1) y cristianos (estrato 2), donde
la población de cada estrato es 𝑁1 = 15,000 y 𝑁2 = 7,000. Para el estudio se tomó una
muestra aleatoria simple (𝑛 = 700) de la población objetivo, que se distribuyó de la
siguiente manera: 𝑛1 = 500 (estrato 1) y 𝑛2 = 200 (estrato 2). Cada hombre de la muestra
recibe una ficha con las siguientes preguntas:
Ejercicio 7.8. Una empresa está interesada en estimar la proporción de mujeres que han
sido víctimas de abuso sexual en el estado Guerrero (el total de mujeres es de 𝑁 =
24,000). Además, la empresa cree que la procedencia influye en tal situación, por lo que
clasificó a la población en dos estratos: procedencia rural (estrato 1) y procedencia urbana
(estrato 2), donde la población de cada estrato es 𝑁1 = 13,000 y 𝑁2 = 11,000. Para el
estudio se tomó una muestra aleatoria simple (𝑛 = 760) de la población objetivo, que se
distribuyó de la siguiente manera: 𝑛1 = 400 y 𝑛2 = 360 mujeres. Cada mujer de la
muestra recibe una ficha con las siguientes preguntas:
295
Capítulo 8. Pruebas por grupos
CAPÍTULO 8
Pruebas por grupos
En estadística agrupar
es sensato
siempre y cuando,
la situación amerite este trato.
EESF
El método pruebas por grupos (en inglés Group Testing) consiste en aplicar pruebas a un
conjunto de elementos en lugar de realizar pruebas individuales. Para comprender de
mejor manera este método suponga que se tienen 100 personas sospechosas de padecer
el virus de la influenza AH1N1. Para saber quiénes padecen esta enfermedad se
necesitaría hacer una prueba a cada una de estas personas, es decir, hacer una prueba de
laboratorio para cada persona. Sin embargo, Dorfman (1943) propuso que para ahorrar
tiempo y dinero se puede juntar el material (sangre en el caso de Dorfman) de 𝑥 personas
y mezclarlos perfectamente y en lugar de realizar pruebas individuales, ahora se realizará
una sola prueba a la mezcla resultante de estos 𝑥 individuos. Por lo tanto, si se mezcla la
sangre de 10 individuos por grupo, sólo se realizarán 10 pruebas de laboratorio. Si un
grupo resulta negativo se concluye que los 𝑥 individuos que lo conforman están libres de
este virus. Por otro lado, si el grupo resulta positivo significa que al menos uno de los 𝑥
individuos presenta el virus de la influenza y, si se desea saber quién es este individuo,
se sugiere realizar una prueba individual a los individuos que conforman al grupo que
arrojo el resultado positivo. No obstante, para efectos de estimación del porcentaje de
individuos que padecen este virus no es necesario realizar una prueba individual a los
elementos de un grupo positivo. Otros ejemplos de aplicación este método es juntar el
material genético de plantas y realizar pruebas sobre la mezcla obtenida (Montesinos-
296
López et al., 2011; Montesinos-López et al., 2012a), estimación de prevalencia animal,
detección de agentes infecciosos entre otros (Montesinos-López et al., 2012b)
Por lo antes expresado, si se conoce el tamaño de la población (𝑁) y el tamaño del grupo
(𝑥), el número de pruebas de laboratorio a realizar es igual a 𝐺 = 𝑁/𝑥. Sin embargo, si se
toma una muestra de 𝑛 elementos de esta población 𝑁 y se define a 𝑥 como el tamaño del
grupo, el número de pruebas a realizar será igual a 𝑔 = 𝑛/𝑥.
La proporción muestral
𝑦 1⁄𝑥
𝑝 = 1 − (1 − ⁄𝑔)
𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2
𝜏̂ = 𝑁𝑝
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑁𝑆𝑝
297
donde 𝑡(𝑛−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la distribución t-Student con 𝑛 − 1
grados de libertad. Los cuantiles requeridos se pueden obtener usando la tabla clásica de
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑛−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
2 1 − (1 − 𝑝)𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2)
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2
2 1 2 4𝑑
𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
2 1
−1 2( −1)
𝑦
donde: 𝑃𝑔 = 𝑔, ℎ(𝑃𝑔 ) = √(1−𝑃𝑔)𝑥 𝑃𝑔
,
1 (1−𝑃𝑔 ) 𝑥
ℎ′ (𝑃𝑔 ) = 𝑥 (1 −
2𝑃𝑔
), 𝛾 es la
𝑥2 2
−1 𝑥
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
298
es el cuantil 𝛾 de la distribución normal estándar y 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 −
𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de libertad. Los cuantiles requeridos
se pueden obtener usando las tablas clásicas de las distribuciones t-Student y Ji-
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
a) La proporción de interés.
𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
1⁄
𝑝 = 1 − (1 − 15⁄50) 10
𝑝 = 1 − (1 − 0.3)0.1
𝑝 = 0.035.
𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2
299
Por lo tanto:
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.035 ± 1.96(0.008485)
0.035 ± 0.016631
0.018369 ≤ 𝑃 ≤ 0.051631
𝜏̂ = 𝑁𝑝
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
𝜏̂ ± (1.96)(5,000)(0.008485)
175 ± 83.153
91.847 ≤ 𝜏 ≤ 258.153
Con 95% de confianza se estima que el total de mujeres que tienen cáncer de mama
está entre 91.847 y 258.153.
f) Si 𝑔 es una muestra preliminar, el número de pools para estimar 𝑝 con una precisión
de 0.05 y con una confiabilidad de 95%, es:
2 1 − (1 − 𝑝)𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2)
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) 𝑥 2 (1 − 𝑝) 𝑥−2
Por lo tanto:
1 − (1 − 0.035)10
500(1.96)2 8.4626
102 (1 − 0.035)10−2
𝑔∗ = 10 = = 6.6797 = 7 pools.
2 2 1 − (1 − 0.035) 1.2669
500(0.05) + (1.96)
102 (1 − 0.035)10−2
g) Finalmente, el número de pools para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y además un nivel de aseguramiento del 99% (𝛾 = 0.99), es:
2
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2
2 1 2 4𝑑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
301
𝑦 15
donde: 𝑃𝑔 = 𝑔 = 50 = 0.3, 𝑥 = 10, 𝑑 = 0.05, 𝑍𝛾 = 𝑍0.99 = 2.3263,
2 2
−1 −1
(1−𝑃𝑔 )𝑥 𝑃𝑔 (1−0.3)10 (0.3)
ℎ(𝑃 ) = √
𝑔 =√ = 0.063172,
𝑥2 102
1 1
2( −1)
′ 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1−0.3)2(10−1) 2(0.3)
ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ) = 10 (1 − )
−1 𝑥 2 10
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 2√(1−0.3)10 (0.3)
−1
1 (0.7)(−1.8) 1 1.900306
ℎ′ (𝑃𝑔 ) = (1 − 0.06) = ( ) (0.94) = 0.141383.
10 2√(0.7)−0.8 (0.3) 10 1.263431
Por lo tanto:
2
1 4(0.05)
500(1.96)2 ( ) (0.063172 + √(0.063172)2 + (2.3263)|0.141383|√0.3(1 − 0.3))
4 1.96
𝑔𝑚 = 2
1 4(0.05)
500(0.05)2 + (1.96)2 ( ) (0.063172 + √(0.063172)2 + (2.3263)|0.141383|√0.3(1 − 0.3))
4 1.96
1
1,920.8 (4) (0.063172 + 0.139177)2 19.6618
𝑔𝑚 = = = 15.2499 = 16.
1 1.2893
1.25 + (1.96)2 (4) (0.063172 + 0.139177)2
Ejemplo 8.2. Una empresa privada quiere conocer cuántos hombres de entre 20 y 40 años
de edad tienen cáncer de próstata. Esto con el objetivo de poder exigir al centro de salud
una cantidad mayor de estudios gratuitos. Puesto que el costo de un examen antígeno
prostático específico (PSA) es muy elevado, se decide utilizar el método de pruebas por
grupo, donde la población fue de 𝑁 = 3,500 hombres tomando una muestra de tamaño
𝑛 = 400 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la
población son 𝑔 = 40 y 𝐺 = 350, respectivamente. De estos pools muestreados resultaron
𝑦 = 6 positivos.
a) La proporción de interés.
𝑦 1
𝑝 = 1 − (1 − ⁄𝑔) ⁄𝑥
1⁄
𝑝 = 1 − (1 − 6⁄40) 10
𝑝 = 1 − (1 − 0.15)0.1
302
𝑝 = 0.0161.
𝐺−𝑔 1 − (1 − 𝑝)𝑥
𝑆𝑝2 = ( )( 2 )
𝐺 𝑔𝑥 (1 − 𝑝)𝑥−2
Por lo tanto:
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.0161 ± 1.96(0.006146)
0.0161 ± 0.012046
0.004054 ≤ 𝑃 ≤ 0.028146
303
𝜏̂ = 𝑁𝑝
Por lo tanto:
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
Por lo tanto:
56.35 ± (1.96)(3,500)(0.006146)
56.35 ± 42.16156
14.18844 ≤ 𝜏 ≤ 98.51156
Con 95% de confianza se estima que el total de hombres que tienen cáncer de próstata
está entre 14.1884 y 98.5115.
2 1 − (1 − 𝑝)𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2
𝑥 2 (1 − 𝑝)𝑥−2
𝑔∗ =
2 1 − (1 − 𝑝)𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ⁄2 𝑥 2 (1 − 𝑝) 𝑥−2
304
Por lo tanto:
1 − (1 − 0.0161)10
350(1.96)2 2.293768
102 (1 − 0.0161)10−2
𝑔∗ = = = 7.1334 = 8 pools.
1 − (1 − 0.0161)10 0.321554
350(0.03)2 + (1.96)2 2
10 (1 − 0.0161)10−2
g) Finalmente, el tamaño de muestra, número de pools, para estimar 𝑝 con una precisión
de 3%, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99), es:
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2
2 1 2 4𝑑
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑦 6
donde: 𝑃𝑔 = 𝑔 = 40 = 0.15, 𝑥 = 10, 𝑑 = 0.03, 𝑍𝛾 = 2.4341,
2 2
−1 −1
(1−𝑃𝑔 )𝑥 𝑃𝑔 (1−0.15)10 (0.15)
ℎ(𝑃 ) = √
𝑔 =√ = 0.041331,
𝑥2 102
1 1
2( −1)
′ 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1−0.15)2(10−1) 2(0.15)
ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ) = 10 (1 − )
−1 𝑥 2 10
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 2√(1−0.15)10 (0.15)
−1
1 (0.85)(−1.8) 1 1.339818
ℎ′ (𝑃𝑔 ) = 10 (1 − 0.03) = ( ) (0.97) = 0.157221.
2√(0.85)−0.8 (0.15) 10 0.826624
Por lo tanto:
2
1 4(0.03)
350(1.96)2 ( ) (0.041331 + √(0.041331)2 + (2.4341)|0.157221|√0.15(1 − 0.15))
4 1.96
𝑔𝑚 = 2
1 4(0.03)
350(0.03)2 + (1.96)2 ( ) (0.041331 + √(0.041331)2 + (2.4341)|0.157221|√0.15(1 − 0.15))
4 1.96
1
1,344.56 (4) (0.041331 + 0.100372)2 6.749604
𝑔𝑚 = = = 20.1911 = 21.
1 0.334285
0.315 + (1.96)2 (4) (0.041331 + 0.100372)2
305
EJERCICIOS
Ejercicio 8.1. La Secretaría de Salud del Estado de Nuevo León quiere conocer cuántos
niños de entre 5 y 12 años de edad tienen cáncer. Puesto que el costo de los estudios son
muy elevados, se decide utilizar el método de pruebas por grupo, donde la población fue
de 𝑁 = 4,500 niños tomando una muestra de tamaño 𝑛 = 480 con 𝑥 = 12, de modo que
el número de pools a formar con la muestra y la población son 𝑔 = 40 y 𝐺 = 375
respectivamente, de estos pools muestreados resultaron 𝑦 = 8 positivos.
Ejemplo 8.2. Una empresa particular quiere conocer cuántos ancianos de entre 55 y 70
años de edad tienen el virus XXY. Se decide utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,000 ancianos tomando una muestra de tamaño 𝑛 =
300 con 𝑥 = 10, de modo que el número de pools a formar con la muestra y la población
son 𝑔 = 30 y 𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 5
positivos.
Ejemplo 8.3. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Monterrey tienen el virus de la hepatitis B. Se decide utilizar el método
de pruebas por grupo. La población es de 𝑁 = 2,880 personas y se toma una muestra de
tamaño 𝑛 = 270 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y
la población son 𝑔 = 30 y 𝐺 = 320, respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos.
306
Proporción muestral
Tanto 𝑆𝑒 como 𝑆𝑝 deben ser más grandes que 0.5 para que exista el EMV, lo cual aplica a
la mayoría de las pruebas de laboratorio que son útiles. Cuando, 1 − 𝑆𝑝 ≤ 𝑦/𝑔 ≤ 𝑆𝑒 el
EMV es:
1⁄
𝑦 𝑥
𝑆𝑒 − ⁄𝑔
𝑝 =1−( )
𝑆𝑒 + 𝑆𝑝 − 1
El estimador de la varianza
2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( )
𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
𝜏̂ = 𝑁𝑝
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
307
Estimación del tamaño de muestra (pools)
2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )
𝑔∗ = 2
−2
2 2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ( 2 ( ) )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑦
donde 𝑓 = ⁄𝑔 , 𝑑 es la precisión requerida, 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2
2 1 4𝑑 2
𝐺𝐻𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
2 1
2 −2 2( −1)
𝑦 1−𝑃𝑔 𝑥 1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔
donde: 𝑃𝑔 = 𝑔, 𝐻 = (𝑆𝑒 + 𝑆𝑝 − 1) (𝑆𝑒−𝑃 ) 𝑥 ′
, ℎ (𝑃𝑔 ) = 𝑥 2
(1 − ),
𝑔 −1 𝑥
2√(1−𝑃𝑔 )𝑥 𝑃𝑔
2
−1
(1−𝑃𝑔 )𝑥 𝑃𝑔
ℎ(𝑃 ) = √
𝑔 , 𝛾 es la probabilidad de que el IC para la proporción estratificada no
𝑥2
308
Cuadrada. Además, sin una pérdida de precisión significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede
sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 8.3. En el estado de Sonora, una investigadora quiere conocer cuántos hombres
mayores de 50 años tienen cáncer de próstata. Esto con el objetivo de comenzar una
campaña de prevención. Puesto que el costo de un análisis es muy elevado, se decide
utilizar el método de Group Testing para la población 𝑁 = 5,500, tomando una muestra
de tamaño 𝑛 = 660, con 𝑥 = 11, de modo que el número de pools a formar con la muestra
y la población sea de 𝑔 = 60 y 𝐺 = 500. Respectivamente. De estos pools muestreados
resultaron 𝑦 = 6 positivos, además 𝑆𝑒 = 0.98 y 𝑆𝑝 = 0.97.
1⁄ 1⁄
𝑦 𝑥
0.98 − 6⁄60
11
𝑆𝑒 − ⁄𝑔
𝑝 =1−( ) = 1−( ) = 0.006934.
𝑆𝑒 + 𝑆𝑝 − 1 0.98 + 0.97 − 1
2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( )
𝐺 𝑔𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
Por lo tanto:
2
−2
500 − 60 (0.98 − 6⁄60)11 (6⁄60)(1 − 6⁄60)
2
𝑆𝑝 = ( )( )( 2 )
500 60(11)2 (0.98 + 0.97 − 1) ⁄11
309
La desviación estándar: 𝑆𝑝 = √0.000014 = 0.003741.
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.006934 ± 1.96(0.003741)
0.006934 ± 0.007332
0 ≤ 𝑃 ≤ 0.014266.
𝜏̂ = 𝑁𝑝
Por lo tanto:
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
310
donde: 𝜏̂ = 38.137, 𝑆𝑝 = 0.003741, 𝑁 = 5,500 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 1.96 .
Por lo tanto:
𝜏̂ ± (1.96)(5,500)(0.003741)
38.137 ± 40.32798
0 ≤ 𝜏 ≤ 78.46498.
Con 95% de confianza se estima que el total de hombres mayores de 50 años que
tienen cáncer de próstata está entre 0 y 78.46498.
2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )
𝑔∗ = 2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )
Por lo tanto:
2
−2
2 (0.1)(1 − 0.1) 0.98 − 0.1 11
500(1.96) ( 2 ( ) )
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1
𝑔∗ = 2
−2
(0.1)(1 − 0.1) 0.98 − 0.1 11
500(0.0003467)2 + (1.96)2 ( 2 ( ) )
11 (0.98 + 0.97 − 1)2 0.98 + 0.97 − 1
1.818998
𝑔∗ = = 491.754 = 492 pools.
0.003699
311
g) El número de pools para estimar 𝑝 con una precisión de 0.05 de la proporción
preliminar, una confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99)
es:
𝑔𝑚
2
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
= 2
2 1 2 4𝑑
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
1 1.211143
ℎ′ (𝑃𝑔 ) = ( ) (0.981818) = 0.163714.
11 0.660312
Por lo tanto:
2
1 4(0.0003467)
500(1.96)2 ( ) (0.030014 + √(0.030014)2 + (2.3263)|0.163714|√0.1(1 − 0.1))
4 1.96
𝑔𝑚 = 2
1 4(0.0003467)
500(0.951053)(0.0003467)2 + (1.96)2 ( ) (0.030014 + √(0.030014)2 + (2.3263)|0.163714|√0.1(1 − 0.1))
4 1.96
1
500(1.96)2 (4) (0.030014 + 0.031332)2
𝑔𝑚 =
1
0.000057 + (1.96)2 (4) (0.030014 + 0.031332)2
312
1.8072
𝑔𝑚 = = 492.290 = 493 pools.
0.003671
1⁄ 1⁄
𝑦 𝑥
0.97 − 5⁄60
8
𝑆𝑒 − ⁄𝑔
𝑝 =1−( ) = 1−( ) = 0.008587.
𝑆𝑒 + 𝑆𝑝 − 1 0.97 + 0.98 − 1
2
𝑦 −2 𝑦 𝑦
𝐺 − 𝑔 (𝑆𝑒 − ⁄𝑔)𝑥 ( ⁄𝑔)(1 − ⁄𝑔)
2
𝑆𝑝 = ( )( )( 2)
𝐺 𝑔𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)𝑥
Por lo tanto:
2
−2
5 8
(5⁄60)(1 − 5⁄60)
2
575 − 60 (0.97 − ⁄60)
𝑆𝑝 = ( ) ( 2 )
575 60(8)2 (0.97 + 0.98 − 1) ⁄8
( )
𝑆𝑝2 = (0.895652)(0.000321)(0.077375) = 0.000022.
313
c) El IC de 95% para la proporción verdadera.
𝑝 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.008587 ± 1.96(0.004716)
0.008587 ± 0.009243
0 ≤ 𝑃 ≤ 0.01783.
Con 95% de confianza se estima que la proporción de mujeres mayores a 30 años con
cáncer de tiroides está entre 0 y 1.78%.
𝜏̂ = 𝑁𝑝
Por lo tanto:
𝜏̂ ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑁𝑆𝑝
314
Por lo tanto:
𝜏̂ ± (1.96)(4,600)(0.004716)
39.5002 ± 42.519456
0 ≤ 𝜏 ≤ 82.019656.
Con 95% de confianza se estima que el total de mujeres con cáncer de tiroides está
entre 0 y 82.019656.
2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ( (
⁄2) 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 ) )
𝑔∗ = 2
−2
2 (𝑓)(1 − 𝑓) 𝑆𝑒 − 𝑓 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 (𝑆𝑒 + 𝑆𝑝 − 1) )
Por lo tanto:
2
−2
5 5 5 8
(60 ) (1 − 60 ) 0.97 − 60
575(1.96)2 ( )
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1
𝑔∗ = ( )
2
−2
5 5 5 8
(60 ) (1 − 60 ) 0.97 − 60
575(0.05)2 + (1.96)2 ( )
82 (0.97 + 0.98 − 1)2 0.97 + 0.98 − 1
( )
3.296239
𝑔∗ = = 2.2839 = 3 pools.
1.443232
315
g) Finalmente, el tamaño de pool para estimar 𝑝 con una precisión de 0.05, una
confiabilidad de 95% y un nivel de aseguramiento del 99% (𝛾 = 0.99) es:
2 1 2 4𝑑
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
𝑔𝑚 = 2
2 1 2 4𝑑
𝐺𝐻𝑑2 + 𝑡(𝑔−1,1−𝛼 ⁄2) (4) (ℎ(𝑃𝑔 ) + √ℎ(𝑃𝑔 ) + 𝑡 𝑍𝛾 |ℎ′ (𝑃𝑔 )|√𝑃𝑔 (1 − 𝑃𝑔 ))
(𝑔−1,1−𝛼⁄2)
2 2
−1 5 8−1 5
√(1−𝑃𝑔)𝑥 𝑃𝑔 √(1−60) ( )
ℎ(𝑃𝑔 ) = = 60
= 0.037281 y
𝑥2 82
1 1
2( −1) 5 2( −1) 5
1 (1−𝑃𝑔 ) 𝑥 2𝑃𝑔 1 (1− ) 8 2( )
ℎ′ (𝑃𝑔 ) = 𝑥 2
(1 − )=8 60
(1 − 60
)
−1 𝑥 2 8
2√(1−𝑃𝑔 )𝑥 𝑃𝑔 5 −1 5
2√(1− )8 ( )
60 60
1 1.164474
= ( ) (0.979166) = 0.238939.
8 0.596499
Por lo tanto:
1 4(0.05) 5 5
575(1.96)2 ( ) (0.037281 + √(0.037281)2 + (2.3263)|0.238939|√ (1 − ))
4 1.96 60 60
𝑔𝑚 = 2
1 √(0.037281)2 4(0.05) 5 5
575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + + (2.3263)|0.238939|√ (1 − ))
4 1.96 60 60
1
575(1.96)2 (4) (0.037281 + 0.130637)2
𝑔𝑚 =
1
575(0.931411)(0.05)2 + (1.96)2 ( ) (0.037281 + 0.130637)2
4
15.570987
𝑔𝑚 = = 11.3991 = 12 pools.
1.365983
316
EJERCICIOS
Ejercicio 8.4. Un investigador quiere conocer cuántas vacas tienen tuberculosis bovina
en el estado de Sonora. Se decidió utilizar el método de pruebas por grupo, donde la
población fue de 𝑁 = 1,500 vacas y se tomó una muestra de tamaño 𝑛 = 280 con 𝑥 = 5,
de modo que el número de pools a formar con la muestra y la población fue de 𝑔 = 56 y
𝐺 = 300, respectivamente. De estos pools muestreados resultaron 𝑦 = 6 positivos.
Ejemplo 8.5. Una empresa particular quiere detectar la presencia de platas transgénicas
de maíz en el estado de Tamaulipas. Se decidió utilizar el método de pruebas por grupo,
donde la población fue de 𝑁 = 3,600 plantas y se tomó una muestra de tamaño 𝑛 =
405 con 𝑥 = 9, de modo que el número de pools a formar con la muestra y la población
fue de 𝑔 = 45 y 𝐺 = 400, respectivamente. De estos pools muestreados resultaron 𝑦 = 7
positivos.
Ejemplo 8.6. Un investigador quiere conocer cuántas personas de las clínicas particulares
de la Ciudad de Guadalajara tienen el virus de la hepatitis C. Se decidió utilizar el método
de pruebas por grupo, donde la población fue de 𝑁 = 3,680 personas y se tomó una
muestra de tamaño 𝑛 = 400 con 𝑥 = 8, de modo que el número de pools a formar con la
muestra y la población fue de 𝑔 = 50 y 𝐺 = 460, respectivamente. De estos pools
muestreados resultaron 𝑦 = 5 positivos.
317
Se pueden aplicar pruebas por grupo a una población estratificada para mejorar la
precisión al estimar parámetros. En esta tesitura, a continuación se presentan los
estimadores correspondientes a la prueba por grupos bajo MAE.
La proporción estratificada
1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = , 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖
𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1
donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 .
𝜏̂ = 𝑁𝑝𝑠𝑡
318
la distribución t-Student. Además, sin una pérdida de precisión significativa el valor
𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la distribución normal estándar,
𝑍1−𝛼/2 .
2 1 − (1 − 𝑝𝑖 )𝑥
𝐸
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]
∗
𝑔 =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑊 [
𝑖
𝑁𝑖
donde 𝑑 es la precisión requerida, 𝑊𝑖 = , 𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼 ⁄2) de la
𝑁
2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑑 2 + 𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖
cuantil 100𝛾 de la distribución Ji-Cuadrada con 𝑔𝑖∗ − 1 grados de libertad por estrato y
𝑡(𝑔−1,1−𝛼⁄2) es el percentil 100(1 − 𝛼⁄2) de la distribución t-Student con 𝑔 − 1 grados de
libertad. Los cuantiles requeridos se pueden obtener usando las tablas clásicas de las
distribuciones t-Student y Ji-Cuadrada. Además, sin una pérdida de precisión
319
significativa, el valor 𝑡(𝑔−1,1−𝛼⁄2) puede sustituirse por el cuantil 1 − 𝛼 ⁄2 de la
distribución normal estándar, 𝑍1−𝛼/2 .
EJEMPLOS
Ejemplo 8.5. En el estado de Guerrero, una empresa particular quiere conocer cuántos
de sus trabajadores tienen el virus XXY. El método que se utilizó fue el muestreo por
grupos. La población (𝑁 = 2,490) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos
son los siguientes: sector 1 (𝑁1 = 900), sector 2 (𝑁2 = 870) y sector 3 (𝑁3 = 720). De cada
sector se tomaron las siguientes muestras: 𝑛1 = 24, 𝑛2 = 36, 𝑛3 = 54, con 𝑥 =
6respectivamente, de modo que el número de pools fue 𝑔1 = 4, 𝑔2 = 6 y 𝑔3 = 9. De los
pools muestreados resultaron 𝑦1 = 1, 𝑦2 = 1 y 𝑦3 = 2 positivos, respectivamente.
a) La proporción estratificada.
1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖
1⁄ 1⁄
1 6 2 6
𝑝2 = 1 − (1 − 6) = 0.029930 y 𝑝3 = 1 − (1 − 9) = 0.041021.
Por lo tanto:
320
b) El total estratificado.
𝜏̂ = 𝑁𝑝𝑠𝑡
Por lo tanto:
𝜏̂ = 2,490(0.0392) = 97.608.
𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1
145−6 1−(1−0.029930)6
𝑆𝑝22 = ( ) (6(6)2 (1−0.029930)6−2 ) = 0.000835 y
145
120−9 1−(1−0.041021)6
𝑆𝑝23 = ( ) (9(6)2 (1−0.041021)6−2 ) = 0.00075.
120
Por lo tanto:
2 2 2
𝑆𝑝2ℎ = (150⁄415) (0.002047) + (145⁄415) (0.000835) + (120⁄415) (0.00075)
Por lo tanto:
0.0392 ± (1.96)(0.020785)
0.0392 ± 0.0407386
0 ≤ 𝑃𝑠𝑡 ≤ 0.079939.
e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.
𝜏̂ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝ℎ
Por lo tanto:
97.608 ± (2,490)(1.96)(0.020785)
97.608 ± 101.439114
0 ≤ 𝜏 ≤ 199.0471.
322
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]
𝑔∗ =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ∑
⁄2 𝑖=1 𝑊 𝑖 [ ]
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
1−(1−𝑝𝑖 )𝑥
∑3𝑖=1 𝑊𝑖 [ ] = 0.006977.
𝑥 2 (1−𝑝𝑖 )𝑥−2
Por lo tanto:
𝐺𝑖 ∗
𝑔𝑖∗ = (𝑔 )
𝐺
Por lo tanto:
323
El tamaño de muestra (pools) con precisión absoluta de 0.05 y confiabilidad de 95%
es de 12: 4, 4 y 4 para los sectores 1, 2 y 3, respectivamente.
2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
𝐺𝑑 2 + 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖
2 2
1−(1−𝑝2 )𝑥 𝜒2(𝛾, 𝑔∗ −1) 145 1−(1−0.029930 )6 𝜒2(0.99,4.1798−1)
𝑊2 [𝑥 2 (1−𝑝 ]( 2
) = (415) 62 (1−0.029930 )6−2 ( ) = 0.007323,
2 )𝑥−2 𝑔2∗ −1 4.1798−1
2 2
1−(1−𝑝3 )𝑥 𝜒3(𝛾, 𝑔∗ −1) 120 1−(1−0.041021)6 𝜒3(0.99,3.4591−1)
𝑊3 [𝑥 2 (1−𝑝 ]( 3
) = (415) 62 (1−0.041021)6−2 ( ) = 0.009665 y
3 )𝑥−2 𝑔3∗ −1 3.4591−1
2
𝜒𝑖(𝛾,𝑔 ∗ −1)
3 1−(1−𝑝𝑖 )𝑥 𝑖
∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.028912.
𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1
Por lo tanto:
𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚
324
donde: 𝐺 = 415, 𝑔𝑚 = 45.4537, 𝑔𝑖 : 𝑔1 = 150, 𝑔2 = 145 y 𝑔3 = 120.
Por lo tanto:
Ejemplo 8.6. En el estado de Colima, una empresa particular quiere conocer cuántos de
sus trabajadores tienen paludismo. El método a utilizar es muestreo por grupos. La
población (𝑁 = 2,500) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los
siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 800) y sector 3 (𝑁3 = 750). De los tres
sectores se tomaron las siguientes muestras: 𝑛1 = 30, 𝑛2 = 25, 𝑛3 = 20, con 𝑥 = 5 , de
modo que el número de pools fue 𝑔1 = 6, 𝑔2 = 5 y 𝑔3 = 4, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 1 y 𝑦3 = 1 positivos, respectivamente.
a) La proporción estratificada.
1⁄
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖 𝑦𝑖 𝑥
𝑝𝑠𝑡 = 𝑝𝑖 = 1 − (1 − )
∑𝐸𝑖=1 𝐺𝑖 𝑔𝑖
325
1⁄ 1⁄
1 5 1 5
𝑝2 = 1 − (1 − 5) = 0.043648 y 𝑝3 = 1 − (1 − 4) = 0.055913.
Por lo tanto:
b) El total estratificado.
𝜏̂ = 𝑁𝑝𝑠𝑡
Por lo tanto:
𝜏̂ = 2,500(0.0603) = 150.75.
𝐸
𝐺 2 𝐺𝑖 − 𝑔𝑖 1 − (1 − 𝑝𝑖 )𝑥
𝑆𝑝2ℎ = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2𝑖 , 𝑆𝑝2𝑖 = ( )( 2 )
𝐺𝑖 𝑔𝑖 𝑥 (1 − 𝑝𝑖 )𝑥−2
𝑖=1
160−5 1−(1−0.043648)5
𝑆𝑝22 = ( ) (5(5)2 (1−0.043648)5−2 ) = 0.001772 y
160
150−4 1−(1−0.055913)5
𝑆𝑝23 = ( ) (4(5)2 (1−0.055913)5−2 ) = 0.002891.
150
Por lo tanto:
326
2 2 2
𝑆𝑝2ℎ = (190⁄500) (0.002745) + (160⁄500) (0.001772) + (150⁄500) (0.002891)
Por lo tanto:
0.0603 ± (1.96)(0.028931)
0.0603 ± 0.056705
0.003595 ≤ 𝑃𝑠𝑡 ≤ 0.117005.
e) Realice una estimación por intervalo para el total estratificado con la confiabilidad de
95%.
𝜏̂ ± 𝑁𝑡𝑔−1,1−𝛼⁄2 𝑆𝑝ℎ
Por lo tanto:
150.75 ± (2,500)(1.96)(0.028931)
150.75 ± 141.7619
327
8.9881 ≤ 𝜏 ≤ 292.5119.
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [
𝑥 2 (1 − 𝑝𝑖 )𝑥−2
]
𝑔∗ =
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥
𝐺𝑑2 + 𝑡𝑔−1,1−𝛼 ∑
⁄2 𝑖=1 𝑖 𝑥 2 (1 − 𝑝 ) 𝑥−2 ]
𝑊 [
𝑖
1−(1−𝑝𝑖 )𝑥
∑3𝑖=1 𝑊𝑖 [ ] = 0.006462 + 0.002927 + 0.003565 = 0.012954.
𝑥 2 (1−𝑝𝑖 )𝑥−2
Por lo tanto:
∗
(500)(2.1448)2 (0.012954) 29.795282
𝑔 = = = 22.7515 = 23 pools.
(500)(0.05)2 + (2.1448)2 (0.012954) 1.309591
𝐺𝑖 ∗
𝑔𝑖∗ = (𝑔 )
𝐺
328
Por lo tanto:
2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔∗𝑖 −1)
𝐺𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2
𝑥 (1 − 𝑝𝑖 )𝑥−2
] ( 𝑔∗ − 1 )
𝑖
𝑔𝑚 = 2
2 𝐸 1 − (1 − 𝑝𝑖 )𝑥 𝜒𝑖(𝛾,𝑔𝑖∗−1)
𝐺𝑑 2 + 𝑡𝑔−1,1−𝛼 ⁄2 ∑𝑖=1 𝑊𝑖 [ 2 ] ( 𝑔∗ − 1 )
𝑥 (1 − 𝑝𝑖 )𝑥−2 𝑖
2 2
1−(1−𝑝2 )𝑥 𝜒2(𝛾,𝑔 ∗ −1) 160 1−(1−0.043648)5 𝜒2(0.99,7.2805−1)
2
𝑊2 [𝑥 2 (1−𝑝 ]( ) = (500) 52 (1−0.043648)5−2 ( ) = 0.008054,
2 )𝑥−2 𝑔2∗ −1 7.2805−1
2 2
1−(1−𝑝3 )𝑥 𝜒3(𝛾,𝑔 ∗ −1) 150 1−(1−0.055913)5 𝜒3(0.99,6.8255−1)
𝑊3 [𝑥 2 (1−𝑝 ]( 3
) = (500) 52 (1−0.055913)5−2 ( ) = 0.010108 y
3 )𝑥−2 𝑔3∗ −1 6.8255−1
2
𝜒𝑖(𝛾,𝑔 ∗
3 1−(1−𝑝𝑖 )𝑥 𝑖 −1)
∑𝑖=1 𝑊𝑖 [ 2 ] ( )=0.034663.
𝑥 (1−𝑝𝑖 )𝑥−2 𝑔𝑖∗ −1
Por lo tanto:
329
(500)(2.1448)2 (0.034663) 79.727795
𝑔𝑚 = = = 56.5664 = 57 pools.
(500)(0.05)2 + (2.1448)2 (0.034663) 1.409456
𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚
Por lo tanto:
EJERCICIOS
Ejemplo 8.7. En la ciudad de Guadalajara, Jalisco, una empresa particular quiere conocer
cuántos de sus empleados tienen el virus XYY. El método a utilizar es muestreo por
grupos. La población (𝑁 = 2,690) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos
330
son los siguientes: sector 1 (𝑁1 = 950), sector 2 (𝑁2 = 900), y sector 3 (𝑁3 = 840). De los
sectores se tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5, de
modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron 𝑦1 =
2, 𝑦2 = 3 y 𝑦3 = 1 positivos, respectivamente.
Ejemplo 8.9. Una empresa particular desea conocer cuántos de sus empleados tienen el
virus de la hepatitis C. El método a utilizar es muestreo por grupos. La población (𝑁 =
2,800) de la empresa fue dividida en 𝐸 = 3 sectores. Los datos son los siguientes: sector
1 (𝑁1 = 1,100), sector 2 (𝑁2 = 1,000), y sector 3 (𝑁3 = 700). En los tres sectores se
tomaron las siguientes muestras: 𝑛1 = 35, 𝑛2 = 30, 𝑛3 = 25, con 𝑥 = 5 para cada sector,
de modo que el número de pools fue 𝑔1 = 7, 𝑔2 = 6 y 𝑔3 = 5, de los cuales resultaron
positivos 𝑦1 = 4, 𝑦2 = 2 y 𝑦3 = 1, respectivamente.
La proporción estratificada
1⁄
𝑦 𝑥
∑𝐸𝑖=1 𝐺𝑖 𝑝𝑖∗ (𝑆𝑒 − 𝑔𝑖 )
𝑖
∗
𝑝𝑠𝑡 = , 𝑝𝑖∗ = 1 − ( )
∑𝐸𝑖=1 𝐺𝑖 (𝑆𝑒 + 𝑆𝑝 − 1)
331
donde 𝑆𝑒 es la sensibilidad, 𝑆𝑝 es la especificidad, 𝑦𝑖 denota el número de grupos (pools)
𝑛𝑖
positivos en el estrato 𝑖, 𝐸 es el número de estratos en que se divide la población, 𝑔𝑖 = 𝑥
El estimador de la varianza
𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )( ⁄𝑥)−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 = ( )( )( )
𝑖=1
𝐺𝑖 𝑔𝑖 𝑥 2
(𝑆𝑒 + 𝑆𝑝 − 1)2⁄𝑥
𝑦
donde 𝐺 = 𝐺1 + 𝐺2 + ⋯ + 𝐺𝐸 y 𝑓𝑖 = 𝑔𝑖 .
𝑖
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
∗
𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
332
2
−2
2 𝐸 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔∗ = 2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊𝑖 [ ( ) ]
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2 2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( 𝑔 −𝑖 1 )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑖
𝑔𝑚 = 2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
2 𝐸
𝐺𝑑2 + 𝑡(𝑔−1,1−𝛼 ∑ 𝑊 [ ( ) ] ( 𝑖
⁄2) 𝑖=1 𝑖 𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1 )
EJEMPLOS
333
Ejemplo 8.7. En el estado de Colima, el Centro de Salud quiere conocer cuántas de las
personas instaladas en hospitales tienen dengue con el objetivo de iniciar una campaña
contra esta enfermedad. El método a utilizar es muestreo por grupos. Se utilizarán tres
de los hospitales con mayor número de internos; los cuales cuentan con una población
(𝑁 = 2,190) de 𝑁1 = 600, 𝑁2 = 750 y 𝑁3 = 840 pacientes, respectivamente. Se tomaron
muestras de tamaño 𝑛1 = 20, 𝑛2 = 35, 𝑛3 = 50, con 𝑥 = 5 en cada hospital, de modo que
el número de pools es 𝑔1 = 4, 𝑔2 = 7 y 𝑔3 = 10, de los cuales resultaron positivos 𝑦1 = 1,
𝑦2 = 1 y 𝑦3 = 2. Ademásse utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 95%.
a) La proporción estratificada.
1⁄
𝑦 𝑥
∑𝐸 ∗ 𝑆𝑒− 𝑖
𝑖=1 𝐺𝑖 𝑝𝑖 𝑔
∗
𝑝𝑠𝑡 = ∑𝐸
, 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1
𝑖
)
𝑖=1 𝐺𝑖
1⁄
0.97−
1 5
𝑝2∗ = 1 − (0.97+0.95−1) 7
= 0.021054443 y
1⁄
0.97−
2 5
𝑝3∗ = 1 − (0.97+0.95−1) 10
= 0.034970522.
Por lo tanto:
∗
120(0.04784219) + 150(0.021054443) + 168(0.034970522)
𝑝𝑠𝑡 =
120 + 150 + 168
∗
14.77427696
𝑝𝑠𝑡 = = 0.0337 ó 3.37% personas con dengue.
438
334
b) El total estratificado.
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
∗
donde: 𝑁 = 2,190 y 𝑝𝑠𝑡 = 0.0337.
Por lo tanto:
𝜏̂ ∗ = 2,190(0.0337) = 73.803.
𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 =( )( 2
)( 2)
𝐺𝑖 𝑔𝑖 𝑥
𝑖=1 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑥
2
−2
150−7 (0.97−1⁄7)5 (1⁄7)(1−1⁄7)
𝑆𝑝2∗2 =( )( )( 2 ) = 0.000934 y
150 7(5)2 (0.97+0.95−1) ⁄5
2
−2
168−10 (0.97−2⁄10)5 (2⁄10)(1−2⁄10)
𝑆𝑝2∗3 = ( )( )( 2 ) = 0.000945.
168 10(5)2 (0.97+0.95−1) ⁄5
Por lo tanto:
2 2 2
𝑆𝑝2∗𝑠𝑡 = (120⁄438) (0.003169) + (150⁄438) (0.000934) + (168⁄438) (0.000945)
335
𝑆𝑝2∗𝑠𝑡 = 0.000238 + 0.00011 + 0.000139 = 0.000487.
∗
𝑝𝑠𝑡 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
∗
donde: 𝑝𝑠𝑡 = 0.0337 , 𝑆𝑝∗𝑠𝑡 = 0.022068 y 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
0.0337 ± (1.96)(0.022068)
0.0337 ± 0.043253
0 ≤ 𝑃𝑠𝑡 ≤ 0.076973.
𝜏̂ ∗ ± 𝑁𝑡𝑛−1,1−𝛼⁄2 𝑆𝑝∗𝑠𝑡
Por lo tanto:
73.803 ± (2,190)(1.96)(0.022068)
73.803 ± 94.724683
0 ≤ 𝜏 ∗ ≤ 168.527683.
336
f) Si 𝑔 = 21 es una muestra preliminar, el tamaño de muestra (pools) necesarios para
estimar la proporción estratificada con una precisión absoluta de 5% (𝑑 = 0.05) y una
confiabilidad de 95% es:
2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 (
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
) ]
𝑔∗ = 2
−2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 2
𝑡(𝑔−1,1−𝛼 𝐸
⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2 2
−2 1⁄ (1−1⁄ ) −2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥 150 7 7 0.97−1⁄7 5
𝑊2 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) 2 (𝑆𝑒+𝑆𝑝−1) ] = (438) 52 (0.97+0.95−1) (
2 0.97+0.95−1) = 0.002350,
2 2
2⁄ (1−2⁄ ) −2
𝑓 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥
−2 168 0.97−2⁄10 5
𝑊3 [ 2 3 2 ( ) ] = ( ) 2 10 10
( ) = 0.003856 y
𝑥 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 438 5 (0.97+0.95−1)2 0.97+0.95−1
2
𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] = 0.009799.
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
Por lo tanto:
337
𝐺𝑖
𝑔𝑖∗ = (𝑔)
𝐺
Por lo tanto:
g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.
2 2
2 𝐸 𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡(𝑔−1,1−𝛼 ⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
2
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1
𝑔𝑚 = 2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
2 2 𝐸
𝐺𝑑 + 𝑡(𝑔−1,1−𝛼⁄2) ∑𝑖=1 𝑊𝑖 [ 2 2 (𝑆𝑒 + 𝑆𝑝 − 1) ] ( ∗ 𝑖 )
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑔𝑖 − 1
= (0.273973)(0.008861)(1.4802228)(3.7886) = 0.013614,
338
2
2 −2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥
−2 𝜒22(𝛾,𝑔∗ −1) 150
1 1
(1− ) 0.97−
1 5 2
𝜒2(0.99,4.9853−1)
2 7 7 7
𝑊2 [ 2( ) ]( )=( ) 2( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝑔2∗ −1 438 52 (0.97+0.95−1) 0.97+0.95−1 4.9853−1
= (0.342466)(0.005787)(1.185582)(3.3245) = 0.007811,
2
2 −2
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥
−2 𝜒23(𝛾,𝑔∗ −1) 168
2 2
(1− ) 0.97−
2 5 2
𝜒3(0.99,5.5835−1)
3 10 10 10
𝑊3 [ ( ) ]( )=( ) ( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔3∗ −1 438 52 (0.97+0.95−1)2 0.97+0.95−1 5.5835−1
= (0.383562)(0.007561)(1.329460)(3.1296) = 0.012066 y
3 2
−2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥 𝜒𝑖(𝛾, 𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2 2
( ) ]( ) = 0.033491.
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1) 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1
𝑖=1
Por lo tanto:
𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚
Por lo tanto:
339
de las personas hospitalizadas tienen influenza con el objetivo de tomar medidas de
precaución. El método que se empleo fue el muestreo por grupos. Se utilizaron tres de
los hospitales con mayor número de internos, los cuales cuentan con una población (𝑁 =
2,835) de 𝑁1 = 1050, 𝑁2 = 945 y 𝑁3 = 840, respectivamente. Se tomaron muestras de
tamaño 𝑛1 = 70 y 𝑛2 = 𝑛3 = 56, con 𝑥 = 7 en cada hospital, de modo que el número de
pools fue 𝑔1 = 10, 𝑔2 = 𝑔3 = 8, de los cuales resultaron positivos 𝑦1 = 3, 𝑦2 = 1 y 𝑦3 = 2,
respectivamente. Además se utilizó una sensibilidad (𝑆𝑒) de 97% y una especificidad (𝑆𝑝)
del 98%.
a) La proporción estratificada.
1⁄
𝑦 𝑥
∑𝐸 ∗ 𝑆𝑒− 𝑖
𝑖=1 𝐺𝑖 𝑝𝑖 𝑔𝑖
∗
𝑝𝑠𝑡 = ∑𝐸
, 𝑝𝑖∗ = 1 − (𝑆𝑒+𝑆𝑝−1)
𝑖=1 𝐺𝑖
1⁄
0.97−
1 7
𝑝2∗ = 1 − (0.97+0.98−1) 8
= 0.016592988 y
1⁄
0.97−
2 7
𝑝3∗ = 1 − (0.97+0.98−1) 8
= 0.038827647.
Por lo tanto:
∗
150(0.048659719) + 135(0.016592988) + 120(0.038827647)
𝑝𝑠𝑡 =
150 + 135 + 120
∗
14.19832892
𝑝𝑠𝑡 = = 0.035 ó 3.5% personas con dengue.
405
340
b) El total estratificado.
𝜏̂ ∗ = 𝑁𝑝𝑠𝑡
∗
∗
donde: 𝑁 = 2,835 y 𝑝𝑠𝑡 = 0.035.
Por lo tanto:
𝜏̂ ∗ = 2,835(0.035) = 99.225.
𝐸 2
𝐺 2 𝐺𝑖 − 𝑔𝑖 (𝑆𝑒 − 𝑓𝑖 )𝑥−2 (𝑓𝑖 )(1 − 𝑓𝑖 )
𝑆𝑝2∗𝑠𝑡 = ∑ ( 𝑖⁄𝐺 ) 𝑆𝑝2∗𝑖 , 𝑆𝑝2∗𝑖 =( )( ) ( 2)
𝐺𝑖 𝑔𝑖 𝑥 2
𝑖=1 (𝑆𝑒 + 𝑆𝑝 − 1)𝑥
2
3 −2 3 3
150−10 (0.97− )7 ( )(1− )
𝑆𝑝2∗1 =( )( 10
)( 10
2 )
10
= 0.000806,
150 10(7)2 (0.97+0.98−1) ⁄7
2
1 −2 1 1
135−8 (0.97− )7 ( )(1− )
𝑆𝑝2∗2 =( )( 8
)( 8
2 )
8
= 0.000356 y
135 8(7)2 (0.97+0.98−1) ⁄7
2
2 −2 2 2
120−8 (0.97− )7 ( )(1− )
𝑆𝑝2∗3 = ( )( 8
)( 8
2 )
8
= 0.000796.
120 8(7)2 (0.97+0.98−1) ⁄7
Por lo tanto:
2 2 2
𝑆𝑝2∗𝑠𝑡 = (150⁄405) (0.000806) + (135⁄405) (0.000356) + (120⁄405) (0.000796)
341
𝑆𝑝2∗𝑠𝑡 = 0.000111 + 0.00004 + 0.000069 = 0.00022.
∗
𝑝𝑠𝑡 ± 𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
∗
donde: 𝑝𝑠𝑡 = 0.035, 𝑆𝑝∗𝑠𝑡 = 0.014832 y 𝑡(𝑔−1,1−𝛼⁄2) = 𝑍1−𝛼/2 = 1.96.
Por lo tanto:
0.035 ± (1.96)(0.014832)
0.035 ± 0.029071
0.005929 ≤ 𝑃𝑠𝑡 ≤ 0.064071.
𝜏̂ ∗ ± 𝑁𝑡(𝑔−1,1−𝛼⁄2) 𝑆𝑝∗𝑠𝑡
99.225 ± (2,835)(1.96)(0.014832)
99.225 ± 82.415491
16.5845 ≤ 𝜏 ∗ ≤ 181.6405.
342
2
−2
2 𝐸 𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑡(𝑔−1,1−𝛼 ∑
⁄2) 𝑖=1 𝑊𝑖 [ ( ) ]
𝑥 2 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
𝑔∗ = 2
−2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
𝐺𝑑2 + 2
𝑡(𝑔−1,1−𝛼 𝐸
⁄2) ∑𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ]
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1
2
2 1 1 1 −2
−2 (1− ) 0.97− 7
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 𝑥 135 8 8 8
𝑊2 [ ( ) ]=( ) ( ) = 0.000983,
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 415 72 (0.97+0.98−1)2 0.97+0.98−1
2
2 2 2 2 −2
−2 (1− ) 0.97− 7
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 𝑥 120
𝑊3 [𝑥 2 (𝑆𝑒+𝑆𝑝−1) 2 (𝑆𝑒+𝑆𝑝−1) ] = 8 8
(415) 72 (0.97+0.98−1) 8
2 (0.97+0.98−1) = 0.001972 y
2
𝑓 (1−𝑓𝑖 ) 𝑆𝑒−𝑓𝑖 𝑥−2
∑3𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] = 0.006078.
𝑥 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1
Por lo tanto:
𝐺𝑖
𝑔𝑖∗ = (𝑔)
𝐺
Por lo tanto:
343
150
𝑔1∗ = (10.062) = 3.6368 = 4
415
135
𝑔2∗ = (10.062) = 3.2731 = 4
415
120
𝑔3∗ = (10.062) = 2.9095 = 3.
415
g) Tamaño de muestra (pools) con una confiabilidad del 95%, una precisión absoluta
de 0.05 y un nivel de aseguramiento (𝛾) de 0.99.
2 2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1
𝑔𝑚 = 2 2
𝑓 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥
−2 𝜒𝑖(𝛾,𝑔∗−1)
𝐺𝑑 2 + 𝑡𝑔2∗−1,1−𝛼⁄2 ∑𝐸𝑖=1 𝑊𝑖 [ 2 𝑖 ( ) ] ( 𝑖
)
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖∗ − 1
= 0.003123(4.0199) = 0.012554,
2
2 2 1 1 1 −2 2
𝑓2 (1−𝑓2 ) 𝑆𝑒−𝑓2 −2 𝜒2(𝛾,𝑔 ∗ −1) 135 (1−8) 0.97−8 7 𝜒2(0.99,3.2731−1)
𝑥 2 8
𝑊2 [ 2( ) ]( )=( ) 2( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1) 𝑆𝑒+𝑆𝑝−1 𝑔2∗ −1 415 72 (0.97+0.98−1) 0.97+0.98−1 3.2731−1
= 0.000983(4.3208) = 0.004247,
2
2 2 2 2 2 −2 2
𝑓3 (1−𝑓3 ) 𝑆𝑒−𝑓3 −2 𝜒3(𝛾,𝑔 ∗ −1) 120 (1−8) 0.97−8 7 𝜒3(0.99,2.9095−1)
𝑥 3 8
𝑊3 [ ( ) ]( )=( ) ( ) ( )
𝑥 2 (𝑆𝑒+𝑆𝑝−1)2 𝑆𝑒+𝑆𝑝−1 𝑔3∗ −1 415 72 (0.97+0.98−1)2 0.97+0.98−1 2.9095−1
= 0.001972(4.7142) = 0.009296 y
3 2
−2 2
𝑓𝑖 (1 − 𝑓𝑖 ) 𝑆𝑒 − 𝑓𝑖 𝑥 𝜒𝑖(𝛾, 𝑔𝑖 −1)
∑ 𝑊𝑖 [ 2 ( ) ] ( ) = 0.026097.
𝑥 (𝑆𝑒 + 𝑆𝑝 − 1)2 𝑆𝑒 + 𝑆𝑝 − 1 𝑔𝑖 − 1
𝑖=1
344
Por lo tanto:
𝐺𝑖
𝑔𝑚 𝑖 = (𝑔 )
𝐺 𝑚
Por lo tanto:
150
𝑔𝑚1 = (40.0081) = 14.4608 = 15
415
135
𝑔𝑚 3 = (40.0081) = 13.0146 = 14
415
120
𝑔𝑚 3 = (40.0081) = 11.5686 = 12.
415
EJERCICIOS
346
Capítulo 9. Muestreo inverso
CAPÍTULO 9
Muestreo inverso
Para detectar la presencia de un evento raro en una población es necesario probar miles
de individuos, y el costo de dichas pruebas por lo general excede los recursos humanos
y económicos disponibles, además de ser una actividad laboriosa y que consume mucho
tiempo y esfuerzo. El muestreo inverso es un método antiguo (Haldane, 1945; Finney,
1949) para estimar una proporción 𝑃. La técnica se basa en la distribución binomial
negativa con una serie de ensayos Bernoulli en el que no se deja de muestrear hasta
obtener un número predeterminado de individuos con la característica de interés. Sin
embargo, cuando la probabilidad de encontrar el atributo deseado es prácticamente nula
(𝑃 ≤ 0.1), usar el muestreo binomial (donde se fija previamente el número de elementos
de la muestra) no es la mejor opción. Según Haldane (1945), el uso de una distribución
binomial no siempre proporciona una estimación insesgada y precisa de 𝑃 cuando ésta
es pequeña (𝑃 ≤ 0.1).
347
9.1 Estimación de parámetros de interés bajo muestreo inverso.
El estimador de la proporción
De acuerdo con George & Elston (1993), el estimador de máxima verosimilitud (EMV) de
𝑃 usando muestreo inverso es:
𝑟
𝑝=
𝑛
𝑝2 (1−𝑝)
La varianza está dada por 𝑆𝑝2 = . Si se toma en cuenta el factor de corrección por
𝑟
348
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝2 = ( )( )
𝑁 𝑟
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √( )( )
𝑁 𝑟
donde 𝑞 = (1 − 𝑝).
𝜏̂ = 𝑁𝑝
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
2 2
∗
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟 = 2
𝑁𝑑 2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
349
2
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 2 2 2
2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑟𝑚𝐹 = 𝑟𝑚 ( ), 𝑟𝑚 = ( ) [√𝑝 𝑞 + √𝑝 𝑞 + ]
𝑁 + 𝑟𝑚 /𝑝 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2
EJEMPLOS
𝑟 5
𝑝 = 𝑛 = 250 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.
𝑁 − 𝑛 𝑝2 𝑞
𝑆𝑝 = √( )( )
𝑁 𝑟
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.02 ± (1.96)(0.008593)
0.02 ± 0.016842
0.003158 ≤ 𝑃 ≤ 0.036842.
𝜏̂ = 𝑁𝑝
Por lo tanto:
𝜏̂ = (4,300)(0.02) = 86.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
351
donde: 𝜏̂ = 86, 𝑁 = 4,300, 𝑡(𝑛−1,1−𝛼⁄2) = 𝑍1−𝛼⁄2 = 𝑍1−0.025 = 1.96
y 𝑆𝑝 = 0.008593.
Por lo tanto:
86 ± (4,300)(1.96)(0.008593)
86 ± 72.421804
13.578196 ≤ 𝜏 ≤ 158.421804.
f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
Por lo tanto:
2
2
𝑁 𝑡(𝑛−1,1−𝛼⁄2) 2𝜔|1.5𝑝4 − 𝑝3 |𝑍𝛾
𝑟𝑚𝐹 = 𝑟𝑚 ( ), 𝑟𝑚 = ( ) [√𝑝2 𝑞 + √𝑝2 𝑞 + ]
𝑁 + 𝑟𝑚 /𝑝 𝜔 𝑡(𝑛−1,1−𝛼⁄2) 𝑝2
352
𝑍𝛾 = 2.33 y 𝜔 = 2𝑑 = 2(0.002) = 0.004.
2
2
1.96 2(0.004)|1.5(0.02)4 − (0.02)3 |(2.33)
𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + ]
0.004 1.96(0.02)2
𝑟𝑚 = 240,100[0.019799 + 0.02401]2
𝑟𝑚 = 460.806758.
4,300
𝑟𝑚𝐹 = 460.806758 ( ) = 72.4742 = 73.
460.806758
4,300 + 0.02
𝑟 6
𝑝 = 𝑛 = 300 = 0.02 y 𝑞 = 1 − 𝑝 = 1 − 0.02 = 0.98.
Por lo tanto:
𝑝 ± 𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
0.02 ± (1.96)(0.007773)
0.02 ± 0.015235
0.004765 ≤ 𝑃 ≤ 0.035235.
𝜏̂ = 𝑁𝑝
Por lo tanto:
354
𝜏̂ = (4,300)(0.02) = 80.
𝜏̂ ± 𝑁𝑡(𝑛−1,1−𝛼⁄2) 𝑆𝑝
Por lo tanto:
80 ± (4,000)(1.96)(0.007773)
80 ± 60.94032
19.05968 ≤ 𝜏 ≤ 140.94032.
f) Tamaño de muestra tradicional para estimar la proporción con una precisión (𝑑) de
10% de la proporción preliminar (𝑝) y una confiabilidad de 95%.
2 2
𝑁𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝 𝑞
𝑟∗ = 2
𝑁𝑑2 + 𝑡(𝑛−1,1−𝛼 ⁄2) 𝑝𝑞
Por lo tanto:
2
2
1.96 2(0.004)|1.5(0.02)4− (0.02)3 |(2.3263)
𝑟𝑚 = ( ) [√(0.02)2 (0.98) + √(0.02)2 (0.98) + ]
0.004 1.96(0.02)2
𝑟𝑚 = 240,100[0.019799 + 0.024004]2
𝑟𝑚 = 460.6805.
4,000
𝑟𝑚𝐹 = 460.6805 ( ) = 68.1630 = 69.
460.6805
4,000 + 0.02
EJERCICIOS
356
detener el proceso de muestreo hasta encontrar 𝑟 = 7 cerdos infectados. Además, se lleva
el registro del total de cerdos extraídos y analizados, es decir, se extraerá sin remplazo
un cerdo y se analizará si está infectado. Este proceso de extracción continuará hasta que
se encuentren seis cerdos infectados. El total de cerdos analizados hasta encontrar los 6
infectados fue de 𝑛 = 310.
Ejercicio 9.3. Para estimar la proporción de niños con el virus D68, cuya población es
de 𝑁 = 3,900 niños, se decide usar muestreo inverso bajo MAS. Dado que la prevalencia
de niños infectados es baja se establece detener el proceso de muestreo hasta encontrar
𝑟 = 9 niños infectados. Además, se lleva el registro del total de niños extraídos y
analizados, es decir, se extraerá sin remplazo un niño y se analizará si está infectado. Este
proceso de extracción continuará hasta que se encuentren 9 niños infectados. El número
total de niños analizados hasta encontrar los 9 infectados fue de 𝑛 = 400.
357
Apéndice de la distribución normal
estándar y la distribución t-Student
1 − 𝛼/2
𝑍0
𝑍0 𝑍0 𝑧2
1
𝑃(𝑍 < 𝑍0 ) = ∫ 𝑓𝑍 (𝑧)𝑑𝑧 = ∫ 𝑒 − 2 𝑑𝑧 = 1 − 𝛼/2
−∞ −∞ √2𝜋
358
1.5 0.9332 0.9345 0.9345 0.9345 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9896 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9985 0.9985
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 − 𝛼/2
𝑡0
𝑡0 𝑡0 −(𝑣+1)/2
1 [(𝑣 + 1)/2]! 𝑡 2
𝑃(𝑇 < 𝑡0 ) = ∫ 𝑓𝑇 (𝑡)𝑑𝑡 = ∫ ( + 1) 𝑑𝑡
−∞ −∞ √𝑣𝜋 [𝑣/2]! 𝑣
359
Cuadro A.2. Puntos porcentuales de la distribución t-Student.
𝟏 − 𝜶/𝟐
𝒗 0.75 0.9 0.95 0.975 0.99 0.995 0.9975 0.999 0.9995
1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192
2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995 4.0293 4.7853 5.4079
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.2224 3.6458 3.9651
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.1966 3.6105 3.9216
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453 3.1534 3.5518 3.8495
21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.1352 3.5272 3.8193
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787 3.0669 3.4350 3.7066
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739
360
Cuadro A.3. Tabla de números aleatorios.
1 2 3 4 5 6 7 8 9 10
1 75382 51664 50906 54843 32905 00326 27504 54471 00639 59454
2 92841 20566 69880 83226 06380 12130 29205 47054 12072 75769
3 12323 18644 05090 44424 18839 28290 08163 94933 10957 56948
4 08602 51296 74600 68975 37789 00555 68290 57422 73964 47549
5 80399 82376 00388 44573 39881 65838 95955 74046 67407 08054
6 59343 66130 36434 15838 26049 30525 19053 73768 88440 88518
7 00157 82067 71231 57445 33793 42351 01015 04516 60531 83546
8 12069 46302 58624 11725 55014 78605 23840 36910 83589 31919
9 78768 48680 07404 03965 06590 12564 87693 24586 85125 26639
10 12291 50741 29658 33636 40345 67222 33055 58750 21024 15078
11 38758 14871 30273 22217 25539 75232 02119 20767 17775 49060
12 64359 06412 56553 50521 49695 27291 19963 81782 39570 33457
13 67085 90221 12143 24797 40468 70393 59830 85755 65445 08335
14 46890 59592 77610 36664 62336 94456 94958 60791 60083 35078
15 75896 47732 00256 56919 88753 99865 98709 22575 63238 85008
16 87252 4615 80751 05987 36320 41249 73544 75104 86853 59982
17 33171 33551 76533 27365 49256 07832 90820 94734 63906 58669
18 53214 65370 56121 68027 03850 02720 56545 93593 25249 44074
19 67284 19394 95100 96675 06348 36950 17983 57583 93635 37879
20 94800 27736 44906 45537 53098 02820 63161 93488 14455 84774
21 55743 86547 55519 98759 91388 55747 73916 68889 08697 94903
22 60847 43456 64951 08092 58965 98844 89869 81876 35354 72294
23 54218 34014 69127 97810 31995 62818 83871 49159 15614 15023
24 95910 92814 99051 46006 95474 70557 77123 35273 81916 45520
25 92038 24983 32726 99122 24716 98556 26547 06054 46048 52676
26 61866 31950 75273 31815 08289 12285 78943 16326 85289 52314
27 18192 71986 58539 66858 23643 60033 85983 28576 78315 79695
28 11947 43172 24672 02783 88966 31306 33822 95164 31097 68762
29 77536 03361 46239 07783 07028 43727 18278 51924 49441 95899
30 61195 52546 154040 56659 04906 45803 40089 18752 35955 97595
31 96086 37247 47876 29096 05979 50278 12486 37933 70894 53595
32 57948 88044 09427 31507 29869 53686 61184 51042 01733 37122
33 00071 45330 31633 34998 05337 65871 98680 76361 76444 79152
34 64131 60054 68308 67086 66028/ 98994 10238 90929 65631 21799
35 74871 16848 81178 58108 66976 31938 37952 52266 13064 50615
36 32490 27246 07531 63193 48241 89570 57062 24051 37501 42452
37 54114 09886 60690 50105 01333 74612 13895 81015 90443 09726
38 75639 00336 43295 47260 37433 49422 65098 81849 14698 17194
39 02171 92713 13839 79191 30050 84055 43180 14378 17322 21188
40 38573 98474 59606 04698 83919 03702 69763 15985 06710 86808
41 78406 23706 48524 56716 26576 50599 98923 61473 83705 58718
42 15989 96405 66295 10264 85656 80210 62378 15065 64875 91762
43 11058 02658 33542 43663 44334 73636 11795 03577 93330 00162
44 39694 08359 38053 52340 71901 12748 72159 90238 90203 41173
45 45041 34528 79417 27992 11550 90446 13282 98381 80568 96066
46 33618 12142 65407 58142 65625 92494 29937 32828 84419 58729
47 01547 38640 65101 26159 53347 73750 04059 29580 30011 62774
48 46120 97243 30236 27911 13340 43979 01488 28199 19023 00411
49 26199 00214 58641 65512 86399 58314 42240 25969 87060 15186
50 72431 70513 14583 24788 53413 26620 44690 40453 50362 74107
361
Figura A.1. Varianzas de distribuciones infinitas (𝑆 2 ), en función de su forma y rango
(ℎ = rango = máximo 𝑋𝑖 − mínimo 𝑋𝑖 ).
ℎ2 ℎ2 ℎ
Normal: 𝑆 2 = 36 Uniforme discreta: 𝑆 2 = 12 + 6
ℎ2 ℎ2
Uniforme continua: 𝑆 2 = 12 Eclipse: 𝑆 2 = 16
ℎ2 ℎ2
Triangular simétrica: 𝑆 2 = 24 Triangular asimétrica: 𝑆 2 = 18
ℎ2
Triangular doble: 𝑆 2 = 8
362
Referencias bibliográficas
Blair, J., & Presser, S. (1993). Survey procedures for conducting cognitive interviews to
pretest questionnaires: A review of theory and practice. Proceedings of the Section on
Survey Research Methods, Annual Meetings of the American Statistical Association,
370-375.
Bradburn, N. M., & Sudman, S. (1988). Polls and Surveys: Understanding What They
Tells Us. San Francisco, United States: Jossey-Bass.
Cassel, C. M., Sarndal, C. E., & Wretman, J. H. (1977). Foundations of Inference in Survey
Sampling. New York, United States: Wiley.
Cochran, W. G. (1977). Sampling techniques. New York: John Wiley and Sons.
Danger, S., Huizing, N., Walker, A., Rowland, A., Anderson, R., & Sciaccaluga, R. (1996).
EU Information Society Guide. Brussels, Belgium: The EU Committee on the
American Chamber of Commerce in Belgium.
Deming, W. E. (1950). Some Theory of Sampling. New York, United States: John Wiley &
Sons.
Dorfman, R. (1943). The detection of defective members of large populations. The Annals
of Mathematical Statistics, 14(4): 436-440.
George, V. T., & Elston, R. C. (1993). Confidence limits based on the first occurrence of an
event. Statistics in medicine, 12(7): 685-690.
Horvitz, D. G., Shah, B. V., & Simmons, W. R. (1967). The Unrelated Question
Randomized Response Model. Proceedings of the Social Statistics Section, ASA: 65–
72.
Kelley, K., & Rausch, J. R. (2011). Sample size planning for longitudinal models: Accuracy
in parameter estimation for polynomial change parameters. Psychological
Methods, 16(4): 391-405.
363
Kelley, K. (2007). Sample size planning for the coefficient of variation from the accuracy
in parameter estimation approach. Behavior Research Methods, 39(4): 755-766.
Kelley, K., Maxwell, S. E., & Rausch, J. R. (2003). Obtaining power or obtaining precision
delineating methods of sample-size planning. Evaluation & the Health
Professions, 26(3): 258-287.
Kupper, L. L., & Hafner, K. B. (1989). How appropriate are popular sample size
formulas?. The American Statistician, 43(2): 101-105.
Méndez, I., Eslava, G., & Romero, P. (2004). Conceptos Básicos de Muestreo. México, DF:
IIMAS, UNAM.
Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Hernández-
Suárez, C. M. (2010). Sample size for detecting and estimating the proportion of
transgenic plants with narrow confidence intervals. Seed Science Research, 20(02):
123-136.
Montesinos-López, O. A., Montesinos-López, A., Crossa, J., Eskridge, K., & Sáenz, R. A.
(2011). Optimal sample size for estimating the proportion of transgenic plants using
the Dorfman model with a random confidence interval. Seed Science Research, 21(3):
235-245.
Montesinos-López, O. A., Montesinos-López, A., Luna-Espinoza, I., Lugo, G., Sanely, L.,
& Espinosa Solares, T. (2012b). Prueba de grupo: Una eficiente alternativa para
estimar prevalencia animal. Revista mexicana de ciencias pecuarias, 3(4): 515-531.
Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics.
New York, United States: McGrawHill.
364
Newcombe, R. G. (1998). Two-sided confidence intervals for the single proportion:
comparison of seven methods. Statistics in medicine, 17(8): 857-872.
Raj, D. (1972). The Design of Sample Surveys. New York, United States: McGraw-Hill.
Sardnal, C. E., Swensson, B., & Wretman, J. H. (1992). Model assisted survey sampling.
New York, United States: Springer.
Scheaffer, R. L., Mendenhall, W., & Lyman, O. (1987). Elementos de muestreo. México,
DF: Grupo Editorial Iberoamérica.
Wang, H., Chow, S. C., & Chen, M. (2005). A Bayesian approach on sample size
calculation for comparing means. Journal of Biopharmaceutical Statistics, 15(5): 799-
807.
365