Está en la página 1de 259

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/343499141

Muestreo estadístico. Tamaño de muestra y estimación de parámetros

Book · January 2010

CITATIONS READS
10 1,406

3 authors:

Osval A Montesinos-López Carlos Moisés Hernández Suárez


Universidad de Colima Independent consultant
249 PUBLICATIONS   3,729 CITATIONS    100 PUBLICATIONS   1,445 CITATIONS   

SEE PROFILE SEE PROFILE

Miguel A. Tinoco
Universidad de Colima
33 PUBLICATIONS   254 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

IHCLab - Internet of Things View project

Finance and growth determinants in Mexico View project

All content following this page was uploaded by Miguel A. Tinoco on 07 August 2020.

The user has requested enhancement of the downloaded file.


.VFTUSFP FTUBEÎTUJDP
5BNBÒP EF NVFTUSB Z
FTUJNBDJÓO EF QBSÃNFUSPT
!"#$%&'#()( (% *+,#-)
!" !#$%&' ()$&' *$%+,- ./0&12 !"#$%& 3 456 7+8/) *59%5- "&:#''- ;+<+,2 '"#&"$(&)% *"+"&(, 3
!" "=5#>9#+) ?-55&>@A59#1 B&58&C-2 -%%&.)+(.%& *"+"&(, ." -%/0+)#(#)1+ '%#)(, 3
.#D:+6 E%#''&58#)+ *5+#1+ ?-55&>2 2)&"#$%&( *"+"&(, ." 304,)#(#)%+"5

*+"'%.+ /(#0+&#),
*5F6 G%+) 4#&$- E+,9H) 7-:5I$%&12 -%%&.)+(.%& .", -%+5"6% 7.)$%&)(, 3
456 G&>J> !%C#1 !%5$%I+2 -%%&.)+(.%& ." -%+5"6%5 ." 8&"(

/(#0+& &%'1+"')2,% (% ,) '%&#%


!#$%&' ()$&' ?#)-D- B&58&C-2 3&%9"5%&:;+<"5$)=(.%&
K+D%'9+: :& LD-)-8I+2 M)#N&5>#:+: :& "-'#8+
Serie
Textos Técnicos
1 Universitarios

.VFTUSFP FTUBEÎTUJDP
5BNBÒP EF NVFTUSB Z
FTUJNBDJÓO EF QBSÃNFUSPT

0TWBM "OUPOJP .POUFTJOPT -ÓQF[


*HOBDJP -VOB &TQJOP[B
$BSMPT .PJTÊT )FSOÃOEF[ 4VÃSF[
.JHVFM ¦OHFM 5JOPDP ;FSNFÒP

"VUPSFT
O5#8&5+ &:#D#/)2 &)&5- :& PQRQ

S M)#N&5>#:+: :& "-'#8+


*N6 M)#N&5>#:+: TTT
"O PUQVQ
"-'#8+2 "-'6
WWW6%D-'68X
0%Y'#D+DZ%D-'68X
?&'6 [TRP\ TR] RQ UR

^_`;a 978-607-7565-62-8

^805&>- &) !bX#D- 3 3&)+$". )+ >"?)#%


Contenido

Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Capítulo 1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Capítulo 2 Conceptos básicos de estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13


Capítul.2.1 Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Capítul.2.2 Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Capítul.2.3 ¿Qué es una medición? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Capítul.2.4 Las escalas de medición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Capítul.2.5 Parámetros y estimadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Capítul.2.6 Sumatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Capítul.2.7 Variable aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Capítul.2.8 La distribución normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Capítul.2.9 La distribución normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Captu.2.10 El Teorema Central del Límite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Captu.2.11 La distribución t -Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Captu.2.12 Los tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Captu.2.13 El marco de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Captu.2.14 Pasos a seguir en el diseño de una encuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Captu.2.15 Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Captu.2.16 Las características deseables en una investigación por muestreo . . . . . . . . . . . 33
Captu.2.17 Errores de las encuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Captu.2.18 Muestra preliminar o piloto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Captu.2.19 La precisión de la estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Captu.2.20 Uso de tablas para la distribución normal estándar y t -Student . . . . . . . . . . . . 38

Capítulo 3 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


Capítul.3.1 Definición y tipos de muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Capítul.3.2 Selección de una muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Capítul.3.3 Estimación de la media poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Capítul.3.4 La estimación de una proporción poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5
C ONTENIDO

Capítulo 4 Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77


Capítul.4.1 Ventajas de utilizar el MAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Capítul.4.2 ¿Cómo seleccionar una muestra aleatoria estratificada? . . . . . . . . . . . . . . . . . . . . 79
Capítul.4.3 La estimación de la media poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Capítul.4.4 La selección de estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Capítul.4.5 La estimación de la proporción poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Capítulo 5 Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119


Capítul.5.1 Tipos de población por su estructura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Capítul.5.2 ¿Cómo seleccionar una muestra sistemática? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Capítul.5.3 La estimación de la media poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Capítul.5.4 La estimación de la proporción poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

Capítulo 6 Muestreo por conglomerados en una etapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153


Capítul.6.1 ¿Qué puede ser un conglomerado? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Capítul.6.2 Una comparación con el muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Capítul.6.3 Acerca del tamaño del conglomerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Capítul.6.4 La estimación de una media y un total poblacional con M conocida . . . . . . . 157
Capítul.6.5 Estimación de la media y el total con M desconocida . . . . . . . . . . . . . . . . . . . . . . . 177
Capítul.6.6 La estimación de una proporción poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Capítulo 7 Muestreo basado en el método de respuesta aleatorizada . . . . . . . . . . . . . . . . . 191


Capítul.7.1 ¿Cuándo se utiliza esta técnica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
Capítul.7.2 Ventajas y desventajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Capítul.7.3 El modelo de respuesta aleatorizada bajo el MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Capítul.7.4 El modelo de respuesta aleatorizada bajo el MAE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Capítul.7.5 Alternativa al modelo de respuesta aleatorizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Capítul.7.6 Respuesta aleatorizada: versión de Horvitz bajo MAS . . . . . . . . . . . . . . . . . . . . . . . . 232
Capítul.7.7 Respuesta aleatorizada: versión de Horvitz bajo MAE . . . . . . . . . . . . . . . . . . . . . . . 245

Apéndice. Tablas de la distribución normal estándar y la distribución t -Student . . . . 249

Referencias bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

6
Prólogo

C OMO la sociedad produce enormes cantidades de información, a menudo se le deno-


mina sociedad de la información y del conocimiento. Los gobiernos, las empresas pri-
vadas, las instituciones y los ciudadanos usan datos intensamente para tomar decisiones
bajo situaciones inciertas: los partidos políticos quieren saber cuántos votos tendrán en
las próximas elecciones, las empresas desean conocer sus consumidores potenciales, con
frecuencia los investigadores deben estimar las áreas afectadas por una plaga, en fin, las
aplicaciones son infinitas. En tanto no es posible evaluar todos los datos o la población to-
tal, es más factible y eficiente extraer una muestra que pueda validar estadísticamente y
con una confianza aceptable, los resultados para los datos o la población en su conjunto.

¿Por qué este libro?


El interés por escribir este libro que el lector tiene en sus manos, surgió porque muchos
administradores, estudiantes y profesionistas de nuestras instituciones académicas y em-
presas privadas frecuentemente nos pedían apoyo para calcular tamaños de muestras, con
el fin de fundamentar sus decisiones o incluso sus proyectos de investigación. El objetivo
del libro es precisamente ayudar a elegir el esquema de muestreo apropiado, calcular el
tamaño de muestra y hacer las estimaciones correspondientes, lo cual no es una tarea fá-
cil para las personas que carecen de una formación intermedia o avanzada en estadística,
además que la mayoría de libros de esta temática suele ser poco accesible.

7
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Estructura del libro


El libro contiene una introducción general y seis capítulos adicionales que cubren concep-
tos básicos de estadística y los métodos de muestreo aleatorio simple, aleatorio estratifica-
do, sistemático, por conglomerados en una etapa y de respuesta aleatorizada; así mismo,
por su naturaleza aplicada, el libro está acompañado por muchos ejemplos y ejercicios pa-
ra que el lector practique los conceptos aprendidos. Pero es preciso aclarar dos cosas. En
primer lugar, todos los métodos de muestreo cubiertos en este libro suponen que el inves-
tigador ya aplicó una encuesta piloto. Y en segundo lugar, en todos los métodos resaltamos
la estimación puntual y por intervalo de la media, la proporción y el total poblacional, para
lo cual se usa la información recabada con la encuesta piloto.

En el capítulo uno la introducción general describe en términos globales los métodos


que se cubren a detalle en los capítulos posteriores. El capítulo dos aborda los conceptos
básicos de estadística y muestreo estadístico que serán útiles para entender las técnicas de
muestreo y obtener los valores de las tablas de la distribución normal estándar y t -Student;
entre otras cosas, el capítulo trata sobre poblaciones, muestras, escalas de medición, pará-
metros y estimadores, sumatorias, variables aleatorias, la distribución normal y t -Student,
los tipos de muestreo y las características deseables de las encuestas.

En los capítulos tres y cuatro se estudia el muestreo aleatorio simple y estratificado,


respectivamente. En el muestreo simple todas las muestras de tamaño n tienen la misma
probabilidad de ser elegidas, mientras que en el estratificado la población total se divide
en subpoblaciones o estratos con criterios claramente definidos. La idea central de la es-
tratificación es reducir el costo de investigación, porque muchas variables comparten ca-
racterísticas similares como gustos, sexo, hábitos alimenticios, ubicación geográfica, etc.
También para reducir costos, en el capítulo 5 se presenta la técnica del muestreo sistemáti-
co, donde la muestra se compone de unidades extraídas que dan saltos de k unidades de la
población. Otra ventaja de este método es que sólo se fija un intervalo de selección de las
unidades muestrales y por ello se evita el uso de métodos de aleatorización complejos.

Para finalizar, en los capítulos seis y siete se cubren los métodos de muestreo por con-
glomerados en un etapa y de respuesta aleatorizada. El primero simplifica los muestreos
exhaustivos cuando la población es muy grande y tiene elementos comunes, como las en-
cuestas nacionales de clientes bancarios, de usuarios de servicios públicos o de control de
calidad de medicamentos. Por su parte, el método de respuesta aleatorizada, que se com-
plementa con el aleatorio simple o el estratificado, intenta resolver el problema de la falta
de respuestas a preguntas como el uso de enervantes, relaciones sexuales o de otra índole.
Además, se presenta el procedimiento desarrollado por S. Warner (1965) para obtener res-
puestas delicadas que ayuden a estimar la proporción de personas con la característica de
interés que se busca.

8
P RÓLOGO

Software
Este libro viene acompañado por un software que ayuda a resolver los ejercicios rápida
y fácilmente en una computadora. El programa se puede descargar del sitio electrónico
<http://miespacio.ucol.mx/~miguel_tinoco/> para ser instalado en el ambiente operativo
Windows. La página electrónica también incluye un manual de operación.

Agradecimientos
Queremos agradecer a todas las personas que influyeron positivamente en la realización
de este libro. En especial, a nuestros alumnos de la Licenciatura en Software, de Ingeniería
en Telemática y de la Facultad de Ciencias de la Universidad de Colima, por su paciencia,
tolerancia y sugerencias para mejorar los borradores. También a los alumnos Martín Hugo
del Toro Guzmán, Hugo Torres López y Henry Nicole Ramírez de la Facultad de Ciencias,
por su apoyo en la captura de la versión preliminar de los manuscritos, y a los alumnos
Germán Osorio Novela de la Facultad de Economía y a Sergio Armando Ramírez Schulte de
la Facultad de Telemática por corregir las pruebas finales.

Los autores
Colima, México

9
C APÍTULO

1
Introducción

L AS nuevas tecnologías de información y telecomunicaciones han generado una enorme


cantidad de información sin precedentes. La tecnología ha cambiado el mundo en que
vivimos, una transformación que se compara a las ocurridas por las revoluciones indus-
triales de los siglos XVIII y XIX. En las dos últimas décadas, el Internet y las tecnologías de
información han transformado el funcionamiento de las empresas, los métodos de apren-
dizaje de los estudiantes, los métodos de investigación de los científicos y la forma en que
los gobiernos prestan sus servicios a los ciudadanos. Las tecnologías digitales han demos-
trado ser un potente motor del crecimiento económico y de la competitividad. En general,
estos cambios continuos han transformado a la sociedad, de una basada en la producción
de objetos físicos, a una donde el énfasis principal es la producción e intercambio de in-
formación. Por consiguiente, se ha alterado no sólo la interacción humana con la informa-
ción, sino también el comportamiento individual y colectivo de los individuos (Danger et
al., 1996).

Gobiernos, empresas privadas, instituciones y ciudadanos necesitan usar intensiva-


mente información y datos para el análisis de fenómenos y toma de decisiones en cir-
cunstancias de gran complejidad e incertidumbre. Se puede obtener información sobre
la cantidad y/o calidad de un recurso para tomar tales decisiones mediante una evalua-
ción exhaustiva, esto es, cuantificar o calificar la población. Sin embargo, en la mayoría
de las circunstancias no es posible o conveniente hacer la evaluación exhaustiva sobre to-
da la población, principalmente por la carencia de recursos; por ello se justifica que gran
parte de los conocimientos, actitudes y decisiones humanas esté basada en el análisis de
información parcial, es decir, en el uso del muestreo. Al hacer la evaluación con solamente
una fracción de la población o del recurso, se espera que las conclusiones hechas también

11
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

pertenezcan a la población; implícitamente, se acepta esa suposición, aunque siempre se


corre el riesgo de que tal suposición no sea totalmente cierta. El objetivo principal de las
técnicas de muestreo es darle objetividad a ese riesgo.

El uso del muestreo como un medio para obtener conocimiento y tomar decisiones, es
algo normal y cotidiano en las actividades humanas. En estudios de mercado, el muestreo
sirve para conocer las preferencias de los consumidores de cierto producto; en los estudios
demográficos y sociales, para conocer los niveles de empleo y desempleo, los ingresos y ni-
veles de escolaridad en los habitantes de una ciudad o país, la prevalencia y la incidencia
de la drogadicción, etc.; y en la industria, para el control de calidad en el proceso de pro-
ducción. En fin, el muestreo se utiliza prácticamente en todas las áreas del conocimiento.

Elegir el esquema de muestreo, calcular el tamaño de la muestra y realizar las estima-


ciones correspondientes no es una tarea fácil para personas con poca formación en esta-
dística. Por ello, este libro pretende ayudar a investigadores, estudiantes y profesionales de
las distintas áreas del conocimiento para que calculen la muestra de una forma apropiada
y eficaz. Por otro lado, este libro sirve en un primer curso de muestreo estadístico aplicado,
dirigido a estudiantes de nivel licenciatura, en cualquier área del conocimiento. El mate-
rial no supone conocimientos profundos sobre matemáticas o probabilidad y, por lo tanto,
tampoco demostraciones formales.

Los objetivos centrales que persigue este libro son:

Presentar la forma adecuada de seleccionar una muestra, lo que denominaremos di-


seño de muestreo, considerando las características de la población de interés.

Exponer las fórmulas para calcular los estimadores.

Exponer las fórmulas adecuadas para calcular el tamaño de una muestra y satisfacer
las exigencias preestablecidas sobre la calidad de los estimadores.

Dar ejemplos y ejercicios para los esquemas de muestreo que faciliten su compren-
sión.

Nota sobre los ejercicios

La información utilizada en los ejercicios de este libro es ficticia, es decir, los datos totales
y los porcentajes fueron inventados para efectos de ilustración. En este sentido, no deben
utilizarse por ningún motivo como estadísticas que apoyen o rechacen algún fenómeno.

Por último, al momento de realizar los ejercicios recomendamos utilizar el mayor nú-
mero posible de decimales (en nuestro caso, más de seis) para igualar los resultados mos-
trados.

12
C APÍTULO

2
Conceptos básicos de estadística

Que la estadística es bella,


no lo vengo a presumir.
Sólo requiere de entrega,
para poderla sentir.
OAML

E Nla literatura existen numerosas definiciones de la estadística. En lugar de hacer aco-


pio de diversas definiciones y darnos a la tarea de compararlas, señalando su ambigüe-
dad o insuficiencia, aceptaremos la siguiente:

..Estadística
La estadística es la ciencia que se ocupa de los métodos y procedimientos para
recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y
cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos;
así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la
toma de decisiones y, en su caso, formular predicciones (Johnson, 1996).

La estadística sirve para:

Describir las diferentes medidas en un conjunto de objetos mediante el


análisis de algunos de sus elementos.

Tomar decisiones sobre opciones diversas con información parcial conte-


nida en un conjunto de datos.

Predecir el comportamiento de una medida o característica, en condicio-


nes no observadas.

Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden resumir en
algunos de los puntos ya descritos con la finalidad de inferir sobre la población (estimación

13
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

y prueba de hipótesis). Como en todas las áreas del conocimiento, el muestreo emplea una
terminología específica que define de manera apropiada los conceptos que se utilizan, por
lo que es conveniente revisar algunos de ellos, en particular de la estadística, y presentar la
simbología que se emplea en las técnicas de muestreo.

. .Conjunto
Es una colección de objetos definidos y distinguibles cuya única propiedad in-
dispensable es que sean identificados como pertenecientes a dicho conjunto. A
cada uno de los objetos que lo constituyen se le llama elemento.

Por ejemplo, las computadoras dentro de una empresa o laboratorio pueden constituir
un conjunto; también los estudiantes y las sillas dentro de un salón de clases constituyen
un conjunto. Cabe mencionar que no es un requisito que los objetos sean de la misma
naturaleza, aunque la mayoría de los casos que involucran las técnicas de muestreo los
objetos suelen ser de la misma clase, o al menos, muy semejantes.

2.1. Población y muestra


Como se dijo, las técnicas de muestreo, y en general los métodos estadísticos, se aplican
a un conjunto de datos propios de un conjunto de objetos. Denominamos población al
conjunto de objetos y de valores. El segundo es una función del primero, y aunque con fre-
cuencia no se distinguen explícitamente, el contexto en que se usa el término de población
deja en claro la referencia. En este libro se usará la población, que se refiere al conjunto
de mediciones que se hacen sobre una característica de interés en todos y cada uno de los
elementos del conjunto de objetos. La población es el conjunto que incluye todas las par-
tes constitutivas de un recurso. Así, la población es un conjunto de números que tienen las
unidades en que se hace la medición.

En general, el análisis no suele incluir las unidades de medición de los valores de una
variable, es decir, éstos se analizan simplemente como números. Sin embargo, resulta con-
veniente recordar que los valores de una variable siempre representan dimensiones físi-
cas o de otra naturaleza, como peso, volumen, longitud, etc., y que estas dimensiones son
medidas en unidades como kilogramos, metros cúbicos, centímetros, etc., por lo que los
resultados del análisis son coherentes si se usan las unidades de medición, lo que facilita
enormemente su interpretación.

Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima y la caracte-


rística de interés es su estatura promedio, la población original son todos los estudiantes,
pero la población a la que las técnicas de muestreo se referirán, es el conjunto constitui-
do por las estaturas de esos estudiantes, que estarán medidas por un número; por ejemplo
1.75 metros podría ser uno de los elementos constitutivos del conjunto población.

14
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

..Población y muestra
Población. Es una colección de objetos o entes que se caracterizan por poseer o
compartir ciertas características (propiedades) en común.
Muestra. Es un subconjunto de elementos o unidades seleccionados con alguna
técnica, de la población en estudio.

El muestreo, en un sentido amplio, es un proceso que tiene como propósito obtener


conocimientos de las características generales de una población, mediante una muestra.
En contraste, el censo es un proceso de revisión exhaustivo de la población, es decir, mide
la característica de interés de todas las unidades de la población.

2.2. Variables
Una variable es una característica de los elementos de una población y se obtiene con una
medición o calificación. La altura de los estudiantes es una variable, lo mismo que la marca
de computadoras portátiles que se encuentran en el mercado actual. El peso de cada silla o
cada estudiante también es una variable.

Una variable continua, como su nombre lo indica, es aquella donde son posibles todos
los valores dentro de un intervalo de los números reales, al menos teóricamente, ya que
por limitaciones de los instrumentos de medición, muchos valores en ese intervalo no son
observables. En general, este tipo de variables incluye mediciones en kilogramos, centíme-
tros, etc., cuya precisión puede ser incrementada indefinidamente, afinando más y más el
instrumento de medición.

Una variable discreta se puede medir en una escala que no incluye todos los valores
posibles dentro de un intervalo de los números reales. Ejemplos de este tipo de variables
son los conteos, el número de personas de un lugar, el número de libros en una biblioteca,
entre otros.

Las variables por atributos permiten la clasificación en función de la presencia de cier-


ta propiedad en el elemento que desea evaluarse. La pertenencia a un grupo étnico es un
ejemplo de un atributo; podría haber muchos atributos, como tener varios grupos étnicos,
lo que permitiría hacer diversos grupos y cada elemento pertenecería solamente a uno de
esos grupos o clases.

Las técnicas de muestreo se aplican directamente a conjuntos de valores medidos en


escalas apropiadas para variables continuas, discretas o de atributos.

Digamos que se quisiera describir económica y socialmente las familias del estado de
Colima, y para ello se aplica un cuestionario a cada familia con preguntas sobre su situa-
ción socioeconómica, como ingreso mensual, número de integrantes, número de indivi-

15
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

duos que trabajan, tipo de ocupación, entre otras. El conjunto de mediciones de cualquiera
de estas variables medidas es el sujeto de aplicación de las técnicas de muestreo. Otro ejem-
plo es la determinación de la calidad del aire en la Ciudad de México; para ello se toman
mediciones de diferentes contaminantes: el conjunto de las mediciones del contaminante
es la variable a la que se aplican los conceptos del muestreo. Pueden ser muchas las va-
riables que se midan, pero el muestreo que aquí estudiaremos es univariado, es decir, se
toma solamente una variable a la vez; aunque el estudio incluya varias variables, el proceso
se realiza sobre todas y no más de una al mismo tiempo.

Función es otro terminó muy usado. Matemáticamente, el concepto de función cons-


ta de tres elementos, dos conjuntos y una regla que asocia o vincula a cada elemento del
primer conjunto con uno y sólo uno de los elementos del segundo conjunto. Una lista de
nombres y un grupo de estudiantes pueden ser una función si cada nombre de la lista co-
rresponde a uno y sólo uno de los estudiantes. Nótese que incluso todos los elementos del
primer conjunto pueden estar vinculados al mismo elemento del segundo conjunto, pero
lo que no es válido es que un elemento del primer conjunto esté vinculado con más de un
elemento del segundo. Las funciones que comúnmente abordaremos en este texto son fun-
ciones matemáticas, en las que los conjuntos contienen números y la regla de asociación
es una ecuación.

Hemos mencionado que en el muestreo nos interesan los valores medidos del subcon-
junto muestra, que son seleccionados del conjunto población. A estos valores se les deno-
mina datos, es decir, un dato es el valor específico que tiene la característica de interés de
un elemento de la población. Conviene mencionar que dato se puede referir a un valor co-
nocido o existente pero que aún no ha sido determinado. En este libro un dato es un valor
que ya ha sido determinado.

En este contexto, el experimento es el procedimiento que permite obtener un dato. Este


procedimiento incluye dos cosas: la forma de elegir el objeto, y la determinación del valor
mediante algún método.

Es prioritario considerar la forma en que se elige el elemento que se observará. La de-


terminación del valor de la característica es la medición o la calificación, que algunas ve-
ces representa un problema difícil y requiere tratamientos específicos. Este es el tema que
abordaremos a continuación.

2.3. ¿Qué es una medición?


La medición es una tarea en la que la estadística no interviene directamente, pero influye
mucho en los resultados. Para hacer una medición deben usarse las técnicas adecuadas.
En general, la medición es la determinación del valor de la característica de interés de un
elemento de la muestra.

16
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que mi-
den la longitud de un virus o una bacteria; pero los métodos estadísticos para analizar los
datos de ambos casos pudieran ser los mismos.

Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. Su instru-
mentación, selección y validez son motivo de estudio de otras disciplinas, pero la compara-
ción entre técnicas de medición sí es un motivo de aplicación de los métodos estadísticos,
por lo que no abordaremos en este libro las técnicas de medición.

2.4. Las escalas de medición


Las reglas que clasifican los datos en distintas categorías se denominan escalas de medi-
ción: nominal, ordinal, intervalo y proporción (Siegel, 1977).

Escala nominal

La escala nominal se utiliza para clasificar a la población en categorías. Por ejemplo, los
seres humanos se clasifican en hombres y mujeres; los colores se clasifican en rojo, azul,
verde, etc. En este tipo de datos no existe una relación de orden ni se pueden realizar ope-
raciones aritméticas como suma, multiplicación, división o resta. Sin embargo, se pueden
establecer frecuencias y proporciones, así como calcular la mod a y establecer relaciones
de equivalencia. Las propiedades de las relaciones de equivalencia son: reflexión: X=X; si-
metría: si X = Y , entonces Y = X ; y transición: si X = Y y Y = Z , entonces X = Z . Para esta
escala de medición se usan las pruebas estadísticas no paramétricas.

Escala ordinal

La escala ordinal clasifica y ordena las observaciones. Sin embargo, no puede definirse una
distancia entre las observaciones. Las relaciones admisibles en esta escala son: >,< ó =.
Por ejemplo, la frecuencia con que un grupo de personas lee una revista científica podría
clasificarse en: regularmente, a veces, pocas veces, casi nunca y nunca. Otro ejemplo es la
definición de la jerarquía militar de un regimiento: teniente> subteniente> sargento 3ro.>
sargento 1ro.> cabo. Un último ejemplo es la llegada a la meta de un corredor en una com-
petencia de 20 participantes: su clasificación C es tal que C ∈ {1, 2, . . . , 20}.

Las medidas que se pueden calcular en esta escala son: moda, frecuencia, coeficiente de
contingencia y mediana. Las pruebas estadísticas no paramétricas se usan para este tipo de
datos, en particular las estadísticas de rango, así como los coeficientes de correlación con
base en rangos, es decir, el coeficiente de Sperman y el de Kendall.

17
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Escala de intervalo

Esta escala incluye las dos anteriores; es decir, clasifica, ordena y además establece la pro-
porción entre dos intervalos contiguos. Esta escala necesita una unidad de medida y un
punto cero arbitrario (no es el cero que pertenece a los reales). En esta escala, la propor-
ción de dos intervalos cualesquiera es independiente de la unidad de medida y del punto
cero. Por ejemplo, la temperatura en grados Celsius o Farenheit se mide en una escala de
intervalo, ya que la unidad de medida y el punto cero son arbitrarios.

Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Las téc-
nicas paramétricas incluyen el cálculo de medias, la desviación estándar, el coeficiente de
correlación de Pearson, etc. Las pruebas estadísticas admisibles son la t -Student y la F de
Snedecor. Las únicas medidas que no se pueden obtener son el coeficiente de variación y
la media geométrica, porque necesitan el cero de los números reales.

Escala de proporción

Además de todas las características anteriores, la escala de proporción ubica al punto cero
en el origen. En esta medida, además de conocer la proporción, se debe conocer la distancia
entre dos puntos. Admite también todas las operaciones matemáticas y de igual manera se
pueden establecer relaciones de igualdad y orden. Las pruebas estadísticas admisibles son
todas las pruebas paramétricas, así como todas las pruebas estadísticas anteriores más el
coeficiente de variación y la media geométrica. Un ejemplo es el peso en kilogramos de
los estudiantes del primer semestre de Ingeniería en Software de la Facultad de Telemática
de la Universidad de Colima. Otro ejemplo es el diámetro en metros de una plantación de
parotas localizadas en Tecomán, Colima.

2.5. Parámetros y estimadores


Existe un número infinito de parámetros para una población dada; sin embargo, muchos
no tienen utilidad, en cambio otros manifiestan el interés de la evaluación. Por ejemplo,
la suma de todos los valores correspondientes al gasto de agua por familia en una locali-
dad (población). El promedio, el total, la varianza, la desviación estándar, el coeficiente de
variación, la moda, la mediana, el porcentaje o la proporción son algunos ejemplos de pa-
rámetros.

Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es una fun-


ción de los datos que sirve para calcular (en un censo) o estimar (en un muestreo) un pará-
metro. Una definición general del parámetro es una constante que describe a la población,
usualmente en forma numérica, mientras que un estimador es una función de los datos
disponibles (muestra o censo) que se usa para estimar o calcular los parámetros.

18
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

. .Parámetros y estimadores
Parámetros
Sobre el conjunto población se pueden definir funciones muy diversas como
el valor más pequeño, el más grande, el que ocupa la posición central una vez
que los valores han sido ordenados ascendente o descendentemente, la suma
de todos los valores después de elevarlos al cuadrado, el valor que se repite el
mayor número de veces y muchos otros más. Todas esas funciones son pará-
metros. Los parámetros suelen ser representados por letras griegas como µ, τ ó σ.

Estimadores
Son funciones que se pueden proponer para calcular o estimar los parámetros.
Un parámetro es cuando las funciones se definen sobre el conjunto población;
pero si esas funciones se definen para los datos de una muestra, entonces se trata
de una estimación del parámetro. A ambos casos se les llamarán estimadores.
Además, a cada parámetro le corresponde uno o más estimadores. Existe un
número infinito de estimadores, pero sólo algunos tienen interés práctico.

2.6. Sumatorias
La sumatoria es muy importante para comprender mejor los conceptos detrás del mues-
treo. Algunos parámetros y estimadores incluyen en su definición la suma de varios valores
o datos. Si y i es cualquiera de esos datos, digamos el i -ésimo de ellos, y se tiene n datos, la
suma de esos datos se simboliza con el operador de sumatoria (Σ):
n
!
y1 + y2 + · · · + yn = yi
i =1

Se puede combinar otras operaciones matemáticas con la sumatoria; por ejemplo, si se


desea sumar el cuadrado de cada dato, la simbología apropiada es:
n
!
y 12 + y 22 + · · · + y n2 = y i2
i =1

El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una
lista. Es importante hacer notar que el subíndice puede emplear cualquier símbolo, aunque
convencionalmente se emplean letras intermedias minúsculas como i , j , k, etc.; incluso,
los mismos datos pueden usar subíndices diferentes para indicar las operaciones apropia-
das. Asimismo, un símbolo de dato como y puede tener más de un subíndice cuando los
datos tienen más de dos criterios o sentidos de clasificación, como puede ser el caso de un
cuadro o una matriz que tenga renglones y columnas, como y i j , donde i es el renglón y j la
columna, o al revés. Si existen más de dos criterios de clasificación, podrán emplearse más
de dos subíndices para identificar apropiadamente cada dato.

19
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez el de una
variable, un parámetro o un estimador, para señalar que ese símbolo pertenece al objeto
identificado con la etiqueta que se usa como subíndice. Por ejemplo, σ y se refiere a la des-
viación estándar (de los datos) de la variable y.

Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En los ejemplos,
i puede tomar valores entre 1 y n, mientras que y i puede ser cualquier valor de la variable
y. Por decir, si estamos hablando de la variable ingreso familiar en el estado de Colima (y),
entonces y i representa el ingreso de la familia i .

Propiedades de las sumatorias


n
!
c = c + c + c + · · · + c = nc
i =1

n
! n
!
c y i = c(y 1 + y 2 + y 3 + · · · + y n ) = c yi
i =1 i =1

n
!
(x i + y i ) = (x 1 + y 1 ) + (x 2 + y 2 ) + · · · + (x n + y n )
i =1

= x1 + y 1 + x2 + y 2 + · · · + xn + y n

= (x 1 + x 2 + x 2 + · · · + x n ) + (y 1 + y 2 + · · · + y n )

n
! n
!
= xi + yi
i =1 i =1

n
! r
! n
!
yi = yi + y i , donde r es un número entero mayor que 1 y menor que n.
i =1 i =1 i =r +1

Por ejemplo:
5
! 2
! 5
!
y i = (y 1 + y 2 ) + (y 3 + y 4 + y 5 ) = yi + y i , donde y i = cualquier valor.
i =1 i =1 i =2+1

2.7. Variable aleatoria


El concepto de variable aleatoria se relaciona con una característica o dimensión que tie-
nen las unidades muestrales de una población, y que puede tomar diferentes valores, ca-
da uno asociado a una unidad muestral. Esos valores posibles forman un conjunto que se

20
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

denomina espacio muestral. Así, una variable aleatoria Y es una función que va del espa-
cio muestral (constituido por las unidades muestrales) a otro espacio muestral que son los
números reales o un subconjunto de éstos, que son todos los valores que puede tomar la
variable bajo un experimento aleatorio.

Por ejemplo, se desea saber si los miembros de un grupo de personas fuman o no. El
espacio muestral inicial es el grupo de personas y = y i y el segundo espacio muestral es
S = {sí, no}, que corresponde al hecho de que una persona dada (y i ) fume o no. Entonces,
podríamos definir la función Y como una variable aleatoria como sigue:
!
1 si y i = sí fuma
y(y i ) =
0 si y i = no fuma
Esta variable es conocida como la variable indicadora del conjunto y i y sólo toma los valo-
res de 1 ó 0.

2.8. La distribución normal


Esta distribución tiene gran importancia debido a que es un modelo adecuado para mu-
chos sucesos naturales y por su sobresaliente papel en la teoría estadística (Teorema Cen-
tral del Límite), puesto que sirve como punto de partida para el desarrollo de muchas téc-
nicas de inferencia (Mood et al., 1974). Es importante mencionar que debido a que la dis-
tribución normal es continua, solamente pueden calcularse probabilidades para interva-
los que pertenecen al espacio muestral de Y , ya que para cualquier posible valor k de Y ,
P (Y = k) = 0, aunque con la corrección por continuidad es posible calcular probabilidades
para cualquier posible valor k (Mood et al., 1974). Decimos que una variable aleatoria Y se
distribuye normal si su función de densidad es:
⎧ (y−µ)2
⎨ 1 −
! e 2σ2 si y ∈ R
f Y (y) = 2πσ2

0 de otra forma
donde:

E [Y ] = µ −∞ < µ < ∞
2
V ar (Y ) = σ σ2 > 0
e y π son constantes conocidas. El lector debe notar que µ y σ2 son los parámetros de la
distribución, es decir, Y ∼ N (µ, σ2 ).

Para ejemplificar la forma de la distribución normal, supóngase que se mide la estatura


(Y ) en centímetros a una población de niños de 5 años de edad y se encuentra que su pro-
medio es de 90 cm con una desviación estándar (DE) de 5 cm, es decir, Y ∼ N (µ = 90, σ2 =
25). La forma de la distribución se presenta en la figura 2.1.

21
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

La distribución normal tiene forma acampanada con un solo pico o moda que es igual
a la mediana y media porque es una distribución simétrica. Además, cuando Y ∼ N (µ =
90, σ2 = 25) el porcentaje de niños con una estatura de entre 80 cm y 100 cm es de 95.45 %
(área sombreada en la figura 2.1). Los puntos en que cambia la dirección de la concavidad
de la campana se llaman puntos de inflexión, y están situados a una distancia de σ unidades
por encima y por debajo de la media µ. El área total bajo la curva es de 1 ó 100 %, ya que es
una distribución de probabilidad definida.

Figura 2.1

0.08
La distribución normal para
la variable estatura (Y) y una 0.07
media de 90 cm y de = 5 cm
0.06
0.05
0.04
0.03
0.02
0.01
0

70 75 80 85 90 95 100 105 110


Y

2.9. La distribución normal estándar


Sea Y una variable aleatoria distribuida N (µ, σ2 ). Definamos la variable aleatoria Z = (Y −
µ)/σ, que tiene distribución N (0, 1), es decir, es normal estándar porque su media es cero y
su varianza es uno. Su función de densidad es:

⎪ 1 − z2
⎨ # e 2 si z ∈ R


f Z (z) =



0 de otra forma

La forma de la variable aleatoria Z se ilustra en la figura 2.2. En ella se aprecia que los va-
lores con mayor ocurrencia de la variable aleatoria Z están entre -3.6 y 3.6, la media (igual
a la mediana) es igual a cero y su DE (igual a la varianza) es uno. La importancia de esta
función de densidad radica en que las probabilidades en cualquier miembro de la familia,
o sea, cualquier normal con media µ y varianza σ2 , puede calcularse con la distribución
normal estándar. La ventaja estriba en que tiene media cero y varianza uno (Mood et al.,
1974) y facilita el cálculo de probabilidades porque la variable aleatoria normal original es

22
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

una función no integrable, por lo que la integración se obtiene con tablas de la normal es-
tándar o un software estadístico.

Figura 2.2

0.4
N P 0V2 1

La distribución normal
estándar (Z)

0.3
0.2
0.1
0.0

-4 -2 0 2 4

2.10. El Teorema Central del Límite


El Teorema Central del Límite es de gran importancia porque en él se basa gran parte de
los métodos estadísticos. Este teorema provee de una aproximación efectiva a las proba-
bilidades determinadas por sumas de variables aleatorias independientes y explica la gran
importancia de la distribución normal en la teoría de probabilidades. Su enunciado preciso
es el siguiente: sean Y1 , Y2 , . . . , Yn una muestra aleatoria de una función de probabilidades
f Y (y) (es decir, variables aleatorias independientes e idénticamente distribuidas), con me-
dia µY y varianza σ2Y . Sea Ȳ = (Y1 +Y2 +· · ·+Yn )/n la media aritmética de las variables alea-
torias que integran la muestra. Para un tamaño de muestra n, la distribución de la variable
aleatoria Ȳ es aproximadamente normal con media µY y varianza σ2Y /n, es decir,

Ȳ ∼ N (µY , σ2Y /n)

cuando n → ∞.

De acuerdo con el resultado anterior y estandarizando la variable aleatoria, la expresión


puede escribirse como:
Ȳ − µY Ȳ − µY
! = ∼ N (0, 1)
σ2 σ ȳ
Y
n

23
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El Teorema Central del Límite establece que para un tamaño de muestra grande, la dis-
tribución de Ȳ es aproximadamente normal, independientemente de la función de proba-
bilidades de la variable aleatoria Y (Mood et al., 1974).

Para casi todas las poblaciones, la distribución del muestreo de Ȳ es aproximadamente


normal si una muestra simple al azar es lo suficientemente grande, pero ¿qué significa una
muestra suficientemente grande? Esto dependerá de la naturaleza de la población mues-
treada y del grado de aproximación a la distribución normal requerido.

Cuando la población muestreada tiene una distribución de probabilidad normal, no se


requiere el Teorema Central del Límite. En este caso, utilizamos otro teorema que establece
que si la población muestreada es una distribución de probabilidad normal, la distribución
de probabilidad de Ȳ es exactamente normal para cualquier tamaño de muestra.

Puesto que a menudo no conocemos el tipo de población muestreada, el Teorema Cen-


tral del Límite nos dice la naturaleza de la distribución de muestreo de Ȳ para una muestra
razonablemente grande, al margen del tipo de distribución que siga la población.

2.11. La distribución t -Student


La distribución t -Student fue publicada por primera vez en 1908 por el químico irlandés
W. S. Gosset. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba
la publicación de trabajos de investigación. Por tal motivo Gosset publicó su trabajo con el
seudónimo Student. Por dicha razón esta distribución lleva el nombre de t -Student.

Si Z es una variable N (0, 1) y χ2 es una variable χ2 (ν) (Ji cuadrada) independiente de


Z , entonces la variable aleatoria definida por:

Z
t=!
χ2 /ν

tiene una distribución t -Student con ν grados de libertad (Mood et al., 1974). Su función de
densidad es la siguiente:
⎧ & '−(ν+1)/2


⎪ 1 [(ν + 1)/2]! t 2
⎨ ! +1 si −∞ ≤ t ≤ ∞
f T (t ) = νπ [ν/2]! ν




0 de otra forma

La función de densidad t -Student es simétrica con respecto a cero, como el caso de la


función de densidad normal estándar. Además, para ν > 1, el valor esperado de t es cero, o
sea, E [t ] = 0; y para ν > 3, Var[t ] = ν/(ν − 2). Además, note que cuando ν −→ ∞, Var[t ] −→ 1.
De esta manera vemos que una variable aleatoria t -Student tiene el mismo valor esperado

24
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

y varianza que una variable aleatoria con distribución normal estándar cuando n es gran-
de. Por ello, la forma de ambas distribuciones es muy semejante. No obstante, una variable
normal estándar siempre tiene varianza de 1, mientras que la varianza de una variable t -
Student es superior a 1. Esto se puede apreciar en la figura 2.3, donde se compara la distri-
bución normal estándar con la distribución t -Student con 1, 3, 5 y 10 grados de libertad. Es
decir, se observa que las dos funciones de densidad son simétricas respecto al origen, pero
la distribución t -Student posee mayor masa de probabilidad en los extremos. Sin embargo,
desde el punto de vista práctico las diferencias entre estas dos distribuciones son relevantes
cuando el tamaño de muestra es menor o igual a 30. En el presente libro sugerimos obtener
los valores de tablas que se utilizan para los ejemplos y ejercicios de los capítulos posterio-
res, a partir de la distribución t -Student cuando el tamaño de la muestra sea menor o igual
a 30, de lo contrario, obtenerlos de la distribución normal estándar.

Figura 2.3
0.4

N P 0V2 1
t10
Comparación entre las distribuciones t3
t5

normal estándar y t-Student con 1, 3


5 y 10 grados de libertad
0.3
0.2

t1
0.1
0.0

-4 -2 0 2 4

2.12. Tipos de muestreo


A manera de definición, un método de muestreo es una forma objetiva, y comúnmente
científica, de seleccionar unidades que pertenecen a la población. En este sentido el mues-
treo consiste en un conjunto de métodos, por medio de los cuales es posible hacer aseve-
raciones sobre los parámetros de una población apoyándose en la muestra. Para conocer
una población con base en la muestra recurrimos a dos procedimientos generales, que se
diferencian en la manera de seleccionar las unidades de la población y el método usado
para determinar el tamaño de la muestra. Los procedimientos se llaman muestreo proba-
bilístico y muestreo no probabilístico (Rendón, 1997).

25
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Muestreo probabilístico. Comprende los métodos que usan un mecanismo aleatorio pa-
ra la selección de las unidades de la muestra. Cada unidad de la población tendrá una pro-
babilidad conocida de ser seleccionada, así como una probabilidad de ser incluida en la
muestra; ninguna de tales probabilidades es igual a cero. Entonces, los métodos de este ti-
po de muestreo establecen una estructura probabilística que es la base para desarrollar la
teoría del muestreo. Otra característica importante en estos métodos de muestreo es que
la calidad, el error o la precisión de los estimadores puede ser determinada y expresada
en términos probabilísticos. Algunos métodos de muestreo probabilístico son: el muestreo
aleatorio simple, el muestreo aleatorio estratificado, el muestreo sistemático con inicia-
ción aleatoria, el muestreo por conglomerados, el muestreo de respuesta aleatorizada, etc.
(Bradburn,1998). Este tipo de métodos de muestreo se desarrollará más adelante.

Muestreo no probabilístico. Incluye los métodos de muestreo donde la selección de las


unidades de la muestra se realiza por medios subjetivos o procedimientos no aleatorios;
en consecuencia, no se tendrá una estructura probabilística para desarrollar una teoría
de muestreo, ni podrá averiguarse la bondad de las estimaciones muestrales en términos
cuantitativos. De hecho, la calidad de las estimaciones se establece con base en la intuición
y la experiencia, o a través de argumentos subjetivos, ya que la única manera de cuantifi-
car la bondad de los resultados sería teniendo la población total. Aunque el muestreo no
probabilístico resulta inadecuado para el desarrollo de la teoría, en ocasiones es la única
alternativa viable (Bradburn,1998). Además, como los métodos de muestreo son de fácil
aplicación, los resultados se obtienen con mayor rapidez y no implica mucho gasto. Vea-
mos a continuación algunos ejemplos de muestreo no probabilístico:

Muestreo de juicio. También se le conoce como muestreo de expertos o muestreo di-


rigido. Su característica principal es la forma subjetiva con que son seleccionadas las
unidades de la población. Por el elemento subjetivo no hay una manera de cuantifi-
car la bondad de los resultados muestrales. En este caso, el investigador observa toda
la población o parte de ella, y después selecciona una muestra compuesta por una
o más unidades que en su opinión son típicas con respecto a la característica que se
desea estudiar. Está claro que el investigador, al medir las unidades de esta forma se-
leccionadas, puede derivar estimaciones de los parámetros de interés; sin embargo,
las estimaciones dependerán de la selección subjetiva del investigador, de tal manera
que otros investigadores podrían seleccionar muestras distintas y calcular otras esti-
maciones. Sucede lo mismo con las estimaciones que se apoyan en el análisis ocular
de la población de interés, porque no involucran la selección ni la medición objetiva
de las unidades. Asimismo, puede pasar cuando confiamos en la opinión experta de
personas quien uno supone son conocedoras de las características de una población
dada (Rendón, 1997).

Muestreo de cuota. Este método es ampliamente utilizado en las encuestas de opi-


nión. Para su aplicación, la población se divide en grupos tomando como base ciertas
características generales. Una vez hechas las divisiones, se tomará un número prees-

26
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

tablecido de unidades al cual se le denomina cuota y que satisfaga las características


del grupo de interés. De este modo, la muestra total quedará integrada por la suma
de todas las cuotas. Por ejemplo, un investigador del observatorio vulcanológico de
la Universidad de Colima está interesado en conocer la opinión de la población sobre
un posible plan de emergencia frente a una eventual erupción volcánica. El investi-
gador podría dividir la población en grupos definidos según la edad, el sexo, el estado
civil, etc.; y después entrevistar a cierto número (cuota) de personas de cada grupo,
por ejemplo, en parques, salidas de las tiendas de autoservicio, las comunidades ale-
dañas al volcán, o en áreas específicas de la ciudad (Rendón, 1997).

Muestreo de voluntarios. Este método se usa principalmente en aquellas situaciones


donde sea difícil el proceso de medición de las unidades. Por ejemplo, si el proceso
de medición requiere de mucho tiempo, resulta penoso y desagradable, o implica una
gran concentración y esfuerzo mental, muchos individuos no desearán participar en
el estudio. Por estas razones, el método consiste en integrar una muestra con aque-
llas unidades que acepten formar parte de ella, es decir, una muestra de voluntarios
(Rendón, 1997).

Muestreo de unidades accesibles. Este método se usa frecuentemente cuando es difícil


el acceso o la comunicación con las unidades de la población. En este caso, la muestra
se restringe a una parte de la población, donde es fácil el acceso o comunicación. Por
ejemplo, para inspeccionar el maíz a granel que es transportado en un barco, puede
tomarse una muestra de maíz a cierta profundidad de la parte superior del barco
(Rendón, 1997).

Obsérvese que en los métodos de muestreo probabilístico, para fundamentar una es-
tructura probabilística y desarrollar la teoría de muestreo, se debe disponer de un marco
de muestreo que permita la elección de las unidades mediante un procedimiento aleato-
rio. No contar con un marco por lo tardado e impráctico de su elaboración, lleva a la nece-
sidad de usar los métodos de muestreo no probabilístico, con las desventajas que ya fueron
mencionadas.

2.13. El marco de muestreo


El marco de muestreo, o marco muestral, está constituido por un listado, real o virtual, de
todas las unidades de muestreo.

..Unidad de muestreo
Cada pieza acumulada constituye la población. A veces son colecciones de ele-
mentos de la población que cubren la población completa. En ocasiones las uni-
dades de muestreo están naturalmente definidas; en otras, se definen arbitraria-
mente por quien realiza el muestreo.

27
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Idealmente, cada elemento de la población debe estar incluido en una y sólo una uni-
dad muestral. Por eso, se dice que las unidades muestrales son excluyentes entre sí y ex-
haustivas sobre la población. No siempre se satisface cabalmente esta condición ideal y su
aceptación depende de las condiciones en que se suscite.

A veces no todas las partes de la población quedan incluidas en alguna unidad mues-
tral, como en la evaluación de recursos mediante parcelas de muestreo circulares. Podría
ser intrascendente si las partes que quedan excluidas no presentan una característica dis-
tintiva del resto de la población y las inferencias todavía se pueden aceptar como aplicables
a la población. Sin embargo, en otras aplicaciones puede ser decisivo el hecho de no incluir
algunas partes de la población en la muestra si esas partes excluidas se distinguen de las
partes incluidas en alguna unidad de muestreo, y por lo tanto en el marco, entonces las es-
timaciones serán sesgadas, o bien solamente serán aplicables a la población definida por
el propio marco de muestreo. Si en las Ciencias Sociales se aplica una encuesta telefónica
a una cierta población, debe quedar claro que los resultados solamente son aplicables a la
población constituida por las personas en hogares que tienen teléfono y no a toda la pobla-
ción, ya que tener teléfono puede representar una diferencia importante.

Hacer el listado de las unidades muestrales que conforman la población parece una la-
bor simple, pero en la práctica es una tarea muy complicada, porque algunas poblaciones
tienen características que demandarán tareas particulares al momento de obtener el mar-
co de muestreo. El marco de muestreo es real o virtual porque en ocasiones se puede tener
físicamente la lista de todas las unidades, mientras que en otras bastaría con tener la posi-
bilidad de generarlo para lograr el objetivo propuesto.

Entenderemos que el marco de muestreo contiene una identificación única o etiqueta


para cada unidad de muestreo, como puede ser un número progresivo desde 1 hasta N ,
donde N representa el número total de unidades muestrales de la población. Además es
importante que se tenga el nombre completo, dirección, ocupación, sexo, localización geo-
gráfica de cada unidad de muestreo para facilitar el levantamiento de la encuesta cuando
las unidades muestrales son individuos.

2.14. Pasos a seguir en el diseño de una encuesta


1. El planteamiento de objetivos
Al empezar a diseñar un plan de muestreo o una encuesta, es importante que se de-
finan los objetivos, pues permitirán mantenerse en una línea de investigación sin
perder tiempo con demasiados detalles.

2. La población bajo muestreo


Es trascendental que se definan desde el principio las unidades muestrales que serán
tomadas en cuenta y se establezcan reglas claras para que el encuestador las iden-

28
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

tifique al momento de ubicarlas y hacer la medición. Recuérdese que la población


que se quiere muestrear debe coincidir con la población sobre la cual se desea tener
información.

3. La característica de la realización de la encuesta o mediciones

Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y


que no se omitan datos esenciales. Particularmente, en el caso de poblaciones hu-
manas existe la tendencia a hacer un número excesivo de preguntas innecesarias;
nótese que un cuestionario demasiado largo produce una baja general en la calidad
de las respuestas, tanto en las preguntas importantes como en las secundarias.

4. El grado de precisión deseado

Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de in-
certidumbre porque sólo se mide una parte de la población. Esta falta de certeza se
puede reducir al aumentar la muestra y emplear mejores dispositivos de medición.
Sin embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación
del grado de precisión deseado es un paso decisivo en la preparación de la encues-
ta o muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos,
ya que es quien suele entender la magnitud del error tolerable de una encuesta para
hacerla compatible con una buena decisión.

5. Los métodos de medición

Podemos escoger el método de medición y el método de inspección de la población.


Los datos del estado de salud de una persona se pueden obtener de sus declaracio-
nes, o de un examen médico. La encuesta puede emplear un cuestionario autoadmi-
nistrado, entrevista en la que los entrevistadores simplemente lean un cuestionario
prescrito o una entrevista no estructurada. La inspección puede hacerse por correo,
visitas personales, teléfono o una combinación de los tres medios.

Una parte importante del trabajo preliminar es la construcción de las formas de re-
gistro donde se asientan las preguntas y las respuestas. En los cuestionarios sencillos
a veces es posible precodificar las respuestas, es decir, colocarlas de tal modo que se
puedan transferir rutinariamente a una computadora. De hecho, para la construc-
ción de buenas formas de registro se necesita proveer de la estructura de las tablas de
resúmenes finales para obtener las conclusiones.

En seguida, se enumeran algunos puntos que se deben tomar en cuenta para el dise-
ño de cuestionarios. Sin embargo, si se va a elaborar un cuestionario, consúltense a
Tanur (1993) y Blair y Presser (1993), dos referencias útiles sobre este tema, debido a
que los puntos que aquí se presentan son muy generales:

29
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

a) Decida lo que quiere escribir; éste es el paso más importante para redactar un
cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se mo-
tive a las personas de la muestra a responder sin problema alguno.
b) Siempre verifique sus preguntas, antes de realizar la encuesta. Lo ideal es que
las preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferen-
tes versiones de las interrogantes y pregunten a los entrevistados en la prueba
preliminar la forma en que interpretaron las preguntas.
c) Elabore las preguntas de manera sencilla y clara. Las preguntas que a usted pue-
den parecerle claras tal vez no lo sean para quien las escucha por teléfono o para
alguien que hable otro idioma. Con una muestra de 53 personas, Belson (1981,
240) probó la pregunta ¿Qué proporción de tiempo que ve la televisión lo dedica
a ver noticias? Sólo 14 de ellas interpretaron de manera correcta la palabra pro-
porción como porcentaje, parte o fracción. Otras las interpretaron como cuánto
tiempo o cuáles programas de noticias ve.
d) Utilice preguntas específicas en lugar de preguntas generales, de ser posible.
e) Relacione las preguntas que elabore en el concepto de interés.
f ) Decida si debe utilizar preguntas abiertas o cerradas.
g) Informe sobre la pregunta que se planteó realmente.
h) Evite preguntas que induzcan o motiven al entrevistado a decir lo que usted
quiere escuchar.
i) Utilice preguntas de opción forzosa.
j) Plantee sólo un concepto en cada pregunta.
k) Preste atención al efecto del orden de las preguntas.

6. El marco de muestreo
Antes de seleccionar la muestra, debemos dividir la población en unidades de mues-
treo. Éstas deben cubrir toda la población y no traslaparse en el sentido de que todo
elemento de la población pertenezca a una y solamente una unidad. Algunas veces
la unidad apropiada es obvia, en otras no es sencillo escoger lo que será la unidad
de muestreo. En el muestreo de los residentes de una ciudad, por ejemplo, la unidad
puede ser una persona, los miembros de una familia o las personas que viven en una
manzana. En el muestreo de una cosecha de limón la unidad puede ser un lote, una
parcela o un área de terreno cuya forma y dimensiones son nuestra elección.

7. La selección de la muestra
Existe actualmente una gran variedad de planes para seleccionar una muestra. Por
cada plan considerado se pueden hacer estimaciones del tamaño de la muestra par-
tiendo de un conocimiento del nivel de precisión deseado y la varianza de la pobla-
ción. Los costos relativos y el tiempo empleado en cada plan se estudian antes de
tomar una decisión (Lohr, 2000).

30
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

8. La encuesta piloto
Es de gran utilidad para probar el cuestionario y los métodos de campo en pequeña
escala. Esto casi siempre ayuda a mejorar el cuestionario y puede evitar otros proble-
mas serios, por ejemplo, que el costo fuera más que el esperado.

9. La organización del trabajo de campo


Las encuestas extensas tienen muchos problemas administrativos. Se debe supervi-
sar al personal y entrenarlo para que aplique las encuestas y los métodos de medición
apropiadamente. De ahí que sea útil un procedimiento de verificación previo de la
calidad de las respuestas, o sea, tener un plan para considerar respuestas en blanco.
(Lohr, 2000).

10. Resumen y análisis de los datos


Después de realizar la encuesta debe revisarse con la esperanza de corregir errores o,
cuando menos, desechar datos equivocados. Habrá que decidir respecto al cálculo en
caso de omisión de respuestas o la eliminación de datos durante la revisión. Después
se hacen los cálculos para las estimaciones. Como vimos, los mismos datos pueden
servir para diferentes métodos de estimación.
Un consejo práctico para la presentación de los datos es informar acerca de la magni-
tud esperada del error en las estimaciones más importantes. Una de las ventajas del
muestreo probabilístico es que se pueden hacer tales enunciados (el error esperado).

11. La información para encuestas futuras


Cuanta más información de una población se tenga inicialmente, más fácil será el
diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida
es una guía potencial de futuros muestreos por los datos que revela sobre la media, la
desviación estándar y la naturaleza de la variabilidad de las medidas principales, así
como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente
si se prevé lo necesario para reunir y registrar ese tipo de información.
Hay otro aspecto importante en el que una muestra completa facilita la obtención de
otras posteriores: el encuestador habilidoso aprende a reconocer los errores de eje-
cución y a evitar que se repitan.

2.15. Ventajas y desventajas del muestreo

Ventajas

El objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear recur-
sos mínimos para obtener determinada información, o bien en conseguir la máxima infor-
mación con recursos prefijados (Bradburn,1998).

31
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en los
siguientes puntos:

Se empleará el muestreo cuando la población sea tan grande que el censo exceda las
posibilidades del investigador.

Se tomarán muestras cuando la población sea suficientemente uniforme como para


que cualquier muestra dé una buena presentación de la misma.

Se tomarán muestras cuando el proceso de medida o investigación de los caracteres


de cada elemento sea destructivo (consumo de un artículo para juzgar su calidad,
determinación de una dosis letal, etcétera).

Se utilizará el muestreo cuando las personas respondan con desagrado y así dismi-
nuir el número de elementos que serán encuestados.

Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el cos-
to absoluto como el costo relativo (con relación a la cantidad de información obteni-
da). Este criterio suele conocerse como el criterio de economía.

El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al valor
real de la característica en estudio) resulta ser muy buena. Este criterio suele cono-
cerse con el nombre de criterio de calidad.

El muestreo es conveniente cuando la formación del personal y la intensidad de los


controles y supervisión son onerosos.

En general, el muestreo será conveniente cuando constituya la solución de mayor efi-


ciencia en el sentido del costo-beneficio.

Desventajas

A veces, el muestreo no es muy conveniente (Bradburn,1998). Por ejemplo:

Cuando se necesita información de todos los elementos que conforman la población.

Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo probabilís-
tico.

El muestreo exige menos trabajo material que una investigación exhaustiva, pero más
refinamiento y preparación (conocimientos adecuados de los diseñadores y prepara-
ción de los entrevistadores, inspectores y supervisores), lo que puede suponer un uso
limitado.

Cuando el costo por unidad sea mayor en las encuestas que en los censos y aconseje
desestimar los métodos de muestreo.

32
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

2.16. Las características deseables en una investigación por


muestreo
Las características óptimas a las cuales deberían ajustarse las investigaciones por mues-
treo, son las siguientes:

Precisión: la proximidad al valor verdadero de las características poblacionales estimadas.

Pertinencia: la capacidad de los resultados estadísticos obtenidos por muestreo para com-
pletar la información faltante.

Oportunidad: la utilidad de un estudio estadístico en función de su disponibilidad en el


tiempo (puntualidad, rapidez y actualidad). En el caso de censos y grandes encuestas es
aconsejable la publicación de resultados preliminares basados en muestras.

Accesibilidad: aunque se disponga de un banco de datos informatizado, puede haber di-


ficultades legales para utilizarlo (la protección de la privacidad, el secreto estadístico y la
Ley de la Función Estadística Pública). La información obtenida por muestreo ha de ser to-
talmente accesible, así como tener en cuenta la legislación vigente al momento de diseñar
estudio por muestreo.

Detalle y cobertura: la población que posee datos extensos puede complementar una in-
vestigación exhaustiva con una muestra.

Economía: las consideraciones sobre costos en las diferentes etapas de planificación, el le-
vantamiento y procesamiento de datos, la evaluación, el análisis y la publicación pueden
indicar la inconveniencia de una investigación exhaustiva. Luego, este criterio ha de tener-
se siempre presente a la hora de planificar una investigación por muestreo.

Integración: hay que tener una buena concepción global de la información y una buena
comparabilidad. La información obtenida en la investigación por muestreo ha de ser inte-
grable y comparable con otras informaciones existentes o futuras.

2.17. Errores de las encuestas


En general, en las encuestas puede haber varias fuentes de error (Bradburn,1998), como las
siguientes:

1. Error de muestreo o de estimación. Error que surge cuando sólo se miden las unidades
de una muestra de la población, es decir, cuando sólo se estudia una fracción de la
población. Este error es particular para cada una de las muestras posibles de tamaño
n, y se define como la diferencia entre el valor del estimador y el valor del parámetro.

33
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

2. Error de marco. Es el que se presenta debido a los problemas en la elaboración del


marco de muestreo. Tales problemas ocurren al construir marcos incompletos, al no
incluir todas las unidades de muestreo que son de interés, o bien al incluir unidades
ajenas a la población.

3. Error de respuestas en blanco. Este error se presenta a consecuencia de las fallas u


obstáculos para medir algunas unidades de la muestra seleccionada. Así, la respuesta
en blanco puede ocurrir por omisión o no localización de algunas unidades, así como
por la renuncia o imposibilidad de medir algunas unidades.

4. Error de medición. Ocurre al medir las características de una unidad. Se presenta por-
que el método de medición puede estar sesgado o es impreciso y algunas veces, como
en el caso de poblaciones humanas, algunas características son difíciles de medir, ya
sea porque la persona entrevistada no posee la información exacta o da una respues-
ta incorrecta a la característica de interés. Tal es el caso, por ejemplo, en la medición
del ingreso familiar, el padecimiento de cierta enfermedad, el número de abortos por
persona, las ganancias obtenidas en el negocio anterior, etcétera.

5. Error de procesamiento. Es el error que se puede cometer en la edición, codificación


y tabulación de la información obtenida de la encuesta. Cuando la información se
recolecta mediante una enumeración total se está expuesto a cometer los cuatro úl-
timos errores. Si la recolección se realiza mediante un muestreo, entonces estaremos
expuestos a los cinco errores y en tal caso a los cuatro últimos se les denomina errores
no debidos al muestreo.

2.18. Muestra preliminar o piloto


Una muestra preliminar o piloto es una muestra que antecede a la definitiva, cuya selección
se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se utilizará en
el estudio definitivo.

La muestra preliminar juega un papel importante en el diseño de un estudio por mues-


treo, ya que será la fuente de información más inmediata para:

1. Tener una primera aproximación de los costos que se involucran en el estudio.

2. Tener una primera aproximación del tiempo que llevará la realización del estudio.

3. Estimar los parámetros involucrados en la determinación del tamaño de muestra,


usualmente la varianza y el coeficiente de variación.

4. Probar la factibilidad de: los métodos de selección de las unidades muestrales, la me-
dición de las variables y otros aspectos prácticos.

5. Probar la factibilidad del cuestionario y la calidad del marco de muestreo.

34
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

6. Definir la precisión de los estimadores cuando no se tiene idea de los valores entre
los cuales ésta (precisión) puede considerarse razonable.

Algunos autores sugieren que la muestra preliminar podrá considerarse como parte de
la muestra definitiva, solamente cuando los métodos de selección, medición, incluyendo el
cuestionario y el marco de muestreo, no hayan sufrido cambios o modificaciones severas.

2.19. La precisión de la estimación


Cuando realizamos un estudio por muestreo es importante preguntarnos cuál es la canti-
dad de error tolerable o la precisión de la estimación. La persona que utilizará los resultados
del muestreo debe definir el error, pues conoce el fenómeno en cuestión y lo delicado de
las conclusiones que se desprendan del análisis. Así, en el muestreo probabilístico es usual
referirse a la precisión de la estimación en los términos siguientes:

a) Como un límite máximo que se fija de antemano para la varianza, la desviación es-
tándar o el coeficiente de variación del estimador. En este libro, este límite máximo
para todos los diseños de muestreo a estudiar se fijará en términos de la desviación
estándar del parámetro de interés.

b) Como un límite máximo de error y una confiabilidad, ambos establecidos de ante-


mano.

De igual manera es común denominar al error máximo como precisión del estimador,
ésta se define como:

Precisión: es el alejamiento o distancia máxima que el investigador está dispuesto a aceptar


entre el estimador y el parámetro correspondiente (Cochran, 1985). De este modo, θ deno-
ta al parámetro y θ̂ su estimador; entonces, la precisión del estimador, denotada por d , se
define como:

d = |θ̂ − θ|

Esto significa que debemos especificar que θ y θ̂ difieren en valor absoluto en una cantidad
menor que d .

Confiabilidad: es el grado de seguridad deseado en la precisión, y se mide en términos de


probabilidad, aunque se interpreta con base en el muestreo repetido (Cochran, 1985). Así,

1 − α = confiabilidad,

donde α toma valores entre 0 y 1. La confiabilidad, generalmente, se expresa en porcentaje


y los valores usuales son desde 80 %, observándose con más frecuencia 90 % y 95 %.

35
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El postulado probabilístico siguiente especifica la relación entre los términos precisión


y confiabilidad:
P ⌊|θ̂ − θ| ≤ d ⌋ = 1 − α,
que es igual a
P ⌊−d ≤ θ̂ − θ ≤ d ⌋ = 1 − α (2.1)
La ecuación anterior indica que la probabilidad de que la diferencia entre el estimador
y el parámetro tome valores dentro de un intervalo delimitado por los valores −d y d , es
1 − α. La determinación de un límite específico con su confiabilidad asociada (1 − α) nos
ayuda a comparar diseños diferentes (métodos de selección de la muestra) para especificar
el procedimiento que dé la precisión deseada con un costo mínimo.

Elementos para elegir la precisión o margen de error

Para los investigadores inexperimentados en el diseño de encuestas donde se necesitan


muestras, fijar la precisión es una labor confusa. En muchas ocasiones los investigado-
res no saben cuánto grado de precisión desean ni tienen idea alguna de la respuesta. Sin
embargo, la elección adecuada de la precisión es fundamental para la toma de decisiones
acertadas, por lo que a continuación damos algunos elementos para su determinación.

Si la variable a medir es dicotómica recomendamos una precisión menor del ocho por
ciento. Por ejemplo, si se desea estimar y comparar los porcentajes de personas que tie-
nen diabetes en dos estados de la República Mexicana, podríamos elegir una precisión de
cinco por ciento; sin embargo, si se tiene información de que los porcentajes en ambos es-
tados son muy similares para poder tomar una decisión más certera sobre si el porcentaje
de diabéticos entre los estados es distinto, debemos de elegir un porcentaje de error mas
pequeño digamos 2.5 %, para poder discriminar con mayor confiabilidad. Ahora, suponga
que la Secretaría de Economía desea estimar en el país el porcentaje de familias que tienen
ingresos menores de 2,000 pesos mensuales para conocer el porcentaje de familias que vi-
ven en extrema pobreza, por tanto en este caso se puede elegir una precisión de 7 % y con
los resultados obtenidos se tendrá una imagen bastante clara del porcentaje de familias en
esta situación. Sin embargo, si la Secretaría de Economía además persigue implementar un
programa para subsidiar con 1,000 pesos mensuales a cada una de las familias en este es-
trato, una estimación con un error de 7 % puede provocar que al momento de implementar
dicho programa el presupuesto para tal fin no alcance, por lo que se sugiere un error más
pequeño.

Si la variable respuesta es continua, de igual manera se recomienda una precisión me-


nor de 8 % del promedio verdadero o estimado. Esto significa que para poder estimar la
precisión del promedio o el total, se necesita tener idea del valor verdadero del promedio
o total; en caso de que no se tenga idea alguna, se pueden estimar a partir de una muestra
preliminar (piloto). Por ejemplo, suponga que un nutriólogo desea estimar el promedio de

36
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

calorías consumidas de niños de seis años en el estado de Colima, como experto sabe que
el consumo promedio de calorías por niño debe ser de 400. Por lo tanto, él puede elegir
una precisión de 20 calorías, que representa el 5 % del promedio de consumo recomenda-
do (d = 0.05 ∗ 400 = 20). En este caso, el nutriólogo es un experto y tiene una idea bastante
clara del valor del promedio, pero suponiendo que no tiene la más remota idea de este va-
lor, él puede estimar este promedio con una muestra piloto y obtener su precisión también
multiplicando el 0.05 por el promedio de la muestra preliminar. Ahora, suponga que un
investigador desea conocer el consumo promedio en pesos de energía eléctrica por hogar
en el estado X. Además, suponga que no tiene la mínima idea de ello, por lo tanto pue-
de proceder a consultar a un experto en el tema o realizar un muestreo piloto y con base
en esto, tener una estimación tentativa del promedio. Suponga que ya obtuvo el prome-
dio preliminar (500 pesos mensuales por hogar), por lo tanto la precisión que utilizará para
calcular su muestra definitiva será igual a 25 que equivale a 5 % del promedio preliminar
d = 0.05 ∗ 500 = 25. Si además, el investigador desea comparar en dicho estado los con-
sumos promedios entre los distintos municipios que sabe tienen un desarrollo económico
similar, quizá sea necesario una precisión más pequeña. Por el contrario, si desea comparar
los municipios del norte, centro y sur que, de antemano, sabe que son distintos, la preci-
sión podría ser aceptable.

Por otro lado, si el parámetro que se desea estimar es el total ya sea a partir de variables
dicotómicas o continuas, se procede de igual forma y se recomienda un error menor del 8 %
del total preliminar. Por ejemplo, si se desea estimar el total de drogadictos en el estado de
Colima en el año 2008, para fijar la precisión necesitamos una estimación tentativa del to-
tal. Supongamos que éste es de 5,000, por lo tanto la precisión será d = 0.05∗5, 000 = 250, es
decir, 5 % del total preliminar. Esta forma de estimar la precisión del total es exactamente la
misma (d=(porcentaje/100) × valor preliminar del parámetro a estimar) que para estimar la
precisión para una proporción o un promedio. Por lo tanto, el lector debe siempre recordar
que la precisión se debe de calcular para el parámetro de mayor interés en su investigación,
ya que de lo contrario, debe de determinar una precisión para cada parámetro y con ello
obtener más de un tamaño de muestra, lo cual además de desgastarlo lo puede confundir.
También, hay que dejar claro que si se determina la precisión usando la expresión que pre-
sentamos anteriormente, (d=(porcentaje/100) × valor preliminar del parámetro a estimar),
el tamaño de muestra requerido usando el mismo porcentaje de error para estimar la pro-
porción o total será igual. Lo mismo ocurrirá con el tamaño de muestra para el promedio y
el total. A esta forma de fijar la precisión se le llama precisión relativa.

Por último, es importante mencionar que el nivel de precisión se decidirá por la can-
tidad de recursos disponibles para el estudio, ya que se pueden obtener resultados muy
confiables con precisiones muy bajas, pero ello implica mayores costos. Por otro lado, para
estimar la precisión sugerimos extraer una muestra piloto que permita obtener estimacio-
nes preliminares de los parámetros, conocer la calidad del cuestionario, las dificultades de
los encuestadores, los problemas del marco de muestreo y otros detalles que nos auxilien
en el diseño de la encuesta definitiva. Finalmente, también es importante dejar claro que

37
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

en la mayoría de encuestas donde se trabaja con personas, los márgenes de error más usa-
dos son 3 % y 5 %, ya que garantizan resultados bastante confiables y costos razonables.

2.20. Uso de tablas para la distribución normal estándar y


t -Student

Distribución normal estándar para n > 30

Es conveniente mencionar que cuando el tamaño de la muestra es mayor a 30 elementos,


los valores de la distribución t -Student son muy cercanos a los de la distribución normal
estándar, por lo cuál a menudo se utilizan los valores de esta última distribución en vez
de la primera. Se debe tener presente que Z representa a una variable aleatoria que tiene
una distribución normal, con media cero (µ = 0) y desviación estándar uno (σ = 1), mejor
conocida como distribución de probabilidad normal estándar. Casi siempre se usa la letra
Z para indicar esta variable aleatoria normal especial. Como con otras variables aleatorias
continuas los cálculos de probabilidad con cualquier distribución normal, se llevan a ca-
bo determinando las áreas bajo la gráfica de la función de densidad de probabilidad, por
ejemplo supongamos que se requiere encontrar:

a) La probabilidad de que una variable aleatoria de una distribución normal estándar


sea menor a 1.75, es decir, P (Z < 1.75). Para encontrar tal probabilidad usamos el
cuadro A.1 (en el apéndice), en el cual nos ubicamos en la hilera correspondiente al
valor de 1.70 de Z sobre la primera columna y en la columna correspondiente al valor
de 0.05 de Z sobre la primera hilera, e interceptando la hilera y columna ya ubicadas,
encontramos que la probabilidad correspondiente es igual a 0.9599 (cuadro 2.1).

Cuadro 2.1 Primer ejemplo para el uso de las tablas de la normal estándar

Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0

b) La probabilidad de que una variable aleatoria normal estándar se encuentre entre


1.64 y 1.98 se representa como P (1.64 < Z < 1.98). Encontrar P (1.64 < Z < 1.98) es re-
lativamente sencillo solamente recordando la siguiente relación: P (1.64 < Z < 1.98) =

38
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

P (Z < 1.98) − P (Z < 1.64), con la cual únicamente es necesario hacer lo que se hi-
zo en el inciso a) para cada componente de la resta. Por tanto, al obtener de las ta-
blas P (Z < 1.98) = 0.9761 y P (Z < 1.64) = 0.9495 se tiene que P (1.64 < Z < 1.98) =
0.9761 − 0.9495 = 0.0267 (véase el cuadro 2.2).

Cuadro 2.2 Segundo ejemplo para el uso de las tablas de la normal estándar

Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
1.60 0.9552 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.80 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
.. .. .. .. .. .. .. .
.. .
.. .
.. ..
. . . . . . . .
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
0

c) Ahora, supóngase que se requiere encontrar el valor de Z0 tal que la probabilidad de


que una variable aleatoria normal estándar sea igual a 0.975, es decir, P (Z > Z0 ) =
0.975. En este caso, se procede de manera inversa al inciso a), es decir, ahora se tiene
la probabilidad y se busca el valor de Z0 . Por lo tanto, se busca en el cuadro A.1 el
valor de probabilidad más cercano a 0.975 y se encuentra que éste es exactamente el
mismo (0.975). En seguida, se obtienen los valores de Z para este valor de la columna
e hilera en que se ubica. En este caso, el valor de Z en la columna es de 0.06 y en la
hilera 1.90, por lo que Z0 = 1.90 + 0.06 = 1.96 (véase un ejemplo en el cuadro 2.3).
Sin embargo, hay que tener presente que en la práctica el investigador la confiabi-
lidad (1 − α), para la cual se debe encontrar el valor de Z0 . Por ello, a continuación se
muestra cómo llegar a partir de una confiabilidad especificada al valor de Z0 = Zα/2 .

Suponga que el investigador selecciona una confiabilidad de 90 %. Así, el nivel de


significancia en términos de proporción será α = 0.1, lo que implica que el valor de
tablas que se busca es Z0 = Zα/2 = Z0.05 , que expresado en términos de probabilidad
es equivalente a encontrar Z0.05 tal que P (Z < Z0.05 ) = 0.95. Por lo tanto, se busca en
el cuadro A.1 el valor de probabilidad más cercano a 0.95 y se encuentra que es igual
a 0.9495. Luego, para éste valor se obtienen los valores de Z de la columna e hilera
en que se ubica; en este caso el valor de Z en la columna es de 0.04 y en la hilera de
1.6, por lo que Z0 = Zα/2 = Z0.05 = 1.6+0.04 = 1.64 (véase un ejemplo en el cuadro 2.3).

39
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 2.3 Tercer ejemplo para el uso de las tablas de la normal estándar

Z
Z .0 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
1.40 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
1.60 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
0

A continuación, suponga que ahora el investigador selecciona una confiabilidad


de 85 %; este implica que α = 0.15. Por lo tanto, el valor de tablas que se busca es
Z0 = Zα/2 = Z0.075 ; en términos de probabilidad, buscamos Z0 tal que P (Z < Z0 ) =
1 − 0.075 = 0.925. Nuevamente, en el cuadro 2.3 se busca el valor de probabilidad
más próximo a 0.925. En seguida, se obtienen los valores de Z para este valor de la
columna e hilera en que se ubica. Para este caso el valor de Z en la columa es igual a
0.04 y el de la hilera 1.4. De esta manera, Z0 = 1.4+0.04 = 1.44. Es importante enfatizar
que al usar esta tabla no se obtienen valores exactos, sino aproximados.
Finalmente, para facilitar el uso del cuadro A.1, en el cuadro 2.4 se presentan los
valores de Zα/2 para los niveles de confianza más comunes.

Cuadro 2.4 Valores de Zα/2

Nivel de α α /2 Z α/2

90.0% 0.100 0.0500 1.6449


95.0% 0.050 0.0250 1.9600
97.5% 0.025 0.0125 2.2414
99.0% 0.010 0.0050 2.5758
0

Distribución t -Student para n ≤ 30

Si el investigador establece una confiabilidad de 1 − α con un un tamaño de muestra n, el


valor de tablas que se desea es t 0 = t (n−1,α/2) , que en términos de probabilidad equivale a

40
C ONCEPTOS BÁSICOS DE ESTADÍSTICA

encontrar t 0 = t (n−1,α/2) tal que P (t < t 0 = t (n−1,α/2) ) = 1−α/2. Para hallar éste valor se usa el
cuadro 2.5, cuyos valores corresponden a una distribución t -Student con ν = n − 1 grados
de libertad que deja una probabilidad a la derecha de ellos de α/2. Por lo tanto, para usar
la tabla se requiere únicamente los valores de α/2 y los grados de libertad que se obtienen
en función del tamaño de la muestra; para lo casos abordados en este texto ν = n − 1. Ense-
guida, en la primera columna se localizan los grados de libertad ν y en la segunda hilera el
valor de α/2, y en la intercepción de esta hilera y columna se obtiene el valor de t 0 .

Por ejemplo, suponga que un investigador fija para su estudio una confiabilidad de 90 %
y que cuenta con un tamaño de muestra de n = 6; esto implica que α = 0.1 (en términos de
proporción); entonces, el valor de tablas que se desea es t 0 = t 6−1,0.05 , es decir, se busca el
valor de t 0 tal que P (t < t 0 ) = 1 − 0.05 = 0.95. Para encontrar dicho valor de t 0 , en el cuadro
2.5 se busca en la primera columna los ν = 6−1 = 5 grados de libertad y en la segunda hilera
el valor α/2 = 0.05 y en la intercepción se obtiene el valor de t 0 = 2.0150.

Para cerciorarnos de que no habrá dudas para obtener los valores t 0 de tablas damos
otro ejemplo. Suponga que otro investigador fija para su estudio una confiabilidad de 98 % y
cuenta con un tamaño de muestra de n = 16. Por lo tanto, α/2 = 0.01 y el valor de tablas que
se desea es t 0 = t (15,0.01) , que es equivalente a buscar el valor de t 0 tal que P (t < t 0 ) = 1−0.01.
Para encontrar ese valor, en el cuadro 2.5 se busca en la primera columna los ν = 16−1 = 15
grados de libertad y en la segunda hilera el valor de α/2 = 0.01, y en la intercepción de ésta
hilera y columna se obtiene el valor de t 0 = 2.6025.

Cuadro 2.5 Ejemplo para el uso de las tablas de la distribución t-Student

α/2
ν 0.2500 .100 .050 0.025 .01 0.005 000.0025 00.001 0.09
001
. 1.0000
. 3.0777
. 6.3138
. 12.7062
. 31.8205 63.6567 127.2113 318.3088 636.6192
.. .. .. .. .. .. .. .. .. ..
. . . . .
005 0.7267 1.4759 2.0150 02.5706 03.3649 04.0321 004.7733 005.8934 006.8688
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
015 0.6912 1.3406 1.7531 02.1314 02.6025 02.9467 003.2860 003.7328 004.7028
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . .
180 0.6759 1.2863 1.6534 01.9732 02.3472 02.6034 002.8421 003.1361 003.3454
210 0.6757 1.2856 1.6521 01.9713 02.3442 02.5994 002.8370 003.1295 003.3375

41
C APÍTULO

3
Muestreo aleatorio simple

Que el muestreo es imperfecto,


no lo vengo a discutir.
Pero es el mejor amigo,
que te ayuda a decidir.
OAML

E L muestreo sirve para determinar, de la mejor manera, las características que describan
a la población. La cantidad de información que la muestra aporte depende del tamaño
de ésta y de la variabilidad existente entre los elementos de la población en cuanto a la ca-
racterística o variable de interés. El evaluador decide la forma de seleccionar la muestra y
el número de unidades muestrales que se evaluarán, y con esto podrá controlar la calidad
de la información extraída y la precisión requerida.

Aunque es común en los estudios muestrales evaluar varias características o variables


simultáneamente en cada sujeto o unidad muestral, en el estudio del muestreo probabilís-
tico solamente se trabaja con una variable a la vez. Si se requiere, se pueden estudiar todas
las variables pero una por una y al final unir los resultados. Puede ocurrir el caso que de
dos o más variables se obtenga otra variable que sea de interés; ello debe considerarse co-
mo una forma de medición y la variable generada simplemente será una variable más.

Con la información proveniente de la evaluación de la muestra, podemos hacer infe-


rencias sobre la población. La validez de tales inferencias depende fundamentalmente del
diseño de muestreo, es decir, de la forma en que se obtuvo la muestra. Para que los princi-
pios de la probabilidad sean aplicables al hacer la inferencia, es necesario que la selección
de la muestra se haga mediante una técnica de muestreo probabilístico.

El muestreo aleatorio simple (MAS) es el más sencillo que veremos en este libro y nos
dará las bases para desarrollar diseños más elaborados.

43
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

3.1. Definición y tipos de muestreo aleatorio simple


La definición de MAS se refiere a que cada una de las unidades de la población tienen la mis-
ma probabilidad de ser seleccionadas (D. Raj, 1972). Si sabemos que cada muestra posible
tiene la misma probabilidad de ser elegida, nos preguntamos ¿cuántas muestras posibles
existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la selección
con reemplazo y la selección sin reemplazo.

..Definición y tipos de muestreo


Definición
Se denomina muestreo aleatorio simple o completamente al azar, al diseño que
habiendo decidido que el tamaño de la muestra será de n unidades de muestreo
(o simplemente de tamaño n), le asigna la misma probabilidad de ser la elegida
a cada una de todas las muestras posibles de ese tamaño. Es decir, cualquiera
de las muestras distintas que podemos obtener de la población tendrá la misma
probabilidad de ser elegida (Cochran, 1985).

Con reemplazo
En el muestreo con reemplazo, si el tamaño de la muestra es n y el de la po-
blación es N , existen N n muestras diferentes. El procedimiento de selección
consiste en seleccionar una unidad que tiene la posibilidad de ser incluida
nuevamente en la muestra. Esta opción genera fórmulas de estimación más
fáciles, pero en la práctica tiene poco sentido medir en más de una ocasión la
misma unidad muestral, salvo en diseños específicos u otros más elaborados en
los que las complicaciones teóricas sugieren simplificar los supuestos en que se
sustenta su análisis.

Sin reemplazo
En el muestreo sin reemplazo se pueden construir tantas muestras diferentes
como combinaciones se pueden hacer de N elementos de tamaño n (N Cn ),
cantidad que se calcula con:

N!
N Cn =
n!(N − n)!

El procedimiento de integración de la muestra difiere en que una vez selecciona-


da una unidad, ésta ya no podrá volver a ser seleccionada.

Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada muestra
posible, lo que haría suponer que todas las muestras posibles deberían configurarse antes
de seleccionarlas (sería imposible en poblaciones grandes). Simplemente obsérvese que el
número posible de muestras de una población con 100 unidades muestrales y una muestra

44
M UESTREO ALEATORIO SIMPLE

de tamaño 15, sin reemplazo, es 100 C15 = 100!/[15!(100 − 15)!] = 2.53338 × 1017 , y con re-
emplazo es 10015 = 1 × 1030 muestras posibles. Afortunadamente, la definición se satisface
simplemente dejando que cada unidad muestral tenga la misma oportunidad de ser inclui-
da en la muestra; esa probabilidad es n/N y solamente necesitamos conocer una muestra,
que será la que usaremos.

Cuando el tamaño de la población (N ) es muy grande con respecto al tamaño de la


muestra (n) y el muestreo se lleva a cabo con reemplazo, la probabilidad de que una uni-
dad muestral sea elegida dos veces es muy pequeña. De hecho, la probabilidad de elección
de cualquier unidad una sola vez también es muy pequeña; de ahí que el muestreo aleato-
rio simple con reemplazo se aproxime al aleatorio simple sin reemplazo.

En lo sucesivo consideraremos el muestreo aleatorio simple sin reemplazo, a menos


que se indique otra cosa. También, es pertinente mencionar que este diseño de muestreo
recibe diferentes nombres como muestreo simple al azar, muestreo completamente alea-
torio o muestreo irrestricto al azar.

3.2. Selección de una muestra aleatoria simple


Una vez que se ha determinado el número de elementos a extraer de la población, el paso
siguiente consiste en seleccionarlos, de tal manera que cada uno tenga la misma probabi-
lidad de ser selección.

Existen muchos métodos para este fin, entre ellos:

Tabla de números aleatorios


Este método consiste en extraer n números de la tabla que estén comprendidos entre
1 y N , para lo cual se inicia en cualquier punto de la misma elegido al azar, siguiendo
una ruta predeterminada y tomando tantas columnas como dígitos tenga N (recuér-
dese que la extracción es sin reemplazo). A continuación veamos dos ejemplos:

1. Supongamos que queremos una muestra aleatoria de 4 personas de una pobla-


ción de 15 individuos debidamente enumerados del 1 al 15. Para obtener las 4
personas, elegimos una hilera y una columna aleatoriamente del cuadro A.3 (en
el apéndice). Suponemos que la hilera seleccionada es la 23 y la columna es la
4 y decidimos utilizar los últimos dos digítos del extremo derecho del grupo de
5, que en este caso es el 10 (primer elemento de la muestra). Ahora podemos
proceder en cualquier dirección para obtener los individuos que restan en la
muestra. Si decimos proceder hacia abajo de la columna, el siguiente número
(inmediatamente debajo del 10) es el 6. Entonces, nuestra segunda persona en
la muestra sería la 6. Si seguimos, llegamos al 22, pero solamente hay 15 ele-
mentos en la población. Por consiguiente, ignoramos el 22 y continuamos hacia

45
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

abajo de la columna y nos encontramos el 15. Así, nuestra tercera persona en


la muestra es la 15. Para obtener la cuarta persona que conformará la muestra
continuamos hacia abajo de la columna y nos encontramos el 58, luego 83, 83,
59 y 96, pero recordamos que nuestra población solamente es de 15 personas,
por lo que los ignoramos y continuamos hacia abajo en la columna. Aparece un
7, así que nuestro cuarto elemento de la muestra es la persona 7.
2. Ahora supongamos que tenemos una población de 9,000 individos (enumera-
dos del 1 al 9,000) y necesitamos elegir una muestra aleatoria de 10 de ellos. De
igual manera que el ejemplo anterior, elegimos una hilera y una columna alea-
toriamente del cuadro A.3. Suponemos que la hilera seleccionada es la 5 de la
columna 6 y decidimos utilizar los últimos 4 digítos del extremo derecho del
grupo de 5, que en este caso es el 5,838 (primer elemento de la muestra). Para
obtener los restantes individuos de la muestra podemos proceder en cualquier
dirección. Si decidimos proceder hacia abajo en la columna, el siguiente nú-
mero (inmediatamente debajo del 5,838) es el 525. Entonces, nuestro segundo
individuo en la muestra sería el 525. Siguiendo, encontramos que los restantes
individuos que conformarán la muestra son: 2,351, 8,605, 2,564, 7,222, 5,232,
7,291, 393 y 4,456.

Extracción de papelitos numerados


Este método es sencillo, pero laborioso si la población es grande, y consiste en hacer
papelitos debidamente numerados entre 1 y N . Se mezclan en una bolsa y se extraen
sin reemplazo hasta completar n, el tamaño de la muestra.

3.3. Estimación de la media poblacional


Al evaluar variables cuantitativas, la media (µ) de la variable y es el parámetro que con ma-
yor frecuencia nos interesa estimar. Este parámetro tiene la siguiente definición:

N
!
yi
i =1
Media de la población = µ y = µ =
N

Otro parámetro de gran interés es el total (τ y ) de la variable y para toda la población:

N
!
Total de la población = τ y = N µ y = yi
i =1

A veces se omite el subíndice y, pues el contexto esclarece su significado. Como no tene-


mos todas las N unidades muestrales de donde proviene cada y i , usamos sus estimadores.

46
M UESTREO ALEATORIO SIMPLE

Estimador de la media y del total muestral

n
!
yi
i =1
µ̂ = ȳ = (3.1)
n
τ̂ = N ȳ (3.2)

Los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) aportados por Scheaf-
fer et al. (1987), se llaman estimaciones. Los estimadores son variables aleatorias que tienen
propiedades estadísticas derivadas de la probabilidad, mientras que las estimaciones son
simplemente números con las unidades de medición correspondientes.

Los estimadores poseen algunas propiedades estadísticas deseables como el insesga-


miento y la consistencia; sin embargo, la revisión y demostración de estas propiedades no
es tema de este libro y los interesados pueden consultar algún libro de inferencia estadísti-
ca (Mood et al., 1974).

Estimación de la varianza

La varianza es otro parámetro importante de la población, simbolizada por σ2 . Con su ayu-


da se hacen inferencias probabilísticas sobre la estimación de la media; también refleja la
variabilidad que existe entre los valores de las variables. Este parámetro se define por la
expresión:
N
!
(y i − µ)2
i =1
σ2Y = σ2 =
N −1

Al igual que µ, τ y σ2 también tiene su estimador muestral, el cual se obtiene de la


muestra. Este estimador se denota como:
n
! n
!
(y i − ȳ)2 y i2 − n ȳ 2
i =1 i =1
S 2y = S 2 = =
n −1 n −1

Estimador de la media y la varianza de la media poblacional

µ ȳ = µ (3.3)

47
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

! " 2
N − n σy
σ2ȳ = (3.4)
N n

Al no conocer los parámetros incluidos en estas expresiones (3.3 y 3.4), utilizamos sus
estimadores (Scheaffer et al., 1987).
µ̂ ȳ = µ̂ = ȳ (3.5)
! " 2 2
2 N − n Sy # n $ Sy % & S 2y
S ȳ = = 1− = 1− f (3.6)
N n N n n

El número f = n/N se llama fracción de muestreo y representa la proporción de la pobla-


ción que está incluida en la muestra, por lo que también se interpreta como la intensidad
del muestreo.

El factor (N − n)/N se denomina corrección por población finita (CPF), que también se
puede expresar como [1 − (n/N )], donde el cociente (n/N ) es la fracción de muestreo ( f ).
La importancia del factor de corrección se reduce a medida que la fracción de muestreo
se hace más pequeña, es decir, cuando la muestra representa una proporción menor de la
población. Por la reducción de esta magnitud, en ocasiones suele omitirse si la fracción de
muestreo es menor que 5 %, esto es, si f = (n/N ) < 0.05.

Con estos estimadores (3.5 y 3.6) y las propiedades de la distribución normal, podemos
establecer estimaciones por intervalo, para el promedio y el total poblacional. Esto se pre-
senta adelante con más detalle.

Estimadores del total y la varianza del total poblacional

µτ̂ = τ = N µ (3.7)

σ2τ̂ = N σ2y (3.8)

Como no conocemos los parámetros incluidos en estas expresiones (3.7 y 3.8), utiliza-
mos sus estimadores muestrales.

Estimadores del total y de la varianza del total muestral

µ̂τ̂ = τ̂ = N µ̂ = N ȳ (3.9)
! "
S 2y N − n
S τ̂2 =N 2
(3.10)
n N

48
M UESTREO ALEATORIO SIMPLE

Por lo general, la desviación estándar de los estimadores, o sea, la raíz cuadrada positi-
va de sus varianzas, se conoce como error estándar de la media y del total, respectivamente.

Estimación por intervalo

Debemos recordar que nos interesa estimar la media o el total de la población, es decir, µ
ó τ basándonos en la información de la muestra, esto es, ȳ, S 2ȳ , τ̂ y S τ̂2 , que ya hemos calcu-
lado. Asimismo, suponiendo que los estimadores ȳ y τ̂ tienen una distribución normal, la
media y el total poblacional se pueden estimar por intervalo.

Intervalo de confianza para la estimación de la media

ȳ ± t n−1,(α/2) S ȳ (3.11)

!
" # 2
N − n Sy
donde S ȳ = .
N n
Es necesario aclarar la interpretación del intervalo (3.11) y el significado de los términos
que aún no se han definido. Desde el punto de vista del muestreo repetido, significa que del
total de muestras posibles de tamaño n, aproximadamente (1 − α)100 % de ellas producirá
intervalos del tipo (3.11) que cubren el valor del parámetro, y que en (α)100 % dará interva-
los diferentes que no cubren el valor del parámetro. Nótese que cuando calculamos:

y¯0 − t n−1,(α/2) S ȳ y y¯0 + t n−1,(α/2) S ȳ

y¯0 indica el valor de la media muestral obtenido con la muestra específica. Asimismo, im-
plícitamente se acepta un error de (α)100 %, esto es, que el valor del parámetro no esté
entre tales límites. El número t n−1,(α/2) representa el valor de una variable t -Student con
(n − 1) grados de libertad y que deja del lado derecho de la curva una probabilidad de α/2.
Este valor se obtiene de la distribución t -Student.

Es necesario mencionar que cuando el tamaño de la muestra es grande, digamos mayor


de 30, los valores de t son muy similares a los de una variable aleatoria con distribución
normal estándar, por esta razón es común utilizar los valores de Zα/2 de la variable normal
estándar en lugar de los valores t n−1,(α/2) .

49
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Intervalo de confianza para la estimación del total

τ̂ ± t n−1,(α/2) S τ̂ (3.12)

! !
" # " #
S 2y N − n S 2y N − n
donde τ̂ = N ȳ, S τ̂ = N 2 =N .
n N n N

El intervalo de confianza es la referencia de mayor importancia para los resultados de


un muestreo. La anchura del intervalo nos indica la precisión que se ha logrado en la esti-
mación del parámetro de interés. Por supuesto, siempre es deseable un intervalo con poca
anchura, cuya amplitud depende del nivel de confiabilidad y del error estándar del estima-
dor. Si deseamos mayor confiabilidad, el intervalo tendría que ampliarse como resultado
de una t más grande, pero habrá una menor precisión.

Por su parte, el error estándar depende de la variabilidad de la población y del tamaño


de la muestra. El tamaño de la muestra es el factor que podemos manipular para lograr una
precisión deseada, ya que la varianza de ȳ, y por lo tanto el error estándar, es cero cuando
el tamaño de la muestra es igual al de la población.

Determinación del tamaño de la muestra

Determinar el tamaño de muestra es uno de los problemas importantes al que debe enfren-
tarse el usuario del muestreo. En la determinación de n se debe considerar tanto el aspecto
teórico como el práctico. Por un lado, es necesario identificar el parámetro que se debe es-
timar, el esquema de muestreo a utilizar, la elección del estimador y las especificaciones
del mismo. Por otro lado, el aspecto práctico tiene gran influencia en la decisión del tama-
ño de muestra a usar, ya que deben tomarse en cuenta factores como el dinero y tiempo
disponibles, el objetivo del estudio, la cantidad de información que se captará, el personal
especializado, el tipo y la calidad de los materiales, los instrumentos para las mediciones,
etcétera.

A continuación se presentará un procedimiento para calcular un tamaño de muestra y


para estimar la media poblacional o el total poblacional bajo una medida de la calidad en
la estimación. El procedimiento comprende la precisión del estimador con referencia a un
error absoluto máximo permisible (la precisión) y una confiabilidad dada.

Tamaño de la muestra para estimar la media

Vamos a estimar una sola media poblacional, digamos Ȳ , mediante su estimador ȳ bajo el
MAS , utilizando la relación de precisión y la confiabilidad de la declaración (2.1), en este

50
M UESTREO ALEATORIO SIMPLE

caso el parámetro θ = Ȳ , mientras que d y (1 − α) indican, respectivamente, la precisión


y confiabilidad fijadas de antemano por el investigador. Además, suponemos que ȳ tiene
una distribución normal y, en consecuencia, establecemos la precisión como:

d = t n−1,α/2 S ȳ (3.13)

donde t n−1,α/2 es el valor de una variable aleatoria t -Student que deja del lado derecho de
la curva una probabilidad de α/2; y S ȳ es la raíz cuadrada de la varianza de ȳ. Formalmente,
el desarrollo debe hacerse en términos de σ2 y no de S 2ȳ , pero en virtud de que el paráme-
tro no se conoce, usamos su estimador. Hay que resaltar que la precisión (3.13) se fijó en
términos de la desviación estándar, pero también se puede fijar en términos de la varianza
y el coeficiente de variación.

Por tanto, a partir de la expresión (3.13) se procede a despejar n:


!" # " #
N − n S2 2 2 (N − n)S 2
d = t n−1,(α/2) S ȳ ⇔ d = t n−1,(α/2) ⇔ d = t n−1,(α/2)
N n Nn

$ " #
2 2 n % S2 2 2 2 1 1
d = t n−1,(α/2)
1− ⇔ d = t n−1,(α/2) S −
N n n N
" #
d2 1 1 1 d2 1
2 2
= − ⇔ = 2 2
+
t n−1,(α/2) S n N n t n−1,(α/2) S N
2 2 2 2
1 N d + t n−1,(α/2) S N t n−1,(α/2) S2
= 2
⇔ n = 2
n N t n−1,(α/2) S2 N d 2 + t n−1,(α/2) S2

Por lo tanto, se obtiene una ecuación que indica cómo calcular un tamaño de muestra
para la estimación de una media poblacional, en términos de una precisión y una confia-
bilidad preestablecidas:
2
N t n−1,(α/2) S2
n= (3.14)
N d µ2 + t n−1,(α/2)
2
S2

donde:

n: tamaño de muestra para estimar la media poblacional, Ȳ . Es una muestra estimada por-
2
que no se conoce la varianza poblacional
&'n (σ ) y en( su lugar se utiliza su estimador corres-
pondiente (S ), que es igual a: S = i =1 y i − n ȳ 2 /(n − 1).
2 2 2

51
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

N : tamaño de la población, que es un valor conocido.

t n−1,α/2 : valor de una variable aleatoria t -Student o normal estándar que tiene a la derecha
de la curva una probabilidad de α/2. Este valor se conoce al fijar la confiabilidad deseada.

d µ : alejamiento máximo permitido entre el estimador y el parámetro (la precisión), el cual


es un valor conocido y establecido por el investigador.

S 2 : varianza muestral. Este valor se obtiene con los datos de una muestra preliminar de
tamaño n ′ .

Hemos usado el subíndice µ en la precisión d , para aclarar que se trata de la precisión


referida a la media; en este caso es el parámetro que se está estimando, pero podría ser que
la estimación deseada fuera otro parámetro, como el total τ o algún otro. Además, es impor-
tante mencionar que esta varianza muestral (S 2 ) será calculada con base en una muestra
preliminar de tamaño n ′ , la cual sólo será de utilidad para calcular el tamaño de muestra
definitivo, pero no para el proceso de cálculo de estimaciones por intervalo de confianza. El
tamaño de muestra preliminar n ′ se determina de manera arbitraria, pero dependerá de los
recursos económicos y humanos disponibles, así como del tiempo y las condiciones físicas
y administrativas del estudio. Está claro que a medida que se incremente n ′ la estimación
de la varianza poblacional será mejor. En caso de no realizar una encuesta piloto para la
estimación de la varianza, se proponen las dos siguientes alternativas:

Especificar el valor aproximado de la varianza con base en experiencia de estudios


anteriores.

Especificar el valor aproximado de la varianza mediante el conocimiento que se tenga


sobre la forma de la distribución y el rango de variación de los valores de la variable
bajo estudio. La figura A.1 del apéndice presenta fórmulas sencillas de las varianzas
de distribuciones a partir de la forma y el rango de variación de la variable estudiada.

En el cuadro A.1 se presentan fórmulas sencillas de las varianzas de distribuciones a


partir de la foma y el rango de variación de la variable estudiada. Deming (1966) y Kish
(1950) presentan cuadros similares.

Tamaño de muestra para estimar el total poblacional

De igual manera, con base en la relación de precisión y confiabilidad de la ecuación (2.1) y


con el parámetro θ = τ (τ̂ tiene una distribución normal):

d = t n−1,α/2 S τ̂

52
M UESTREO ALEATORIO SIMPLE
! ! " #
donde S τ̂ = N 2 [(N − n)/N ](S 2y /n) = N [(N − n)/N ] S 2y /n . Después de despejar n, se
obtiene una ecuación que indica cómo calcular un tamaño de muestra para la estimación
de un total poblacional, en términos de una precisión y una confiabilidad preestablecidas:

N 2 t n−1,(α/2)
2
S2
n=
d t2 + N t n−1,(α/2)
2
S2

n: tamaño de muestra para estimar el total poblacional.


N : tamaño de la población.
S 2 : varianza estimada en la población de interés.
d τ : precisión de la estimación del total poblacional que estamos dispuestos a aceptar.

Conviene recordar que τ = N µ y d τ = N d µ , por lo tanto, se puede usar la fórmula para


el cálculo del tamaño de la muestra que más convenga, sabiendo cómo pasar de una a otra
en las estimaciones de µ ó τ.

Ejemplos
Ejemplo 3.1 IBM produce semanalmente N = 1, 000 computadoras, de donde el gerente de calidad
seleccionó al azar una muestra n = 10 computadoras. La información sobre el núme-
ro de fallas encontradas en cada una de las computadoras se muestra a continuación:
6, 7, 9, 8, 5, 4, 7, 8, 7 y 6.

Ejemplo 3.1 a) Haga una estimación puntual del promedio de fallas por computadora.
y1 + y2 + · · · + yn
ȳ =
n
6+7+9+8+5+4+7+8+7+6
ȳ = = 6.7
10

Ejemplo 3.1 b) Calcule la varianza muestral del número de fallas (S 2 ).


$n 2 2
2 i =1 y i − n ȳ
S =
n −1
6 + 72 + . . . + 72 + 62 − 10(6.7)2
2
S2 = = 2.2333
9

Ejemplo 3.1 c) Calcule la varianza y la desviación estándar de la media muestral de las fallas.
% &% &
N −n S2
S 2ȳ =
N n

53
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS
! "! "
1, 000 − 10 2.2333
S 2ȳ= = 0.221
1, 000 10
# "
S ȳ = S 2ȳ = 0.221 = 0.4702

Ejemplo 3.1 d) Calcule un intervalo de confianza (IC) del promedio de fallas por computadora con
una confiabilidad de 95 %.

ȳ ± t n−1,α/2 S ȳ

donde ȳ = 6.7, S ȳ = 0.4702 y t n−1,α/2 = t 10−1,0.025 = 2.262.

Por lo tanto,

6.7 ± (2.262)(0.4702)
6.7 ± 1.0634
5.6366 ≤ µ ≤ 7.7634

Es decir, con una confiabilidad de 95 % se estima que el valor verdadero del promedio
de fallas por computadora está entre 5.6366 y 7.7634.

Ejemplo 3.1 e) Realice una estimación puntual del total de fallas.

τ̂ = N ȳ=(1,000)(6.7)=6,700

Ejemplo 3.1 f) Calcule un IC del total de fallas con la confiabilidad de 95 %.

τ̂ ± N t n−1,α/2 S ȳ

donde τ̂ = 6, 700, N = 1, 000, S ȳ = 0.4702 y t n−1,α/2 = t 10−1,0.025 = 2.262.

Por lo tanto,

6,700 ± (1,000)(2.262)(0.4702)
6,700 ± 1,063.4
5,636.6 ≤ τ ≤ 7,763.4

Es decir, con 95 % de confianza se estima que el total de fallas en la población está


entre 5,636.6 y 7,763.4.

Ejemplo 3.1 g) Suponga que las computadoras seleccionadas son una muestra preliminar de n ′ =
10. ¿Cuál sería el tamaño de n para estimar el promedio de fallas para que el promedio
tenga una precisión de 7 % del promedio preliminar ( ȳ) y una confiabilidad de 95 %?

54
M UESTREO ALEATORIO SIMPLE

N (t n−1,α/2 )2 S 2
n=
N d 2 + (t n−1,α/2 )2 S 2
donde N = 1, 000, t n−1,α/2 = t 10−1,0.025 = 2.262, S 2 = 2.2333 y ȳ = 6.7.

Como el valor de d no está definido en forma explícita se calcula obteniendo 7 % del


promedio preliminar ( ȳ = 6.7). Es decir, d = (0.07)(6.7) = 0.469.

Por lo tanto:

(1, 000)(2.262)2 (2.2333)


n= = 49.38
(0.469)2 + (2.262)2 (2.2333)
Entonces, n = 50 es el número estimado de unidades muestrales (computadoras) pa-
ra que la muestra tenga una precisión de ±0.469 fallas con 0.05 de probabilidad de no
incluir en el intervalo de estimación al promedio verdadero. Es decir, n = 50 compu-
tadoras es el tamaño de muestra definitivo y todos los parámetros se deben estimar
tomando en cuenta dicho tamaño de muestra. El muestreo preliminar o piloto única-
mente es útil para verificar que el cuestionario funciona bien al momento de aplicarlo,
corroborar que el marco de muestreo esté correcto y obtener una estimación de la va-
rianza. Si en el muestreo piloto se encuentra que todo funciona correctamente, ya no
se miden todas las unidades muestrales del tamaño de muestra definitivo (n), sino
solamente las faltantes (n − n ′ ) para completarlo, pues se utilizan las de la muestra
piloto (n ′ ). En este ejercicio solamente se seleccionarían 40 computadoras al azar de
la población, porque n ′ = 10.

Ejemplo 3.1 h) Suponga que las computadoras seleccionadas son una muestra preliminar de ta-
maño n ′ = 10. ¿Cuál sería el tamaño de muestra definitivo para estimar el total pobla-
cional de fallas de tal manera que sea estimado con una precisión de 7 % del total (τ̂)
y una confiabilidad de 95 %? La expresión para calcular el tamaño de muestra es:

N 2 (t n−1,α/2 )2 S 2
n=
d 2 + N (t n−1,α/2 )2 S 2
donde N = 1, 000, t n−1,α/2 = t 10−1,0.025 = 2.262, S 2 = 2.2333, τ̂ = 6, 700. También, como
el valor de d no está definido en forma explícita se calcula obteniendo 7 % del total
poblacional preliminar (τ̂ = 6, 700). Es decir, d = (0.07)(6, 700) = 469, y por lo tanto:

(1, 000)2 (2.262)2 (2.2333) 11, 427, 001.05


n= 2 2
= = 49.38
(469) + (1, 000)(2.262) (2.2333) 231, 388
Nota: La n estimada es el tamaño de muestra definitivo, por lo que sólo faltará medir
las unidades muestrales restantes considerando las que ya se midieron. Esto procede
siempre y cuando el muestreo piloto sea considerado apropiado. Esta nota es válida pa-
ra todos los ejercicios posteriores, incluso para los esquemas de muestreo presentados
en los capítulos restantes.

55
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 3.2 La directora de Intercambio Académico y Becas de la Universidad de Colima seleccio-


na una muestra de n = 15 estudiantes de la Facultad de Telemática, cuya población es
de N = 420 estudiantes, y les pregunta su gasto semanal en pesos. Los datos son: 120,
150, 100, 80, 100, 90, 60, 70, 90, 100, 50, 90, 80, 65 y 110.

Ejemplo 3.1 a) Haga una estimación puntual del gasto semanal promedio por estudiante.
y1 + y2 + · · · + yn
ȳ =
n
120 + 150 + 100 + . . . + 65 + 110
ȳ = = 90.3333
15

Ejemplo 3.1 b) Calcule la varianza muestral para el gasto (S 2 ).


!n 2 2
2 i =1 y i − n ȳ
S =
n −1
120 + 1502 + 1002 + · · · + 652 + 1102 − (15)(90.33)2
2
S2 = = 637.38
15 − 1

Ejemplo 3.1 c) Calcule la varianza y la desviación estándar de la media muestral para el gasto.
" #" # " #" #
N − n S2 420 − 15 637.381
S 2ȳ= = = 40.9745
N n 420 15
$ "
S ȳ = S 2ȳ = 40.9745 = 6.4011

Ejemplo 3.1 d) Calcule un intervalo de confianza (IC) del gasto promedio por estudiante.

ȳ ± t n−1,α/2 S ȳ

donde ȳ = 90.3333, S ȳ = 6.4011 y t n−1,α/2 = t 15−1,0.025 = 2.145.


Por lo tanto:

90.33±(2.145)(6.4011)
90.33±13.7291
76.6043≤ µ ≤104.0624

Es decir, con una confiabilidad de 95 % se estima que el valor verdadero del gasto pro-
medio por estudiante está entre 76.6043 y 104.0624.

Ejemplo 3.1 e) Realice una estimación puntual del gasto total de los estudiantes.

τ̂ = N ȳ = (420)(90.3333)= 37, 940 pesos

56
M UESTREO ALEATORIO SIMPLE

Ejemplo 3.1 f) Calcule un IC del gasto total de los estudiantes con 95 % de confianza.

τ̂ ± N t n−1,α/2 S ȳ

donde τ̂ = 37, 940, N = 420, S ȳ = 6.4011 y t n−1,α/2 = t 15−1,0.025 = 2.145.

Por lo tanto:

37,940.0 ± (420)(2.145)(6.4011)
37,940.0 ± 5,766.2222
32,173.7938 ≤ τ ≤ 43,706.2062

Es decir, el gasto total de los estudiantes estaría entre 32,173.7938 y 43,706.2062.

Ejemplo 3.1 g) Suponga que los estudiantes seleccionados son una muestra preliminar de tama-
ño n ′ = 15. ¿Cuál es el tamaño de muestra necesario para estimar el gasto promedio
por estudiante, de tal manera que el promedio tenga una precisión de ±6 pesos y una
confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2
n=
N d 2 + (t n−1,α/2 )2 S 2
donde N = 420, t n−1,α/2 = t 15−1,0.025 = 2.145, S 2 = 637.381 y d = 6.

Por lo tanto:

(420)(2.145)2 (637.381)
n= = 69
(420)(6)2 + (2.145)2 (637.381)
Por lo tanto, 69 son las unidades muestrales necesarias para tener una precisión de ±6
pesos con 0.95 de probabilidad de incluir en el intervalo de estimación al promedio
verdadero. En otras palabras, se deben seleccionar aleatoriamente n = 69 estudian-
tes, lo que garantiza que se cumplirá con la precisión especificada (d = 6 pesos) para
el promedio con una probabilidad de 0.95.

Ejemplo 3.1 h) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño
n ′ = 15. ¿Cuál es el tamaño de muestra definitivo para estimar el total poblacional del
gasto de los estudiantes tal que el total sea estimado con una precisión de 2,520 pesos
y una confiabilidad de 95 %?

N 2 (t n−1,α/2 )2 S 2
n=
d 2 + N (t n−1,α/2 )2 S 2
donde N = 420, t n−1,α/2 = t 15−1,0.025 = 2.145, S 2 = 637.381 y d = 2, 520.

57
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

(420)2 (2.145)2 (637.381)


n= = 69
(2, 520)2 + (420)(2.145)2 (637.381)

Ejemplo 3.3 El Estado de Colima tiene N = 3, 000 familias, de las cuales se seleccionó una muestra
aleatoria de n = 12. Se desea información sobre el número de hijos que cada familia
tiene en Estados Unidos. La información obtenida de cada una de las n = 12 familias
se presenta a continuación: 6, 3, 8, 5, 2, 1, 0, 1, 1, 3, 4 y 4.

Ejemplo 3.1 a) Obtener el promedio de hijos que vive en Estados Unidos, por familia.
y1 + y2 + · · · + yn
ȳ =
n
6+3+8+5+2+1+0+1+1+3+4+4
ȳ = = 3.1667
12

Ejemplo 3.1 b) Calcule la varianza muestral (S 2 ).


!n 2 2
2 i =1 y i − n ȳ
S =
n −1
6 + 32 + 82 + · · · + 42 + 42 − (12)(3.17)2
2
S2 = = 5.6061
12 − 1

Ejemplo 3.1 c) Calcule la varianza y la desviación estándar de la media muestral (S 2ȳ ).


" #" # " #" #
N − n S2 3, 000 − 12 5.6061
S 2ȳ= = = 0.4653
N n 3, 000 12
$ "
S ȳ = S 2ȳ = 0.4653 = 0.6821

Ejemplo 3.1 d) El total de colimenses que radica en Estados Unidos.

τ̂ = N ȳ=(3,000)(3.1667)=9,500

Ejemplo 3.1 e) Calcule un IC de 95 % de confianza del promedio de hijos por familia que vive en
Estados Unidos.

ȳ ± t n−1,α/2 S ȳ

donde ȳ = 3.1667, S ȳ = 0.6821 y t n−1,α/2 = t 12−1,0.025 = 2.201.

58
M UESTREO ALEATORIO SIMPLE

Ejemplo 3.1 Por lo tanto:

3.1667 ± (2.201)(0.6821)
3.1667 ± 1.5014
1.6653 ≤ µ ≤ 4.6680

Es decir, con una confiabilidad de 95 % se estima que el valor verdadero del promedio
de parientes por familia en Estados Unidos se encuentra entre 1.6653 y 4.6680.

Ejemplo 3.1 f) Calcule un IC del total poblacional con 95 % de confiabilidad.

τ̂ ± N t n−1,α/2 S ȳ

donde τ̂ = 9, 500, N = 3, 000, S ȳ = 0.6821 y t n−1,α/2 = t 12−1,0.025 = 2.201.

Por lo tanto:

9,500 ± (3,000)(2.201)(0.6821)
9,500 ± 4,504.2
4,995.9198 ≤ τ ≤ 14,004.0822

Es decir, con 95 % de confianza se estima que el total de colimenses que vive en Esta-
dos Unidos está entre 4,995.9198 y 14,004.0822.

Ejemplo 3.1 g) Suponga que la muestra es preliminar y de tamaño n ′ = 12. ¿Cuál es la muestra para
estimar el promedio de hijos por familia que radica en Estados Unidos, de tal manera
que el promedio tenga una precisión de 0.5 parientes y confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2
n=
N d 2 + (t n−1,α/2 )2 S 2
donde N = 3, 000, t n−1,α/2 = t 12−1,0.025 = 2.201, S 2 = 5.6061 y d = 0.5.

Por lo tanto:

(3, 000)(2.201)2 (5.6061)


n= = 105
(3, 000)(0.5)2 + (2.201)2 (5.6061)

Ejemplo 3.1 h) Suponga que la muestra seleccionada es una muestra preliminar de tamaño n ′ =
12. ¿Cuál es el tamaño de muestra para estimar el total de colimenses que vive en
Estados Unidos tal que el total sea estimado con una precisión de 1,500 parientes y
confiabilidad de 95 %?

59
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

N 2 (t n−1,α/2 )2 S 2
n=
d 2 + N (t n−1,α/2 )2 S 2
donde N = 3, 000, t n−1,α/2 = t 12−1,0.025 = 2.201, S 2 = 5.6061 y d = 1, 500.

Por lo tanto:

(3, 000)2 (2.201)2 (5.6061)


n= = 105
(1, 500)2 + (3, 000)(2.201)2 (5.6061)

Ejemplo 3.4 El gobernador del Estado de Colima, a través de la Secretaría de Salud, desea estimar
el total de drogadictos que hay en la entidad. El Estado tiene N = 900 colonias, de las
cuales se seleccionó una muestra aleatoria de 12 colonias en las que se investigó el
número de drogadictos. La información obtenida de las n ′ = 12 colonias se presenta a
continuación: 16, 13, 18, 15, 22, 21, 10, 11, 8, 33, 34 y 24.

Ejemplo 3.1 a) Calcule el promedio de drogadictos por colonia en el Estado.


y1 + y2 + · · · + yn
ȳ =
n
16 + 13 + 18 + 15 + 22 + 21 + 10 + 11 + 8 + 33 + 34 + 24
ȳ = = 18.75 drogadictos
12

Ejemplo 3.1 b) Calcule la varianza muestral (S 2 ).


!n 2 2
2 i =1 y i − n ȳ
S =
n −1
16 + 132 + 182 + · · · + 342 + 242 − (12)(18.75)2
2
S2 = = 71.4773
12 − 1

Ejemplo 3.1 c) Calcule la varianza y la desviación estándar del promedio muestral.


" #" # " #" #
N − n S2 900 − 12 71.4773
S 2ȳ = = = 5.8770
# N n 900 12
S ȳ = 5.8770 = 2.4242
$ #
S ȳ = S 2ȳ = 5.8770 = 2.4242

Ejemplo 3.1 d) El número total de drogadictos en el Estado.

τ̂ = N ȳ = (900)(18.75) = 16, 875

60
M UESTREO ALEATORIO SIMPLE

Ejemplo 3.1 e) Calcule un IC para el promedio de drogadictos por colonia en el Estado.

ȳ ± t n−1,α/2 S ȳ

donde ȳ = 18.75, S ȳ = 2.4242 y t n−1,α/2 = t 12−1,0.025 = 2.201.

Por lo tanto:

18.75 ± (2.201)(2.4242)
18.75 ± 5.3358
13.4142 ≤ µ ≤ 24.0858

Es decir, con una confiabilidad de 95 % se estima que el valor verdadero del promedio
de drogadictos por colonia en el Estado de Colima está entre 13.4142 y 24.0858.

Ejemplo 3.1 f) Calcule un IC para el total de drogadictos en el Estado con 95 % de confiabilidad.

τ̂ ± N t n−1,α/2 S ȳ

donde τ̂ = 16, 875, N = 900, S ȳ = 2.4241 y t n−1,α/2 = t 12−1,0.025 = 2.201.

Por lo tanto:

16,875 ± (900)(2.201)(2.4242)
16,875 ± 4,802.22
12,072.82243 ≤ τ ≤ 21,677.1776

Es decir, con 95 % de confianza se estima que el total de drogadictos en el Estado de


Colima está entre 12,072.82243 y 21,677.1776.

Ejemplo 3.1 g) Suponga que n ′ = 12 es una muestra preliminar. ¿Cuál es el tamaño de muestra con
una precisión de ±2 drogadictos y una confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2
n=
N d 2 + (t n−1,α/2 )2 S 2
donde N = 900, t n−1,α/2 = t 12−1,0.025 = 2.201 y S 2 = 71.4773, d = 2.

Por lo tanto:

(900)(2.201)2 (71.4773)
n= = 79 colonias
(900)(2)2 + (2.201)2 (71.4773)

61
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 3.1 h) Suponga que n ′ = 12 es una muestra preliminar. ¿Cuál es el tamaño de muestra pa-
ra estimar el total de drogadictos en el Estado, con una precisión de 1,800 drogadictos
y una confiabilidad de 95 %?

N 2 (t n−1,α/2 )2 S 2
n=
d 2 + N (t n−1,α/2 )2 S 2
donde N = 900, t n−1,α/2 = t 12−1,0.025 = 2.201, S 2 = 71.4773 y d = 1, 800.

Por lo tanto,

(900)2 (2.201)2 (71.4773)


n= = 79 colonias
(1, 800)2 + (900)(2.201)2 (71.4773)

Ejercicios
En los siguientes ejercicios estime el IC para el promedio y el total con una confiabilidad de 95 %.
Además, suponga que la muestra es preliminar. ¿Cuál es el tamaño de muestra para estimar el pro-
medio y el total con una precisión del 5 % de la media y el total preliminar, con una confiabilidad de
95 %?

Ejercicio 3.1 Una empacadora de mango produce por hora N =1,000 rejas. Cada reja tiene 100
mangos, donde el gerente de calidad seleccionó una muestra de n =15 rejas. La infor-
mación sobre el número de mangos dañados por reja se presenta a continuación: 4,
5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4 y 5.

Ejercicio 3.2 La Secretaría de Deportes del Estado de Colima desea estimar los alumnos a nivel ba-
chillerato de la U de C, que tienen una buena condición física, para que formen parte
de la Selección. Hay N = 500 grupos y en promedio cada grupo tiene 40 alumnos. Se
seleccionaron 9 grupos aleatoriamente que hicieron las pruebas necesarias. La infor-
mación obtenida de los alumnos seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12
y 10 (alumnos por grupo que tienen condición física adecuada).

Ejercicio 3.3 Cada hora una exportadora de limón acondiciona N = 1, 800 limones. Se desea saber
si el limón cumple con las especificaciones de tamaño, y para ello se toma una mues-
tra aleatoria de 15 limones para medirlos. Los resultados son los siguientes: 3.2, 4.8,
4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6 y 5.9.

Ejercicio 5.4 La Secretaría de Turismo del Estado de Colima desea estimar la cantidad de perso-
nas de Jalisco que visitan al Estado por día. En la caseta Guadalajara-Colima ingresan
por día N = 700 vehículos en promedio. Se seleccionan 20 vehículos aleatoriamente
y en cada uno se revisa la cantidad de personas que vienen. Los resultados son los
siguientes: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6 y 5.

62
M UESTREO ALEATORIO SIMPLE

3.4. La estimación de una proporción poblacional


Otra tarea que suele ser de interés al estudiar una población es la determinación de la pro-
porción P ó π de las unidades muestrales que pertenecen a dos grupos posibles. Por ejem-
plo, para conocer la proporción de personas analfabetas de una población, de personas que
apoyan a cierto partido político o iniciativa gubernamental, de estudiantes de la Facultad
de Telemática que tienen computadora portátil, de individuos de la Ciudad de Colima que
cree en Dios, etc. Todos estos ejemplos tienen dos opciones de respuesta: sí o no. Por lo
tanto, para calcular dicha proporción se hace la suma de todas las respuestas afirmativas
(sí) y se divide sobre el total de respuestas (sí y no), porque sólo se consideraron dos grupos
posibles. En ocasiones, son más de dos grupos a los que pueden pertenecer las unidades
muestrales; este caso no lo consideraremos aquí, pero aun así se podría analizar si se con-
sidera que una unidad muestral pertenece o no a uno de los grupos.

Esta aplicación también se conoce como muestreo por atributos, donde cada unidad de
muestreo podría pertenecer a determinado grupo debido a que posee cierto atributo.

La medición

La medición consiste en determinar si la unidad de muestreo tiene el atributo que la haría


pertenecer a la proporción que se desea conocer. Para muchos atributos tal determina-
ción puede ser muy sencilla, por ejemplo pertenecer a cierta marca en un conjunto de N
computadoras. Sin embargo, a veces es difícil determinar el atributo, por ejemplo, calificar
a un paciente como enfermo o no, es una condición en la que se presenta una graduali-
dad desde sano hasta enfermo. Es decir, el MAS para proporciones no considera los estados
intermedios, por lo que debe establecerse un criterio unívoco que permita calificar al pa-
ciente como sano o enfermo solamente.

El estimador de la proporción poblacional P y su relación con el estima-


dor de una media poblacional

Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y
que solamente puede tomar los valores de cero o uno. De esta manera podremos usar las
fórmulas de los apartados anteriores, aunque conviene adecuar la simbología. Para esto,
sea P y la proporción de la población de uno de los dos grupos que posee el atributo eva-
luado en Y . La proporción de la población, P Y , está definida por la siguiente expresión:
!N
i =1 y i A
PY = P = =
N N

63
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

donde A es el número de unidades de la población que posee el atributo. Está claro que
!
y i es igual a A, ya que si la unidad de muestreo tiene el atributo de interés aporta un va-
lor de uno y si no la tiene aporta un valor de cero.

Si se realiza un muestreo, se entiende que no se puede tener acceso a todas las N unida-
des de la población, sino solamente a las n de la muestra. Con ésta definimos un estimador
de la proporción de la población, simbolizado por P̂ = p y definido por la expresión:
!n
yi a
p y = p = i =1 = (3.15)
n n

!
De igual manera que la definición del parámetro, a = y i representa el número de uni-
dades de la muestra que tienen el atributo de interés. El complemento de P es Q = (1 − P )
en el caso de la población y de la muestra es q = (1 − p), es decir, q es un estimador de Q.

La varianza de la población para una proporción

Ahora bien, definamos la varianza de la población usando las mismas expresiones que en
el caso de una variable continua:
N
" N
"
(y i − µ)2 y i2 − N µ2
i =1 i =1
σ2Y = σ2 = = (3.16)
N −1 N −1

!N 2 !N
Como la variable sólo toma valores de cero o uno, entonces i =1 y i = i y i = N P . Así,
haciendo la sustitución en (3.16) tenemos que:

N P − N P 2 N P (1 − P ) N PQ
σ2 = = = (3.17)
N −1 N −1 N −1

! !
La expresión iN=1 y i2 = iN y i = N P en (3.17) representa el número de unidades en la
población que tiene el atributo que se desea evaluar.

Naturalmente, por ser el caso de un muestreo necesitamos un estimador de dicho pa-


rámetro, que se define por la expresión:
#!n $2
! y i a2 % a&
!n n 2 i =1
(y i − ȳ) 2 y − a − a 1 −
s 2y = i =1 =
i =1 i
n = n = n = npq (3.18)
n −1 n −1 n −1 n −1 n −1

64
M UESTREO ALEATORIO SIMPLE

!
donde a = ni=1 y i en (3.18) representa el número de unidades en la muestra que tiene el
atributo que se desea evaluar.

En la práctica, es común considerar que n −1 es aproximadamente igual a n, con lo cual


la expresión más usada para calcular la varianza muestral es: S 2y = pq.

Estimación de la varianza y el error estándar

Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua. Exis-
ten otros procedimientos que se conocen como aproximación usando la distribución nor-
mal, que implica una corrección que hemos omitido por su poca trascendencia práctica.
Así, se tiene que p se distribuye normalmente con los siguientes parámetros.

Media y varianza del estimador de P

E [P̂ ] = E [p] = P (3.19)


" #$ 2 % " #
2 N − n Sy N − n & pq '
Sp = = (3.20)
N n N n

En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce como


error estándar del estimador de la proporción.

Usando nuevamente el Teorema Central del Límite, p tiene aproximadamente una dis-
tribución normal con media P (estimada por p) y una varianza σ2p (estimada por S 2p ).

Total poblacional y varianza del estimador de τ

τ̂ = N p
" #$ % " #
2 N −n S 2y 2 N − n & pq '
S τ̂ = N =N
N n N n

La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del
estimador del total.

Los intervalos de confianza

Con el mismo procedimiento que el del caso de una variable continua obtenemos las ex-
presiones para los intervalos de confianza.

65
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El intervalo de confianza para la estimación de la proporción de la población

p ± t n−1,(α/2) S p

donde S p = [(N − n)/N ]/(pq/n).

El intervalo de confianza para la estimación del total poblacional

τ̂ ± N t n−1,(α/2) S p

donde S p = [(N − n)/N ]/(pq/n).

Varianza acotada de una proporción

Las expresiones de σ2y y de S 2p incluyen el producto PQ ó pq que condiciona al tamaño


de la varianza dado el tamaño de la población y la muestra. La varianza de la población
y del estimador se maximizan cuando P ó p son iguales a 0.5, que sucede cuando el pro-
ducto PQ = 0.25. Esta propiedad se puede emplear para suponer una varianza máxima
antes de realizar el muestreo (p = 0.5) y los resultados finales siempre serán iguales o más
precisos que lo esperado. En otras palabras, en el MAS para una proporción, cuando no se
dispone del tiempo y recursos para realizar un muestreo piloto que sirva para corroborar
el marco de muestreo, el cuestionario y los problemas relacionados con el personal para
levantar la encuesta y para estimar la varianza (S 2 = pq), se supone una varianza máxima
(S 2 = pq = (0.5)(0.5) = 0.25) para determinar el tamaño de muestra máximo (conservador).
Este método sólo debe usarse cuando se tenga un marco de muestreo confiable, un cues-
tionario validado y encuestadores experimentados.

El tamaño de muestra requerido para estimar P

Respecto al tamaño de muestra requerido, recordemos que P puede ser interpretado como
µ, según la ecuación (3.19), y con el procedimiento con que obtuvimos la ecuación (3.14),
calculamos el tamaño de muestra para estimar P y el total poblacional.

El tamaño muestral para estimar P

N [t n−1,(α/2) ]2 PQ
n=
N d p2 + [t n−1,(α/2) ]2 PQ

66
M UESTREO ALEATORIO SIMPLE

donde:

d p : la precisión de estimación de la proporción poblacional que se está dispuesto a aceptar.


P : la proporción de interés. Q = (1 − P ). Como se desconocen P y Q, se estiman con p y q,
respectivamente.

El tamaño muestral requerido para estimar el total poblacional

N 2 [t n−1,(α/2) ]2 PQ
n=
d τ̂2 + N [t n−1,(α/2) ]2 PQ

donde:

d τ̂ : la precisión de estimación del total poblacional que se está dispuesto a aceptar.


P : la proporción de interés. Q = (1 − P ). De nueva cuenta, como se desconocen P y Q, se
estiman con p y q, respectivamente.

Ejemplos
Ejemplo 3.5 Con la finalidad de estimar la proporción de estudiantes que fuman en la Facultad de
Medicina de la U de C , cuya población es de N = 430 estudiantes, se seleccionó una
muestra aleatoria de n = 80 estudiantes. Si la muestra indica que 30 de los estudiantes
seleccionados fuman, calcular lo que se solicita.

Ejemplo 3.1 a) Cuantifique la proporción verdadera de estudiantes que fuman.


!n
i =1 y i a 30
p= = = = 0.375 ó 37.5 % de estudiantes fumadores
n n 80
q = 1 − p = 1 − 0.375 = 0.625 ó 62.5 % de estudiantes no fumadores

Ejemplo 3.1 b) Halle la desviación estándar de la proporción muestral (S p ).


"# $
N − n % pq &
Sp =
N n
donde N = 430, n = 80, p = 0.375 y q = 0.625. Sustituyendo estos valores en la ecua-
ción anterior, se tiene que:
"# $# $
430 − 80 (0.375)(0.625) "
Sp = = (0.8139)(0.0029) = 0.0488
430 80

67
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 3.1 c) Calcule un IC de 95 % para la proporción verdadera.

p ± Zα/2 S p

donde p = 0.375, S p = 0.0488 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

0.375 ± (1.96)(0.0488)
0.375 ± 0.09565
0.2793 ≤ P ≤ 0.4707

Con 95 % de confianza se estima que la proporción verdadera de estudiantes que


fuman en la Facultad de Medicina está entre 0.2793 y 0.4707, es decir, entre 27.93 y
47.07 %.

Ejemplo 3.1 d) Estime el total verdadero de estudiantes que fuman en la Facultad de Medicina.

τ̂ = N p

donde N = 430 y p = 0.375.

Por lo tanto

τ̂ = (430)(0.375) = 161.25

Ejemplo 3.1 e) Construya un intervalo del total verdadero de estudiantes que fuman en la Facultad
de Medicina de la U de C, con una confiabilidad de 95 %.

τ̂ ± Zα/2 N S p

donde τ = 161.25, S p = 0.0488, N = 430 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

161.25 ± (430)(1.96)(0.0488)
161.25 ± 41.1295
120.0938 ≤ τ ≤ 202.4062

Con 95 % de confianza se estima que el total de estudiantes que fuman en la Facul-


tad de Medicina de la U de C, está entre 120.0938 y 202.4062.

68
M UESTREO ALEATORIO SIMPLE

Ejemplo 3.1 f) Suponga que n = 80 estudiantes es una muestra preliminar. ¿Cuál es la muestra para
estimar la proporción verdadera con una precisión de 10 % de la proporción prelimi-
nar (p) y confiabilidad de 95 %?

N (Zα/2 )2 pq
n=
N d 2 + (Zα/2 )2 pq
donde N = 430, p = 0.375 y q = 0.625. Como la precisión tiene que ser 10 % de la
proporción preliminar (p = 0.375), d = (0.10)(p̂) = (0.10)(0.375) = 0.0375:

Por lo tanto:

(430)(1.96)2 (0.375)(0.625)
n= = 258
(430)(0.0375)2 + (1.96)2 (0.375)(0.625)

Ejemplo 3.1 g) Suponga que n = 80 estudiantes es una muestra preliminar. ¿Cuál es la muestra
para estimar el total poblacional con una precisión de 10 % del total poblacional pre-
liminar (p) y confiabilidad de 95 %?

N 2 (Zα/2 )2 pq
n=
d 2 + N (Zα/2 )2 pq
donde N = 430, p = 0.375, q = 0.625, Zα/2 = Z0.025 = 1.96 y d = (0.10)(430)(0.375) =
16.125.

Por lo tanto:

(430)2 (1.96)2 (0.375)(0.625)


n= = 258 (estudiantes)
(16.125)2 + (430)(1.96)2 (0.375)(0.625)

Ejemplo 3.6 Un ingeniero es responsable de un centro de cómputo con N = 2, 000 computadoras.


Por descuido algunas computadoras se infectaron con el virus XXX. Con la finalidad de
estimar la proporción de computadoras infectadas, se seleccionó una muestra alea-
toria de n = 50 computadoras, en donde 22 de las 50 computadoras tienen el virus.

Ejemplo 3.1 a) Estime la proporción verdadera de computadoras infectadas.


!n
i =1 y i a 22
p= = = = 44 % infectadas y q = 1 − p = 1 − 0.44 = 56 % limpias
n n 50

Ejemplo 3.1 b) ¿Cuál es la desviación estándar de la proporción muestral (S p )?


"
Sp = [(N − n)/N ](pq/n)

donde N = 2, 000, n = 50, p = 0.44 y q = 0.56.

69
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:
!" #" #
2, 000 − 50 (0.44)(0.56) "
Sp = = (0.975)(0.0049) = 0.0693
2, 000 50

Ejemplo 3.1 c) Encuentre un IC de 95 % para la proporción verdadera.

p ± Zα/2 S p

donde p = 0.44, S p = 0.0693 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

0.44 ± (1.96)(0.0693)
0.44 ± 0.1358
0.3041 ≤ P ≤ 0.5759

Con 95 % de confianza se estima que la proporción verdadera de computadoras in-


fectadas en la población está entre 0.3041 y 0.5759, o sea, entre 30.41 y 57.59 %.

Ejemplo 3.1 d) Halle el total verdadero de computadoras infectadas.

τ̂ = N p

donde N = 2, 000 y p = 0.44.

Por lo tanto:

τ̂ = (2, 000)(0.44) = 880

Ejemplo 3.1 e) Calcule un IC para el total verdadero de computadoras infectadas en la población,


con una confiabilidad de 95 %.

τ̂ ± Zα/2 N S p

donde τ = 880, S p = 0.0693, N = 2, 000 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

880 ± (2,000)(1.96)(0.0693)
880 ± 271.6
608.2787 ≤ τ ≤ 1,151.7213

70
M UESTREO ALEATORIO SIMPLE

Con 95 % de confianza se estima que el total poblacional de computadoras infecta-


das por el virus XXX está entre 608.2787 y 1,151.7213.

Ejemplo 3.1 f) Suponga que n = 50 computadoras son una muestra preliminar. Por lo tanto, ¿cuál
es el tamaño de muestra para estimar la proporción verdadera con una precisión de
0.07 y una confiabilidad de 95 %?

N (Zα/2 )2 pq
n=
N d 2 + (Zα/2 )2 pq
donde N = 2, 000, p = 0.44, q = 0.56 y d = 0.07.

Por lo tanto:

(2, 000)(1.96)2 (0.44)(0.56) 1, 893.1404


n= 2 2
= = 177
(2, 000)(0.07) + (1.96) (0.44)(0.56) 10.7466

Ejemplo 3.1 g) Suponga que las n = 50 computadoras son una muestra preliminar. ¿Cuál es el ta-
maño de muestra para estimar el total verdadero con una precisión de 140 compu-
tadoras y una confiabilidad de 95 %?

N 2 (Zα/2 )2 pq
n=
d + N (Zα/2 )2 pq
2

donde N = 2, 000, p = 0.44, q = 0.56, Zα/2 = Z0.025 = 1.96 y d = 140.

Por lo tanto:

(2, 000)2 (1.96)2 (0.44)(0.56) 3 786, 280.96


n= 2 2
= = 177
(140) + (2, 000)(1.96) (0.44)(0.56) 21, 493.14048

Ejemplo 3.7 En el Estado de Colima existen N = 3, 000 familias que agrupan a toda la población.
Se desea estimar la proporción de familias que tiene servicio de Internet en su casa y
se seleccionó una muestra preliminar de n = 100 familias. Se encontró que 20 tenían
servicio de Internet.

Ejemplo 3.1 a) Realice la estimación de la proporción verdadera de familias que tienen Internet.
!n
i =1 y i a 20
p= = = = 0.20 ó 20 % de familias poseen el servicio
n n 100
q = 1 − p = 1 − 0.20 = 0.80 u 80 % de familias no tienen servicio

Ejemplo 3.1 b) Halle la desviación estándar estimada de la proporción muestral (S p ).

donde N = 3, 000, n = 100, p = 0.20 y q = 0.80.

71
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:
!" #" #
3, 000 − 100 (0.20)(0.80) "
Sp = = (0.9667)(0.0016) = 0.03933
3, 000 100

Ejemplo 3.1 c) Calcule un IC de 95 % para la proporción verdadera.

p ± Zα/2 S p

donde p = 0.20, S p = 0.03933 y Zα/2 = Z0.025 = 1.96.

De ahí que:

0.20 ± (1.96)(0.03933)
0.1229 ≤ P ≤ 0.2771

Con 95 % de confianza se estima que la proporción verdadera de familias que tienen


Internet en su hogar está entre 0.1229 y 0.2771, o sea, entre 12.29 y 27.71 %.

Ejemplo 3.1 d) Halle el total verdadero de familias que tienen Internet.

τ̂ = N p

donde N = 3, 000 y p = 0.20.

Por lo tanto:

τ̂ = (3, 000)(0.20) = 600 familias en el Estado

Ejemplo 3.1 e) Calcule un IC para el total verdadero de familias con una confiabilidad de 95 %.

τ̂ ± Zα/2 N S p

donde τ = 600, S p = 0.03933 , N = 3, 000 y Zα/2 = Z0.025 = 1.96.

Entonces:

600 ± (3, 000)(1.96)(0.03933)


600 ± 231.3
368.7532 ≤ τ ≤ 831.2468

Con 95 % de confianza se estima que el total de familias que tienen Internet en su


hogar está entre 368.7532 y 831.2468.

72
M UESTREO ALEATORIO SIMPLE

Ejemplo 3.1 f) Suponga que n = 100 familias es una muestra preliminar, ¿cuál es el tamaño de
muestra para estimar la proporción verdadera con una precisión de 0.07 y una confia-
bilidad de 95 %?

N (Zα/2 )2 pq
n=
N d 2 + (Zα/2 )2 pq
donde N = 3, 000, p = 0.20, q = 0.80 y d = 0.07.

Por lo tanto:

(3, 000)(1.96)2 (0.20)(0.80) 1, 843.968


n= 2 2
= = 121 familias
(3, 000)(0.07) + (1.96) (0.20)(0.80) 15.3147

Ejemplo 3.1 g) Suponga que n = 100 familias son una muestra preliminar, ¿cuál es el tamaño de
muestra para estimar el total verdadero con una precisión de 210 familias y una con-
fiabilidad del 95 %?

N 2 (Zα/2 )2 pq
n=
d 2 + N (Zα/2 )2 pq
donde N = 3, 000, p = 0.20, q = 0.80, Zα/2 = Z0.025 = 1.96 y d = 210.

Por lo tanto:

(3, 000)2 (1.96)2 (0.2)(0.8)


n= = 121 familias (unidades muestrales)
(210)2 + (3, 000)(1.96)2 (0.2)(0.8)

Ejemplo 3.8 En el Estado de Colima hay N = 20, 000 automóviles. Con la finalidad de estimar la
proporción de autos estadounidenses, se seleccionó una muestra aleatoria de n = 250
autos, que arrojó 70 automóviles estadounidenses.

Ejemplo 3.1 a) Estime la proporción verdadera de automóviles estadounidenses.


!n
i =1 y i a 70
p= = = = 0.28 ó 28 % autos estadounidenses
n n 250
q = 1 − p = 1 − 0.28 = 0.72 ó 72 % otros autos

Ejemplo 3.1 b) Calcule la desviación estándar de la proporción muestral (S p ).


"# $
N − n % pq &
Sp =
N n
donde N = 20, 000, n = 250, p = 0.28 y q = 0.72.

73
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:
!" #" #
20, 000 − 250 (0.28)(0.72) "
Sp = = (0.9875)(0.00081) = 0.02822
20, 000 250

Ejemplo 3.1 c) Calcule un IC de 95 % para la proporción verdadera.

p ± Zα/2 S p

donde p = 0.28, S p = 0.02822 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

0.28 ± (1.96)(0.02822)
0.28 ± 0.0553
0.2247 ≤ P ≤ 0.3353

Con 95 % de confianza se estima que la proporción de automóviles extranjeros en el


Estado está entre 22.47 y 33.53 %.

Ejemplo 3.1 d) Encuentre el total verdadero de automóviles.

τ̂ = N p

donde N = 20, 000 y p = 0.28.

Por lo tanto:

τ̂ = (20, 000)(0.28) = 5, 600 automóviles

Ejemplo 3.1 e) Halle por intervalo el total verdadero de automóviles estadounidenses en el Estado,
con una confiabilidad de 95 %.

τ̂ ± Zα/2 N S p

donde τ = 5, 600, S p = 0.02822, N = 20, 000 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

5, 600 ± (20, 000)(1.96)(0.02822)


5, 600 ± 1, 106
4, 493.8299 ≤ τ ≤ 6, 706.17

74
M UESTREO ALEATORIO SIMPLE

Con 95 % de confianza se estima que el total de automóviles está entre 4, 493.8096


y 6, 706.1904.

Ejemplo 3.1 f) Suponga que n = 250 automóviles es una muestra preliminar, ¿cuál es el tamaño de
muestra para estimar la proporción verdadera con una precisión de 0.05 y una confia-
bilidad de 95 %?

N (Zα/2 )2 pq
n=
N d 2 + (Zα/2 )2 pq
donde N = 20,000, p = 0.28, q = 0.72 y d = 0.05.

Por lo tanto:

(20, 000)(1.96)2 (0.28)(0.72) 15, 489.3312


n= 2 2
= = 306 autos (muestra)
(20, 000)(0.05) + (1.96) (0.28)(0.72) 50.7745

Ejemplo 3.1 g) Suponga que n = 250 automóviles es una muestra preliminar, ¿cuál es el tamaño de
muestra para estimar el total verdadero con una precisión de 1,000 automóviles y una
confiabilidad de 95 %?

N 2 (Zα/2 )2 pq
n=
d + N (Zα/2 )2 pq
2

donde N = 20,000, p = 0.28, q = 0.72, Zα/2 = Z0.025 = 1.96 y d = 1, 000.

Por lo tanto:

(20, 000)2 (1.96)2 (0.28)(0.72)


n= = 306 autos (muestra)
(1, 000)2 + (20, 000)(1.96)2 (0.28)(0.72)

Ejercicios

En los siguientes ejercicios estime el IC para la proporción y el total con una confiabilidad de 95 %.
De igual manera, suponga que la muestra es una muestra preliminar. ¿Cuál es el tamaño de muestra
para estimar la proporción y el total de tal manera que la proporción y el total sean estimados con
una precisión de 5 % de la proporción y el total preliminar con una confiabilidad de 95 %?

Ejercicio 3.5 Con la finalidad de saber si la Sociedad Colimense (N = 10, 000) está de acuerdo con
la reforma de Pemex, se realizó una encuesta a n = 150 personas tomadas al azar. Los
resultados arrojaron que 35 personas estuvieron de acuerdo.

75
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicio 3.6 La Dirección de la Facultad de Economía realizó una encuesta en la Ciudad de Colima
para saber si las personas conocían el perfil de egreso de los licenciados en Economía.
Se aplicó la encuesta a n = 100 personas tomadas al azar de un total de N = 10, 000.
La encuesta arrojó que 15 personas conocían el perfil de egreso.

Ejercicio 3.7 La Secretaría de Salud del Estado de Colima desea realizar una encuesta para saber
si la población colimense conoce los productos transgénicos. Se realizó la encues-
ta en el Estado cuya población es de N = 567, 996 personas con una muestra al azar
n = 5, 000 individuos. Los resultados muestran que 1, 570 personas conocen de los
productos transgénicos.

Ejercicio 3.8 Se aplicó una encuesta para saber cuántas personas de la Ciudad de Colima utilizan
tarjetas bancarias se llevó a cabo una encuesta. La Ciudad de Colima tiene N = 6, 500
personas y la encuesta se realizó a n = 1, 000 personas tomadas al azar. Los resultados
arrojaron que 925 personas utilizaban tarjeta bancaria.

76
C APÍTULO

4
Muestreo aleatorio estratificado

En este mundo complejo,


nunca es fácil elegir.
Pero con datos y muestras,
tú lo podrás conseguir.
De una forma inteligente,
que te conduzca a un buen fin.
OAML

C UANDO el costo de la investigación es excesivo y la población es heterogénea, el mues-


treo aleatorio simple no es, en principio, una buena opción. Por esta razón, este ca-
pítulo brinda la opción del Muestreo Aleatorio Estratificado (MAE), que trata de hacer aún
más precisas las estimaciones que se pueden obtener con un diseño básico de muestreo
como el aleatorio simple (Cochran, 1985).

..Muestreo aleatorio estratificado


Si la población de N individuos se divide en E subpoblaciones o estratos que
no se traslapan, con respecto a criterios que puedan ser importantes en el es-
tudio y tratando en la medida posible que exista homogeneidad dentro de cada
estrato. Los estratos contienen N1 , ..., NE unidades muestrales, de manera que
!
N = Eh Nh , y en cada uno de estos estratos o subpoblaciones se realiza un mues-
treo aleatorio simple con muestras respectivas de tamaño n h , así que la muestra
estratificada de tamaño n es igual a la suma de todas las muestras de cada estrato,
!
es decir, n = Eh=1 n h .

En general, los estratos naturales o convenientemente definidos deberán ser homogé-


neos internamente y heterogéneos entre ellos, con respecto a la variable bajo estudio. Cada
unidad muestral debe estar incluida en solo un estrato, o sea, no debe haber traslapes en-
tre los estratos. Las unidades que se incluyan en un estrato deben tener un valor similar
en cuanto a la variable de interés, aunque al no conocer esos valores, se puede usar otra
característica para formar los estratos con la esperanza de lograr que los valores sean muy
parecidos dentro de cada estrato. Los estratos formados funcionan independientemente, y

77
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

se les aplica un muestreo aleatorio simple para elegir los elementos concretos que forma-
rán parte de la muestra y obtener así las estimaciones de los parámetros que nos interesan.
En ocasiones, las dificultades que plantean los estratos son demasiado grandes, pues exi-
gen un conocimiento detallado de la población, como tamaño geográfico, género, edades,
niveles de estudio, etcétera (Pérez, 2000).

El MAE se utiliza cuando la población es muy heterogénea y las consideraciones de costo


limitan el tamaño de la muestra. Si no se toma en cuenta la variabilidad y posiblemente los
costos diferenciados y utilizamos el muestreo aleatorio simple, las estimaciones podrían
ser menos precisas o el costo sería demasiado elevado. Por otro lado, para la población
estratificada habrá que determinar dos tamaños de muestra: para la población y para cada
estrato, n y n h , respectivamente.

4.1. Ventajas de utilizar el MAE


Algunos motivos para utilizar muestreo aleatorio estratificado en lugar del muestreo alea-
torio simple son:

1. Produce estimaciones más precisas que las que se obtienen a partir del muestreo
aleatorio simple.

2. El costo por observación puede ser reducido mediante la estratificación de la pobla-


ción.

3. Se puede obtener información de parámetros poblacionales para cada estrato de la


población.

4. Se simplifica el trabajo administrativo y el de control, ya que se puede usar personal


específico para cada estrato.

5. El tamaño de muestra será menor, si la estratificación está bien definida, en compa-


ración con el muestreo simple aleatorio.

Notación

Para esta técnica de muestreo necesitamos una notación adicional que distingue los ele-
mentos de la población, como la siguiente:

N : el número total de unidades muestrales en la población.


E : el número de estratos en la población.
h : un estrato.
Nh : el número total de unidades en el estrato h.
n h : el número de unidades en la muestra en el estrato h.
i : alguna unidad muestral que siempre pertenece a algún estrato h.

78
M UESTREO ALEATORIO ESTRATIFICADO

y hi : el valor obtenido en la i-ésima unidad dentro del estrato h.


Wh = Nh /N : la ponderación, peso o tamaño relativo del estrato h.
f h = n h /Nh : la fracción de muestreo para el estrato h.
!nh
y hi
ȳ h = i =1 : la media muestral del estrato h.
!nh n h !nh 2
(y − ȳ h )2
i =1 hi
y − n h ȳ h2
2
Sh = = i =1 hi : la varianza en el estrato h.
nh − 1 nh − 1
Si se desea conocer la cantidad de horas promedio que cierto grupo de personas de
una ciudad ve la televisión, debemos pensar que habrá niños, jóvenes y adultos, y que el
tiempo de horas libres varía de un grupo a otro. De esta manera dividimos la población
en tres estratos, ya que es lógico afirmar que las tendencias dentro de cada estrato son
similares y son homogéneas. También podemos entender que el número total de personas
de la población es la suma de los elementos de los estratos. Otro ejemplo es el siguiente:
si queremos conocer el ingreso promedio de las familias en Colima, donde se supone que
existen tres clases sociales bien definidas, podemos considerar las familias de la misma
clase social como un estrato, ya que es homogéneo.

4.2. ¿Cómo seleccionar una muestra aleatoria estratificada?


La selección de la muestra de cada estrato es diferente, ya que cada uno tiene características
y costos de medición distintos, por lo que el número de unidades también será diferente.
Por ejemplo, el tamaño de la muestra del estrato debe ser mayor si es muy variable o si con-
tiene más unidades. Por el contrario, será menor si el costo de la medición es elevado. Antes
de seleccionar una muestra es preciso considerar qué tan grande debe ser la precisión de
estimación y de acuerdo con esto, seleccionar el tamaño de la muestra (Cochran, 1985).

En resumen, de un estrato dado se toma una muestra más grande si:

1. El estrato es más grande.

2. Los elementos del estrato tienen alta variabilidad.

3. El muestreo es más barato en el estrato.

4.3. La estimación de la media poblacional


Supongamos que ya hemos tomado nuestra muestra aleatoria estratificada, y entonces
nos preguntamos, ¿cómo debemos usarla para estimar los principales parámetros? Es de-
cir, contestarnos preguntas como: ¿cuál es la media de nuestra población? o ¿cuál es el to-
tal? Si µh y τh son la media y el total para el estrato h, respetivamente, resulta obvio que
τ1 + τ2 + ... + τE = τ, donde τ es el total de la población.

79
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Para comprender mejor las expresiones que nos darán la estimación de µ y τ, debemos
tomar en cuenta que ȳ h es un estimador insesgado de µh y que N ȳ h es un estimador in-
!Nh
sesgado del total del estrato τh = i =1 y hi , tal como en el muestreo aleatorio simple. Hasta
aquí todo parece razonable, como formar el estimador de τ (τ̂) con la suma de los τ̂h y de
esta manera construir un estimador para la media de la población al dividir τ̂ entre N , el
cual hereda la propiedad de insesgamiento (Scheaffer, 1987).

El estimador de la media estratificada


!E
h=1
Nh ȳ h
ȳ est r =
N

Nótese que se ha usado el subíndice est r en ȳ para señalar que la estimación se hace
con el muestreo estratificado. Dado que cada estrato se maneja de manera independiente,
las ȳ k con h = 1, 2, . . . E también son independientes. Por lo tanto, la varianza de ȳ est r es la
suma de las varianzas de las medias de cada estrato. Este estimador es insesgado.

El estimador de la varianza de la media estratificada


1 " #
S 2ȳ est r = V ( ȳ est r ) = 2 N12V̂ ( ȳ 1 ) + N22V̂ ( ȳ 2 ) + . . . + NE2 V̂ ( ȳ E )
N
$ % &' 2 ( % & ' 2 ()
1 N 1 − n 1 S 1 N E − n E SE
= 2 N12 + . . . + NE2
N N1 n1 NE nE
% & ' 2(
1 * E Nh − n h S h
= 2 Nh2
N h=1 Nh nh
2% &' 2 (
* Nh Nh − n h S h
E
= 2
h=1 N Nh nh
% & ' 2(
*E Nh − n h S h
= Wh2
h=1 Nh nh
*E
= Wh2 S 2ȳ h
h=1

El siguiente paso es la obtención del intervalo de confianza de nuestra estimación.


Cuando hay pocos grados
+ de libertad en cada estrato, el procedimiento para calcular el
error de muestreo (t V̄ ( ȳ est r )), consiste en leer el valor de t en las tablas de la t -Student,
como se hizo en el muestreo aleatorio simple, y cuando es mayor de 30 utilizaremos la tabla
Z de la normal estándar.

80
M UESTREO ALEATORIO ESTRATIFICADO

El intervalo de confianza para la estimación de la media estratificada

!
" % &' 2 (
" 1 $ E N h − n h Sh
ȳ est r ± t (n−1,α/2) # 2 Nh2
N h=1 Nh nh
!
" E
"$
ȳ est r ± t (n−1,α/2) # Wh2 S 2ȳ h
h=1

Se ha revisado lo referente al estimador de la media estratificada; sin embargo, en oca-


siones el principal interés es conocer el total de la población, por ejemplo el gasto total
semanal de las familias o el total de personas que visitan algún puerto durante Semana
Santa, o quizá la cantidad de personas que consumen un producto cualquiera.

El estimador del total estratificado

E
$
τ̂est r = N ȳ est r = N1 ȳ 1 + N2 ȳ 2 + . . . + NE ȳ E = Nh ȳ h
h=1

La varianza se deduce de la varianza de la media y hereda sus propiedades. Para estimar


la varianza, la media y el total, debe haber al menos dos observaciones en cada estrato.

La varianza del estimador del total estratificado

% &' (
2 2
E
$ Nh − n h S h2
V̄ (N ȳ est r ) = N V ( ȳ est r ) = N Wh2 (4.1)
h=1 Nh nh

La desviación estándar se necesita para crear un intervalo de confianza del total.

El intervalo de confianza

!
" E % &' 2 (
"$ N h − n h Sh
N ȳ est r ± t (n−1,α/2) # Nh2
h=1 Nh nh

81
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

La determinación del tamaño de la muestra

Es tiempo de planear las unidades muestrales que se deben seleccionar aleatoriamente en


toda la población, y las de los estratos, para constituir una muestra que satisfaga una pre-
cisión deseada, d .

Cuando se decide precisar el tamaño de muestra se debe tomar en cuenta varios fac-
tores como el tipo de muestreo, el parámetro a estimar, la precisión admisible, la varianza
poblacional y el nivel de confianza de la inferencia. Además, dependiendo de las estrategias
de asignación, se puede recurrir a información más específica o adicional.

Anteriormente, se revisaron los elementos estadísticos que se deben tomar en cuenta


para obtener un tamaño de muestra preciso; sin embargo, existen otros factores que son
fundamentales para tomar una decisión al respecto. Para la asignación de la muestra a cada
estrato también se requiere información sobre:

El número total de elementos del estrato.

La variabilidad de las observaciones del estrato.

El costo que representa muestrear cada estrato.

De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos,
se obtendrá información más precisa, por lo que a los estratos grandes les corresponden
tamaños muestrales grandes. También es fácil inferir que si en algún estrato hay mucha va-
riabilidad debe considerarse un tamaño de muestra mayor.

Por último, es importante considerar que si el costo de obtener una observación varía
entre estratos, se deberá tomar muestras pequeñas en estratos donde el costo sea alto y vi-
ceversa, con el fin de minimizar el costo total del muestreo. Así, la calidad de la información
que se obtenga en las estimaciones provendrá directamente de n, ya que al incrementarse
ésta, la varianza de la media decrecerá. Para lograr la precisión deseada usamos:
!
d M = t (n−1,α/2) V (θ̄)

donde V (θ̄) es la varianza del estimador de interés y α es el nivel de significancia.

El tamaño de muestra para estimar la media estratificada


E
"
N (t (n−1,α/2) )2 Wh S h2
h=1
n=
E
"
2
N dM + (t (n−1,α/2) )2 Wh S h2
h=1

82
M UESTREO ALEATORIO ESTRATIFICADO

En la ecuación anterior Wh = Nh /N , mientras que d M es el margen de error (precisión)


que se desea aceptar en la estimación de la media.

El tamaño de muestra para estimar el total estratificado


E
!
N 2 (t (n−1,α/2) )2 Wh S h2
h=1
n=
E
!
d T2 + N (t (n−1,α/2) )2 Wh S h2
h=1

En este caso, Wh también es igual a Nh /N y d T es el tamaño del error que se desea acep-
tar en la estimación del total.

La asignación de la muestra

Como se expresó, el muestreo estratificado involucra h estratos y por tanto, h tamaños de


muestra, n 1 , n 2 , . . . , n h correspondientes a los estratos en que se divide la población. Asimis-
mo, se tiene el tamaño de muestra total n, el cual es la suma de los h tamaños de muestra
relacionados con los estratos. Se debe tener presente que el número de unidades del es-
trato influye en el tamaño de muestra. Así, se asignará un tamaño de muestra mayor a los
estratos más grandes y uno menor a los estratos más chicos. A los estratos que más aportan
a la variabilidad, es decir, los estratos menos homogéneos, les corresponderá un tamaño
de muestra mayor. De los estratos donde el costo por unidad sea alto, se tomarán muestras
más pequeñas. Por lo tanto, existen diferentes métodos de asignación de la muestra.

Por su simplicidad, en la práctica se recurre con frecuencia a la denominada asignación


proporcional. Este procedimiento de asignación es recomendable cuando se sabe que los
estratos tienen tamaños diferentes, que la variabilidad entre estratos se desconoce, pero
puede suponerse ligeramente similar y que la variabilidad en el estrato más pequeño es
menor que la del estrato más grande; en cuanto al costo por unidad, se asume que es igual o
que no cambia entre estratos. El criterio de asignación proporcional, suponiendo que ya se
ha calculado el tamaño de la muestra n requerido, consiste en determinar una parte de n, la
cual será proporcional al tamaño del estrato. Algebraicamente, el criterio está representado
por n i = [(Nh )/N ]n = Wh n donde i = 1, 2, . . . , h o específicamente como:

N1 N2 Nh
n1 = n, n 2 = n, . . . , n h = n
N N N

Los estratos más grandes requieren un tamaño de muestra mayor, es decir, la asignación
de n entre los estratos es proporcional al tamaño del estrato.

83
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

4.4. La selección de estratos


En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato, pero
¿siempre es así? Definitivamente no. En estadística, cada problema es una nueva experien-
cia, la cual no necesariamente tiene una respuesta única y un razonamiento lógico para
llegar a la solución más satisfactoria. Este trabajo puede resultar un poco complicado y tor-
narse desesperante en algunas ocasiones, por lo que a continuación se dan algunas ideas
útiles.

¿Qué hago cuando. . . ?


¿Cómo delimitar los estratos?
¿Se debe estratificar después de seleccionar la muestra?

A veces, es una tarea sencilla debido a que los estratos están implícitos y se conoce el com-
portamiento con base en registros antiguos, nuestra experiencia o simplemente en la na-
turaleza de los resultados que deseamos obtener.

¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso cuanti-
tativo. Habrá que construirlos dado un interés particular, porque muchas veces sólo hasta
el momento de diseñar la investigación se conocen los rangos de las estimaciones. Pero
también podría tener el rango de salida de los datos y algunas frecuencias en categorías
generales de la variable de interés o de alguna variable altamente correlacionada. En este
caso podemos usar el sencillométodo acumulativo de la raíz cuadrada de la frecuencia.

Los pasos del método acumulativo de la raíz cuadrada de la frecuencia:

1. Elegimos el número de estratos que se desea obtener.

2. Sacamos por rangos la frecuencia de la variable de interés, o en su defecto a una al-


tamente correlacionada con ella. Con estos resultados formamos una columna de
datos.

3. Se forman dos columnas más, una constituida por la raíz de las frecuencias y otra por
su raíz acumulada.

4. Se divide la frecuencia acumulada final entre el número de estratos. Este resultado es


el ancho de la clase (AC).

5. Se utiliza la ecuación AChi = h ∗ AC; h = 1, 2, ...n, donde h representa el estrato h.

6. Se puede delimitar con las marcas de clase por estrato, eligiendo la raíz de la frecuen-
cia acumulada más cercana a la marca de clase y así cada estrato estará formado por
todas las clases de la variable original que correspondan a la marca de clase.

84
M UESTREO ALEATORIO ESTRATIFICADO

Ejemplos
Ejemplo 4.1 En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se desea estimar el pro-
medio de plantas por hectárea, que en determinada etapa del cultivo se infectaron
de alguna enfermedad. De acuerdo con las condiciones ecológicas en la región se
siembran tres variedades de limón. Considerando que el desarrollo de la enferme-
dad puede ser distinto de una variedad a otra, la población de parcelas se estratificó
en E = 3 estratos. Los tamaños de los estratos son: N1 = 270, N2 = 180 y N3 = 330; N =
N1 + N2 + N3 = 780. Suponga que para realizar las estimaciones se tomó una muestra
de n = 63 parcelas. Los datos se presentan en el cuadro 4.1.

Cuadro 4.1 Plantas infectadas por hectárea

Estrato 1 Estrato 2 Estrato 3


(n1 = 21) (n2 = 21) (n3 = 21)

48 53 64 20 31 45 74 68 77
62 45 47 36 17 26 70 72 73
59 65 54 15 30 18 78 76 69
45 48 46 40 25 35 69 80 74
50 60 63 24 29 30 80 78 71
55 57 46 19 42 27 72 71 79
64 61 54 33 51 48 76 75 68

Ejemplo 44.1

Ejemplo 4.1 a) Realice la estimación puntual del promedio de plantas infectadas por hectárea.

El estimador de la media estratificada en este caso es,

N1 ȳ 1 + N2 ȳ 2 + N3 ȳ 3
ȳ est r =
N
donde N1 = 270, N2 = 180, N3 = 330 y N = 780.

48 + 62 + 59 + . . . + 46 + 64
ȳ 1 = = 54.5714
21
20 + 36 + 15 + . . . + 27 + 48
ȳ 2 = = 30.5238
21
74 + 70 + 78 + . . . + 79 + 68
ȳ 3 = = 73.8095
21
Por lo tanto:

(270)(54.57) + (180)(30.52) + (330)(73.80)


ȳ est r =
780

85
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

44, 581.5
ȳ est r = = 57.1612 plantas infectadas por parcela
780

Ejemplo 4.1 b) Realice la estimación puntual del total de plantas infectadas.

El estimador del total estratificado es:

τ̂est r = N ŷ est r

donde N = 780 y ŷ est r = 57.1612.

Por lo tanto:

τ̂est r = (780)(57.1612) = 44, 585.736 plantas infectadas

Ejemplo 4.1 c) Calcule la varianza del promedio estratificado.

El estimador de la varianza del promedio poblacional es:


! "2 ! " # 2 $ ! "2 ! "# 2 $
N 1 N 1 − n 1 S 1 N 2 N 2 − n 2 S2
S 2ȳ est r = +
N N1 n1 N N2 n2
! "2 ! "# 2 $
N3 N3 − n 3 S 3
+
N N3 n3
donde N1 = 270, N2 = 180, N3 = 330, N = 780 y n 1 = n 2 = n 2 = n 3 = 21.

482 + 622 + 592 + . . . + 462 + 542 − (21)(54.57)2


S 12 = = 50.3571
21 − 1
202 + 362 + 152 + . . . + 272 + 482 − (21)(30.52)2
S 22 = = 107.2619
21 − 1
742 + 702 + 782 + . . . + 792 + 682 − (21)(73.80)2
S 32 = = 15.5619
21 − 1
Por lo tanto:
! "2 ! "! " ! " ! "! "
270 270 − 21 51.7709 180 2 180 − 21 107.2619
S 2ȳ est r = +
780 270 21 780 180 21
! "2 ! "! "
330 330 − 21 15.5619
+ = 0.6348
780 330 21
% "
S ȳ est r = S 2ȳ est r = 0.6348 = 0.7967

86
M UESTREO ALEATORIO ESTRATIFICADO

Ejemplo 4.1 d) Estime por intervalo la media estratificada con una confiabilidad de 95 %.

ȳ est r ± Zα/2 S ȳ est r

donde N = 780, ȳ est r = 57.4579 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

57.1558 ± (1.96)(0.7967)
57.4579 ± 1.5551
55.5943 ≤ µest r ≤ 58.7173

El promedio de plantas infectadas por hectárea en la población está entre 55.5943


y 58.7173.

Ejemplo 4.1 e) Halle por intervalo el total de plantas infectadas en la población con una confiabi-
lidad del 95 %.

τ̂est r ± N Zα/2 S ȳ est r

donde τ̂est r = 44, 581.524, N = 780, Zα/2 = Z0.025 = 1.96 y S ȳ est r = 0.7934.

Por lo tanto:

44, 817.1929 ± (780)(1.96)(0.7934)


44, 817.1929 ± 1, 212.978
43, 372.8 ≤ τest r ≤ 45, 798.6

El total de plantas infectadas por hectárea en la población está entre 43,604.2429 y


46,030.1429.

Ejemplo 4.1 f) Suponga que n = 63 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de ± 3 % de la media estratificada y una con-
fiabilidad de 95 %. Además, asigne n a cada estrato en forma proporcional al tamaño
del estrato.

E
!
N (Zα/2 )2 Wh S h2
h=1
n= "E
N d 2 + (Z α/2 )
2
h=1
Wh S h2
donde Zα2 = Z0.025 = 1.96, d = (.03)(57.1611) = 1.7148 y además:

E
! N1 2 N2 2 N3 2
Wh S h2 = S + S + S = 48.7679.
h=1 N 1 N 2 N 3

87
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Estratos Ni Sh2 WhSh2

1 270 050.3571 17.4313


2 180 107.2619 24.7527
3 330 015.5619 06.5839
Total 780 48.7679

Ejemplo 44.1

Ejemplo 4.1 Por lo tanto:

(780)(1.96)2 (48.7679)
n= = 59 parcelas (muestra)
(780)(1.7146)2 + (1.96)2 (48.7679)

Asignación de la muestra en forma proporcional

N1 270
n1 = n= (59) = 20
N 780
N2 180
n2 = n= (59) = 14
N 780
N3 330
n3 = n= (59) = 25
N 780

Ejemplo 4.1 g) Suponga que n = 63 es una muestra preliminar. Determine el tamaño de muestra
para estimar el total con una precisión de ± 3 % del total estratificado y con una con-
fiabilidad de 95 %. Además, asigne n a cada estrato en forma proporcional al tamaño.

E
!
N 2 (Zα/2 )2 Wh S h2
h=1
n=
E
!
d 2 + (Zα/2 )2 Wh S h2
h=1
"E
donde d = (0.03)(44, 585.628) = 1, 337.568 y h=1
Wh S h2 = 48.7679.

Por lo tanto:

(780)2 (1.96)2 (48.7679)


n= = 59
(1, 337.568)2 + (780)(1.96)2 (48.7679)
De ahí que el número estimado de unidades muestrales (parcelas) que deben consti-
tuir la muestra con una precisión de ± 1, 337.568 plantas y 0.05 de probabilidad de no
incluir en el intervalo de estimación al total verdadero, es de 59 parcelas. Por tanto, la
asignación proporcional es la misma.

Ejemplo 4.2 La Facultad de Lenguas Extranjeras de la Universidad de Colima desea estimar el pro-
medio y el total de faltas justificadas que tuvieron los alumnos en un año determina-

88
M UESTREO ALEATORIO ESTRATIFICADO

do. Al suponer que podrían encontrarse diferencias según el grado de estudios (pri-
mero, segundo, tercero y cuarto año), se decidió usar el muestreo estratificado. De
esta manera, la población de N = 400 estudiantes que alberga la Facultad quedó es-
tratificada así: Estrato 1 (primer año): N1 = 120 alumnos, Estrato 2 (segundo año):
N2 = 100 alumnos, Estrato 3 (tercer año): N3 = 90 alumnos, Estrato 4 (cuarto año):
N4 = 90 alumnos. Se seleccionó una muestra de n = 40 alumnos: 12 para el estrato 1,
10 para el estrato 2, 9 para el estrato 3 y 9 para el estrato 4 (cuadro 4.2).

Cuadro 4.2 Faltas justificadas por año

Estrato 1 Estrato 2 Estrato 3 Estrato 4

7 6 4 4 3 4 3 3
6 7 5 6 3 4 2 2
7 7 4 4 3 3 3 5
8 8 5 6 4 4 4 2
5 5 6 6 4 5
4 6

Ejemplo 4.1

Ejemplo 4.1 a) Estime la media estratificada.


N1 ȳ 1 + N2 ȳ 2 + N3 ȳ 3 + N4 ȳ 4
ȳ est r =
N
donde N1 = 120, N2 = 100, N3 = 90, N4 = 90 y N = 400.

7+6+7+...+5+6
ȳ 1 = = 6.3333
12
4+5+4+...+6+6
ȳ 2 = =5
10
3+3+3+...+3+4
ȳ 3 = = 3.5556
9
3+2+3+...+5+2
ȳ 4 = = 3.2222
9

Por lo tanto:

(120)(6.33) + (100)(5) + (90)(3.55) + (90)(3.22)


ȳ est r = = 4.675 faltas
400

Ejemplo 4.1 b) Estime la varianza y la desviación estándar de la media estratificada.


! "2 ! "# $ ! " ! "# $
N1 N1 − n 1 S 12 N2 2 N2 − n 2 S 22
S 2ȳ est r = +
N N1 n1 N N2 n2

89
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

! "2 ! "# $ ! " ! "# $


N3 N3 − n 3 S 32 N4 2 N4 − n 4 S 42
+ +
N N3 n3 N N4 n4

Ejemplo 4.1 donde N1 = 120, N2 = 100, N3 = N4 = 90, N = 400, n 1 = 12, n 2 = 10 y n 3 = n4 = 9.

72 + 62 + 72 + . . . + 52 + 62 − (12)(6,3333)2
S 12 = = 1.5152
12 − 1
42 + 52 + 42 + . . . + 62 + 62 − (10)(5)2
S 22 = = 0.8889
10 − 1
32 + 32 + 32 + . . . + 32 + 42 − (9)(3.5556)2
S 32 = = 0.2728
9−1
32 + 22 + 32 + . . . + 52 + 22 − (9)(3.2222)2
S 42 = = 1.4444
9−1

Ejemplo 4.1 Por lo tanto:


! " ! "! " ! " ! "! "
120 2 120 − 12 1.5152 100 2 100 − 10 0.8889
S 2y e= +
400 120 12 400 100 10
! "2 ! "! " ! "2 ! "! "
90 90 − 9 0.2728 90 90 − 9 1.4444
+ + = 0.02395
400 90 9 400 90 9
% "
S y est r = S 2y est r = 0.02395 = 0.1547

Ejemplo 4.1 c) Calcule el total estratificado.

ŷ est r = N ȳ est r

donde N = 400 y ȳ est r = 4.675.

Por lo tanto:

τ̂est r = (400)(4.675) = 1, 870 faltas justificadas

Ejemplo 4.1 d) Halle el intervalo para la media estratificada con una confiabilidad de 95 %.

ȳ est r ± Zα/2 S ȳ est r

donde N = 400, ȳ est r = 4.675 y Zα/2 = Z0.025 = 1.96.

Por lo tanto:

4.675 ± (1.96)(0.1547)
4.3717 ≤ µest r ≤ 4.9783

90
M UESTREO ALEATORIO ESTRATIFICADO

Esto significa que el promedio de fallas justificadas está entre 4.3717 y 4.9783.

Ejemplo 4.1 e) Cuantifique por intervalo el total estratificado con una confiabilidad de 95 %.

τ̂est r ± N Zα/2 S ȳ est r

donde τ̂est r = 1, 870, N = 780, Zα/2 = Z0.025 = 1.96, S ȳ est r = 0.1547.

Por lo tanto:

1, 870 ± (400)(1.96)(0.1547)
1, 870 ± 121.3201
1, 748.6821 ≤ τest r ≤ 1, 991.3179

Esto quiere decir que el total de plantas infectadas por hectárea está entre 1,748.6821
y 1,991.3179.

Ejemplo 4.1 f) Suponga que n = 40 es una muestra preliminar. ¿Cuál es el tamaño de muestra para
estimar la media con una precisión de 5 % de la media estratificada y una confiabili-
dad de 95 %? Además, distribuya n entre los estratos en forma proporcional al tamaño
del estrato.

E
!
N (Zα/2 )2 Wh S h2
h=1
n=
E
!
N d 2 + (Zα/2 )2 Wh S h2
h=1

donde Zα/2 = Z0.025 = 1.96, d = (0.05)(4.675) = 0.23375 y además:

"E N1 2 N2 2 N3 2
Wh S h2 = S + S + S .
h=1 N 1 N 2 N 3

Estratos Ni Sh2 WhSh2

1 120 1.5152 0.4545


2 100 0.8889 0.2222
3 090 0.2778 0.0625
4 090 1.4444 0.3250
Total 400 1.0643

Ejemplo 4.1

Ejemplo 4.1 Por lo tanto:

(400)(1.96)2 (1.0643)
n= = 63.05353 alumnos (muestra)
(400)(0.2337)2 + (1.96)2 (1.0643)

91
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Asignación de la muestra en forma proporcional

N1 120
n1 = n= (64) = 19.2
N 400
N2 100
n2 = n= (64) = 16
N 400
N3 90
n3 = n= (64) = 14.4
N 400
N4 90
n4 = n= (64) = 14.4
N 400

Ejemplo 4.1 g) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de muestra
para estimar el total con una precisión de 5 % del total estratificado y una confiabili-
dad de 95 %. Además, asigne n a cada estrato en forma proporcional al tamaño.

E
!
N 2 (Zα/2 )2 Wh S h2
h=1
n=
E
!
d 2 + N (Zα/2 )2 Wh S h2
h=1
"E
donde d = (0.05)(4.675)(400) = 93.5 y h=1
Wh S h2 =1.0643.

Por lo tanto:

(400)2 (1.96)2 (1.0643)


n= = 63.03 alumnos.
(93.5)2 + (400)(1.96)2 (1.0643)
Nótese que la asignación proporcional es la misma, es decir, la muestra a extraer de
cada estrato será de 19 en el primer estrato, 16 en el segundo, 14 en el tercero y 15 en
el cuarto.

Ejemplo 4.3 El gobierno del Estado de Chiapas desea estimar el ingreso promedio mensual (miles
de pesos) de las familias chiapanecas. Supóngase que el total de familias es de 6,000.
Por otro lado, el Estado tiene 3 zonas geográficas bien definidas (costa, centro y altos)
y entre ellos existen diferencias marcadas respecto al ingreso; por ello, para realizar
el estudio se estratificó al Estado en k = 3 estratos: estrato 1 (zona costa): N = 2, 000;
estrato 2 (zona centro): N = 1, 500 y estrato 3 (zona altos): N = 2, 500.

Para las estimaciones se tomó una muestra preliminar de n = 40 familias: 15 para el


primer estrato, 11 para el segundo estrato y 14 para el tercer estrato (cuadro 4.3).

92
M UESTREO ALEATORIO ESTRATIFICADO

Cuadro 4.3 Ingreso promedio mensual

Estrato 1 Estrato 2 Estrato 3

10 09 8 9 4 5
11 08 8 9 3 2
12 12 8 8 2 3
10 12 7 4 3
09 13 6 3 4
08 14 9 5 4
13 11 9 4
14 8 3

Ejemplo 4.1

Ejemplo 4.1 a) Realice la estimación puntual de la muestra estratificada.


N1 ȳ 1 + N2 ȳ 2 + N3 ȳ 3
ȳ est r =
N
donde N1 = 2, 000, N2 = 1, 500, N3 = 2, 500 y N = 6, 000.

10 + 11 + 12 + . . . + 14 + 11
ȳ 1 = = 11.0667
15
8+8+8+...+9+8
ȳ 2 = = 8.0909
11
4+3+2+...+4+4
ȳ 3 = = 3.5
14
Por lo tanto:

(2, 000)(11.0667) + (1, 500)(8.0909) + (2, 500(3.50))


ȳ est r =
6, 000
43019.6970
ȳ est r = = 7.1699 miles de pesos mensuales (promedio)
6, 000

Ejemplo 4.1 b) Realice la estimación puntual del total estratificado.

τ̂est r = N ȳ est r

donde: N = 6, 000 y ȳ est r = 7.1699.

Por lo tanto:

τ̂est r = (6, 000)(7.1699) = 43, 019.4 (total de ingresos mensuales)

93
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 4.1 c) Calcule la varianza y la desviación estándar del promedio estratificado.


! "! "# $ ! "! "# $ ! "! "# $
N1 N1 − n 1 S 12 N2 N2 − n 2 S 22 N3 N3 − n 3 S 32
S 2ȳest r = + +
N N1 n1 N N2 n1 N N3 n3
donde N1 = 2, 000, N2 = 1, 500, N3 = 2, 500, N = 6, 000, n 1 = 15, n 2 = 11 y n 3 = 14.

102 + 112 + 122 + . . . + 142 + 112 − (15)(11.0667)2


S 12 = = 4.0667
15 − 1
2 2 2 2 2 2
8 + 9 + 8 + . . . + 9 + 8 − (11)(8.0909)
S 22 = = 0.8909
11 − 1
42 + 32 + 22 + . . . + 42 + 42 − (14)(3.50)2
S 32 = = 0.8846
14 − 1

Ejemplo 4.1 Por lo tanto:


! " ! "! " ! " ! "! "
2, 000 2 2, 000 − 15 4.06 1, 500 2 1, 500 − 11 0.8909
S ȳ est r = +
6, 000 2, 000 15 6, 000 1, 500 11
! "2 ! "! "
2, 500 2, 500 − 14 0.8846
+ = 0.04583
6, 000 2, 500 14
% "
S ȳ est r = S 2ȳ est r = 0.04583 = 0.2141

Ejemplo 4.1 d) Estime por intervalo la media estratificada con una confiabilidad de 95 %.

ȳ est r ± Z α2 S ȳ est r

donde N = 6, 000, ȳ est r = 7.1699 y Z α2 = Z0.025 = 1.96.

Por lo tanto:

7.1699 ± (1.96)(0.2140)
7.1699 ± 0.4196
6.750375 ≤ µest r ≤ 7.589541

El ingreso promedio de las familias en la población está entre 6.750375 y 7.589541.

Ejemplo 4.1 e) Estime mediante intervalo el total estratificado con una confiabilidad de 95 %.

τ̂est r ± N Z α2 S ȳ est r

donde τ̂est r = 43, 019.6970, N = 6, 000, Z α2 = Z0.025 = 1.96 y S ȳ est r = 0.2141.

94
M UESTREO ALEATORIO ESTRATIFICADO

Ejemplo 4.1 Por lo tanto:

43, 019.6970 ± (6, 000)(1.96)(0.2141)


43, 019.6970 ± 2, 517.5985
40, 501.1446 ≤ τest r ≤ 45, 537.2493

El total de ingresos mensuales de las familias esté entre 40,501.1446 y 45,537.2493.

Ejemplo 4.1 f) Supóngase que n = 40 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de 5 % de la media estratificada y una confia-
bilidad de 95 %. Además, asigne n a cada estrato en forma proporcional al tamaño del
estrato.

E
!
N (Z α2 )2 Wh S h2
h=1
n=
E
!
N d 2 + (Z α2 )2 Wh S h2
h=1

Estratos Ni Sh2 WhSh2

1 2,000 4.0660 1.3556


2 1,500 0.8909 0.2227
3 2,500 0.8846 0.3686
Total 6,000 1.9469

Ejemplo 4.1

Ejemplo 4.1 donde Z α2 = Z0.025 = 1.96, d = (.05)(7.1699) = 0.3585 y además:


E
! N1 2 N2 2 N3 2
Wh S h2 = S + S + S = 1.9469.
h=1 N 1 N 2 N 3

Ejemplo 4.1 Por lo tanto:

(6, 000)(1.96)2 (1.9469)


n= = 57.6349
(6, 000)(0.3585)2 + (1.96)2 (1.9469)

Asignación de la muestra en forma proporcional

N1 2, 000
n1 = n= (57.6349) = 19.2116
N 6, 000
N2 1, 500
n2 = n= (57.6349) = 14.4087
N 6, 000

95
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

N3 2, 500
n3 = n= (57.6349) = 24.0145
N 6, 000
Ejemplo 4.1 g) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de muestra
definitivo para estimar el total con una precisión de 5 % del total estratificado y una
confiabilidad de 95 %. Además, asigne n a cada estrato en forma proporcional al ta-
maño.

K
!
N 2 Z α2 Wi S i
i =1
n=
K
!
d 2 + N Z α2 Wi S i2
i =1
"E
donde d = (0.05)(43019.69670) = 2150.9849 y h=1
Wh S h2 =1.4969.

Por lo tanto:

(6, 000)2 (1.96)2 (1.9469)


n= = 57.6349 familias
(2, 150.9849)2 + (6, 000)(1.96)2 (1.9469)
Dado que el tamaño de muestra es el mismo, entonces se tiene la misma asignación
en cada estrato, es decir, la muestra a extraer de cada estrato será de 19 en el primer
estrato, 15 en el segundo y 24 en el tercero.

Ejemplo 4.4 En el Estado de Colima hay N = 3,200 familias. Se desea estimar el número de ho-
ras promedio por día que cada familia ve televisión. Sin embargo, se sabe que en el
Estado existen tres estratos sociales bien definidos: clase baja, media y alta. Consi-
derando que el número de horas de ver televisión puede ser distinto de estrato a es-
trato, la población se dividió en k = 3 estratos, los cuales son: estrato 1 (clase baja):
N = 1, 000 familias; estrato 2 (clase media): N = 1, 600 familias y estrato 3 (clase alta):
N = 600 familias.

La distribución de la muestra de tamaño n = 30 familias fue de 10 para el primer es-


trato, 15 para el segundo y 5 para el tercero (cuadro 4.4).

Cuadro 4.4 Número de horas diarias

Estrato 1 Estrato 2 Estrato 3


(n1 = 10) (n2 = 15) (n3 = 5)

7 08 5 5 4 4
6 07 6 5 7 3
6 08 7 6 8 4
7 09 5 6 6 5
8 10 7 7 6 4

Ejemplo 4.1

96
M UESTREO ALEATORIO ESTRATIFICADO

Ejemplo 4.1 a) Realice la estimación puntual de la muestra estratificada.


N1 ȳ 1 + N2 ȳ 2 + N3 ȳ 3
ȳ est r =
N
donde N1 = 1, 000, N2 = 1, 600, N3 = 600 y N = 3, 200.

7 + 6 + 6 + . . . + 9 + 10
ȳ 1 = = 7.60
10
5+6+7+...+6+6
ȳ 2 = =6
15
4+3+4+...+5+4
ȳ 3 = =4
5
Ejemplo 4.1 Por lo tanto:
(1, 000)(7.60) + (1, 600)(6) + (600)(4.00)
ȳ est r =
3, 200
19, 600
ȳ est r = = 6.125 horas diarias en promedio
3, 200

Ejemplo 4.1 b) Calcule el total estratificado.

τ̂est r = N ȳ est r

donde N = 3, 200 y ȳ est r = 5.4875.

Por lo tanto:

τ̂est r = (3, 200)(5.4875) = 17, 560 horas totales por día

Ejemplo 4.1 c) Calcule la varianza y la desviación estándar del promedio estratificado.


! " ! " # $ ! "2 ! "# $
N1 2 N1 − n 1 S 12 N2 N2 − n 2 S 22
S 2ȳ est r = +
N N1 n1 N N2 n2
! "2 ! " 2$
#
N3 N3 − n 3 S 3
+
N N3 n3
donde N1 = 1, 000, N2 = 1, 600, N3 = 600, N = 3, 200, n 1 = 10, n 2 = 15 y n 3 = 5.

72 + 62 + 62 + . . . + 92 + 102 − (10) (7.60)2


S 12 = = 1.60
10 − 1
52 + 62 + 72 + . . . + 62 + 62 − (15) (6)2
S 22 = = 1.1421
15 − 1
42 + 32 + 42 + 52 + 42 − (5) (4)2
S 32 = = 0.50
5−1

97
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:
! " ! "! " ! " ! "! "
1, 000 2 1, 000 − 10 1.60 1, 600 2 1, 500 − 15 1.1421
S 2y est r = +
3, 200 1, 000 10 3, 200 1, 600 15
! "2 ! "! "
600 600 − 5 0.50
+ = 0.0378
3, 200 600 5
# "
S y est r = S y est r = 0.0378 = 0.1945

Ejemplo 4.1 d) Estime mediante intervalo la media estratificada con una confiabilidad de 95 %.

ȳ est r ± Zα/2 S ȳ est r

donde N = 3, 200, ȳ est r = 5.4875 y Zα/2 = Z0.2025 = 1.96.

Por lo tanto:

5.4875 ± (1.96)(0.1945)
5.4875 ± 0.38122
5.1081 ≤ µest r ≤ 5.8669

Esto significa que el promedio de horas por día que las familias de Colima ven te-
levisión está entre 5.1081 y 5.8669.

Ejemplo 4.1 e) Estime el intervalo del total estratificado con una confiabilidad de 95 %.

τ̂est r ± N Zα/2 S ȳ est r

donde τ̂est r = 17, 560, N = 3, 200, Zα/2 = Z0.025 = 1.96 y S y est r = 0.1945.

Por lo tanto:

17,560 ± (3,200)(1.96)(0.1945)
17,560 ± 1,272.96
16,345.9 ≤ τest r ≤ 18,774.1

Entonces, el total de horas por día que las familias de Colima ven televisión está entre
16,345.9 y 18,774.1.

Ejemplo 4.1 f) Suponga que n = 30 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de 5 % de la media estratificada y una confia-
bilidad de 95 %. Además, asigne n a cada estrato en forma proporcional al tamaño de
cada estrato.

98
M UESTREO ALEATORIO ESTRATIFICADO

E
!
N (Zα/2 )2 Wh S h2
h=1
n=
E
!
N d 2 + (Zα/2 )2 Wh S h2
h=1

donde Zα/2 = Z0.0025 = 1.96, d = (.05)(5.4875) = 0.2744 y además:

"E N1 2 N2 2 N3 2
Wh S h2 = S + S + S = 1.1652.
h=1 N 1 N 2 N 3
Ejemplo 4.1 Por lo tanto:

(3, 200)(1.96)2 (1.1945)


n= = 48 familias
(3, 200)(0.2744)2 + (1.96)2 (1.1945)

Estratos Ni Sh2 WhSh2

1 1,000 1.60 0.5000


2 1,600 1.14 0.5714
3 1,600 0.50 0.0938
Total 3,200 1.1652

Ejemplo 4.1

Ejemplo 4.1 Asignación de la muestra en forma proporcional


N1 1, 000
n1 = n= (52) = 16
N 3, 200
N2 1, 500
n2 = n= (52) = 24
N 3, 200
N3 600
n3 = n= (52) = 10
N 3, 200

Ejemplo 4.1 g) Suponga que n = 30 es una muestra preliminar. Determine el tamaño de muestra
definitivo para estimar el total con una precisión de 5 % del total estratificado y con
una confiabilidad de 95 %. Además, realice la asignación de n a cada estrato en forma
proporcional al tamaño.

E
!
N 2 Zα2 Wh S h2
h=1
n=
E
!
d 2 + N Zα2 Wh S h2
h=1
"E
donde d = (0.05)(17, 560) = 878 y h=1
Wh S h2 =1.1652.

99
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 4.1 Por lo tanto:

(3, 200)2 (1.96)2 (1.1985)


n= = 48
(878)2 + (3, 200)(1.96)2 (1.1985)
El número estimado de unidades muestrales es de 52 familias, para tener una preci-
sión de ± 980 horas y 0.05 de probabilidad de no incluir en el intervalo de estimación
al total verdadero. La asignación proporcional es la misma, es decir, la muestra de ca-
da estrato será de 16 en el primer estrato, 26 en el segundo y 10 en el tercero.

Ejercicios
En los ejercicios siguientes estime un IC para la media y el total con una confiabilidad de 95 %. Su-
ponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra
para estimar la media y el total de tal manera que sean estimados con una precisión de 5 % de la
media y el total preliminar con una confiabilidad de 95 %?

Ejercicio 4.1 La química llevó a cabo un estudio con el objetivo de estimar el número de colifor-
mes fecales que son bioindicadores de contaminación en el Río Colima, cuya longi-
tud es de N = 15, 000 metros, de los cuales N1 = 4, 000 metros pertenecen a la zona
pre-urbana, N2 = 8, 000 corresponden a la zona urbana, y N3 = 3, 000 a la zona post-
urbana. Cabe mencionar que este estudio se realizó en las cuatro estaciones del año
2004, pero aquí presentamos solamente los resultados de la primavera. Para el estu-
dio se tomó una muestra de n = 15 metros distribuidos de la siguiente manera: n 1 = 4
metros para la zona pre-urbana, n 2 = 8 metros para la zona urbana, y n 3 = 3 metros
para la zona post-urbana. Los resultados se presentan en el cuadro 4.5.

Cuadro 4.5 Coliformes fecales en el agua

Pre-urbana Urbana Post-urbana

1,350 1,920 1,600


1,240 1,920 2,400
1,600 1,920 1,600
2,400 1,600
2,400

Ejemplo 4.1

Ejercicio 4.2 La Secretaría de Educación desea estimar el promedio de calificaciones de los egresa-
dos de una normal superior. En la escuela hay tres licenciaturas: Educación Preesco-
lar, Educación Primaria y Educación Secundaria. En 2007 la población de egresados

100
M UESTREO ALEATORIO ESTRATIFICADO

fue de N1 = 30 de educación preescolar, N2 = 46 de educación primaria y N3 = 80 de


educación secundaria. Para el estudio se realizó una muestra de n = 16 estudiantes
distribuidos de la siguiente forma: n 1 = 3 (preescolar), n 2 = 5 (primaria) y n 3 = 8 (se-
cundaria). Los datos se presentan en el cuadro 4.6.

Ejercicio 4.3 Un investigador desea estimar el daño promedio de tres cepas causantes de la enfer-
medad de chagas. Supóngase que 300 ratones tienen la cepa uno, 350 la cepa dos y
350 la cepa tres. Además, como se espera que el daño varíe dependiendo de la cepa,
se toma una muestra estratificada de tamaño n = 50 de la población (cuadro 4.7).

Ejercicio 4.4 En una entidad hay tres variedades de nances (500 plantas de la variedad uno; de la
dos, 10,000; y de la tres, 7,000 plantas) y se quiere estimar el promedio de taninos por
árbol. Se toma una muestra de n = 44 plantas distribuidas de la siguiente manera:
n 1 = 10 (variedad 1), n 2 = 20 (variedad 2) y n 3 = 14 (variedad 3) (véase el cuadro 4.8).

Cuadro 4.6 Calificaciones de egresados Cuadro 4.7 Daño promedio de las cepas

Preescolar Primaria Secundaria Cepa 1 Cepa 2 Cepa 3


(n1 = 15) (n2 = 17) (n3 = 8)

9.5 9.3 08.7 25 26 28 28 29 29


8.7 9.7 08.0 23 24 27 26 31 32
9.9 8.8 09.0 22 23 29 28 31 33
9.0 09.2 22 22 28 29 32 31
8.5 07.8 23 23 27 28 33 33
08.3 25 24 28 27 32 33
09.9 26 26 29 29 32 32
10.0 25 28 29 32 33
28 33 31
Ejemplo 4.1

Cuadro 4.8 Taninos por kg de nance (en %)

Variedad 1 Variedad 2 Variedad 3


(n1 = 10) (n2 = 20) (n3 = 14)

4 6 6 4 7
5 5 5 5 7
4 7 6 5 7
3 6 5 4 6
5 5 6 6
5 5 7 7
4 6 5 7
3 6 5 6
2 5 5 5
5 5 7 4

Ejemplo 4.1

101
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

4.5. La estimación de la proporción poblacional


Suponga que surge la necesidad de estimar la proporción de unidades muestrales que po-
seen un cierto atributo, en otras palabras, nuestro interés radicará en saber cómo se ma-
nifiesta la característica C en cada uno de los estratos. En tal caso nos importa saber la
proporción (p h ) de unidades muestrales que tienen la característica C en el estrato h.

Defínase: !
1 éxito
y h,i =
0 fracaso

que representa al i -ésimo componente del h-ésimo estrato. El éxito consiste en tener la ca-
racterística C .

Esta variable se comporta como una variable aleatoria del tipo binomial, por lo que el
estimador de la proporción de la característica de interés para el estrato h es:
nh
" y h,i
ph =
i =1 nh

Y su varianza correspondiente es,


# $
Nh − n h p h (1 − p h )
S 2p h =
Nh nh

Obsérvese que p h es un estimador insesgado de P h , la proporción de unidades mues-


trales que tienen la característica C (Scheaffer, 1987). De la misma manera, N p h también
es un estimador insesgado del total en el estrato h que cuentan con la característica C . De
%
tal manera Eh=1 Nh p h es un buen estimador del total poblacional que cuenta con la carac-
terística C (Pérez, 2000).

El estimador de la proporción y total poblacional

1 1 "E
p st = (N1 p 1 + ... + NE p E ) = Nh p h
N N h=1

E
"
τ̂st = (N1 p 1 + ... + NE p E ) = Nh p h = N p st
h=1

102
M UESTREO ALEATORIO ESTRATIFICADO

El estimador de la varianza de la proporción y total poblacional


1
S 2p h = (N 2 S 2 + ... + NE2 S 2p E )
N 2 1 p1

1 ! E
= N 2 S 2 (proporción)
N 2 h=1 h p h

S τ̂2 = (N12 S 2p 1 + ... + NE2 S 2p E )


st

"E
= h=1
Nh2 S 2p h (total)

Los intervalos de confianza para la proporción y total poblacional

De forma tradicional, construimos un intervalo que tiene la siguiente ecuación:


#
$ E & '& '
$ 1 !
% 2 Nh − n h p h qh
p̂ st ± t (n−1,α/2) N
N 2 h=1 h N nh
#
$ E & '& '
$ !
% 2 2 Nh − n h p h qh
τ̂ ± N t (n−1,α/2) 1N Nh
h=1 N nh

El tamaño de muestra para estimar la proporción estratificada

En cuanto a la determinación del tamaño de muestra, se procede de manera análoga a la


determinación vista en el apartado anterior. Se utiliza una modificación de la ecuación (4.3)
sustituyendo la estimación de la varianza σ2h por la varianza de la proporción estimada, que
es p h q h .

El tamaño de muestra para estimar la proporción estratificada

( E
)2 !
N t (n−1,α/2) Wh p h q h
h=1
n=
E
!
2
N dM + (t (n−1,α/2) )2 Wh p h q h
i =1

donde Wh = Nh /N y d M = el tamaño del error aceptable en la estimación de la media.

103
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El tamaño de muestra para estimar el total estratificado


!E
N 2 (t (n−1,α/2) )2 W p q
h=1 h h h
n= ! E
d T2 + N (t (n−1,α/2) )2 i =1 Wh p h q h

donde Wh = Nh /N y d T = el tamaño del error aceptable en la estimación del total.

Asignación de la muestra

El criterio de asignación proporcional, suponiendo que ya se ha calculado el tamaño de la


muestra n requerido, considera como tamaño de muestra de cada estrato una parte de n,
la cual será proporcional al tamaño del estrato. Esto es, algebraicamente el criterio:

Nh
ni = n = Wh n; i = 1, 2, . . . , h,
N

o específicamente como:

N1 N2 Nh
n1 = n, n 2 = n, . . . , n h = n
N N N

Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor,
o sea, la asignación de n entre los estratos es proporcional al tamaño de cada estrato.

Ejemplos
Ejemplo 4.5 En Colima hay N = 5, 000 personas mayores de 60 años (N1 = 2, 600 son mujeres y
N2 = 2, 400 son hombres). Para estimar el porcentaje y el total de personas que pade-
cen diabetes, se tomó una muestra aleatoria de n = 220, donde n 1 = 120 son mujeres
y n 2 = 100 son hombres. Se estratificó la población porque la enfermedad es influida
por el género. De las mujeres, 40 padecen diabetes y de los hombres, 50.

Ejercicio 4.1 a) Estime la proporción estratificada.


1
p st = (N1 p 1 + N2 p 2 )
N
donde N = 5, 000, N1 = 2, 600 y N2 = 2, 400.

104
M UESTREO ALEATORIO ESTRATIFICADO
!n 1
i =1 40
p1 = = = 0.327731
n1 120
!n 2
i =1 50
p2 = = = 0.5
n2 100
Por lo tanto:

1 2, 066.6667
p st = (2, 600(0.3333) + 2, 400(0.5)) = =41.33 % de enfermos
5, 000 5, 000

Ejercicio 4.1 b) Halle el total estratificado.

τ̂ = N p st

donde N = 5, 000 y p st = 0.4133.

Por lo tanto:

τ̂ = (5, 000)(0.4133) = 2, 006.6667 personas con diabetes

Ejercicio 4.1 c) Calcule la varianza y la desviación estándar de la proporción estratificada.


1
S 2p h = (N 2 S 2 + N22 S 2p 2 )
N 2 1 p1
donde N = 5, 000, N1 = 2, 600, N2 = 2, 400, p 1 = 0.327731 y p 2 = 0.5.
" #" # " #
N1 − n 1 p 1 q 1 2, 600 − 120 (0.3333)(0.6667)
S 2p 1 = = = 0.001767
N1 n1 2, 600 120
" #" # " #
2 N2 − n 2 p 2 q 2 2, 400 − 100 (0.5)(0.5)
S p2 = = = 0.002396
N2 n2 2, 400 100
Por lo tanto:

1
S 2p h = ((2, 600)2 (0.0017663) + (2, 400)2 (0.002396))
5, 0002
= 0.001030
$ "
Sp = S 2p = 0.001030 = 0.0321

Ejercicio 4.1 d) Calcular un IC para la proporción estratificada con una confianza de 90 %.

p st ± t α/2,n−1 S p h

donde p st = 0.4133, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0321.

105
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

0.4133 ± (1.645)(0.0321)
0.4133 ± 0.0528
0.355066 ≤ P ≤ 0.4609255

La proporción verdadera de personas que padece diabetes está entre 35.50 y 46.09 %.

Ejercicio 4.1 e) Realice una estimación por intervalo para el total estratificado.

τ̂ ± N t α/2,n−1 S p s t

donde τ̂ = 2006.6667, N = 5,000, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0321.

Por lo tanto:

2,006.6667 ± (5000)(1.645)(0.0321)
2,006.6667 ± 264
1, 775.331715 ≤ τst ≤ 2, 304.627542

Esto significa que el total de enfermos está entre 1,802.7676 y 2,330.5657.

Ejercicio 4.1 f) Suponga que n = 220 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de 0.05 y una confiabilidad de 90 %. Además,
realice la asignación de n a cada estrato en forma proporcional al tamaño del estrato.

E
!
N (Zα/2 )2 p h qh
h=1
n=
E
!
N d 2 + (Zα/2 )2 p h qh
h=1

donde Zα/2 = Z0.05 = 1.645, d = 0.05 y además:

"E N1 N2
h=1
Wh S h2 = p 1 q1 + p 2 q 2 = 0.2356.
N N

Estratos Ni ph qh Whphqh

1 2,600 0.3333 0.6667 0.1156


2 2,400 0.5000 0.5000 0.1200
Total 5,000 0.2356

Ejemplo 4.1

106
M UESTREO ALEATORIO ESTRATIFICADO

Ejercicio 4.1 Por lo tanto:

(5, 000)(1.645)2 (0.2356) 3, 186.3344


n= 2 2
= = 242 personas
(5, 000)(0.05) + (1.645) (0.2356) 13.1373
La asignación de la muestra en forma proporcional

N1 2, 600
n1 = n= (242) = 126
N 5, 000
N2 2, 400
n2 = n= (242) = 116
N 5, 000

Ejercicio 4.1 g) Suponga que n = 220 es una muestra preliminar. Determine el tamaño de mues-
tra para estimar la proporción con una precisión de 250 y una confiabilidad de 95 %.
Además, haga la asignación de n a cada estrato en forma proporcional al tamaño.

E
!
N 2 (Zα/2 )2 Wh p h q h
h=1
n= !
d 2 + N (Zα/2 )2
"E
d = (0.05)(5, 000) = 250 y h=1
Wh p h q h =0.2356.

Por lo tanto:

(5, 000)2 (1.645)2 (0.2356)


n= = 242 personas
(250)2 + (5, 000)(1.645)2 (0.2356)
La asignación proporcional es la misma que en el inciso f ).

Ejemplo 4.6 Una empresa que produce artículos electrónicos tiene tres líneas de producción. La
línea uno produce N1 = 2, 000 artículos por hora, la dos N2 = 1, 500 y la tres produce
N3 = 2, 500. La producción total por hora es de N = 6, 000. Con la finalidad de esti-
mar el porcentaje y total de artículos defectuosos producidos por hora, se tomó una
muestra aleatoria de n = 150 artículos distribuidos de la siguiente manera: n 1 = 50 de
la línea uno, n 2 = 30 de la línea dos y n 3 = 70 de la línea tres, debido a que las líneas
de producción no son idénticas y se sospecha que el número de artículos defectuosos
por líneas son diferentes. En la muestra de la línea uno (n 1 ) se encontraron 4 defec-
tuosos; en la muestra de la línea dos, 3; y en la línea tres hubo 8 defectuosos.

Ejercicio 4.1 a) Realice la estimación de la proporción estratificada.


1
p st = (N1 p 1 + N2 p 2 + N3 p 3 )
N
donde N = 6, 000, N1 = 2, 000, N2 = 1, 500 y N3 = 2, 500.

107
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS
!n 1
i =1
p1 = = 450 = 0.08
n1
!n 2
i =1
p2 = = 330 = 0.1
n2
!n 3
i =1
p3 = = 870 = 0.1143
n3
Por lo tanto:

1
p st = (2, 000(0,08) + 1, 500(0.1) + 2, 500(0.1142))
6, 000
1 595.7142
p st = (160 + 150 + 285.7142) = = 0.0992 ó 9.92 % artículos
6, 000 6, 000

Ejercicio 4.1 b) Realice la estimación del total poblacional.

τ̂ = N p st

donde N = 6, 000 y p st = 0.0993.

Por lo tanto:

τ̂ = (6, 000)(0.0993) = 595.8 artículos defectuosos por hora

Ejercicio 4.1 c) Calcule la varianza y la desviación estándar de la proporción estratificada.


1
S 2p h = (N 2 S 2 + N22 S 2p 2 + N32 S 2p 3 )
N 2 1 p1
donde N = 6, 000, N1 = 2, 000, N2 = 1, 500, N3 = 2, 500, p 1 = 0.08, p 2 = 0.1 y p 3 =
0.1143.
" #" # " #
N1 − n 1 p 1 q 1 2, 000 − 50 (0.08)(0.92)
S 2p 1 = = = 0.0014
N1 n1 2, 000 50
" #" # " #
2 N2 − n 2 p 2 q 2 1, 500 − 30 (0.1)(0.9)
S p2 = = = 0.0029
N2 n2 1, 500 30
" #" # " #
N3 − n 3 p 3 q 3 2, 500 − 70 (0.1143)(0.8857)
S 2p 3 = = = 0.0014
N3 n3 2, 500 70
Por lo tanto:

1
S 2p h = ((2, 000)2 (0.0014) + (1, 500)2 (0.0029) + (2, 500)2 (0.0014)) = 0.000579
6, 0002
$ "
S ph = S 2p = 0.000579 = 0.0240

108
M UESTREO ALEATORIO ESTRATIFICADO

Ejercicio 4.1 d) Calcular un IC para la proporción estratificada con una confianza de 90 %.

p st ± t α/2,n−1 S p h

donde p st = 0.0993, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0242.

Por lo tanto:

0.0992 ± (1.645)(0.0242)
0.0992 ± 0.039809
0.0594 ≤ P ≤ 0.1390

La proporción verdadera de artículos electrónicos defectuosos que se producen por


hora está entre 5.94 y 13.9 %.

Ejercicio 4.1 e) Realice una estimación por intervalo del total poblacional.

τ̂ ± N t α/2,n−1 S p s t

donde τ̂ = 595.8, N = 6, 000, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0242.

Por lo tanto:

595.8 ± (6000)(1.645)(0.024)
595.8 ± 236.88
356.555 ≤ τst ≤ 834.8730

El total de artículos electrónicos defectuosos que se producen por hora está entre
358.92 y 832.68.

Ejercicio 4.1 f) Suponga que n = 150 es una muestra preliminar. Determine el tamaño de mues-
tra para estimar la media con una precisión de 0.05 y con una confiabilidad de 90 %.
Además, asigne n a cada estrato en forma proporcional al tamaño del estrato.

E
!
N (Zα/2 )2 p h qh
h=1
n=
E
!
N d 2 + (Zα/2 )2 p h qh
h=1

Ejercicio 4.1 donde Zα/2 = Z0.05 = 1.645, d = 0.05 y además:


"E N1 N2 N3
h=1
Wh S h2 = p 1 q1 + p 2 q2 + p 3 q 3 = 0.0892.
N N N

109
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

(6, 000)(1.645)2 (0.0892) 1, 448.4302


n= 2 2
= = 96 artículos electrónicos
(6, 000)(0.05) + (1.645) (0.0892) 15.2413

Estratos Ni ph qh Whphqh

1 2,000 0.08 0.92 0.0245


2 1,500 0.10 0.99 0.0225
3 2,500 0.11 0.89 0.0422
Total 6,000 0.0892

Ejemplo 4.1

Ejercicio 4.1 La asignación de la muestra en forma proporcional


N1 2, 000
n1 = n= (96) = 32
N 6, 000
N2 1, 500
n2 = n= (96) = 24
N 6, 000
N3 2, 500
n3 = n= (96) = 40
N 6, 000

Ejercicio 4.1 g) Suponga que n = 150 es una muestra preliminar. Determine el tamaño de mues-
tra para estimar la proporción con una precisión de ± 300 y con una confiabilidad de
90 %. Además, distribuya n entre los estratos en forma proporcional al tamaño.

E
!
N 2 (Zα/2 )2 Wh p h q h
h=1
n=
E
!
d 2 + N (Zα/2 )2 Wh p h q h
h=1

"E
donde d = (0.05)(6, 000) = 300 y h=1
Wh p h q h = 0.0892

(6, 000)2 (1.645)2 (0.0892)


n= = 95.0325.
(300)2 + (6, 000)(1.645)2 (0.0892)
La asignación proporcional es la misma que en el inciso anterior.

Ejemplo 4.7 La Secretaría de Educación Pública del Estado de Colima desea conocer el porcentaje
y el total de personas que ven telenovelas. Suponga que la población de individuos en
el Estado es de N = 10, 000, de los cuales 30 % son niños (estrato 1), 50 % son jóvenes
(estrato 2) y el resto son adultos (estrato 3). Se estratificó la población de esa forma
ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para

110
M UESTREO ALEATORIO ESTRATIFICADO

estimar el porcentaje y total de personas que ven telenovelas se tomó una muestra
aleatoria de n = 300 individuos distribuidos de la siguiente manera: n 1 = 90 del estra-
to uno, n 2 = 150 del estrato dos y n 3 = 60 del estrato tres. Los resultados fueron: en el
estrato uno, 30 niños; en el dos, 70; y en el estrato tres, 40.

Ejercicio 4.1 a) Haga la estimación de la proporción estratificada de personas que ven telenovelas.
1
p st = (N1 p 1 + N2 p 2 )
N
donde N = 10, 000, N1 = 3, 000, N2 = 5, 000 y N3 = 2, 000.
!n 1
i =1 30
p1 = = = 0.3333
n1 90
!n 2
i =1 70
p2 = = = 0.4666
n2 150
!n 3
i =1 40
p3 = = = 0.6666
n3 60
Por lo tanto:

1
p st = (3, 000(0.3333) + 5, 000(0.4666) + 2, 000(0.6666))
10, 000
1 4, 666.6667
p st = (1, 000 + 2, 333.3333 + 1, 333.3333) = = 46.67 %
10, 000 10, 000

Ejercicio 4.1 b) Calcule la estimación del total estratificado.

τ̂ = N p st

donde N = 10,000 y p st = 0.4667.

Por lo tanto:

τ̂ = (10, 000)(0.4667) = 4, 666.6667 personas ven telenovelas

Ejercicio 4.1 c) Estime la varianza y la desviación estándar de la proporción estratificada.


1
S 2p h = (N 2 S 2 + N22 S 2p 2 )
N 2 1 p1
donde N = 5, 000, N1 = 1, 000, N2 = 3, 000, N3 = 2, 000, p 1 = 0.3333, p 2 = 0.4667 y
p 3 = 0.6667.

111
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS
! "# $ # $
N12 − n 1 p 1 q1 3, 000 − 90 (0.3333)(0.6667)
S 2p 1 = = = 0.0024
N1 n1 3, 000 90

! "# $ # $
N22 − n 2 p 2 q2 5, 000 − 150 (0.4667)(0.5333)
S 2p 2 = = = 0.0016
N2 n2 5, 000 150

! "# $ # $
N32 − n 3 p 3 q3 2, 000 − 60 (0.6667)(0.3333)
S 2p 3 = = = 0.0036
N3 n3 2, 000 60
Por lo tanto:

1
S 2p h = ((3, 000)2 (0.0024) + (5, 000)2 (0.0016) + (2, 000)2 (0.0035)) = 0.00076
10, 0002
% "
S p = S 2p = 0.00076 = 0.0276

Ejercicio 4.1 d) Calcular un IC para la proporción estratificada con una confiabilidad de 90 %.

p st ± t α/2,n−1 S p h

donde p st = 0.4667, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0276.

Por lo tanto:

0.4667 ± (1.645)(0.0276)
0.4667 ± 0.0454
0.42228 ≤ P ≤ 0.51329

Esto significa que la proporción verdadera de personas que ven telenovelas está entre
42.13 y 51.21 %, con una confiabilidad de 90 %.

Ejercicio 4.1 e) Estime por intervalo el total estratificado con una confiabilidad de 90 %.

τ̂ ± N t α/2,n−1 S p s t

donde τ̂ = 4, 666.6667, N = 10,000, t α/2,n−1 = Zα/2 = Z0,05 = 1.645 y S p = 0.0276.

Por lo tanto:

4, 666,6667± (10, 000)(1.645)(0.0276)


4, 666,6667± 453.9811
4, 212.7259 ≤ τst ≤ 5, 120.6074

112
M UESTREO ALEATORIO ESTRATIFICADO

El total de personas que ven televisión está entre 4,212.7259 y 5,120.6074, con una
confiabilidad de 90 %.

Ejercicio 4.1 f) Suponga que n = 300 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de 0.05 y una confiabilidad de 90 %. Además,
realice la asignación de n a cada estrato en forma proporcional al tamaño del estrato.

E
!
N (Zα/2 )2 p h qh
h=1
n=
E
!
N d 2 + (Zα/2 )2 p h qh
h=1

Ejercicio 4.1 donde Zα/2 = Z0.05 = 1.645, d = 0.05 y también:


"E N1 N2 N3
h=1
Wh S h2 = p 1 q1 + p 2 q2 + p 3 q 3 = 0.2356.
N N N

Estratos Ni ph qh Whphqh

1 03,000 0.3333 0.6667 0.0667


2 05,000 0.4667 0.5333 0.1244
3 02,000 0.6667 0.3333 0.0444
Total 10,000 0.2355

Ejemplo 4.1

Ejercicio 4.1 Por lo tanto:

(10, 000)(1.645)2 (0.2355) 6, 374.1922


n= 2 2
= = 248.6284 personas (muestra)
(10, 000)(0.05) + (1.645) (0.2355) 25.6374

Ejercicio 4.1 Asignación de la muestra en forma proporcional


N1 3, 000
n1 = n= (249) = 75
N 10, 000
N2 5, 000
n2 = n= (249) = 125
N 10, 000
N3 2, 000
n3 = n= (249) = 50
N 10, 000

Ejercicio 4.1 g) Suponga que n = 300 es una muestra preliminar. Halle el tamaño de muestra defi-
nitivo para estimar la proporción con una precisión de ± 500 y confiabilidad de 90 %.
Además, haga la asignación de n a cada estrato en forma proporcional al tamaño.

113
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

E
!
N 2 (Zα/2 )2 Wh p h q h
h=1
n=
E
!
d 2 + N (Zα/2 )2 Wh p h q h
h=1

"E
donde d = 500 y h=1
Wh p h q h = 0.2356.

Por lo tanto:

(10, 000)2 (1.645)2 (0.2355)


n= = 249 personas (muestra)
(500)2 + (10, 000)(1.645)2 (0.2355)
Entonces, la asignación proporcional es la misma, es decir, que la muestra a extraer
de cada estrato será de 75 para el primer estrato, 124 para el segundo y 50 para el ter-
cero.

Ejemplo 4.8 En la Facultad de Filosofía se desea conocer el porcentaje y total de alumnos que han
leído Cien Años de Soledad de Gabriel García Márquez. El número total de alumnos es
de N = 600, de los cuales 29 % son de primer grado (estrato 1), 25 % de segundo grado
(estrato 2), 23 % de tercer grado (estrato 3) y 23 % de cuarto grado (estrato 4). Se estrati-
ficó la población de esa forma debido a que los hábitos de lectura entre los grados son
diferentes. Para estimar este porcentaje y el total, se tomó una muestra aleatoria de
n = 40 individuos distribuidos de la siguiente manera: n 1 = 13 del estrato uno, n 2 = 12
del estrato dos, n 3 = 8 del estrato tres y n 4 = 7 del cuarto estrato. Los alumnos que han
leído el libro fueron 7, 6, 5 y 5 en el estrato 1, 2, 3 y 4, respectivamente.

Ejercicio 4.1 a) Realice la estimación de la proporción estratificada.


1
p st = (N1 p 1 + N2 p 2 )
N
donde N = 600, N1 = 174, N2 = 150, N3 = 138 y N4 = 138.
"n 1
i =1 7
p1 = = = 0.5385
n1 13
"n 2
i =1 6
p2 = = = 0.5454
n2 12
"n 3
i =1 5
p3 = = = 0.625
n3 8
"n 4
i =1 5
p4 = = = 0.71428
n4 7

114
M UESTREO ALEATORIO ESTRATIFICADO

Ejercicio 4.1 Por lo tanto:


1
p st = (174(0.5385) + 150(0.500) + 138(0.625) + 138(0.7143)) = 58.92 % alumnos
600

Ejercicio 4.1 b) Estime el total estratificado.

τ̂ = N p st

donde N = 600 y p st = 0.5892.

Por lo tanto:

τ̂ = (600)(0.5892) = 353.52

El total de alumnos de esa facultad que leyó el libro es de 353.52

Ejercicio 4.1 c) Estime la varianza y la desviación estándar de la proporción estratificada.


1
S 2p h = (N 2 S 2 + N22 S 2p 2 )
N 2 1 p1
donde N = 600, N1 = 174, N2 = 150, N3 = 138, N4 = 138, p 1 = 0.5385, p 2 = 0.500,
p 3 = 0.625 y p 4 = 0.7143. De igual manera:
! "# $ # $
2
N12 − n 1 p 1 q 1 174 − 13 (0.5385)(0.4615)
S p1 = = = 0.0177
N1 n1 174 13

! "# $ # $
N22 − n 2 p 2 q2 150 − 12 (0.500)(0.500)
S 2p 2 = = = 0.02088
N2 n2 150 12

! "# $ # $
N32 − n 3 p 3 q3 138 − 8 (0.625)(0.375)
S 2p 3 = = = 0.02759
N3 n3 138 8

! "# $ # $
N42 − n 4 p 4 q4 138 − 7 (0.7143)(0.2857)
S 2p 4 = = = 0.02767
N4 n4 138 7
Por lo tanto:

1
S 2p h = ((174)2 (0.0177) + (150)2 (0.0192) + (138)2 (0.0276) + (138)2 (0.0277))
6002
= 0.00561
% "
Sp = S 2p = 0.0056 = 0.0749

115
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicio 4.1 d) Calcule el IC para la proporción estratificada con una confianza de 90 %.

p st ± t α/2,n−1 S p h

donde p st = 0.5892, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0749.

Por lo tanto:

0.5892± (1.645)(0.0749)
0.5892± 0.1232
0.465995 ≤ P ≤ 0.712384

Esto significa que la proporción verdadera de lectores varía entre 46.60 y 71.24 %, con
una confiabilidad de 90 %.

Ejercicio 4.1 e) Estime por intervalo el total poblacional, con una confianza de 90 %.

τ̂ ± N t α/2,n−1 S p s t

donde τ̂ = 353.5137, N = 600, t α/2,n−1 = Zα/2 = Z0.05 = 1.645 y S p = 0.0749.

Por lo tanto:

353.52 ± (600)(1.645)(0.0749)
353.52 ± 37.6108
279.597 ≤ τst ≤ 427.43

El total de alumnos lectores fluctúa entre 279.597 y 427.43, con una confiabilidad de
90 %.

Ejercicio 4.1 f) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de muestra
para estimar la media con una precisión de 0.05 y una confiabilidad del 90 %. Además,
asigne n a cada estrato en forma proporcional al tamaño del estrato.

E
!
N (Zα/2 )2 p h qh
h=1
n=
E
!
N d 2 + (Zα/2 )2 p h qh
h=1

Ejercicio 4.1 donde Zα/2 = Z0.025 = 1.645, d = 0.05 y también:


"E N1 N2 N3
h=1
Wh S h2 = p 1 q1 + p 2 q2 + p 3 q 3 = 0.2354.
N N N

116
M UESTREO ALEATORIO ESTRATIFICADO

Estratos Ni ph qh Whphqh

1 174 0.5385 0.4615 0.0721


2 150 0.5000 0.5000 0.0625
3 138 0.625 0.3750 0.0539
4 138 0.7143 0.2857 0.0469
Total 600 0.2354

Ejemplo 4.1

Ejercicio 4.1 Por lo tanto:

(600)(1.645)2 (0.2354)
n= = 179 personas (muestra)
(600)(0.05)2 + (1.645)2 (0.2354)

Asignación de la muestra en forma proporcional

N1 174
n1 = n= (179) = 52
N 600
N2 150
n2 = n= (179) = 45
N 600
N3 138
n3 = n= (179) = 41
N 600
N4 138
n4 = n= (179) = 41
N 600

Ejercicio 4.1 g) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de muestra
para estimar la proporción con una precisión de ± 30 y una confiabilidad de 90 %.
Además, haga la asignación de n a cada estrato en forma proporcional al tamaño.

E
!
N 2 (Zα/2 )2 Wh p h q h
h=1
n=
E
!
d 2 + N (Zα/2 )2 Wh p h q h
h=1

"E
donde d = (0.05)(600) = 30 y h=1
Wh p h q h = 0.2354.

Por lo tanto:

(600)2 (1.645)2 (0.2354)


n= = 179 personas (muestra)
(30)2 + (600)(1.645)2 (0.2354)
La asignación de la muestra es la misma.

117
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicios
En los ejercicios estime los parámetros siguientes:

a) El IC para la proporción y el total estratificado con una confiabilidad de 95 %.

b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción y el total estratificado de tal manera que la proporción
y el total sean estimados con una precisión de 5 % de la proporción y el total preliminar con
una confiabilidad de 95 %?

Ejercicio 4.5 Un investigador estudió los niveles de colesterol sérico en 500 personas mayores de
45 años (300 mujeres y 200 hombres). Dado que piensa que el género influye en la va-
riable respuesta, estratificó la población por género. Para poder estimar la cantidad
de personas que tiene altos niveles de colesterol, tomó una muestra aleatoria simple
de 120 personas: 84 hombres y 36 mujeres. Al momento de realizar las mediciones
encontró que 3 mujeres y 5 hombres tenían un alto nivel de colesterol.

Ejercicio 4.6 Un agrónomo sembró tres variedades de manzanas. En total, sembró 5,000 plantas:
1,000 pertenecen a la variedad uno, 2,500 a la dos y 1,500 a la tres. Para calcular el
porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra aleatoria
de 250 plantas: 100 de la primera variedad, 100 de la segunda y 50 de la tercera. El
número de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno,
4 en la variedad dos y 6 en la variedad tres.

Ejercicio 4.7 En una población urbana de 3,500 personas del Estado de Michoacán, se desea cono-
cer la cantidad de personas que utilizan Internet. Supóngase que en dicha población
45 % son adolescentes, 30 % niños y el resto adultos. Para estimar el porcentaje y to-
tal de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos
distribuidos de la siguiente manera: adolescentes: n 1 = 200, niños: n 2 = 150 y adultos:
n 3 = 250. Los resultados del número de personas que usan Internet por estrato son:
70, 30 y 40, respectivamente.

Ejercicio 4.8 A un centro de salud asisten aproximadamente 7,000 personas de los cuales 4,000 son
adolescentes y 3,000 son adultos. Se desea conocer el porcentaje de personas que ha-
cen ejercicio diariamente y para ello se toma una muestra aleatoria de 350 individuos
(150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio diariamente.
Los resultados obtenidos son los siguientes: 12 en el estrato de adolescentes hacen
ejercicio diariamente, mientras que 6 en el de adultos.

118
C APÍTULO

5
Muestreo sistemático

La estadística produce
resultados muy precisos,
cuando es bien utilizada
y se respetan sus principios.
OAML

L A aleatoriedad en la selección de la muestra da sustento a los métodos revisados en ca-


pítulos anteriores: un proceso complicado y costoso. Por tal motivo, podemos usar el
diseño de muestreo o de encuestas por muestreo sistemático, que es ampliamente utili-
zado para reducir el proceso de selección de la muestra. Este diseño sólo requiere fijar un
intervalo y de ahí recorrer la población seleccionando las unidades que se encuentren en
el punto seleccionado del intervalo. Ello evidentemente facilita el trabajo de campo en el
muestreo y reduce sustancialmente los errores que se podrían cometer en caso de usar un
procedimiento más laborioso (Pérez, 2000).

Cuando se toma la muestra de una superficie, las unidades se extraen premeditada-


mente de un plano cartesiano imaginario. De esta manera el tiempo que se consumirá y el
costo de selección por unidad muestral será menor (Pérez, 2000).

. .Muestra sistemática
Es una muestra que se obtiene con una unidad muestral por cada k unidades en
la población de tamaño N , una vez que se obtuvo el primer elemento, el cual se
selecciona aleatoriamente dentro de los primeros k elementos que conforman
el marco de muestreo. De esta manera, tomando el valor apropiado de k, se dice
que se tiene una muestra de 1 en k. A este tipo de muestra la denotaremos como
Ys y .

Regularmente, N es un múltiplo de k. A cada conjunto de k unidades se le llama grupo.


Cabe señalar que existe el muestreo sistemático cuando N no es múltiplo de k.

119
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

En el cuadro 5.1 se muestra el esquema de un muestreo sistemático, donde N es un


múltiplo de k, y contiene las unidades que se seleccionan de la población, donde la prime-
ra unidades seleccionada (k) es aleatoria.

Cuadro 5.1 Esquema de muestreo sistemático

Grupo 1 2 3 … k

1 1 2 3 … k
2 k+1 k+2 k+3 … 2k
3 2k + 1 2k + 2 2k + 3 … 3k
.. .. .. .. .. ..
. . . . . .
j (j – 1) k + 1 (j – 1) k + 2 (j – 1) k + 3 … jk
.. .. .. .. .. ..
. . . . . .
n (n – 1) k + 1 (n – 1) k + 2 (n – 1) k + 3 … nk = N

La mayoría de autores coincide en señalar que este diseño es quizá el procedimiento


de selección de muestra más conocido, y que además posee ventajas sobre la selección
aleatoria simple, entre las que se pueden mencionar:

Rapidez y facilidad en la selección de los elementos de la muestra en la población.

Ninguna sucesión grande de elementos en la población queda sin representación.

Sé está menos expuesto a errores de selección que cometen los investigadores en el


campo.

Bajo costo, por la simplicidad de la selección.

Mejor organización y control en el trabajo de campo.

En la práctica, la estimación de la varianza sistemática del estimador bajo estudio pre-


senta problemas, ya que se requieren cuando menos dos selecciones aleatorias por cada
intervalo de selección (k), es decir, dos o más muestras sistemáticas para la misma pobla-
ción.

Si se conoce la estructura de la población, la anterior dificultad puede resolverse con-


siderando el muestreo sistemático como equivalente al muestreo aleatorio simple, y por lo
tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria simple del
estimador bajo estudio.

Es conveniente y oportuno indicar a continuación para cuáles poblaciones es válida


dicha equivalencia.

120
M UESTREO SISTEMÁTICO

5.1. Tipos de población por su estructura


Población aleatoria

Una población es aleatoria (figura 5.1) si sus elementos están ordenados al azar con respec-
to a la característica de interés. Autores como Kish (1972), Scheaffer et al. (1987) y Azorin
(1972), entre otros, coinciden al indicar que el muestreo sistemático bajo estas condicio-
nes es equivalente al muestreo aleatorio simple. Esto significa que la varianza bajo MAS es
aproximadamente igual a la varianza bajo muestreo sistemático.

Figura 5.1
10
!
!

La dispersión del marco


de muestreo de una
8

!
!
!
población aleatoria
!
!
! ! !
6

!
!
!
! !
Y

!
!
! !
4

!
!
! ! !
! !
!
!
! !
2

!
! ! !
! ! ! ! ! !
!
! !
0

5 10 15 20

Población ordenada

Una población es ordenada (figura 5.2) si los elementos dentro de la población están orde-
nados de acuerdo con algún esquema y con respecto a la variable de interés. Scheaffer et al.
(1987) indican que una muestra sistemática de tal población proporciona más información
que una muestra aleatoria simple por unidad de costo (por ende, se obtiene una mayor efi-
ciencia en la generación de datos), debido a que la varianza sistemática del estimador será
menor que la varianza del mismo cuando se emplee el muestreo aleatorio simple. Debido
a que la varianza sistemática del estimador no se puede estimar directamente, empleamos
una aproximación conservadora (que es mayor de la que se esperaría): se estima la varian-
za del estimador con las expresiones vistas en el capítulo sobre muestreo aleatorio simple.

Población periódica

Una población es periódica si los elementos de la población tienen una variación cícli-
ca con respecto a la variable de interés. Scheaffer et al. (1987) señalan que una muestra

121
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

sistemática extraída de esta población proporciona menos información que una muestra
aleatoria simple por unidad de costo. Como en las situaciones anteriores, la varianza sis-
temática del estimador no puede estimarse a partir de una sola muestra sistemática. Se
puede aproximar su valor empleando las expresiones correspondientes que da el muestreo
aleatorio simple, pero como es de esperarse esta aproximación subestimará la varianza ver-
dadera (sistemática).

Figura 5.2

!"
!
!
La dispersión del marco !
!
!
!
!

de muestreo de una !
! !

(
!!
población ordenada !!!
!
!

!
! !!
! !
! !!!
*

' !
! !
! !
! !
!!!
! !
!
&

! !
! !
! !!
!!
%

!! " ! # $

Como una alternativa para que esta subestimación sea mínima, se sugiere cambiar va-
rias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la po-
blación y al mismo tiempo seleccionar la correspondiente muestra sistemática. En conse-
cuencia, se puede suponer que la muestra así extraída es sistemática y proviene de una
población aleatoria.

Para lecturas adicionales, véanse, por ejemplo, Kish (1972), capítulo 4; Azorin (1972),
capítulo 21; y Scheaffer et al. (1987), capítulo 7.

5.2. ¿Cómo seleccionar una muestra sistemática?


Primero, se debe decidir el tamaño del intervalo “1 en k” unidades, después se selecciona
aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la
k−ésima unidad y así se continuará hasta llegar a N . Pero surge la pregunta de cómo se-
leccionar la k adecuada. En general, para una muestra sistemática de n elementos en una
población de N , k debe ser menor o igual a N /n; si se desconoce N , entonces se determina
un tamaño de muestra n aproximado y así se podría obtener una k estimada (Pérez, 2000).

122
M UESTREO SISTEMÁTICO

A continuación, veamos algunas maneras de cómo elegir el valor de k dependiente del


tamaño de la población:

I. Cuando el tamaño de la población, N , es múltiplo de n, (N = kn).

Notación:
N : tamaño de la población.
n: tamaño de la muestra.
k = N /n: intervalo de selección o muestreo.

Procedimiento:

1) Seleccionar aleatoriamente un número entero i (arranque o inicio aleatorio)


comprendido entre 1 y k (1 ≤ i ≤ k ).
2) Luego de manera rígida o sistemática (de ahí proviene el nombre del procedi-
miento), tomar el elemento i +k que está k lugares del i -ésimo en la lista, el i +2k
que está 2k lugares después, y así sucesivamente hasta completar el tamaño n
de la muestra. Nótese que la tabla de números aleatorios u otro mecanismo de
selección se emplea una sola vez en i .

Por ejemplo, si N = 1, 000 y se decide un tamaño de n = 10, entonces k = 1,000/10


= 100, el primer valor de k será un valor entre 1 y 100, el cual se elige al azar. Su-
ponga que el primer valor es 40, entonces los elementos que conformarán la
muestra son: el 40, 140, 240, 340, 440, 540, 640, 740, 840 y 940.

II. Cuando el tamaño de la población (N ) no es múltiplo de n (N ̸= nk).

Notación:
N : tamaño de la población.
n: tamaño de la muestra.
k = N /n: intervalo de selección o muestreo.

En la prática, es frecuente que N no sea un múltiplo de n, con lo cual la muestra sis-


temática al final puede tener n ó n − 1 elementos.

Azorin (1972) señala que esta diferencia de tamaños no suele ser importante cuan-
do la población es superior a 50. Por otro lado, Kish (1972) indica que este problema
se puede resolver de varias maneras y el investigador deberá seleccionar la más con-
veniente. De las soluciones propuestas por dicho autor, describiremos la más usual:
considerar el marco de muestreo (lista) como si fuera circular.

123
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Procedimiento:

1) Considerar el marco de muestreo como un círculo: que la primera unidad con-


tinúe de la última.

2) Sea k el entero más próximo a N /n.

3) Seleccionar aleatoriamente un número entero entre 1 y N .

4) En seguida, seleccionar cada k-ésima unidad hasta completar los n elementos.

Por ejemplo, supóngase que N = 300 y se decide un tamaño de n = 9, entonces 300/9 =


33.3333 y k = 33, ya que es el entero más próximo a 33.3333. Además, supóngase que
270 es el entero seleccionado aleatoriamente entre 1 y 300. Por tanto, los elementos
que conformarán la muestra son: 270, 3, 36, 69, 102, 135, 168, 201 y 234.

III. Cuando se desconoce el tamaño de la población (N ).

En este caso puede darse un valor tentativo de k; sin embargo, podría ser muy grande
y nos daría un tamaño de muestra menor que el requerido en el estudio. Esto no re-
presentaría un problema si se tuviera la posibilidad de tomar nuevamente la muestra
y así seleccionar la k que proporcione el tamaño requerido. Sin embargo, hay mu-
chos casos en los que esto no es posible y es necesario tener una precisión dada al
principio. Ello hace difícil la tarea de estimar un valor adecuado de k (Pérez, 2000).

5.3. La estimación de la media poblacional


Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una
muestra estimando los parámetros de mayor interés, como la media y el total poblacional.
Después se procede a estimar los parámetros con sus correspondientes varianzas y por
último los intervalos de confianza.

Estimación de la media y el total de la muestra sistemática

!n
i =1 y i
µ̂ = ȳ sY =
n

τ̂sY = N ȳ sY

A continuación se presentan los estimadores correspondientes a las varianzas de la me-


dia y del total.

124
M UESTREO SISTEMÁTICO

La varianza de la media y del total

! "! "
N − n s2
V̂ ( ȳ sY ) =
N n
! "! 2 "
2 N −n s
V (τ̂sY ) = N
N n

El estimador de la varianza del total se obtiene multiplicando el estimador de la varian-


za de la media por N 2 .

El intervalo de confianza de la media y el total

#! "! "
N −n s2
ȳ sY ± t n−1, α
2 N n

donde ȳ sY es la media de la muestra sistemática.


# ! "! "
N −n s2
τ̂sY ± t n−1, α N2
2 N n

Obsérvese que la estimación de la varianza es la misma que la presentada en el muestreo


simple aleatorio. Sin embargo, las varianzas poblacionales no son las mismas. La varianza
del estimador de la media de una muestra sistemática es:

σ2 $ %
V ( ȳ sY ) = 1 + (n − 1)ρ X Y
n

En la fórmula anterior aparece la medida de correlación ρ X Y , que indica la relación que


existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy li-
gado a este indicador. Si ρ X Y está alrededor de uno, quiere decir que los elementos están
estrechamente relacionados entre sí y eso producirá una mayor varianza de la media que
en el muestreo simple aleatorio (éste será el más indicado). En caso contrario, si ρ X Y está
cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la va-
rianza es aproximadamente igual al muestreo simple aleatorio (Scheaffer et al., 1987). Por
lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son apro-
piados cuando el coeficiente de correlación (ρ X Y ) es casi cero, de lo contrario la muestra
debe ser seleccionada bajo MAS o MAE.

125
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

La selección del tamaño de la muestra

A fin de determinar el tamaño de la muestra para estimar a µ, se procede como en los capí-
tulos anteriores. Primero, se elige un valor de d , es decir, la precisión que se está dispuesto a
aceptar en las estimaciones, y se iguala al producto de un valor de t (con sus correspondien-
tes grados de libertad) por la desviación estándar de dicho estimador, como se representa
a continuación:
!
d = t (n−1,α/2) V ( ȳ sY ) (5.1)

El tamaño de muestra para estimar la media

Despejando n de esta ecuación (5.1), se obtiene lo siguiente:


" #2
N t (n−1,α/2) σ2
n= " #2
N d 2 + t (n−1,α/2) σ2
donde la varianza poblacional σ2 se puede sustituir por la muestral.

El tamaño de muestra para estimar el total

" #2
N 2 t (n−1,α/2) σ2
n= " #2
d 2 + N t (n−1,α/2) σ2
donde la varianza poblacional σ2 se sustituye por la muestral.

Ejemplos
Ejemplo 5.1 Una línea de producción de leche ultrapasteurizada elabora N =1,000 envases por ho-
ra (cada envase contiene un litro de leche). Se desea saber si cada envase de leche
cumple con el porcentaje de grasa y para ello se toma una muestra sistemática de 10
envases. Primero se elige k.

N 1, 000
k= = = 100
n 10
Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo alea-
toriamente el primer elemento entre los primeros 100 (cuadro 5.2).

126
M UESTREO SISTEMÁTICO

Cuadro 5.2 Porcentaje de grasa por envase de leche

Número Porcentaje
de muestra de grasa

80 2.5
180 2.6
280 2.7
380 2.6
480 2.8
580 2.9
680 3.0
780 2.6
880 2.7
980 2.8
Ejemplo 5.1

Ejemplo 55.1 Estime los parámetros siguientes:

Ejemplo 55.1 a) El promedio de grasa por envase.


y 1 + y 2 + y 3 + ... + y n
ȳ s =
n
2.5 + 2.6 + 2.7 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8
ȳ s = = 2.72 ó 2.72 % de grasa
10
Ejemplo 55.1 b) La varianza muestral (S 2 ).
!n 2 2
i =1 y i − n ȳ
S 2s =
n −1
(2.5)2 + (2.6)2 + . . . + (2.7)2 + (2.8)2 − (10)(2.72)2
S 2s = = 0.024
10 − 1
Ejemplo 55.1 c) Encontrar la varianza y la desviación estándar de la media muestral.
" #" #
2 1, 000 − 10 0.024
S ȳ s = = 0.002376
1, 000 10
$ "
S ȳ s = S 2ȳ s = 0.002376 = 0.04874.

Ejemplo 55.1 d) Estime la cantidad total de grasa que se encuentra en los envases.

τ̂ = N ȳ s = (1, 000)(2.72) = 2,720 gramos de grasa

Ejemplo 55.1 e) Hallar el IC para el promedio de grasa por envase de leche.

ȳ s ± t n−1,α/2 S ȳ s

donde ȳ s = 2.72, S ȳ s = 0.0484 y t n−1,α/2 = t 10−1,0.025 = 2.2622.

127
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

2.72 ± (2.2622)(0.04874)
2.72 ± 0.11026
2.6097 ≤ µ ≤ 2.8303

Es decir, con una confiabilidad de 95 % se estima que el promedio de grasa por en-
vase de leche está entre 2.6097 y 2.8303.

Ejemplo 55.1 f) Calcular el IC para el total con una confianza de 95 %.

ȳ ± N t n−1,α/2 S S ȳ

donde τ̂s = 2,720, N = 1, 000, S S ȳ = 0.04874 y t n−1,α/2 = t 10−1,0.025 = 2.2622.

Por lo tanto:

2,720 ± (1, 000)(2.2622)(0.04874)


2,720 ± 110.26919
2,609.7329 ≤ τs ≤ 2,830.2671

Es decir, con 95 % de confianza se estima que el total de grasa está entre 2,609.7329
y 2,830.2671.

Ejemplo 55.1 g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de ta-
maño n = 10. ¿Cuál es el tamaño de muestra para estimar el promedio de grasa por
envase, con una precisión de 0.05 % de grasa por envase y una confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2s
n=
N d 2 + (t n−1,α/2 )2 S 2s
donde N = 1, 000, t n−1,α/2 = t 10−1,0.025 = 2.2622, S 2s = 0.024 y d = 0.05.

Por lo tanto:

(1, 000)(2.2622)2 (0.024)


n= = 47 envases (muestra)
(1, 000)(0.05)2 + (2.2622)2 (0.024)
Ejemplo 55.1 h) Suponga que la muestra seleccionada representa una muestra preliminar de tama-
ño n = 10. ¿Cuál es el tamaño de muestra para estimar el total de envases, con una
precisión de 50 envases y una confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2s
n=
d 2 + N (t n−1,α/2 )2 S 2s
donde N = 1, 000, t n−1,α/2 = t 12−1,0,025 = 2.2622, S 2s = 0.024 y d = 50.

128
M UESTREO SISTEMÁTICO

Ejemplo 55.1 Por lo tanto:

(1, 000)2 (2.201)2 (0.024)


n= = 47 envases (unidades muestrales)
(50)2 + (1, 000)(2.201)2 (0.024)

Ejemplo 5.2 Un tráiler transporta N = 2, 500 sacos de maíz, que están enumerados del 1 al 2,500.
Dado que los sacos no pesan lo mismo, suponga que quiere saber el peso promedio
por saco y el total de maíz que transporta dicho tráiler. Para ello se toma una muestra
sistemática de n = 20 sacos. A continuación elegimos k.

N 2, 500
k= = = 125
n 20
Esto quiere decir que debemos muestrear cada 125 sacos de maíz eligiendo aleatoria-
mente el primer elemento entre los primeros 125. Los datos se presentan en el cuadro
5.3.

Cuadro 5.3 Peso de sacos de maíz

n Muestra Peso n Muestra Peso


(núm. de saco) (kg) (núm. de saco) (kg)

1 10 2.5 11 1,260 79.82


2 135 2.6 12 1,385 73.15
3 260 2.7 13 1,510 72.88
4 385 2.6 14 1,635 81.15
5 510 2.8 15 1,760 78.29
6 635 2.9 16 1,885 74.62
7 760 3.0 17 2,010 83.31
8 885 2.6 18 2,135 73.36
9 1,010 2.7 19 2,260 69.75
10 1,135 2.8 20 2,385 77.04
Ejemplo 5.1

Ejemplo 55.1 a) Estime el peso promedio en kg por saco de maíz.


y1 + y2 + y3 + . . . + yn
ȳ s =
n
71.89 + 74.24 + 77.60 + . . . + 77.04
ȳ s = = 75.3125
20
Ejemplo 55.1 b) Halle la varianza muestral (S 2 ).
!n 2 2
i =1 y i − n ȳ
S 2s =
n −1
(71.89)2 + (74.24)2 + (77.60)2 + . . . + (77.04) − (20)(75.3125)2
S 2s =
20 − 1

129
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

483.0747
S 2s = = 25.4249
19
Ejemplo 55.1 c) Calcule la varianza y la desviación estándar de la media muestral.
! "! " ! "! "
N − n S2 2, 500 − 20 25.4249
S 2ȳ s = = = 1.2611
N n 2, 500 20
# "
S ȳ s = S 2ȳ s = 1.2611 = 1.12297

Ejemplo 55.1 d) Halle el total de kg que hay en los 2,500 sacos de maíz.

τ̂s = N ȳ s = (2, 500)(75.3125) = 188, 281.25

Ejemplo 55.1 e) Calcule un IC para el promedio de kilogramos de maíz por saco.

ȳ s ± t n−1,α/2 S ȳ s

donde ȳ s = 75.3125, S ȳ s = 1.12297 y t n−1,α/2 = t 20−1,0.025 = 2.0930.

Por lo tanto:

75.3125 ± (2.093)(1.12297)
75.3125 ± 2.3504
72.9621 ≤ µ ≤ 77.6629

O sea, con una confiabilidad de 95 % se estima que el valor del promedio de kg por
saco de maíz está entre 72.9621 y 77.6629.

Ejemplo 55.1 f) Construya un IC para el total de kg de maíz.

τ̂ ± N t n−1,α/2 S ȳ s

donde τ̂s = 188, 281.25, N = 2, 500, S ȳ s = 1.12297 y t n−1,α/2 = t 12−1,0.025 = 2.0930.

Por lo tanto:

188, 281.25 ± (2, 500)(2.0930)(1.12297)


188, 281.25 ± 5, 875.9819
182, 405.201 ≤ τs ≤ 194, 157.299

Es decir, se estima que el total de kg de maíz que hay en los sacos está entre 182,405.201
y 194,157.299.

Ejemplo 55.1 g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de
tamaño n = 20. Calcule el tamaño de muestra para estimar el promedio por saco de
maíz, con una precisión de 0.5 kg por saco y una confiabilidad de 95 %.

130
M UESTREO SISTEMÁTICO

N (t n−1,α/2 )2 S 2s
n=
N d 2 + (t n−1,α/2 )2 S 2s
donde N = 2, 500, t n−1,α/2 = t 20−1,0.025 = 2.0930, S 2s = 25.4249 y d = 0.5.

Por lo tanto:

(2, 500)(2.0930)2 (25.4249)


n= = 378.1276 sacos de maíz (muestra)
(2, 500)(0.5)2 + (25.4249)(2.0930)2
De ahí que 379 sea el tamaño de muestra que tiene una precisión de ±0.5 kg de maíz
y 0.95 de probabilidad de incluir en el intervalo de estimación el promedio verdadero.

Ejemplo 55.1 h) Suponga que la muestra seleccionada representa una muestra preliminar de tama-
ño n =20. ¿Cuál es el tamaño de muestra para estimar el total de kg con una precisión
de 1,250 kg de maíz y una confiabilidad de 95 %?

N 2 (t n−1,α/2 )2 S 2
n=
d 2 + N (t n−1,α/2 )2 S 2

donde N = 2, 500, t n−1,α/2 = t 20−1,0.025 = 2.0930, S 2s = 25.4249 y d = 1, 250.

Por lo tanto:

(2, 500)2 (2.0930)2 (25.4249)


n= = 378.1276 sacos de maíz (muestra)
(1, 250)2 + (2, 500)(2.0930)2 (25.4249)

Ejemplo 5.3 Una plantación tiene 6,000 plantas de caña de azúcar. Por el arreglo de las plantas (en
surcos) es fácil enumerarlas del 1 al 6,000. Suponga que se está interesado en conocer
los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación.
Por lo tanto, se toma una muestra sistemática de n = 30. Como de costumbre, prime-
ro hallamos k.

N 6, 000
k= = = 200
n 30
Esto quiere decir que debemos muestrear cada 200 elementos (plantas), eligiendo
aleatoriamente a la primer planta de entre las primeras 200 (cuadro 5.4).

Ejemplo 55.1 a) Calcule el promedio muestral.


y1 + y2 + y3 + . . . + yn
ȳ s =
n
11.06 + 10.61 + 14.41 + . . . + 12.16
ȳ s = = 13.5645 gramos de sacarosa por planta
30

131
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 5.4 Porcentaje de sacarosa por planta

n Número de Porcentaje n Número de Porcentaje


muestra de sacarosa muestra de sacarosa

01 1,050 11.06 16 3,050 15.01


02 1,250 10.61 17 3,250 16.85
03 1,450 14.41 18 3,450 15.93
04 1,650 14.45 19 3,650 13.28
05 1,850 09.46 20 3,850 15.39
06 1,050 13.47 21 4,050 12.83
07 1,250 14.68 22 4,250 14.49
08 1,450 13.99 23 4,450 20.38
09 1,650 09.72 24 4,650 11.33
10 1,850 11.37 25 4,850 16.22
11 2,050 12.29 26 5,050 15.83
12 2,250 11.22 27 5,250 15.68
13 2,450 13.25 28 5,450 11.70
14 2,650 15.78 29 5,650 09.45
15 2,850 14.65 30 5,850 12.16

Ejemplo 55.1 b) Calcule la varianza muestral (S 2 ).


n
!
y i2 − n ȳ 2
i =1
S 2s =
n −1
(11.06)2 + (10.61)2 + (14.41)2 + . . . + (12.16) − (30)(13.5645)2
S 2s = = 6.2571
30 − 1
Ejemplo 55.1 c) Hallar la varianza y la desviación estándar de la media muestral.
" #" # " #" #
N − n S2 3000 − 30 6.2538
S 2ȳ s = = = 0.2075
N n 3000 30
$ "
S ȳ s = S 2ȳ s = 0.2074 = 0.4554

Ejemplo 55.1 d) Calcular el total estimado de sacarosa en la población.

τ̂s = N ȳ s = (6, 000)(13.5645) = 81, 388.00 gramos

Ejemplo 55.1 e) Encontrar un IC para el promedio de sacarosa por planta de caña de azúcar.

ȳ s ± t n−1,α/2 S ȳ s ; ȳ s = 13.5645, S ȳ s = 0.4554 y t n−1,α/2 = t 30−1,0.025 = 2.0452.

Por lo tanto:

13.5645 ± (2.0452)(0.4554)
12.6330 ≤ µ ≤ 14.4963

132
M UESTREO SISTEMÁTICO

Ejemplo 55.1 Es decir, con una confiabilidad de 95 % se estima que el valor de los gramos promedio
de sacarosa por caña de azúcar se encuentra entre 12.6330 y 14.4963.

Ejemplo 55.1 f) Construir un IC para el total de sacarosa por planta de caña de azúcar.

τ̂ ± N t n−1,α/2 S ȳ s

donde τ̂s = 81, 388, N = 6, 000, S ȳ s = 0.4554 y t n−1,α/2 = t 30−1,0.025 = 2.0452.

Por lo tanto:

81, 386.84 ± (6, 000)(2.0452)(0.4555)


81, 386.84 ± 5, 590.1517
75, 797.76736 ≤ τs ≤ 86, 978.23264

Es decir, con 95 % de confianza se estima que el total (gramos) de sacarosa en las plan-
tas de caña de azúcar está entre 75,797.76736 y 86,975.6265.

Ejemplo 55.1 g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de ta-
maño n = 30. ¿Cuál es el tamaño de muestra necesario para estimar el promedio de
sacarosa por planta de caña de azúcar, con una precisión de 0.5 gramos de sacarosa y
una confiabilidad de 95 %?

N 2 (t n−1,α/2 )2 S 2s
n=
N d 2 + (t n−1,α/2 )2 S 2s
donde N = 6, 000, t (n−1,α/2) = t (30−1,0.025) = 2.0452, S 2s = 6.2538 y d = 0.5.

Por lo tanto:

(6, 000)(2.0452)2 (6.2538)


n= = 102.8941 plantas de caña de azúcar
(6, 000)(0.5)2 + (2.0452)2 (6.2538)

Ejemplo 55.1 h) Suponga que la muestra seleccionada representa una muestra preliminar de ta-
maño n = 30. ¿Cuál es el tamaño de muestra para estimar el total de sacarosa en la
población, con una precisión de 3,000 gramos y una confiabilidad de 95 %?

N (t n−1,α/2 )2 S 2s
n=
d 2 + N (t n−1,α/2 )2 S 2s
donde N = 6, 000, t n−1,α/2 = t 30−1,0.025 = 2.0452, S 2s = 6.2538 y d = 3, 000.

Por lo tanto:

(6, 000)2 (2.0452)2 (6.2538)


n= = 103 plantas
(3, 000)2 + (6, 000)(2.0452)2 (6.2538)

133
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 5.4 Una línea por turno produce N = 1, 500 paquetes de microprocesadores, donde cada
paquete contiene 10 microprocesadores, y se desea estimar el número de micropro-
cesadores dañados por paquete. Se toma una muestra sistemática de n = 15 paquetes.
A continuación elegimos k.

N 1, 500
k= = = 100
n 15
Esto quiere decir que se debe muestrear cada 100 elementos (paquetes). Los datos
correspondientes se presentan en el cuadro 5.5.

Cuadro 5.5 Número de microprocesadores dañados


por caja

n Muestra Número de
(núm. de paquete) defectuosos

01 1,015 3
02 1,115 4
03 1,215 5
04 1,315 2
05 1,415 1
06 1,515 5
07 1,615 1
08 1,715 1
09 1,815 2
10 1,915 3
11 1,015 4
12 1,115 3
13 1,215 2
14 1,315 4
15 1,415 2
Ejemplo 5.1

Ejemplo 55.1 a) ¿Cuál es el promedio de microprocesadores dañados por paquete?


y1 + y2 + y3 + . . . + yn
ȳ s =
n
3+4+5+2+1+5+1+1+2+3+4+3+2+4+2
ȳ s = = 2.8
15
Ejemplo 55.1 b) Calcular la varianza muestral (S 2 ).
!n 2 2
i =1 y i − n ȳ
S 2s =
n −1
(3) + (4)2 + (5)2 + . . . + (2)2 − (15)(2.8)2
2
S 2s =
15 − 1
26.4
S 2s = = 1.8857
14

134
M UESTREO SISTEMÁTICO

Ejemplo 55.1 c) Hallar la varianza estimada de la media muestral.


! "! " ! "! "
N − n S2 1, 500 − 15 1.8857
S 2ȳ s = = = 0.1245
N n 1, 500 15
# "
S ȳ s = S 2ȳ s = 0.1245 = 0.3528

Ejemplo 55.1 d) Encontrar el número total de microprocesadores dañados.

τ̂s = N ȳ s = (1, 500)(2.8) = 4, 200

Ejemplo 55.1 e) Construir un IC para el promedio de microprocesadores dañados con una confia-
bilidad de 95 %.

ȳ s ± t n−1,α/2 S ȳ s

donde ȳ s = 2.8, S ȳ s = 0.3528, t n−1,α/2 = t 15−1,0.025 = 2.1448.

Por lo tanto:

2.8 ± (2.1448)(0.3528)
2.8 ± 0.7566
2.0434 ≤ µ ≤ 3.5566

Es decir, se estima que el valor promedio de microprocesadores dañados por paquete


está entre 2.0434 y 3.5566.

Ejemplo 55.1 f) Construir un IC para el total de microprocesadores dañados con 95 % de confianza.

τ̂ ± N t n−1,α/2 S ȳ s

donde τ̂s = 4, 200, N = 1, 500, S ȳ s = 0.3528, t n−1,α/2 = t 15−1,0.025 = 2.1448.

Por lo tanto:

4, 200 ± (1, 500)(2.1448)(0.3528)


4, 200 ± 1, 134.9793
3, 065.0276 ≤ τs ≤ 5, 334.9723

Es decir, se estima que el total de microprocesadores dañados fluctúa entre 3,065.0276


y 5,334.9723.

Ejemplo 55.1 g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de
tamaño n = 15. ¿Cuál es el tamaño de muestra para estimar el promedio de micropro-
cesadores por caja, con una precisión de ±0.5 microprocesadores y una confiabilidad
de 95 %?

135
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

N (t n−1,α/2 )2 S 2s
n=
N d 2 + (t n−1,α/2 )2 S 2s
donde N = 1, 500, t (n−1,α/2) = t (15−1,0.025) = 2.1448, S 2s = 1.8857 y d = 0.5.

Por lo tanto:

(1, 500)(2.1448)2 (1.8857)


n= = 33.9138 paquetes (muestra)
(1, 500)(0.5)2 + (2.1448)2 (1.8857)

Ejemplo 55.1 h) Suponga que la muestra seleccionada representa una muestra preliminar de tama-
ño n = 15. ¿Cuál es el tamaño de muestra para estimar el total, con una precisión de
±750 microprocesadores y una confiabilidad de 95 %?

N 2 (t n−1,α/2 )2 S 2s
n=
d 2 + N (t n−1,α/2 )2 S 2s

donde N = 1, 500, t (n−1,α/2) = t (12−1,0.025) = 2.1448, S 2s = 1.8857 y d = 750.

Por lo tanto:

(1, 500)2 (2.1448)2 (1.8857)


n= = 33.9138 paquetes (muestra)
(750)2 + (1, 500)(1.8857)(2.1448)2

Ejercicios
En los siguientes ejercicios estime los parámetros solicitados.

a) El IC para la media y el total con una confiabilidad de 95 %.

b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la media y el total de tal manera que sean estimados con una precisión
de 5 % de la media y el total preliminar con una confiabilidad de 95 %?

Ejercicio 5.1 Asistieron N = 5, 000 personas a una fiesta y fueron enumeradas del 1 al 5,000. Se
desea conocer la cantidad promedio de cervezas ingeridas por persona y se tomó una
muestra sistemática de 25 personas (véase el cuadro 5.6).

Ejercicio 5.2 Una empresa de limones de Tecomán, Colima empaca N = 2, 000 cajas de limones por
turno. Se desea estimar el número de limones dañados por caja. Se toma una muestra
sistemática de n = 20. Use la información del cuadro 5.7.

Ejercicio 5.3 En una colonia de la ciudad de Guadalajara hay N = 2, 500 casas, las cuales se enu-
meraron del 1 al 2,500. La Comisión Nacional del Agua desea estimar el gasto prome-
dio de agua en cientos de litros por casa, para ello tomó una muestra sistemática de
n = 12. Use la información del cuadro 5.8.

136
M UESTREO SISTEMÁTICO

Ejercicio 5.4 En una empresa que se dedica a la digitalización de documentos, se escanea N =


1, 500 cajas por día. Se desea conocer la cantidad de documentos no escaneados ade-
cuadamente (DNEA), por lo que se enumeraron las cajas del 1 al 1,500 y se tomó una
muestra n = 15 cajas (véase la información del cuadro 5.9).

Cuadro 5.6 Datos de la muestra

n Número de Ingeridas n Número de Ingeridas


muestra muestra

01 1,025 7.5 16 3,025 6.0


02 1,225 6.0 17 3,225 6.0
03 1,425 5.0 18 3,425 6.0
04 1,625 7.0 19 3,625 5.0
05 1,825 5.0 20 3,825 6.0
06 1,025 4.0 21 4,025 5.0
07 1,225 7.0 22 4,225 4.0
08 1,425 3.0 23 4,425 4.5
09 1,625 8.0 24 4,625 5.0
10 1,825 3.5 25 4,825 7.0
11 2,025 4.5
12 2,225 6.0
13 2,425 6.5
14 2,625 7.0
15 2,825 3.0

Ejemplo 5.1

Cuadro 5.7 Datos de la muestra

n Muestra Limones n Muestra Limones


(núm. de caja) dañados (núm. de caja) dañados

1 010 105 11 1,010 105


2 110 106 12 1,110 109
3 210 108 13 1,210 100
4 310 100 14 1,310 110
5 410 095 15 1,410 100
6 510 110 16 1,510 100
7 610 109 17 1,610 105
8 710 100 18 1,710 105
9 810 115 19 1,810 100
10 910 080 20 1,910 100

137
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 5.8 Datos de la muestra

n Muestra Litros
(núm. de casa)

01 2300 2.5
02 0008 2.2
03 0216 2.7
04 0424 2.9
05 0632 2.4
06 0840 2.2
07 1048 2.8
08 1258 2.6
09 1464 2.5
10 1672 2.4
11 1880 3.0
12 2088 2.9
Ejemplo 5.1

Cuadro 5.9 Datos de la muestra

n Muestra dnea
(núm. de caja)

01 1,060 2
02 1,160 3
03 1,260 2
04 1,360 4
05 1,460 2
06 1,560 3
07 1,660 1
08 1,760 4
09 1,860 5
10 1,960 2
11 1,060 3
12 1,160 3
13 1,260 2
14 1,360 2
15 1,460 4
Ejemplo 5.1

138
M UESTREO SISTEMÁTICO

5.4. La estimación de la proporción poblacional


Al igual que en los métodos anteriores, en ocasiones se desea estimar una proporción, es
decir, el objetivo es estimar la frecuencia de una característica en particular. De esta forma,
la observación que posea la característica de interés tomará el valor de 1 ó 0 de otro modo.

No es difícil justificar que la variable medida tenga una distribución binomial con pa-
rámetros n y p, donde n representa el tamaño de la muestra y p la proporción o frecuencia
relativa de éxitos en las n observaciones. Las ecuaciones que se presentarán en las subsec-
ciones siguientes son idénticas a las expuestas en la sección dedicada a proporciones en el
capítulo de muestreo simple aleatorio y poseen las mismas propiedades estadísticas.

Las varianzas de las poblaciones no necesariamente son las mismas en ambos casos.
Si nos referimos a una muestra sistemática proveniente de una población aleatoria con un
tamaño poblacional grande, las varianzas pueden llegar a ser las mismas (Scheaffer et al.,
1987).

El estimador de la proporción y el total

!n
i =1 y i
p s = ȳ s = (5.2)
n
τs = N p s (5.3)

La varianza estimada de la proporción y el total sistemático

" #
N − n $ p s qs %
S 2p s = (5.4)
N n
" #$
N − n p s qs %
S τ2s = N2 (5.5)
N n

donde q s = 1 − p s .

Por último, para los estimadores (5.4 y 5.5) presentamos intervalos de confianza, que
nos indican los límites de la proporción y el total con una confiabilidad de (1−α) por ciento,
y después la forma de selccionar el tamaño de muestra para la proporción y el total, la cual
sigue el mismo procedimiento visto en capítulos anteriores.

139
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El intervalo de confianza para la proporción y el total sistemático

!" #
N − n $ p s qs %
p s ± t (n−1,α/2)
N n
!" #
N − n $ p s qs %
τ̂s ± t (n−1,α/2) N
N n

La selección del tamaño de muestra para la proporción y el total

Para determinar el tamaño de muestra que estime p s o τs se elige una precisión que esta-
mos dispuestos a aceptar. Es decir,
&
d = t (n−1,α/2) S 2p s , (5.6)

El tamaño de muestra para estimar la proporción

Después de despejar n de la ecuación (5.6), obtenemos:

' (2
N t (n−1,α/2) p s q s
n= ' (2
N d 2 + t (n−1,α/2) p s q s

Para fines prácticos la varianza poblacional se sustituye por la varianza muestral.

El tamaño de muestra para estimar el total


' (2
N 2 t (n−1,α/2) p s q s
n= ' (2
d 2 + N t (n−1,α/2) p s q s

Para simplificar, se puede sustituir la varianza poblacional.

140
M UESTREO SISTEMÁTICO

Ejemplos
Ejemplo 5.5 La administración de la Universidad de Colima desea conocer la cantidad de alumnos
que están satisfechos por las mejoras y los logros alcanzados por el Presidente de Mé-
xico. Para realizar dicha encuesta se elegirán n alumnos entre los 10,000 estudiantes
de la Universidad de Colima. Se pretende obtener una muestra de 18 alumnos. A con-
tinuación obtenemos k:

N 10, 000
k= = = 555.5556
n 18
Dado que N no es múltiplo de n, por lo tanto k = 556, el entero más cercano. Por
ello, el primer alumno que será encuestado se elegirá aleatoriamente entre el primero
y el 10,000. Los datos se presentan en el cuadro 5.10.

Cuadro 5.10 Alumnos satisfechos e insatisfechos

Número Respuesta Número Respuesta


de alumno de alumno

1,422 0 5,982 1
1,978 1 6,538 1
1,534 1 7,094 1
2,090 1 7,650 0
2,646 0 8,206 0
3,202 1 8,762 1
3,758 0 9,318 0
4,314 0 9,874 0
4,870 1
5,426 0
Ejemplo 5.1

Ejemplo 5.1 a) Determine la proporción verdadera de los alumnos satisfechos.


!n
i =1 y i a 9
ps = = = = 0.5 ó 50 % de alumnos satisfechos
n n 18
q s = 1 − p s = 1 − 0.5 = 0.5 ó 50 % de alumnos insatisfechos

Ejemplo 5.1 b) La desviación estándar de la proporción muestral (S p ).


"# $
N − n % p s qs &
S ps =
N n
donde N = 10, 000, n = 18, p s = 0.5 y q s = 0.5.

141
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 5.1 Por lo tanto:


!" #" #
10, 000 − 18 (0.5)(0.5) " "
Sps = = (0.9982)(0.0139) = 0.9982 = 0.1177
10, 000 18
Ejemplo 5.1 c) Construya un IC de 95 % para la proporción verdadera.

p s ± t n−1,α/2 S p s

donde p s = 0.5, S p s = 0.1177 y t n−1,α/2 = t 17,0.025 = 2.1098.

Por lo tanto:

0.5 ± (2.1098)(0.1177)
0.5 ± 0.2484
0.2516 ≤ P s ≤ 0.7484

Con 95 % de confianza se estima que la proporción verdadera de alumnos satisfechos


está entre 0.2516 y 0.7484, es decir, entre 25.163 y el 74.84 %.

Ejemplo 5.1 d) Realice la estimación puntual del total verdadero de alumnos satisfechos.

τ̂ = N p s

donde N = 10, 000 y p s = 0.5.

Por lo tanto:

τ̂ = (10, 000)(0.5) = 5, 000

Ejemplo 5.1 e) Estime por intervalo el total verdadero de alumnos satisfechos, con una confiabili-
dad de 95 %.

τ̂ ± t (n−1,α/2) N S p s

donde N = 5, 000, p s = 0.1177, N = 10, 000 y t (n−1,α/2) = t (17,0.025) = 2.1098.

Por lo tanto:

5, 000 ± (10, 000)(2.1098)(0.1177)


5, 000 ± 2, 484.2027
2, 515.7973 ≤ τs ≤ 7, 484.2027

El total de alumnos satisfechos está entre 2,515.7973 y 7,484.2027.

142
M UESTREO SISTEMÁTICO

Ejemplo 5.1 f) Suponga que n = 18 alumnos es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar la proporción verdadera con una precisión de 15 % de
la proporción preliminar y una confiabilidad de 95 %?

N (t (n−1,α/2) )2 p s q s
n=
N d 2 + (t (n−1,α/2) )2 p s q s
donde N = 10, 000, p s = 0.5, q s = 0.5, t (n−1,α/2) = t (17,0.025) = 2.1098 y d = (0.15)(p s ) =
(0.15)(0.5) = 0.075.

Por lo tanto:

(10, 000)(2.1098)2 (0.5)(0.5)


n= = 194 alumnos (muestra)
(10, 000)(0.075)2 + (2.1098)2 (0.5)(0.5)
Ejemplo 5.1 g) Suponga que n = 18 estudiantes es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total con una precisión de 15 % del total preliminar
y una confiabilidad de 95 %?
! "2
N 2 t (n−1,α/2) p s q s
n= ! "2
d 2 + N t (n−1,α/2) p s q s
donde N = 10, 000, p s = 0.5, q s = 0.5, t (n−1,α/2) = t (17,0.025) = 2.1098 y d = (0.15)(10, 000)
(0.5) = 750.

Por lo tanto:

(10, 000)2 (2.1098)2 (0.5)(0.5)


n= = 194 alumnos (muestra)
(750)2 + (10, 000)(2.1098)2 (0.5)(0.5)

Ejemplo 5.6 La Secretaría de Salud del estado de Colima está interesada en conocer la cantidad de
colimenses que al menos en una ocasión se ha enfermado de dengue. Supóngase que
N = 8, 000 personas y se pretende encuestar a 16 personas. El primer paso es estimar
k:

N 8, 000
k= = = 500
n 16
Entonces, la primera persona a quien se le preguntará será elegida aleatoriamente
entre 1 y 500, consecutivamente cada 500 se tomará a otra persona (véase el cuadro
5.11).

Ejemplo 5.1 a) Estime la proporción de colimenses que han padecido dengue.


#n
i =1 y i a 4
ps = = = = 0.25 ó 25 % de colimenses han padecido dengue
n n 16
q s = 1 − p s = 1 − 0.25 = 0.75 ó 75 % que no han padecido la enfermedad

143
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 5.11 Colimenses que se han enfermado de dengue

Número Respuesta Número Respuesta


de personas de personas

1,187 0 5,187 0
1,687 1 5,687 1
1,187 0 6,187 0
1,687 0 6,687 0
2,187 0 7,187 0
2,687 0 7,687 0
3,187 1
3,687 1
4,187 0
4,687 0
Ejemplo 5.1

Ejemplo 5.1 b) Halle la desviación estándar de la proporción muestral (S p S ).


!" #
N − n $ p s qs %
Sps =
N n
donde N = 8, 000, n = 16, p s = 0.25 y q s = 0.75.

Por lo tanto:
!" #" #
8, 000 − 16 (0.25)(0.75) "
Sps = = (0.998)(0.0117188) = 0.1081
8, 000 16

Ejemplo 5.1 c) Calcule un IC de 95 % para la proporción verdadera.

p s ± t (n−1,α/2) S p s

donde p s = 0.25, S p s = 0.01081 y t (n−1,α/2) = t (15,0.025) = 2.1314.

Por lo tanto:

0.25 ± (2.1314)(0.1081)
0.0195 ≤ P s ≤ 0.4805

Por lo tanto, la proporción verdadera de colimenses que ha padecido dengue algu-


na vez en su vida está entre 0.0195 y 0.4805, es decir, entre 1.95 y 48.05 por ciento.

Ejemplo 5.1 d) Estime el total verdadero de colimenses que han padecido dengue alguna vez.

τ̂ = N p s

donde N = 8, 000 y p s = 0.25.

144
M UESTREO SISTEMÁTICO

Ejemplo 5.1 Por lo tanto:

τ̂ = (8, 000)(0.25) = 2, 000 colimenses

Ejemplo 5.1 e) Encuentre por intervalo el total verdadero de colimenses que ha padecido dengue,
con una confiabilidad de 95 %.

τ̂ ± t (n−1,α/2) N S p s

donde τ̂ = 2, 000, p s = 0.25 y N = 8, 000, t (n−1,α/2) = t (15,0.025) = 2.1314.

Por lo tanto:

2, 000 ± (8, 000)(2.1314)(0.1081)


2, 000 ± 1, 844.0
155.9574 ≤ τs ≤ 3, 844.0426

De ahí que el total de colimenses que han padecido dengue alguna vez en su vida
está entre 155.9574 y 3,844.0426.

Ejemplo 5.1 f) Suponga que los datos conformaron una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar la proporción verdadera con una precisión de 0.075 y
una confiabilidad de 95 %?

N (t (n−1,α/2) )2 p s q s
n=
N d 2 + (t (n−1,α/2) )2 p s q s
donde N = 8, 000, p s = 0.25, q s = 0.75, t n−1,α/2 = t 15,0.025 = 2.1314 y d = 0.075.

Por lo tanto:

(8, 000)(2.1314)2 (0.25)(0.75)


n= = 149 colimenses (muestra)
(8, 000)(0.075)2 + (2.1314)2 (0.25)(0.75)

Ejemplo 5.1 g) Suponga que n = 16 es una muestra preliminar. ¿Cuál es el tamaño de muestra ne-
cesario para estimar el total con una precisión de 600 y una confiabilidad de 95 %?
2
N 2 (t (n−1,α/2) ) p s q s
n= 2
d 2 + N (t (n−1,α/2) ) p s q s
donde N = 8, 000, p s = 0.25, q s = 0.75, t n−1,α/2 = t 15,0.025 = 2.1314 y d = 600.

Por lo tanto:

(8, 000)2 (2.1314)2 (0.25)(0.75)


n= = 149 colimenses (muestra)
(600)2 + (8, 000)(2.1314)2 (0.25)(0.75)

145
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 5.7 Se tiene una población de 300 estudiantes y se pretende saber cuántos de ellos poseen
licencia para conducir. Para realizar la estimación se toma una muestra sistemática de
19 estudiantes. A continuación obtenemos k:

N 300
k= = = 15.7895, entonce k = 16
n 19
Dado que N no es múltiplo de n por ello k = 16 (el entero más cercano) y el primer
elemento se elige al azar entre el 1 y 300. La encuesta arrojó los datos que aparecen en
el cuadro 5.12.

Cuadro 5.12 Estudiantes que tienen licencia para conducir

Número Respuesta Número Respuesta


de estudiantes de estudiantes

011 0 171 0
027 1 187 0
043 0 203 1
059 0 219 0
075 0 235 1
091 1 251 0
107 1 267 1
123 1 283 0
139 0 299 1
155 0
Ejemplo 5.7

Ejemplo 5.1 a) Realice la estimación puntual para la proporción de estudiantes que cuentan con
una licencia para conducir.
!n
i =1 y i a 8
ps = = = = 0.4211 ó 42.11 % de estudiantes con licencia
n n 19
q s = 1 − p s = 1 − 0.4211 = 0.5789 ó 57.89 % sin licencia

Ejemplo 5.1 b) La desviación estándar de la proporción muestral (S p ).


"# $
N − n % p s qs &
Sps =
N n
donde N = 300, n = 19, p s = 0.4211 y q s = 0.5789.

Por lo tanto:
"# $# $
300 − 19 (0.4211)(0.5789) "
S ps = = (0.936)(0.0120094)
300 19
"
= 0.0120094 = 0.1096

146
M UESTREO SISTEMÁTICO

Ejemplo 5.1 c) Calcule un IC de 95 % para la proporción verdadera.

p s ± t (n−1,α/2) S p s

donde p s = 0.4211, S p s = 0.1096 y t (n−1,α/2) = t (18,0.025) = 2.101.

Por lo tanto:

0.4211 ± (2.101)(0.1096)
0.4211 ± 0.2303
0.1907 ≤ P s ≤ 0.6514

Lo anterior significa que la proporción verdadera de estudiantes que cuentan con una
licencia para conducir está entre 0.1907 y 0.6514, es decir, entre 19.07 y el 65.14 %.

Ejemplo 5.1 d) La estimación puntual del total verdadero de estudiantes que tienen una licencia
para conducir.

τ̂ = N p s

donde N = 300 y p s = 0.4211.

Por lo tanto:

τ̂ = (300)(0.4211) = 126.3158

Ejemplo 5.1 e) Construya un IC para el total verdadero de estudiantes que cuentan con licencia
para conducir, con una confiabilidad de 95 %.

τ̂ ± t (n−1,α/2) N S p s

donde τ̂ = 126.3158, N = 300, S p s = 0.1096 y t (n−1,α/2) = t (18,0.025) = 2.101.

Por lo tanto:

126.3158 ± (300)(2.101)(0.1096)
126.3158 ± 69.0931
57.2227 ≤ τs ≤ 195.4089

Ejemplo 5.1 f) Suponga que n = 19 estudiantes es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar la proporción verdadera con una precisión de 10 % de
la proporción preliminar y una confiabilidad de 95 %?

N (t (n−1,α/2) )2 p s q s
n=
N d 2 + (t (n−1,α/2) )2 p s q s

147
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

donde N = 300, p s = 0.4211, q s = 0.5789, t (n−1,α/2) = t (18,0.025) = 2.101 y d = (0.10)(p) =


(0.10)(0.4211) = 0.04211.

Por lo tanto:

(300)(2.101)2 (0.4211)(0.5789)
n= = 201 estudiantes (muestra)
(300)(0.04211)2 + (2.101)2 (0.4211)(0.5789)

Ejemplo 5.1 g) Suponga que n = 19 estudiantes es una muestra preliminar. Por lo tanto, ¿cuál es
el tamaño de muestra necesario para estimar el total verdadero con una precisión de
10 % del total preliminar y una confiabilidad de 95 %?
2
N 2 (t (n−1,α/2) ) p s q s
n= 2
d 2 + N (t (n−1,α/2) ) p s q s
donde N = 300, p s = 0.4211, q s = 0.5789, t (n−1,α/2) = t (18,0.025) = 2.101 y d = (0.10)(300)
(0.42) = 12.633.

Por lo tanto:

(300)2 (2.101)2 (0.4211)(0.5789)


n= = 201 estudiantes (muestra)
(12.633)2 + (300)(2.101)2 (0.4211)(0.5789)

Ejemplo 5.8 Para diseñar una campaña de vacunación, el IMSS desea conocer cuántos asegurados
contrajeron gripe o tos por lo menos una vez en los últimos seis meses. Tiene 12,000
pacientes y toma una muestra de 22 pacientes (cuadro 5.13).

N 12, 000
k= = = 545.4545
n 22

Cuadro 5.13 Asegurados que contrajeron gripe o tos

Número Respuesta Número Respuesta


de paciente de paciente

1,341 0 06,336 0
1,886 0 06,881 0
1,431 0 07,426 0
1,976 1 07,971 0
2,521 0 08,516 0
3,066 0 09,061 1
3,611 1 09,606 0
4,156 1 10,151 1
4,701 1 10,696 1
5,246 0 11,241 0
5,791 1 11,786 0
Ejemplo 5.1

148
M UESTREO SISTEMÁTICO

Ejemplo 5.1 De igual forma como N no es un múltiplo de n por ello k = 545 y el primer elemento
se elige al azar de entre 1 y 12,000.

Ejemplo 5.1 a) La estimación puntual de la proporción.


!n
i =1 y i a 8
ps = = = = 0.3636 ó 36.4 % contrajeron gripe o tos
n n 22
q s = 1 − p s = 1 − 0.36 = 0.6364 ó 63.6 % no contrajeron

Ejemplo 5.1 b) La desviación estándar de la proporción muestral (S p s ).


"# $
N − n % p s qs &
S ps =
N n
donde N = 12, 000, n = 22, p s = 0.36 y q s = 0.64.

Por lo tanto:
"# $# $
12, 000 − 22 (0.3636)(0.6364) "
S ps = = (0.9982)(0.010447)
12, 000 22
"
S ps = 0.010453876 = 0.1025

Ejemplo 5.1 c) Un IC de 95 % para la proporción verdadera.

p s ± t (n−1,α/2) S p s

donde p s = 0.3636, S p s = 0.1025 y t (n−1,α/2) = t (21,0.025) = 2.0796.

Por lo tanto:

0.3636 ± (2.0796)(0.1025)
0.3636 ± 0.2131
0.1505 ≤ P s ≤ 0.5767

Por lo tanto, la proporción verdadera de asegurados que han contraído gripe o tos
en los últimos seis meses está entre 15.05 y el 57.67 %.

Ejemplo 5.1 d) La estimación puntual del total.

τ̂ = N p s

donde N = 12, 000 y p s = 0.3636.

149
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

τ̂ = (12, 000)(0.3636) = 4, 363.6364 asegurados que han contraído gripe o tos

Ejemplo 5.1 e) Un IC para el total verdadero de asegurados que han contraído gripe o tos en los
últimos seis meses, con una confiabilidad de 95 %.

τ ± t (n−1,α/2) N S p

donde τ̂ = 4, 363.6364, p s = 0.1025, N = 12, 000 y t (n−1,α/2) = t (21,0.025) = 2.0796.

Por lo tanto:

4, 363.6364 ± (12, 000)(2.0796)(0.1025)


4, 363.6364 ± 2, 557.908
1, 806.5790 ≤ τs ≤ 6, 920.6937

Ejemplo 5.1 f) Suponga que 22 asegurados constituyen una muestra preliminar. ¿Cuál es el tama-
ño de muestra necesario para estimar la proporción verdadera con una precisión de
10 % de la proporción preliminar y una confiabilidad de 95 %?

N (t (n−1,α/2) )2 p s q s
n=
N d 2 + N (t (n−1,α/2) )2 p s q s
donde N = 12, 000, p s = 0.3636, q s = 0.6364, t (n−1,α/2) = t (21,0.025) = 2.0796 y d = (0.10)
(p) = (0.10)(0.3636) = 0.03636.

Por lo tanto:

(12, 000)(2.0796)2 (0.3636)(0.6364)


n= = 713 asegurados (muestra)
(12, 000)(0.03636)2 + (2.0796)2 (0.3636)(0.6364)

Ejemplo 5.1 g) Suponga que n = 22 asegurados en realidad es una muestra preliminar. Por lo tanto,
¿cuál sería el tamaño de muestra necesario para estimar el total con una precisión de
10 % del total preliminar y una confiabilidad de 95 %?
2
N 2 (t (n−1,α/2) ) pq
n=
d 2 + N (t (n−1,α/2) )2 pq
donde N = 12, 000, p s = 0.3636, q s = 0.6364, t (n−1,α/2) = t (21,0.025) = 2.0796 y d = (0.10)
(12, 000)(0.3636) = 436.32.

Por lo tanto:

(12, 000)2 (2.0796)2 (0.3636)(0.6364)


n= = 713 asegurados (muestra)
(436.32)2 + (12, 000)(2.0796)2 (0.3636)(0.6364)

150
M UESTREO SISTEMÁTICO

Ejercicios
En los ejercicios estime los parámetros siguientes:

a) El IC para la proporción y el total con una confiabilidad de 95 %.

b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción y el total de tal manera que sean estimados con una pre-
cisión de 6 % de la proporción y el total preliminar con una confiabilidad de 95 %?

Ejercicio 5.5 Una empresa constructora tiene empleados a N = 1, 200 albañiles para una mega
construcción. Con la finalidad de estimar el porcentaje de albañiiles a los que les gus-
ta la cerveza, se toma una muestra sistemática de n = 12 albañiles (cuadro 5.14).

Cuadro 5.14 Albañiles que consumen cerveza

n Número de Consume
muestra

01 1,007 0
02 1,107 1
03 1,207 0
04 1,307 1
05 1,407 0
06 1,507 1
07 1,607 1
08 1,707 0
09 1,807 1
10 1,907 1
11 1,007 1
12 1,107 1
Ejemplo 5.5

Ejercicio 5.6 Una empresa que produce N = 5, 000 colchones por semana, decide tomar una mues-
tra sistemática de n = 10 colchones, el objetivo es estimar el porcentaje de colchones
que no cumplen con los requerimientos de calidad (cuadro 5.15).

Ejercicio 5.7 La embajada Francesa en México desea conocer el porcentaje de colimenses que han
visitado Francia, supóngase que la población del estado de Colima es de N = 10, 000
personas de las cuales se toma una muestra sistemática de n = 20 individuos. Use la
información del cuadro 5.16.

Ejemplo 5.8 La Secretaría de Turismo de México desea conocer el porcentaje de colimenses que
han visitado la ciudad maya de Palenque, Chiapas. Se supone que la población del
estado de Colima es de N = 10, 000 personas. De esta población se extrae la muestra
sistemática de n = 10 individuos. Use la información del cuadro 5.17.

151
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 5.15 Muestra de colchones

n Número de Cumple
muestra

01 1,210 1
02 1,710 1
03 1,210 0
04 1,710 0
05 2,210 1
06 2,710 1
07 3,210 1
08 3,710 1
09 4,210 1
10 4,710 1
Ejemplo 5.5

Cuadro 5.16 Colimenses que han visitado Francia

n Número Respuesta n Número Respuesta


de muestra de muestra

1 1,300 0 11 5,300 0
2 1,800 0 12 5,800 0
3 1,300 1 13 6,300 0
4 1,800 0 14 6,800 1
5 2,300 1 15 7,300 0
6 2,800 0 16 7,800 0
7 3,300 1 17 8,300 1
8 3,800 0 18 8,800 0
9 4,300 1 19 9,300 0
10 4,800 0 20 9,800 1
Ejemplo 5.5

Cuadro 5.17 Colimenses que han visitado Palenque,


Chiapas

n Número de Cumple
muestra

01 1,100 0
02 1,100 0
03 2,100 1
04 3,100 0
05 4,100 1
06 5,100 0
07 6,100 0
08 7,100 0
09 8,100 0
10 9,100 0
Ejemplo 5.5

152
C APÍTULO

6 Muestreo por conglomerados


en una etapa
Nunca antes en su historia,
la estadística había sido
tan querida y repudiada.
Tan querida por ser útil,
objetiva y muy precisa.
Repudiada, por compleja,
laboriosa e ingeniosa.
OAML

E N el estudio del diseño de encuestas o muestreos existen diferentes opciones para es-
timar un parámetro. Esas opciones pueden ser diferentes en cuanto a costo, precisión
o facilidad de aplicación se refiere. En ocasiones resulta absurdo intentar aplicar alguna de
ellas a una población con ciertas características. Por esto, ahora presentamos otro diseño
de muestreo, que proporciona herramientas valiosas.

En los diseños de encuestas las unidades muestrales se pueden definir de diferentes


formas. En el caso del muestreo por conglomerados, que revisamos en este capítulo, a di-
ferencia de los anteriores, las unidades muestrales (ahora llamadas unidades de muestreo
primarias o conglomerados) están constituidas por varios elementos (o unidades de mues-
treo secundarias). En estas últimas se realizará la medición, mientras que los primeros nos
auxilian para hacer la selección aleatoria. Este es el principio del diseño.

. .La muestra por conglomerados


Una muestra obtenida aleatoriamente de coglomerados (de la misma forma que
en el muestreo simple aleatorio), en donde a las unidades de muestreo primarias
definidas les llamaremos conglomerados, las cuales son grupos de elementos (o
unidades de muestreo secundarias), sobre las que se hará la medición o evalua-
ción de la característica de interés (Pérez, 2000). Es decir, en éste diseño se extrae
bajo MAS una muestra de tamaño n de conglomerados donde cada conglomera-
do es una colección de elementos o conglomerados.

153
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Como se sabe, si se desea realizar una selección aleatoria de unidades, debemos con-
tar con el marco de muestreo adecuado. Con frecuencia no es posible tener el marco de
muestreo u obtenerlo es costoso, además de que el costo crece al tener que medir unidades
separadas entre sí por una gran distancia física. En el muestreo por conglomerados este
costo se reduce sustancialmente, ya que al levantar la información de elementos contiguos
o muy cercanos entre sí se evita el costo de transportación y puede operarse también aun
sin tener un marco de muestreo completo.

El muestreo por conglomerados, en una, dos o más etapas, es un diseño efectivo para
obtener una cantidad específica de información a un costo mínimo, cuando se presentan
las siguientes situaciones:

Cuando no se encuentre disponible, no es confiable o sea muy caro obtener un mar-


co que contenga la lista de los elementos de la población; sin embargo, es posible
disponer fácilmente de un marco que contenga la lista de todos los conglomerados
de la población.

Aun cuando fuese posible contar con un marco que contenga la lista de todos los
elementos de la población, la selección de una muestra aleatoria simple ocasionaría
costos excesivamente altos; esto se puede ver claramente en poblaciones grandes y
dispersas, es decir, el costo aumenta como consecuencia de la distancia existente
entre unidades de estudio.

6.1. ¿Qué puede ser un conglomerado?


En los diseños por conglomerados es importante tener claro lo que será considerado co-
mo conglomerados, ya que pueden ser naturales o convenientemente determinados. Dado
que cada problema tiene características propias, entonces la definición de conglomerados
también la tendrá. Por lo tanto, únicamente se puede hablar de aspectos generales que es
necesario que satisfagan los conglomerados, los cuales son:

Que las unidades que conforman cada conglomerado sean lo más diferentes entre sí,
y además, que estén lo más próximo posible unas de otras, es decir, que las unidades
dentro de cada conglomerado sean lo más heterogéneas y cercanas entre sí.

Que los conglomerados sean lo más similares entre sí, es decir, homogéneos entre sí.

Por ejemplo, si en un municipio deseamos conocer cierto parámetro, los conglomera-


dos podrían agrupar manzanas, colonias o barrios. La decisión se toma de acuerdo con la
precisión que se quiera, la información disponible, los objetivos o cualquier criterio de in-
terés para el investigador. Si se tratara del control de calidad de cajas de cereal podríamos
designar a las cajas como conglomerados (sitios de muestreo) o en el caso de la evaluación
nacional de salud se elegirían hospitales, centros de salud, etcétera (Pérez, 2000).

154
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Si una encuesta por conglomerados se aplicara a cajas que contienen productos ter-
minados, entonces en este caso los conglomerados contendrían el mismo número M de
productos terminados o elementos (unidades de muestreo secundarias), debido a la uni-
formidad del proceso de producción y empaque. En este ejemplo diremos que los conglo-
merados son de tamaño homogéneo, pero es evidente que los casos con estas característi-
cas no son los más frecuentes y que en general encontraremos conglomerados de tamaños
desiguales; es decir, las colonias no tienen el mismo número de habitantes, los sitios de
muestreo forestal tampoco contendrán el mismo número de árboles, etc. Pero las técnicas
de muestreo probabilístico cubren estas posibilidades, por lo que no hay de qué preocu-
parse. En el diseño de muestreo el investigador elige los conglomerados aleatoriamente y
mide todos sus elementos. Además, esos elementos quedarán automáticamente seleccio-
nados al elegir el conglomerado en la muestra, es decir, cada conglomerado de la muestra
será censado (Cochran, 1985).

En el diseño de muestreo por conglomerados en una etapa, se asume que todos los ele-
mentos incluidos en los conglomerados seleccionados y que constituyen la muestra serán
estudiados. Además, cabe señalar que entre este diseño y el aleatorio simple existe una gran
similitud en cuanto a las expresiones relacionadas con el tamaño de muestra, con la dife-
rencia de que el aleatorio simple utiliza unidades muestrales elementales, mientras que el
muestreo por conglomerados considera grupos de unidades elementales.

6.2. Una comparación con el muestreo estratificado

Muestreo estratificado Muestreo por conglomerados

Mayor precisión con relación Menor precisión con relación


al muestreo simple aleatorio. al muestreo simple aleatorio.

Los estratos deben contener Los conglomerados deben


elementos que sean muy ho- contener elementos lo más
mogéneos entre sí. heterogéneo posible entre sí.

Para obtener una mayor pre- Para una mayor precisión, los
cisión, la diferencia debe ser conglomerados deben ser muy
grande entre estratos. similares.

La varianza de la estimación La varianza de la estimación


de la media depende de la de la media depende de la
variabilidad de los valores variabilidad que existe entre
dentro del estrato. las medias de los conglomerados.

155
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Figura 6.1

Comparación gráfica del


muestreo estratificado y el
de conglomerados

En el estratificado se seleccionan algunas unidades del estrato y en el de conglomerados


se seleccionan algunos de ellos y de los seleccionados se miden todas las unidades.

6.3. Acerca del tamaño del conglomerado


Es importante resaltar que el conglomerado debe ser de un tamaño moderado o de tal natu-
raleza que todas las observaciones (observación j en el conglomerado i ) puedan obtenerse
con relativa facilidad. Sin embargo, no es difícil imaginar situaciones en las que el conglo-
merado sea grande. Por ejemplo, si los conglomerados elegidos son conjuntos de viviendas
de 120 manzanas y de ellas deben ser elegidos todos los niños menores de 6 años, el con-
junto a censar sería demasiado grande, o si el conjunto fuera un archivero y tuviera miles de
hojas y fuera necesario calcular estimaciones por hoja; en tales casos es razonable pensar
que el esquema de muestreo por conglomerados en una etapa no es apropiado, sino otro
en dos etapas (Pérez, 2000).

Notación

N : el número de conglomerados en la población o unidades de muestreo primarias (UMP)


que cubre a toda la población, sin traslapes.

n: el número de conglomerados seleccionados de una muestra simple aleatoria.

M i : el número de elementos o unidades de muestreo secundarias (UMS) en el conglome-


rado, i = 1, 2, . . . , N .

N
!
M= M i : el número de elementos o unidades de muestreo secundarias en la población.
i =1

156
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

M : el número promedio de UMS por UMP (o conglomerado) en la población.

τi = y i .: el total del conglomerado i .

Mi
!
yi j
j =1
ȳ i . = : la media a nivel de UMS del conglomerado i .
Mi
N
!
yi .
i =1
ȳ . = : el total promedio por UMP.
N
N
! Mi
N !
!
τ= τi = y i j : el total de la población.
i =1 i =1 j =1
τ
µ= : la media a nivel de UMS.
M
y i j =: el valor de la j -ésima UMS en el i -ésimo conglomerado.

El punto en el subíndice simboliza todas las UMS del conglomerado i . M i se refiere al


número de UMS que contiene el conglomerado i . Pudiera darse el caso de que se seleccione
sólo una parte del conglomerado, digamos m i entre las M i UMS, lo cual nos lleva al diseño
de muestreo conglomerado en dos etapas que no está al alcance de este libro.

6.4. La estimación de una media y un total poblacional con


M conocida
El muestreo por conglomerados es muy conveniente cuando el costo de llegar a las unida-
des primarias es muy alto con relación al costo de medir las unidades secundarias dentro
de un conglomerado. Para elegir los conglomerados (UMP) que estarán en la muestra, se
sigue el mismo procedimiento que en el muestreo simple aleatorio, por lo que los estima-
dores de la media, µ, y el total, τ, se obtienen de manera similar. Sin embargo, es importante
observar que los datos del muestreo por conglomerados permiten obtener estimaciones a
diferentes niveles de la población. Es decir, en una encuesta sobre los sitios para medir la
cantidad de madera de árboles, las observaciones individuales y i j incluyen los volúmenes
por árboles que hay, τi es el volumen total del sitio (para un conglomerado incluido en
la muestra, pues se contabilizan a todos los árboles del sitio), τ es el volumen de toda la
población y µ es el volumen promedio por árbol.
A continuación se presentan los estimadores suponiendo una muestra aleatoria de n
conglomerados y que cada uno contiene M i elementos (Scheaffer et al., 1987).

157
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El estimador de la media poblacional

n ! Mi
n !
!
yi . yi j
i =1 i =1 j =1
µ̂ = ȳ c = n
= n
(6.1)
! !
Mi Mi
i =1 i =1

El estimador del total poblacional

⎛ n
⎞ ⎛ n

! !
⎜ yi . ⎟ ⎜ τi ⎟
⎜ i =1 ⎟ ⎜ i =1 ⎟
τˆc = M ȳ c = M ⎜
⎜! n
⎟=M⎜
⎟ ⎜! n

⎟ (6.2)
⎝ ⎠ ⎝ ⎠
Mi Mi
i =1 i =1

Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del total son de
UMS en toda la población (Scheaffer et al., 1987). Si se sustituye n por N se obtendrían los
parámetros µ y τ. Se necesita la varianza de estos estimadores para conocer la dispersión
de los datos y para saber la precisión de las estimaciones. Estas varianzas se muestran a
continuación.

La varianza estimada de ȳ c y τ̂c

!n * +2
( )( )( ) y i . − ȳ c M i
N −n 1 1 i =1
V̂ ( ȳ c ) = (6.3)
N n M2 n −1

V̂ (τ̂c ) = V̂ (M ȳ c ) = M 2V̂ ( ȳ c ) (6.4)

n *
! +2
( )( )( ) y i . − ȳ c M i
N −n 1 1 i =1
= M2
N n M2 n −1
n *
! +2
, (
-2 N − n 1) ( ) ( ) y i . − ȳ c M i
1 i =1
= NM
N n M2 n −1
n
!* +2
( )( ) y i . − ȳ c M i
N − n 1 i =1
= N2
N n n −1

158
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Al conocer los estimadores de las varianzas de ȳ c y τ̂c (6.3 y 6.4), se puede calcular sus
correspondientes intervalos de confianza, lo que dará los límites en los que se encuentran
las estimaciones, es decir, una idea acerca de la precisión de las estimaciones. Es impor-
tante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones (6.3 y
6.4) son sesgadas, pero pueden ser aceptables si n es grande (digamos n > 30) y el sesgo
desaparecería si los tamaños de los conglomerados fueran iguales (todas las M i iguales).

El intervalo de confianza de la media y el total

!
ȳ c ± t (n−1,α/2)V̂ ( ȳ c ) (6.5)
!
τ̂c ± t (n−1,α/2) V̂ (τ̂c ) (6.6)

La determinación del tamaño de muestra

La precisión de las estimaciones depende del tamaño de la muestra y de su conformación.


En el diseño por conglomerados se busca la situación inversa al diseño estratificado, pues
formaremos conglomerados homogéneos entre ellos, pero heterogéneos en su interior. Es
decir, que haya valores superiores e inferiores a la media general, de tal forma que el diseño
resulte casi tan preciso como la selección aleatoria. Pero en algunas ocasiones los conglo-
merados ya están definidos por algún esquema y no es posible hacerlos más eficientes, lo
cual es una desventaja en cuanto a la precisión. Por otro lado, esta condición también pue-
de ser una ventaja, ya que al utilizar un muestreo por conglomerado no requerimos de un
marco de muestreo de elementos.

Obsérvese que a diferencia de los diseños anteriores, la muestra por conglomerados


también será definida por el tamaño relativo de los conglomerados. El tamaño del límite
para el error de estimación depende de la variación entre los totales de conglomerados, así
que confirmamos que para obtener límites pequeños de error de estimación debemos se-
leccionar conglomerados con la menor variación posible entre estos o sus totales.

Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número
de n conglomerados que seleccionaremos. De la misma manera que en los diseños ante-
riores, al no conocer σ2c o el tamaño promedio del conglomerado, se complica la decisión
sobre el número de conglomerados necesarios para conseguir una cantidad específica de
información concerniente a un parámetro poblacional. Si este fuera el caso, usaríamos los
estimadores de σ2c y M que podrían estar disponibles en encuestas previas o, en todo caso,
obtenerse a través de una encuesta piloto seleccionando una muestra preliminar, digamos
n, y con esta información podemos calcular el tamaño de muestra definitivo n.

159
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS
!
Procediendo de manera análoga a los diseños anteriores, t (n−1,α/2) V̂ (θ̂) es el error aso-
ciado a la estimación, llamado precisión, es decir,
!
d = t n−1,α/2 V̂ (θ̂) (6.7)

donde θ̂ representa el estimador del parámetro de interés. De la expresión anterior y con


θ̂ = ȳ c , se despeja n para obtener el tamaño de muestra.

El tamaño de muestra para estimar el promedio


" #2
N t (n−1,α/2) σ2c
n= 2 " #2
N M d 2 + t (n−1,α/2) σ2c

$% " #2 &
n
donde σ2c es estimada por s c2 = i =1 y i . − ȳ c M i /(n − 1).

Para determinar el tamaño de muestra con base en τc , se procede de forma similar a la


anterior dado que V (τ̂c ) = V (M ȳ c ) = M 2V ( ȳ c ). Así, utilizando este resultado es fácil llegar a
la siguiente ecuación del tamaño de muestra para estimar τ.

El tamaño de muestra para estimar el total usando M ȳ c

N 2 (t n−1,α/2 )2 σ2c
n= " #2
d 2 + N t n−1,α/2 σ2c

$% " #2 &
n
donde σ2c es estimada por s c2 = i =1 y i . − ȳ c M i /(n − 1).

Ejemplos
Ejemplo 6.1 La Universidad de Colima tiene 10,000 estudiantes inscritos en 220 grupos con dife-
rente número de estudiantes. Con la finalidad de estimar el gasto promedio por es-
tudiante en útiles escolares, se toma una muestra aleatoria simple de 5 grupos y se
pregunta a cada integrante de los grupos sobre su gasto en útiles escolares (véanse los
datos del cuadro 6.1). Estime la información solicitada.

160
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Cuadro 6.1 Gasto en útiles escolares por estudiante (pesos)

Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5

104 081 107 116 107 116 091 100 113 124
086 078 106 111 106 111 084 104 118 074
114 121 101 093 101 093 070 087 105 122
106 093 097 067 097 067 079 081 096 087
074 114 064 94 064 94 092 101 119 089
125 092 109 079 109 079 131 094 118 132
114 107 097 091 097 091 088 126 113 094
090 114 102 114 102 114 096 102 097 088
098 101 093 109 093 109 099 069 127 134
120 101 121 109 121 109 100 078 119 111
097 098 130 121 130 121 077 122 115 141
099 092 090 112 090 112 069 073 100 091
112 098 103 098 103 083 102 080 127
112 107 079 107 079 070 123 094 123
104 114 114 081 109 113 136
125 089 089 067 122 128 114
093 089 089 070 090 092
129 072 072 112 094 082
y1.= 3,094 y2.= 3,184 y3.= 3,238 y4.= 3,336 y5.= 3,716
Ejemplo 5.1

Ejemplo 66.1 a) La media.

n ! Mi
n !
!
yi . yi j
i =1 i =1 j =1
µ̂ = ȳ c = n
= n
! !
Mi Mi
i =1 i =1
donde:

N = 220: es el número total de grupos en la población


n = 5: el número de grupos o conglomerados seleccionados
M = 10, 000: el total de estudiantes en la población
M 1 = 30, M 2 = 32, M 3 = 31, M 4 = 36 y M 5 = 34: tamaño de cada conglomerado

Por lo tanto:

3, 094 + 3, 184 + 3, 238 + 3, 336 + 3, 716 16, 534


ȳ c = = = 101.4356
30 + 32 + 31 + 36 + 34 163

Ejemplo 66.1 b) El total.

τ̂c = M ȳ c

161
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 66.1 donde:

M = 10, 000: el total de estudiantes en la población


ȳ c = 101.4356: el gasto promedio en útiles escolares por estudiante

Por lo tanto:

τ̂c = (10, 000)(101.4356)= 1, 014, 355.8282 pesos

Ejemplo 66.1 c) La varianza y la desviación estándar de la media.


n $
# %2
! "! " y i . − ȳ c M i
N −n 1 i =1
V̂ ( ȳ c ) = 2
donde:
N nM n −1
M = 10, 000: el total de estudiantes en la población
N = 220: el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
M = M /N = 45.45: el número promedio de estudiantes por grupo
ȳ c = 101.4356: el gasto promedio en útiles escolares por estudiante

Por lo tanto:
! "! "
220 − 5 1
V̂ ( ȳ c ) = ×
220 (5)(45.45)2

(3, 094 − (101.4356)(30))2 + . . . + (3, 716 − (101.4356)(34))2


= 4.9391
5−1
& #
V̂ ( ȳ c ) = 4.9391 = 2.2224

Ejemplo 66.1 d) Un IC al 90 % para la media poblacional µc .


&
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 101.4356: el gasto promedio en útiles escolares por estudiante

t (n−1,α/2) = t (5−1,0.1/2) = 2.1318


&
V̂ ( ȳ c ) = 2.2224

162
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.1 Por lo tanto:

101.4356 ± (2.1318)(2.2224)
101.4356 ± 4.7377
96.6978 ≤ µc ≤ 106.1734

Ejemplo 66.1 e) Un IC de 90 % para el total.

τ̂c ± t n−1,α/2V̂ (τ̂c )

donde:

τ̂c = 1, 014, 355.8282 y t n−1,α/2 = t 5−1,0.1/2 = 2.1318.


! !
V̂ (τ̂c ) = M V̂ ( ȳ c ) = (10, 000)(2.2224)=22, 223.861

Por lo tanto:

1, 014, 355.8282 ± (2.1318)(22, 223.861)


1, 014, 355.8282 ± 47, 378.1353
966, 977.6930 ≤ τc ≤ 1, 061, 733.9635

Ejemplo 66.1 f) Suponga que n = 5 grupos es una muestra preliminar. ¿Cuál es el tamaño de mues-
tra necesario para estimar la media poblacional con una precisión de 4 % de la media
preliminar y una confiabilidad de 90 %?

" #2
N t n−1,α/2 σ2c
n= 2 " #2
N M d 2 + t n−1,α/2 σ2c

donde:
$% " #2 &
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
ȳ c = 101.4356: el gasto promedio en útiles escolares por estudiante
N = 220: el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
M = M /N = 45.45: el número promedio de estudiantes por grupo
t n−1,α/2 = t 5−1,0.1/2 = 2.1318
s c2 = [(3, 094 − (101.4356)(30))2 + . . . + (3, 716 − (101.4356)(34))2 ]/(5 − 1) = 52, 209.8943
d = (0.04)(101.4356) = 4.0574

163
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 66.1 Por lo tanto:

(220)(2.1318)2 (52, 209.8943)


n= = 7 grupos
(220)(45.45)2 (4.0574)2 + (2.1318)2 (52, 209.8943)

Ejemplo 66.1 g) Suponga que n = 5 grupos es una muestra preliminar. ¿Cuál es el tamaño de mues-
tra necesario para estimar el total poblacional con una precisión de 4 % del total pre-
liminar y una confiabilidad de 90 %?

N 2 (t n−1,α/2 )2 σ2c
n= ! "2
d 2 + N t n−1,α/2 σ2c
donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
τ̂c = 1, 014, 355.8282
N = 220: el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
t n−1,α/2 = t 5−1,0.1/2 = 2.1318
& '
s c2 = (3, 094 − (101.4356)(30))2 + . . . + (3, 716 − (101.4356)(34))2 /(5 − 1) = 52, 209.8943
d = (0.04)(1, 014, 355.8282) = 40, 574.2331

Por lo tanto:

(220)2 (2.1318)2 (52, 209.8943)


n= = 7 grupos
(40, 574.2331)2 + (220)(2.1318)2 (52, 209.8943)

Ejemplo 6.2 La empresa Peñafiel procesa 1, 000 rejas de refresco por día. Con la finalidad de cono-
cer si el proceso de producción cumple con el contenido de carbohidratos, cierto día
se selecciona una muestra aleatoria simple de 6 rejas (cuadro 6.2).

Ejemplo 66.2 a) Estime el promedio de carbohidratos por refresco.

n ( Mi
n (
(
yi . yi j
i =1 i =1 j =1
µ̂c = ȳ c = n
= n
( (
Mi Mi
i =1 i =1

donde:

n = 6: el número de rejas seleccionadas


M = 24, 000: el total de refrescos producidos en ese día
M 1 = 24, M 2 = 24, M 3 = 24, M 4 = 24, M 5 = 24 y M 6 = 24: número de refrescos por reja

164
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Cuadro 6.2 Contenido de carbohidratos por reja de refresco

Reja 1 Reja 2 Reja 3 Reja 4 Reja 5 Reja 6

6.8 7.2 7.1 7.4 7.1 7.1 7.8 7.3 7.7 7.4 6.7 6.7
6.6 6.8 7.4 7.5 7.3 7.2 7.9 7.7 7.5 8.0 6.9 6.7
7.1 7.1 7.0 7.7 6.9 6.9 7.7 7.8 7.8 8.0 6.7 6.7
7.0 7.1 7.4 7.5 7.0 6.4 7.6 7.4 7.6 7.8 6.6 6.8
6.9 7.2 8.0 7.6 7.1 6.9 7.6 7.7 7.8 7.6 6.8 6.7
7.4 7.1 7.2 7.4 7.3 7.5 7.6 7.3 7.9 7.9 6.6 6.7
6.9 7.0 7.5 7.8 7.3 7.1 7.4 7.9 7.8 7.8 6.8 6.7
7.0 7.2 7.3 7.4 7.3 7.2 7.6 7.4 7.9 7.7 7.2 6.8
7.0 6.7 7.8 8.1 7.2 7.3 7.6 7.8 8.0 7.5 6.8 6.9
6.8 7.1 7.3 7.5 7.2 7.2 7.5 7.6 7.6 8.0 7.1 6.8
7.2 6.7 7.8 7.5 7.2 6.9 7.5 7.7 7.7 7.8 6.7 6.6
7.2 7.2 7.2 7.8 7.4 7.2 7.9 7.7 7.6 7.6 7.0 6.9
y1.= 168.3 y2.= 180.2 y3.= 171.4 y4.= 183 y5.= 186 y6.= 162.9

Ejemplo 5.1
Ejemplo 66.2 Por lo tanto:

168.3 + 180.2 + 171.4 + 183 + 186 + 162.9


ȳ c = = 7.3042 carbohidratos por refresco
24 + 24 + 24 + 24 + 24 + 24+

Ejemplo 66.2 b) Halle la estimación del total de carbohidratos producidos.

τ̂c = M ȳ c

donde:

M = 24, 000: el total de refrescos producidos en ese día


ȳ c = 7.3042: el contenido promedio de carbohidratos por refresco

Por lo tanto:

τ̂c = (24, 000)(7.3042)= 175, 300.8 carbohidratos producidos

Ejemplo 66.2 c) Calcule la estimación de la varianza de la media.


n $
# %2
! "! " y i . − ȳ c M i
N −n 1 i =1
V̂ ( ȳ c ) = 2
N nM n −1
donde:

M = 24, 000: el total de refrescos producidos en ese día


N = 1, 000: las rejas de refresco producidas

165
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

n = 6: el número de rejas seleccionadas


M = M /N = 24, 000/1, 000 = 24: el número promedio de refrescos por reja
ȳ c = 7.3042: el contenido promedio de carbohidratos por refresco

Por lo tanto:
! "! "
1, 000 − 6 1
V̂ ( ȳ c ) = ×
1, 000 (6)(24)2

(168.3 − (7.3042)(24))2 + . . . + (162.9 − (7.3042)(24))2


= 0.0239
6−1

Ejemplo 66.2 d) Calcule un IC de 90 % para la media poblacional.


#
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 7.3042: el contenido promedio de carbohidratos por refresco


t#n−1,α/2 = t 6−1,0.1/2 = 2.0150

V̂ ( ȳ c ) = 0.1546

Por lo tanto:

7.3042 ± (2.0150)(0.1546)
7.3042 ± 0.3116
6.9925 ≤ µc ≤ 7.6158

Ejemplo 66.2 e) Calcule un IC de 90 % para el total.

τ̂c ± t n−1,α/2V̂ (τ̂c )

donde:

τ̂c = 175, 300.8, t n−1,α/2 = t 6−1,0.1/2 = 2.0150


# #
V̂ (τ̂c ) = M V̂ ( ȳ c ) = (24, 000)(0.1536) = 3, 711.5380

Por lo tanto:

175, 300.8 ± (2.0150)(3, 711.5380)


167, 821.0713 ≤ τc ≤ 182, 778.9287

Es decir, con 90 % de confianza el total de carbohidratos en la población se ubica entre


167, 821.0713 y 182, 778.9287

166
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.2 f) Suponga que n = 6 rejas es una muestra preliminar. ¿Cuál es el tamaño de muestra
para estimar la media verdadera con una precisión del 4 % de la media preliminar y
una confiabilidad de 90 %?
! "2
N t n−1,α/2 σ2c
n= 2 ! "2
N M d 2 + t n−1,α/2 σ2c
donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i / [n − 1]
ȳ c = 7.3042: el contenido promedio de carbohidratos por refresco
N = 1, 000 : las rejas de refresco producidas
n = 6: el número de rejas seleccionadas
M = M /N = 24, 000/1, 000 = 24: el número promedio de refrescos por reja
t (n−1,α/2) = t (6−1,0.1/2) = 2.0150
& '
s c2 = (168.3 − (7.3042)(24))2 + . . . + (162.9 − (7.3042)(24))2 /[6 − 1] = 83.1520
d = (0.04)(7.3042) = 0.2922

Por lo tanto:

(1, 000)(2.0150)2 (83.1520)


n= = 7 rejas
(1, 000)(24)2 (0.2922)2 + (2.0150)2 (83.1520)

Ejemplo 66.2 g) Suponga que n = 6 rejas es una muestra preliminar. Por tanto, ¿cuál es el tamaño de
muestra para estimar el total verdadero con una precisión del 4 % del total preliminar
y una confiabilidad del 90 %?

N 2 (t n−1,α/2 )2 σ2c
n= ! "2
d 2 + N t n−1,α/2 σ2c
donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
τ̂c = 175, 300.8
N = 1, 000: las rejas de refresco producidas
n = 6: el número de rejas seleccionadas
t n−1,α/2 = t 6−1,0.1/2 = 2.0150
& '
s c2 = (168.3 − (7.3042)(24))2 + . . . + (162.9 − (7.3042)(24))2 /[6 − 1] = 83.1520
d = (0.04)(175, 300.8) = 7, 012.032

Por lo tanto:

(1, 000)2 (2.0150)2 (83.1520)


n= = 7 rejas
(7, 012.032)2 + (1, 000)(2.0150)2 (83.1520)

167
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 6.3 El gerente del periódico Ecos de la Costa desea estimar el número promedio de ejem-
plares comprados por familia al mes en el Estado de Colima. Como los costos de trans-
porte de un lugar a otro son altos, por esta razón se listan los 4, 000 hogares del Estado
en 400 conglomerados geográficos (manzanas) de 10 hogares cada uno, y se seleccio-
na una muestra aleatoria simple de 5 conglomerados. Se realizan las entrevistas y los
resultados están en el cuadro 6.3.

Cuadro 6.3 Ejemplares adquiridos por familia

Manzana 1 Manzana 2 Manzana 3 Manzana 4 Manzana 5

3 4 2 2 1
3 3 1 2 2
1 1 3 1 3
3 3 1 3 1
3 2 3 1 3
2 3 1 1 1
1 4 1 2 2
3 2 2 2 5
2 3 1 2 4
3 2 3 1 4
y1.= 24 y2.= 27 y3.= 18 y4.= 17 y5.= 26
Ejemplo 5.1

Ejemplo 66.2 a) Estime la media.

n ! Mi
n !
!
yi . yi j
i =1 i =1 j =1
µ̂c = ȳ c = n
= n
! !
Mi Mi
i =1 i =1

donde:

n = 5: el número de conglomerados seleccionados


M = 4, 000: el total de hogares en el Estado
M 1 = 10, M 2 = 10, M 3 = 10, M 4 = 10 y M 5 = 10: tamaño de cada conglomerado

Por lo tanto:

24 + 27 + 18 + 17 + 26 112
ȳ c = = = 2.24 ejemplares por familia
10 + 10 + 10 + 10 + 10 50

Ejemplo 66.2 b) Estime el total.

τ̂c = M ȳ c

168
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.2 donde:

M = 4, 000: el total de hogares en el Estado


ȳ c = 2.24: el promedio de ejemplares comprados por familia

Por lo tanto:

τ̂c = (4, 000)(2.24)= 8, 960 ejemplares comprados

Ejemplo 66.2 c) Calcule la varianza y la desviación estándar de la media.


n $
# %2
! "! " y i . − ȳ c M i
N −n 1 i =1
V̂ ( ȳ c ) = 2
N nM n −1
donde:

N = 400: el número de conglomerados geográficos


n = 5: el número de conglomerados seleccionados
M = 4, 000: el total de hogares en el Estado
M = M /N = 4, 000/400 = 10: el número promedio de hogares por conglomerado
ȳ c = 2.24: el número promedio de ejemplares comprados por familia

Por lo tanto:
! "! "
400 − 5 1 (24 − (2.24)(10))2 + . . . + (26 − (2.24)(10))2
V̂ ( ȳ c ) = = 0.0421
400 (5)(10)2 5−1
& "
V̂ ( ȳ c ) = 0.0421 = 0.2051

Ejemplo 66.2 d) Construya un IC de 90 % para la media poblacional µc .


&
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 2.24: el número promedio de ejemplares comprados por familia


t&n−1,α/2 = t 5−1,0.1/2 = 2.1318

V̂ ( ȳ c ) = 0.2051

Por lo tanto:

2.24 ± (2.1318)(0.2051)
1.8028 ≤ µc ≤ 2.6772

169
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Es decir, con un 90 % de confianza el número promedio de ejemplares comprados por


familia se ubica entre 1.8028 y 2.6772.

Ejemplo 66.2 e) Calcule un IC de 90 % para el total.

τ̂c ± t n−1,α/2V̂ (τ̂c )

donde:

τ̂c = 8, 960, t n−1,α/2 = t 5−1,0.1/2 = 2.1318,


! !
V̂ (τ̂c = M V̂ ( ȳ c ) = (4, 000)(0.2051) = 820.4145

Por lo tanto:

8, 960 ± (2.1318)(820.4145)
8, 960 ± 1, 748.9981
7, 211.0019 ≤ τc ≤ 10, 708.9981

Es decir, con un 90 % de confianza el total de ejemplares comprados en el Estado se


encuentra entre 7, 211.0019 y 10, 708.9981.

Ejemplo 66.2 f) Suponga que n = 5 conglomerados geográficos es una muestra preliminar. ¿Cuál es
el tamaño de muestra para estimar la media verdadera con una precisión de 10 % de
la media preliminar y una confiabilidad de 90 %?
" #2
N t n−1,α/2 σ2c
n= 2 " #2
N M d 2 + t n−1,α/2 σ2c
donde:
$% " #2 &
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
ȳ c = 2.24: el número promedio de ejemplares comprados por familia
N = 400 : el número de conglomerados geográficos
n = 5: el número de conglomerados seleccionados
M = M /N = 4, 000/400 = 10: el número promedio de hogares por conglomerados
t n−1,α/2 = t 5−1,0.1/2 = 2.1318
' (
s c2 = (24 − (2.24)(10))2 + . . . + (26 − (2.24)(10))2 /(5 − 1) = 21.3
d = (0.1)(2.24) = 0.224

Por lo tanto:

(400)(2.1318)2 (21.3)
n= = 19 conglomerados
(400)(10)2 (0.224)2 + (2.1318)2 (21.3)

170
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.2 g) Suponga que n=5 conglomerados es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el total verdadero con una precisión de 10 % del total preliminar
y una confiabilidad de 90 % ?

N 2 (t n−1,α/2 )2 σ2c
n= ! "2
d 2 + N t n−1,α/2 σ2c
donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /[n − 1]
τ̂c = 8, 960
N = 400: el número de conglomerados geográficos
n = 5: el número de conglomerados geográficos seleccionados
t n−1,α/2 = t 5−1,0.1/2 = 2.1318
& '
s c2 = (24 − (2.24)(10))2 + . . . + (26 − (2.24)(10))2 /[5 − 1] = 21.3
d = (0.1)(8, 960) = 896

Por lo tanto:

(400)2 (2.1318)2 (21.3)


n= = 19 conglomerados geográficos
(896)2 + (400)(2.1318)2 (21.3)

Ejemplo 6.4 Un investigador de la U de C desea estimar el total de emigrantes en el Estado de Coli-


ma, cuya población es de 200, 000. No existe una lista disponible de personas de toda
la población, por lo tanto, el Estado es dividido en 800 localidades. Para lograr tal ob-
jetivo toma una muestra de 12 localidades y entrevista a todos los habitantes de las 12
localidades y obtiene los resultados del cuadro 6.4.

Cuadro 6.4 Emigrantes de las localidades

Localidad Habitantes Emigrantes


por localidad por localidad

01 181 y1.0 = 10
02 316 y2.0= 20
03 249 y3.0 = 14
04 073 y4.0 = 29
05 164 y5.0 = 42
06 120 y6.0 = 20
07 171 y7.0 = 18
08 241 y8.0 = 19
09 283 y9.0 = 10
10 115 y10. = 23
11 142 y11. = 24
12 188 y12. = 13

Ejemplo 5.1

171
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 66.2 a) Encuentre la media.

n ! Mi
n !
!
yi . yi j
i =1 i =1 j =1
µ̂c = ȳ c = n
= n
! !
Mi Mi
i =1 i =1

donde:

n = 12: el número de localidades seleccionadas


M = 200, 000: los habitantes en el Estado
M 1 = 181, M 2 = 316, M 3 = 249, M 4 = 73, M 5 = 164, M 6 = 120, M 7 = 171, M 8 = 241,
M 9 = 283, M 10 = 115, M 11 = 142, M 12 = 188: total de habitantes por localidad

10 + 20 + 14 + . . . + 23 + 24 + 13
ȳ c = = 242/2, 243 = 0.1079 emigrantes
181 + 316 + 249 + . . . + 115 + 142 + 188

Ejemplo 66.2 b) Halle el total.

τ̂c = M ȳ c

donde:

M = 200, 000: los habitantes en el Estado


ȳ c = 0.1079: el promedio de emigrantes

Por lo tanto:

τ̂c = (200, 000)(0.1079)= 21, 580 emigrantes en total

Ejemplo 66.2 c) Calcule la varianza y la desviación estándar de la media.


n $
! %2
" #" # y i . − ȳ c M i
N −n 1 i =1
V̂ ( ȳ c ) = 2
N nM n −1
donde:

N = 800: el número de localidades en el Estado (conglomerados)


n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el Estado
M = M /N = 200, 000/800 = 250: promedio de habitantes por localidad
ȳ c = 0.1079: el número promedio emigrantes

172
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Por lo tanto:
! "! "
800 − 12 1 (10 − (0.1079)(181))2 + . . . + (13 − (0.1079)(188))2
V̂ ( ȳ c ) =
800 (12)(250)2 12 − 1
V̂ ( ȳ c ).= 0.0003
# "
V̂ ( ȳ c )= 0.0003 = 0.0164

Ejemplo 66.2 d) Elabore un IC al 90 % para la media poblacional.


#
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 0.1079: el número promedio emigrantes


t#(n−1,α/2) = t (12−1,0.1/2) = 1.7959

V̂ ( ȳ c ) = 0.0164

Por lo tanto:

0.1079 ± (2.7959)(0.0164)
0.1079 ± 0.0295
0.0784 ≤ µc ≤ 0.1374

Es decir, con 90 % de confianza el número promedio de emigrantes en el Estado está


entre 0.0768 y 0.1374.

Ejemplo 66.2 e) Calcule un IC al 90 % para el total.

τ̂c ± t n−1,α/2V̂ (τ̂c )

donde:

τ̂c = 21, 580


t (n−1,α/2) = t (12−1,0.1/2) = 1.7959
# #
V̂ (τ̂c = M V̂ ( ȳ c ) = (200, 000)(0.0164) = 3, 280.3971

Por lo tanto:

21, 580 ± (1.7959)(3, 280.3971)


21, 580 ± 5, 891.2154
15, 891.2154 ≤ τc ≤ 27, 471.2154

173
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Esto significa que con 90 % de confianza el total de emigrantes en el Estado se ubica


entre 15, 891.2154 y 27, 471.2154.

Ejemplo 66.2 f) Suponga que n = 12 conglomerados (localidades) es una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la media poblacional con una pre-
cisión de 10 % de la media preliminar y una confiabilidad de 90 %?
! "2
N t n−1,α/2 σ2c
n= 2 ! "2
N M d 2 + t n−1,α/2 σ2c
donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
ȳ c = 0.1079: el número promedio de emigrantes
N = 800: el número de localidades en las que está dividido el Estado (conglomerados)
n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el Estado
M = M /N = 200, 000/800 = 250: el número promedio de habitantes por localidad
t n−1,α/2 = t 12−1,0.1/2 = 1.7959
& '
s c2 = (10 − (0.1079)(181))2 + . . . + (13 − (0.1079)(188))2 /[12 − 1] = 204.8415
d = (0.1)(0.1079) = 0.01079

Por lo tanto:

(800)(1.7959)2 (204.8415)
n= = 81.5390
(800)(250)2 (0.01079)2 + (1.7959)2 (204.8415)

Ejemplo 66.2 El tamaño de muestra requerido para estimar la media verdadera con una precisión
de 0.01079 es de n = 82 conglomerados (localidades).

Ejemplo 66.2 g) Suponga que n = 12 conglomerados (localidades) es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar el total poblacional con una precisión de 10 %
del total preliminar y una confiabilidad del 90 %?

N 2 (t n−1,α/2 )2 σ2c
n= ! "2
d 2 + N t n−1,α/2 σ2c

donde:
#$ ! "2 %
σ2c : estimada por s c2 = ni=1 y i . − ȳ c M i /(n − 1)
τ̂c = 21, 580
N = 800: el número de localidades en las que está dividido el Estado (conglomerados)
n = 12: el número de localidades seleccionadas

174
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

M = 200, 000: los habitantes en el Estado


M = M /N = 200, 000/800 = 250: el número promedio de habitantes por localidad
t n−1,α/2 = t 12−1,0.1/2 = 1.7959
! "
s c2 = (10 − (0.1079)(181))2 + . . . + (13 − (0.1079)(188))2 /[12 − 1] = 204.8415
d = (0.1)(21, 580) = 2, 158

Por lo tanto:

(800)2 (1.7959)2 (204.8415)


n= = 81.5390
(2, 158)2 + (800)(1.7959)2 (204.8415)
Por lo tanto, el tamaño de muestra requerido para estimar el total poblacional con
una precisión de 2, 158 es de n = 82.

Ejercicios
En los siguientes ejercicios estimar un IC para la media y el total poblacional con una confiabilidad
de 95 %, y suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño
de muestra para estimar la media y el total poblacional de tal manera que sean estimados con una
precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %?

Ejercicio 6.1 La Secretaría de salud cuenta con 200 hospitales distribuidos en el territorio nacional,
dentro de los cuales tiene laborando a 6, 000 médicos con estudios de posgrado. Para
medir el nivel de satisfacción de los empleados en el trabajo, se toma una muestra
aleatoria simple de 6 hospitales y un censo en cada uno. El nivel de satisfacción se
mide de 0 (nada satisfecho) a 10 (muy satisfecho) (cuadro 6.5).

Cuadro 6.5 Nivel de satisfacción de los médicos por hospital

Hospital 1 Hospital 2 Hospital 3 Hospital 4 Hospital 5 Hospital 6

6 9 06 9 8 8 8 9 8 8 9 8 6 08 9 9 8 6
7 7 06 8 7 7 10 8 8 7 9 6 07 8 7 6
8 8 07 7 9 6 9 6 7 8 8 9 06 7 6 4
7 7 07 8 8 5 9 7 9 9 8 8 09 6 7 8
8 6 07 6 7 9 7 8 8 6 9 08 5 8 8
7 5 06 5 6 6 8 6 8 5 6 10 4 9 7
9 8 06 9 6 5 8 7 9 9 7 10 8 9 6
6 7 05 7 6 8 7 8 8 9 09 9 9 9
6 4 09 6 7 9 6 8 7 8 08 9 8
6 7 10 6 7 7 6 7 6 7 07 7 8
7 6 08 8 8 9 6 6 5 6 06 7 7
8 6 8 8 8 7 5 4 9 05 9 7

Ejemplo 5.1

175
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicio 6.2 El presidente municipal de Colima desea estimar el total de basura producida en la
ciudad. Se supone que la ciudad está conformada por 300 manzanas, y que el número
de viviendas es de 10, 000. Además, con la finalidad de medir el promedio y total de
basura producida por vivienda semanalmente, se toma una muestra aleatoria simple
de n = 8 manzanas. En cada manzana se recaba toda la basura producida por vivien-
da. Use la información del cuadro (6.6).

Cuadro 6.6 Kg de basura producidos por vivienda

Manzana 1 Manzana 2 Manzana 3 Manzana 4

40 30 38 48
60 35 29 36
30 45 65 37
40 48 82 72
60 68 88 83
50 75 95 93
48 45 49 63
49 65
65

Manzana 5 Manzana 6 Manzana 7 Manzana 8

35 45 49 82
38 38 35 83
48 45 28 73
65 66 25 65
70 33 29 45
35 22 79 66
40
40

Ejemplo 5.1

176
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

6.5. Estimación de la media y el total con M desconocida

¿Qué sucede cuando se desconoce el tamaño de la población M ?

Con la información anterior, se puede estimar la media, el total o el intervalo de confianza


para el total poblacional. Sin embargo, para utilizar las expresiones anteriores se debe co-
nocer M , pero en ocasiones no es posible saber ese valor. A continuación se muestran los
estimadores donde no es necesario conocer M .

Es importante mencionar que los estimadores que a continuación se presentan se re-


comiendan cuando los tamaños de los concloglomerados son aproximadamente iguales.

El estimador de la media y el total poblacional

Para hallar el estimador del total y la media poblacional se recurre a la expresión del total
promedio por conglomerado ( ȳ . ):

τ̂c = N ȳ . (6.8)

τ̂c
µ̂c = ȳ c = (6.9)
M aprox

!"n # !"n # !"n #


donde ȳ . = i =1 y i . /n = i =1 τi /n, M aprox = N M y M = i =1 M i /n.

La varianza estimada de la media y del total

n !
& #2
$ %$ % y i . − ȳ .
N − n 1 i =1
V̂ (τ̂c ) = V̂ (N ȳ . ) = N 2 (6.10)
N n n −1
n !
& #2
$ %$ % y i . − ȳ .
V̂ (τ̂c ) 1 N − n 1 i =1
V̂ (µ̂c ) = V̂ ( ȳ c ) = 2
= 2
(6.11)
M aprox M N n n −1

!"n #
Nota: recuérdese que cuando no se conoce M , entonces M = i =1 M i /n.

Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de los mismos.
Los intervalos de confianza para estos estimadores se construyen de forma habitual.

177
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El intervalo de confianza de la media y del total

!
ȳ c ± t (n−1,α/2)V̂ ( ȳ c )
!
τ̂c ± t (n−1,α/2) V̂ (τ̂c )

Los tamaños de muestra para estimar la media y el total

El tamaño muestral para estimar µ

N (t n−1,α/2 )2 σ2t
n=
N d 2 + (t n−1,α/2 )2 σ2t

"# $ %2 &
n
donde σ2t es estimada por s t2 y i . − ȳ . /(n − 1). El número d se calcula con respec-
= i =1
$# %
to al total promedio por conglomerado ȳ . = ni=1 y i . /n, cuando se usa la precisión relativa
o indirecta.

El tamaño muestral para estimar τ

N 2 (t n−1,α/2 )2 σ2t
n=
d 2 + N (t n−1,α/2 )2 σ2t

"# $ %2 &
n
donde σ2t es estimada por s t2 = i =1 y i . − ȳ . /(n − 1).

6.6. La estimación de una proporción poblacional


Muchas veces se quiere estimar la característica G específica de la población. Por ejemplo:
suponga que se desea conocer la proporción de personas en el Estado de Colima que pade-
cen cierta enfermedad, o la preferencia por cierto partido político, la aceptación de alguna
cierta norma ecológica, etc. Por eso, cuando se desea estimar una proporción y el total, si se
conoce M , se deben utilizar los mismos estimadores de la media y el total con M conocida
que fueron presentados en el apartado 6.4, sólo que ahora la variable respuesta contendrá
ceros y unos. En caso de desconocerse M , los estimadores de la proporción y el total deben
ser los mismos que se usaron en el apartado 6.5. En ambos casos se realizan los cálculos

178
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

exactamente como los ejemplos presentados en los apartados 6.4 y 6.5, respectivamente.
Es importante recordar que el muestreo por conglomerados se sugiere cuando:

Las unidades muestrales son grupos de elementos.

Se desea minimizar el costo por unidad muestreada.

Este diseño puede combinarse con otros diseños; por ejemplo, el estratificado.

Ejemplos
Ejemplo 6.5 Un agrónomo tiene una parcela experimental de 10, 000 m2 . Con la finalidad de co-
nocer la cantidad promedio por planta y el total de cacahutes producidos, divide la
parcela en tramos de 4 m2 , y selecciona una muestra aleatoria de 15 tramos. Ensegui-
da cuenta el número de cacahuates por planta. El cuadro 6.7 muestra los totales por
tramo. Resuelva lo que se le pide a continuación.

Cuadro 6.7 Cacahuates producidos por tramo

Tramo Plantas Total


por tramo

01 35 y1.0 = 1,680
02 34 y2.0= 1,360
03 28 y3.0 = 1,904
04 33 y4.0 = 1,485
05 34 y5.0 = 2,346
06 27 y6.0 = 1,809
07 28 y7.0 = 1,148
08 33 y8.0 = 1,320
09 31 y9.0 = 1,953
10 35 y10. = 1,645
11 34 y11. = 2,414
12 29 y12. = 2,146
13 28 y13. = 1,232
14 26 y14. = 1,404
15 29 y15. = 1,450

Ejemplo 5.1

Ejemplo 66.2 a) La estimación de la media por conglomerado (tramo).


n
! n
!
yi . τi
i =1 i =1
ȳ . = =
n n

179
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 66.2 donde:

n = 15: el número de tramos seleccionados


τi = y i . : el total de cacahuates en el tramo i , i = 1, 2, . . . , 15

Por lo tanto:

1, 680 + 1, 360 + . . . + 1, 404 + 1, 450 25, 290


ȳ . = = = 1, 686.4 cacahuates por tramo
15 15

Ejemplo 66.2 b) La estimación del total poblacional.

N ! n
τ̂c = N ȳ . = yi
n i =1
donde:

ȳ . = 1, 686.4: el promedio de cacahuates por tramo


N = 10, 000/4 = 2, 500: los tramos en los que se dividió la parcela
n = 15: los tramos seleccionados

Por lo tanto:

τ̂c = (2, 500)(1, 686.4) = 4, 216, 000 cacahuates por parcela

Ejemplo 66.2 c) La estimación de la media poblacional (por planta de cacahuate).

Como en este caso se desconoce M , se hace una aproximación para estimar la me-
dia poblacional:
n
!
Mi
i =1
M aprox = N M = N
n
donde:

n = 15: el número de tramos seleccionados


N = 2, 500: el número de tramos en la población
M 1 = 35, M 2 = 34, M 3 = 28, M 4 = 33, M 5 = 34, M 6 = 27, M 7 = 28, M 8 = 33, M 9 = 31,
M 10 = 35, M 11 = 34, M 12 = 29, M 13 = 28, M 14 = 26 y M 15 = 29
M = (35 + 34 + . . . + 26 + 29)/(15) = 30.9333

Por lo tanto:

M aprox = (30.9333)(2, 500) = 77, 333.3333

180
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.2 El estimador de la media poblacional es:

τ̂c
ȳ c =
M aprox
donde: τ̂c = 4, 216, 000 y M aprox = 77, 333.3333.

Por lo tanto:

4, 216, 000
ȳ c = = 54.5172 cacahuates en promedio por planta.
77, 333.3333

Ejemplo 66.2 d) La varianza y la desviación estándar de la media poblacional.

V̂ (τ̂c ) N 2V̂ ( ȳ . )
V̂ ( ȳ c ) = 2 2
=
M aprox M aprox
# n $ %2
! "! " y i . − ȳ .
N − n 1 i =1
V̂ ( ȳ . ) =
N n n −1
donde:

M aprox = 77, 333.3333


ȳ . = 1, 686.4
n = 15: el número de tramos que fueron selecionados
N = 2, 500: el número de tramos en la población
& '
V̂ ( ȳ . ) = [(2, 500 − 15)/2, 500](1/15) 1, 680 − 1686.4)2 + . . . + (1, 450 − 1, 686.4)2 /(15 − 1)
= 10, 528.1337

Por lo tanto:

(2, 500)2 (10, 528.1337)


V̂ ( ȳ c ) = = 11.0026
(77, 333.3333)2
( "
V̂ ( ȳ c ) = 11.0026 = 3.3170

Ejemplo 66.2 e) La estimación por intervalo de la media poblacional con una confianza de 90 %.
(
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 54.5172: cacahuates promedio por planta


t (n−1,α/2) = t (15−1,0.1/2) = 1.7613
(
V̂ ( ȳ c ) = 3.3170

181
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto:

54.5172 ± (1.7613)(3.3170)
54.5172 ± 5.8423
48.6749 ≤ µc ≤ 60.3595 cacahuates por planta

Ejemplo 66.2 f) La estimación por intervalo del total poblacional con una confianza de 90 %.
!
τ̂c ± t (n−1,α/2) N V̂ ( ȳ c )

donde:

τ̂c = 4, 216, 000, t (n−1,α/2) = t (15−1,0.1/2) = 1.7613


! ! #
V̂ (τ̂c ) = N V̂ ( ȳ . ) = (2, 500)( 10, 528.1337) = 256, 516.7356

Por lo tanto:

4, 216, 000 ± (1.7613)(256, 516.7356)


4, 216, 000 ± 451, 805.5211
3, 764, 194.4788 ≤ τc ≤ 4, 667, 805.5211 cacahuates por parcela

Ejemplo 66.2 g) Suponga que n = 15 tramos es una muestra preliminar. Determine el tamaño de
muestra para estimar la media por conglomerados con una precisión de 10 % del pro-
medio preliminar y una confiabilidad de 90 %.

N (t n−1,α/2 )2 σ2t
n=
N d 2 + (t n−1,α/2 )2 σ2t
donde:
"# $
σ2t : estimada por s t2 = ni=1 (y i . − ȳ . )2 /(n − 1)
ȳ . = 1, 686.4: el promedio total de cacahuates por tramo (conglomerado)
y i . : el total de cacahuates en el tramo i ,i = 1, 2 . . . , 15
N = 2, 500: los tramos en los que está dividida la parcela
" $
s t2 = (1, 680 − 1686.4)2 + . . . + (1, 450 − 1, 686.4)2 /(15 − 1) = 158, 875.2571
t (n−1,α/2) = t (15−1,0.1/2) = 1.7613, d = (0.1)(1, 686.4) = 168.64

Por lo tanto:

(2, 500)(1.7613)2 (158, 875.2571)


n= = 17 tramos (muestra)
(2, 500)(168.64)2 + (1.7613)2 (158, 875.2571)

Ejemplo 66.2 h) Suponga que n = 15 es una muestra preliminar. Determine la muestra para estimar
el total con una precisión de 10 % del total preliminar y una confiabilidad de 90 %.

182
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

N 2 (t n−1,α/2 )2 σ2t
Ejemplo 66.2 n=
d 2 + N (t n−1,α/2 )2 σ2t
donde:
!" #
σ2t : estimada por s t2 = ni=1 (y i . − ȳ . )2 /(n − 1)
ȳ . = 1, 686.4: el total promedio de cacahuates por tramo (conglomerado)
y i . : el total de cacahuates en el tramo i , i = 1, 2 . . . , 15
N = 2, 500: los tramos en los que está dividida la parcela
! #
s t2 = (1, 680 − 1686.4)2 + . . . + (1, 450 − 1, 686.4)2 /(15 − 1) = 158, 875.2571
t (n−1,α/2) = t (15−1,0.1/2) = 1.7613
τ̂c = 4, 216, 000: el total estimado de cacahuates producidos en la parcela
d = (0.1)(4, 216, 000) = 421, 600

Por lo tanto:

(2500)2 (1.7613)2 (158,875.2571)


n= = 17 tramos (muestra)
(421,600) + (2500)(1.7613)2 (158,875.2571)

Ejemplo 6.6 Suponga que un predio localizado en la playa de Manzanillo, tiene 1, 000 palmeras de
coco. Un investigador desea conocer la cantidad promedio de agua de coco que pro-
ducen las palmeras, para lo cual toma una muestra aleatoria de 8 palmeras, y mide la
cantidad de agua por coco en cada árbol. En el cuadro 6.8 se muestra el total de agua
en litros. Resuelva lo solicitado.

Ejemplo 66.2 a) El promedio por conglomerado.


n
$ n
$
yi . τi
i =1 i =1
ȳ . = =
n n
donde:

n = 8: el número de palmeras seleccionadas


τi = y i . : el total de litros en la palmera i , i = 1, 2, . . . , 8

Por lo tanto:

6.93 + 7.27 + . . . + 9.45 + 6.69 60.65


ȳ . = = = 7.58125 litros por conglomerado
8 8

Ejemplo 66.2 b) El total poblacional.


"n
i =1 y i
τ̂c = N ȳ . = N
n

183
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro 6.8 Agua de coco por palmera (litros)

Palmera 1 Palmera 2 Palmera 3 Palmera 4

1.12 0.94 0.77 0.81


0.68 1.33 0.95 1.49
1.07 0.76 1.07 0.99
0.85 0.95 0.73 0.89
0.79 1.26 0.96 1.03
0.89 0.75 0.93 1.42
1.02 1.28 1.09 0.99
0.51 0.99 1.28
0.96
y1.= 6.93 y2.= 6.93 y3.= 6.93 y4.= 6.93

Palmera 5 Palmera 6 Palmera 7 Palmera 8

0.95 0.77 0.88 0.83


1.23 0.72 1.06 0.85
1.11 0.77 0.87 0.82
1.14 0.85 0.95 0.97
1.66 0.56 0.86 0.90
1.50 1.12 0.94 0.71
0.58 0.83 0.72
0.89 0.89
1.08
1.09
y5.= 7.59 y6.= 5.37 y7.= 9.45 y8.= 6.69
Ejemplo 5.1

Ejemplo 66.2 donde:

ȳ . = 7.5813: el promedio de litros por conglomerado (palmera)


N = 1, 000: el número de palmeras en el predio
n = 8: el número de palmeras seleccionadas

Por lo tanto:

τ̂c = (1, 000)(7.58125) = 7, 581.25 litros de agua de coco en el predio

Ejemplo 66.2 c) El promedio de litros por coco (media poblacional).

Como en este caso se desconoce M , se hace una aproximación para hallar la media
poblacional:
n
!
Mi
i =1
M aprox = M N = N
n

184
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Ejemplo 66.2 donde:

n = 8: el número de palmeras seleccionadas


N = 1, 000: el número de palmeras en el predio
M 1 = 8, M 2 = 7, M 3 = 9, M 4 = 8, M 5 = 6, M 6 = 7, M 7 = 10, M 8 = 8 cocos por palmera
M = (8 + 7 + 9 + 8 + 6 + 7 + 10 + 8)/8 = 7.875

Por lo tanto:

M aprox = (7.875)(1, 000) = 7, 875 cocos en la población de 1,000 palmeras

El estimador de la media poblacional es:

τ̂c
ȳ c =
M aprox
donde τ̂c = 7, 581.25 y M aprox = 7, 875

Por lo tanto:

7, 581.25
ȳ c = = 0.9627 litros de agua producidos por cada coco
7, 875

Ejemplo 66.2 d) La varianza y la desviación estándar de la media poblacional.

V̂ (τ̂c ) N 2V̂ ( ȳ . )
V̂ ( ȳ c ) = 2 2
=
M aprox M aprox
# n $ %2
! "! " y i . − ȳ .
N − n 1 i =1
V̂ ( ȳ . ) =
N n n −1
donde:

M aprox = 7, 875
ȳ . = 7.5813
n = 8: el número de palmeras selecionadas
N = 1, 000: el número de palmeras (conglomerados) en la población
&' ( )
V̂ ( ȳ . ) = [(1, 000−8)/1, 000](1/8) (6.93 − 7.5813)2 + . . . + (6.69 − 7.5813)2 /(8 − 1) = 0.21596

Por lo tanto:

(1, 000)2 (0.21596)


V̂ ( ȳ c ) = = 0.00348
(7, 875)2
* "
V̂ ( ȳ c ) = 0.00348 = 0.059

185
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 66.2 e) Un IC para la media poblacional con una confiabilidad de 90 %.


!
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

ȳ c = 0.9627 litros de agua por coco


t!(n−1,α/2) = t (8−1,0.1/2) = 1.8946

V̂ ( ȳ c ) = 0.059

Por lo tanto:

0.9627 ± (1.8946)(0.059)
0.9627 ± 0.1118
0.8509 ≤ µc ≤ 1.0745

Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua por
coco.

Ejemplo 66.2 f) El total poblacional con una confiabilidad de 90 % por intervalo.


!
ȳ c ± t (n−1,α/2) V̂ ( ȳ c )

donde:

τ̂c = 7, 581.25
N = 1, 000
t (n−1,α/2) = t (8−1,0.1/2) = 1.8946
! ! #
V̂ (τ̂c ) = N V̂ ( ȳ . ) = (1, 000)( 0.21596) = 464.7111

Por lo tanto:

7, 581.25 ± (1.8946)(464.7111)
7, 581.25 ± 880.4317
6, 700.8129 ≤ τc ≤ 8, 461.6817

Entonces, el total de litros de agua de coco en el predio está entre 6, 700.81 y 8, 461.68.

Ejemplo 66.2 g) Suponga que n = 8 palmeras es una muestra preliminar. Determine el tamaño de
muestra para estimar la media por conglomerados con una precisión de 10 % del pro-
medio preliminar y una confiabilidad de 90 %.

186
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

N (t (n−1,α/2) )2 σ2t
n=
N d 2 + (t (n−1,α/2) )2 σ2t
donde:
!" #
σ2t : estimada por s t2 = ni=1 (y i . − ȳ . )2 /(n − 1)
ȳ . = 7.5812: el total promedio de litros de agua de coco por palmera
y i . : el total de litros de agua en la palmera i , i = 1, 2 . . . , 8
N = 1, 000: las palmeras en el predio
! #
s t2 = (6.93 − 7.5812)2 + . . . + (6.69 − 7.5812)2 /(8 − 1) = 1.7416
t (n−1,α/2) = t (8−1,0.1/2) = 1.8946
d = (0.1)(7.5812) = 0.75812

Por lo tanto:

(1, 000)(1.8946)2 (1.7416)


n= = 11 palmeras (muestra)
(1, 000)(0.7581264)2 + (1.8946)2 (1.7416)

Ejemplo 66.2 h) Suponga que n = 8 palmeras es una muestra preliminar. Determine el tamaño de
muestra definitivo para estimar el total con una precisión de 10 % del total preliminar
y una confiabilidad de 90 %.

N 2 (t (n−1,α/2) )2 σ2t
n=
d 2 + N (t (n−1,α/2) )2 σ2t
donde:
!" #
σ2t : estimada por s t2 = ni=1 (y i . − ȳ . )2 /(n − 1)
ȳ . = 7.5812: el total promedio de litros de agua de coco por palmera (conglomerado)

y i . : el total de litros de agua en la palmera i , i = 1, 2 . . . , 8


N = 1, 000: las palmeras en el predio
! #
s t2 = (6.93 − 7.5812)2 + . . . + (6.69 − 7.5812)2 /(8 − 1) = 1.7416
t (n−1,α/2) = t (8−1,0.1/2) = 1.8946
τ̂c = 7, 581.25: el total de agua de coco en litros en el predio
d = (0.1)(7, 581.25) = 758.125

Por lo tanto:

(1, 000)2 (1.8946)2 (1.7416)


n= = 11 palmeras (muestra)
(758.125)2 + (1, 000)(1.8946)2 (1.7416)

187
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicios
En los siguientes ejercicios estime el IC para la media y el total poblacional con una confiabilidad
de 95 % y suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño
de muestra para estimar la media y el total poblacional de tal manera que sean estimados con una
precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %?

Ejercicio 6.3 El dueño de una plantación forestal necesita estimar el volumen total de biomasa en
m3 que tiene su plantación. Ha pensado en hacer un muestreo por conglomerados.
Para esto divide la plantación en 300 sitios, de los cuales selecciona aleatoriamente
40 y dentro de cada uno de ellos mide el volumen de todos los árboles incluidos. En
este caso las UMP (los conglomerados) son los sitios y las UMS son los árboles. Úsense
los datos del cuadro 6.9.

Cuadro 6.9 Volumen de biomasa en m3

Conglom. Mi yi. Conglom. Mi yi.

01 508 1,709 21 558 2,440


02 302 1,075 22 598 2,005
03 693 3,087 23 532 2,057
04 598 1,729 24 599 2,562
05 459 1,497 25 607 1,853
06 695 2,725 26 609 2,698
07 476 2,143 27 640 3,066
08 675 2,945 28 659 1,948
09 432 1,355 29 589 1,942
10 567 2,267 30 674 2,413
11 657 2,724 31 508 1,870
12 650 2,537 32 302 0,987
13 667 3,284 33 693 3,258
14 598 2,370 34 598 2,700
15 548 2,026 35 459 1,750
16 657 1,987 36 583 2,007
17 508 1,479 37 476 1,231
18 499 1,668 38 675 2,701
19 549 2,163 39 432 1,669
20 543 2,463 40 567 1,904

Ejemplo 5.1

Ejercicio 6.4 La Secretaría de Desarrollo Social cuenta con 25 estancias infantiles esparcidas en el
Estado de Colima, donde los padres llevan a sus hijos diariamente. Con el objetivo
de conocer el nivel de satisfacción de los padres respecto a este servicio, se tomó un
muestreo aleatorio simple de 5 guarderías y se realiza una encuesta (el nivel de satis-
facción se mide de 0 a 5). Véase el cuadro 6.10.

188
M UESTREO POR CONGLOMERADOS EN UNA ETAPA

Cuadro 6.10 Resultados de los conglomerados censados

Estancia 1 Estancia 2 Estancia 3 Estancia 4 Estancia 5

3 4 2 3 4 5 3 4 2 3
3 5 2 2 4 4 3 3 4 3
2 2 3 1 2 3 4 2 4 2
2 3 3 2 3 3 4 2 3 5
3 3 2 2 5 4 4 5 3 4
3 3 1 1 5 4 5 4 5
4 4 1 1 3 4 3 4 3
3 3 1 2 3 5 2 5 3
2 2 4 4 5 2 5 4
2 2 4 4 3 3 4 2
4 4 5 4 3 4

Ejemplo 5.1

189
C APÍTULO

7 Muestreo basado en el
método de respuesta aleatorizada
Cuando la gente no quiere
cooperar con las respuestas,
la estadística y su ingenio
te ayudan a conseguirlo.
OAML

P ARA que los resultados de una encuesta sean creíbles es necesario, entre otros aspec-
tos, que las preguntas tengan suficiente calidad o validez, lo que exige asumir que las
respuestas sean ciertas. Para creer en los resultados de una encuesta es necesario creer
también en las respuestas de las personas que han sido entrevistadas. Sin embargo, tener
respuestas verídicas es difícil. Hay muchos problemas implícitos al tratar de conseguirlas y
de que éstas sean sinceras (Lohr, 2000).

Las personas tienen inclinaciones, tendencias propias, actitudes, distintas formas de


pensar, desconfianza, etc. Tales características dificultan, en algunas ocasiones, la calidad
de las respuestas. Uno de los problemas típicos se ha denominado deseabilidad social. Por
ello es importante estar consciente de que las personas entrevistadas responden en función
de lo bien visto socialmente. Por ejemplo, el consumo de droga se cataloga como negativo,
por lo que alguien que haya consumido o consuma drogas tenderá con facilidad a respon-
der no ante la pregunta ¿Ha consumido droga alguna vez? (Lohr, 2000).

Por otro lado, la deseabilidad social puede actuar de forma inconsciente, es decir, que
el individuo no controle intencionalmente su respuesta. La deseabilidad social también es
preocupante cuando las preguntas se refieren a cosas íntimas como las relaciones sexuales.
En ese caso, las personas suelen mostrar resistencia a exponerse ante extraños y son más
sensibles a responder según lo que se considera socialmente aceptable, por lo que se cubre
la verdad (Lohr, 2000). Es decir, cuando una encuesta incluye una o más preguntas que se
refieren a aspectos que pueden considerarse íntimos hacen que el entrevistado se sienta en
peligro o apenado si la responde correctamente (Méndez et al., 1973). Por ello, debe garan-

191
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

tizarse que las preguntas y la forma de hacerlas sean ingeniosas y con calidad para obtener
resultados confiables.

Obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se
enfrentan a varias dificultades, las cuales son inherentes a toda persona encuestada: incli-
naciones, actitudes, formas de pensar, comportamientos, tiempo disponible, desconfian-
zas y una propensión a mantener la intimidad. Esto ha conllevado a que en las últimas
décadas se realice un gran número de investigaciones para asegurarse de la calidad y vera-
cidad de las respuestas obtenidas sobre temas íntimos. La necesidad del ser humano por
hacerse de información que tiene carácter íntimo o por combatir la no respuesta lo han
conducido a desarrolar nuevas técnicas en la metodología del muestreo, entre ellos: la res-
puesta aleatorizada (Méndez y Quintana, 2007).

. .Respuesta aleatorizada
La técnica de respuesta aleatorizada es un método especialmente diseñado para
asegurar la privacidad de los entrevistados en el estudio de temas sensibles, de-
licados o embarazosos. Se intenta con ello evitar sesgos de los estrevistados en
ciertas conductas hacia la respuesta socialmente más deseable. Es decir, le ase-
gura al entrevistado que su respuesta sobre temas sensibles (falsa o verdadera) no
será conocida por el entrevistador, de ahí el nombre de respuesta aleatorizada; la
respuesta se realiza al azar. Se ha utilizado para analizar temas como copiar en
los exámenes, insolvencia, fraudes, haber sido arrestado, conducir bajo los efec-
tos del alcohol, infidelidad, tener hijos fuera del matrimonio, prácticas abortivas,
etcétera.

Existen varios métodos para evitar la resistencia de las personas a responder con sin-
ceridad cuando el tema es delicado. Este capítulo presenta dos métodos para estimar pro-
porciones (método de Warner, 1965 y método de Warner modificado propuesto por Horvitz
et al., 1967) sin obtener respuestas directas de las personas entrevistadas. Es decir, se esti-
ma la proporción sin que el entrevistado revele su posición personal respecto a la pregunta
delicada; por ello, el objetivo de estás técnicas es ayudar a que se den respuestas veraces
y se conserve lo confidencial del asunto. Para estos dos métodos se presenta una forma
sencilla de calcular el tamaño de muestra necesario y con ello estimar la proporción con la
precisión y confiabilidad fijadas bajo el MAS y el MAE.

7.1. ¿Cuándo se utiliza esta técnica?

Cuando las personas que son entrevistadas, se niegan a contestar o dan una respuesta
falsa a preguntas delicadas, que las ponen en aprietos o les pueden ser dañinas en
algún sentido.

192
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Cuando se quiere estimar el porcentaje de la población que tiene la caraterística de-


licada.

Por características sensitivas o delicadas se entiende a las situaciones en donde los en-
trevistados sienten dañada su intimidad al pedir que respondan un cuestiorario. Por lo tan-
to, las preguntas sensitivas o delicadas sirven para captar las características sensitivas de los
entrevistados; las cuales se tienen que manejar con cuidado debido a la no respuesta o a la
respuesta falseada contestando lo socialemente deseable.

7.2. Ventajas y desventajas

Ventajas Desventajas

Aumenta la probabilidad de Aumento en la complejidad de


contestar con la verdad que la pregunta.
en una pregunta directa.

Mayor índice de respuesta. Dificultad para entender el


método de aleatorización

Requiere de tamaños de muestra


grandes.

7.3. El modelo de respuesta aleatorizada bajo el MAS

Este método de respuesta aleatorizada fue desarrollado por Warner en 1965 y consiste en
clasificar a las personas en los grupos A y B , respectivamente. Cada persona estará en uno
de los grupos, A o B . Sea π la proporción de personas con ciertas caraterísticas de interés
(grupo A). El objetivo es estimar π sin preguntar a cada persona directamente si pertenece
o no al grupo A. En seguida se presenta el procedimiento propuesto por Warner (1965):

1. Se construye un mazo de cartas, pero una fracción de ellas p, se marca con la letra A
(grupo A) y la fracción restante, 1 − p, con las letras faltantes del abecedario (grupo
B ).

2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reempla-


zo de tamaño n de la población (N ).

3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que
las cartas están marcadas con las letras del abecedario.

193
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

4. En seguida, se baraja adecuadamente el mazo de cartas y se le pide al individuo que


seleccione una carta, pero que no nos diga con qué letra está marcada.

5. A continuación se le explica que se le va a hacer una pregunta y que la responda con


sí o no, pero resaltando que ponga mucha atención a la pregunta.

6. Que el individuo responda la pregunta que tienes la característica delicada (por ejem-
plo, ¿ha consumido droga alguna vez?) si la carta que obtuvo está marcada con la le-
tra A. Y que responda la pregunta que no tiene la característica delicada (¿nunca has
consumido droga?) si obtuvo cualquier otra letra del abecedario.

7. Se tiene que hacer énfasis en que debe responder con la verdad a las preguntas y
que solamente tiene que responder una de ellas dependiendo de la letra que obtuvo,
es decir, si la carta que obtuvo está marcada con la letra A debe responder con la
verdadad a la pregunta delicada y ésta sería su única respuesta, lo mismo que si le
tocó cualquier otra letra del abecedario debe de responder con la verdad a la segunda
pregunta pregunta y ésta sería la única respuesta.

8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la
siguiente persona.

9. Este procedimiento se aplica a todos los n individuos de la muestra.

10. Con las n respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores propuestos en este capítulo.

El mecanismo de aleatorización que originalmente utilizó Warner es una aguja giratoria


en un disco con dos regiones delimitadas. La aguja apunta con probabilidad p a la región A
y 1− p a la región Ac . El entrevistado responde a la pregunta Q A si la aguja señala a la región
A, o a la pregunta Q A c si la aguja señala a la región Ac . De esta manera, todo se conjuga a
que el entrevistador sólo anote sí o no para cada entrevistado.

Por ejemplo, supóngase que en el Estado de Colima se desea estimar el porcentaje de


hombres casados por lo civil que tienen hijos ilegales (fuera del matrimonio). Además, su-
póngase que se extrae una muestra aleatoria simple de n = 200 de la población de N =
10, 000. Así, cada uno de los hombres que conforman la muestra recibe una ficha con las
siguientes preguntas:

Q A : pregunta 1: ¿tiene al menos un hijo fuera de su matrimonio?


Q A c : pregunta 2: ¿no tiene hijos fuera del matrimonio?

La pregunta Q A (pregunta 1) será respondida por el entrevistado si la aguja marca la re-


gión A, de lo contrario, si la aguja marca la región Ac el entrevistado responderá la pregunta
Q A c (pregunta 2). Cada entrevistado responderá un sí o no porque solamente contestará

194
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

una de las dos preguntas dependiendo de la región que marque la aguja (A ó Ac ). Esto sig-
nifica que se tendrán n repuestas dicotómicas (sí o no) a partir de las cuales se derivará la
estimación de interés (porcentaje de respuestas afirmativas de la pregunta 1).

El mecanismo de aleatorización puede ser una baraja, un dado, una moneda, una urna,
etc., pero se debe tener claro su equivalente a la región A y su respectiva probabilidad. Re-
cuérdese que el experimentador puede elegir arbitrariamente la fracción p de cartas mar-
cadas con A, pero no debe ser igual a 1/2 ni p = 1 porque el entrevistado se daría cuenta
que se le está preguntando si pertenece al grupo A (3/4 es adecuado). Este método requiere
de un tamaño de muestra muy grande para obtener una varianza del estimador pequeña,
debido a que cada respuesta origina poca información sobre la proporción poblacional, π.
La técnica de respuesta aleatorizada presentada es la más simple de las que existen.

El estimador de la proporción y el total poblacional


1
Si suponemos que p ̸= , el estimador de máxima verosimilitud de π es:
2
p −1 a
π̂ = +
2p − 1 (2p − 1)n

y el estimador de máxima verosimilitud de τ es:

τ̂ = N π̂

donde N es el tamaño de la población, a es el total de respuestas sí de los n entrevistados y


p es la fracción de las letras en el mazo de cartas marcadas con la letra A.

La varianza estimada de los estimadores de la proporción y del total

! " # ! " &


N −n 1 1 1 2
S π̂2 = $ % − π̂ −
N n 16 p − 1/2 2 2
! " # ! "2 &
N − n 1 1 1
S τ̂2 = N 2 S π̂2 = N 2 $ % − π̂ −
N n 16 p − 1/2 2 2

A continuación se proporcionan los intervalos de confianza para los parámetros π y τ


con una confiabilidad de (1 − α)100 %.

195
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El intervalo de confianza de la proporción y el total

!
π̂ ± Zα/2 S π̂2
!
τ̂ ± Zα/2 S τ̂2

donde π̂ es la proporción de interés,


! τ̂ es el total de interés, Zα/2 es el valor de tablas de la
distribución normal estándar, S π̂2 es la desviación estándar de la proporción de interés y
!
S τ̂2 es la desviación estándar del total de interés.

El tamaño de la muestra para la proporción y el total

El tamaño de muestra para estimar la proporción

Si se fija una precisión deseada con una confiabilidad de (1 − α)100 %, entonces d = Zα/2
"! #
S π̂2 . Por lo tanto, el tamaño de muestra se determina por la ecuación:
2
N Zα/2 k
n= 2
N d 2 + Zα/2 k

$ % & '2 ()
donde k = 1/ 16 p − 1/2 − (π̂ − 1/2)2 , N es el tamaño de la población, Zα/2 es el valor
de tablas de la distribución normal estándar, p es la proporción de cartas que están marca-
das con la letra A y d = la precisión fijada por el investigador.

El tamaño de muestra para estimar el total

N 2 Zα/2
2
k
n= 2
d 2 + N Zα/2 k

$ % & '2 ()
donde k = 1/ 16 p − 1/2 − (π̂ − 1/2)2 , N es el tamaño de la población, Zα/2 es el valor
de tablas de la distribución normal estándar, p es la proporción de cartas que están marca-
das con la letra A y d = la precisión fijada por el investigador.

196
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplos
Ejemplo 7.1 En el Estado de Colima se realiza una encuesta con la intención de estimar la pro-
porción de estudiantes (N = 8, 000) en nivel medio superior y superior que han con-
sumido algún tipo de dróga. Dado que se trata de una pregunta delicada, se usó el
método de respuesta aleatorizada con p = 5/6. Se tomó una muestra aleatoria simple
de n = 200 estudiantes. En los resultados se encontraron 45 respuestas con sí de los
200 entrevistados.

Ejemplo 77.1 a) Calcule la proporción poblacional de interés.

p −1 a
π̂ = +
(2p − 1) (2p − 1)n
! 5
donde a = ni=1 y i = 45, p = y n = 200.
6
Por lo tanto:

5/6 − 1 45
π̂ = + = 0.0875 u 8.75 % de estudiantes consumidores
2(5/6) − 1 (2(5/6) − 1)200

Ejemplo 77.1 b) Obtenga el total de estudiantes que alguna vez han consumido algún tipo de droga.

τ̂ = N π̂

donde n = 8, 000 y π̂ = 0.0875.

Por lo tanto:

τ̂ = (8, 000)(0.0875) = 700 estudiantes

Ejemplo 77.1 c) Calcule la varianza y la desviación estándar de la proporción muestral.


" # $ " # %
N −n 1 1 1 2
S π̂2 = − π̂ −
N n 16(p − 1/2)2 2

donde N = 8, 000, π̂ = 0.0875, p = 5/6 y n = 200.

Por lo tanto:
" # $ " # %
8, 000 − 200 1 1 1 2
S π̂2 = − 0.0875 −
8, 000 200 16(5/6 − 1/2)2 2
= 0.001912676

197
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS
! !
S π̂ = S π̂2 = 0.001912676 =0.043734144

Ejemplo 77.1 d) Determine un IC de la proporción de interés con una confiabilidad de 95 %.


!
π̂ ± Zα/2 S π̂2

donde π̂ = 0.0875, N = 8, 000, Zα/2 = Z0.025 = 1.96 y s π̂ = 0.043734149.

Por lo tanto:

0.0875 ± (1.96)(0.0437)
0.0875 ± 0.085718932
0.001781068 ≤ π ≤ 0.173218932

Entonces, la proporción de estudiantes que alguna vez han consumido algún tipo de
droga está entre 0.178 y 17.32 %.

Ejemplo 77.1 e) Calcule el intervalo de confianza del total con una confiabilidad de 95 %.
!
τ̂ ± N Zα/2 S π̂2

donde τ̂ = 700, N = 8, 000, Zα/2 = Z0.025 = 1.96 y s π̂ = 0.043734149.

Por lo tanto:

(8, 000)(0.0875) ± (8, 000)(1.96)(0.0437)


700 ± 685.7515
14.2486 ≤ τ ≤ 1, 385.7515

De ahí que el total de estudiantes en nivel medio superior y superior que alguna vez
hayan consumido algún tipo de droga esté entre 14.2486 y 1385.7515.

Ejemplo 77.1 f) Suponga que n = 200 estudiantes es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar la proporción poblacional con una precisión de 5 %
de la proporción preliminar y una confiabilidad de 95 %?
2
N (Zα/2 )k
n= 2
N d 2 + Zα/2 k
donde:

N = 8, 000: el tamaño de la población


Zα/2 = 1.96

198
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

p = 5/6
d = (0.05)(0.0875) = 0.004375
! "
1 1 2
k= − 0.0875 − = 0.3923
16 (5/6 − 1/2)2 2
Por lo tanto:

(8, 000)(1.962 )(0.3923)


n= = 330 estudiantes (muestra)
(8, 000)(0.004375)2 + (1.962 )(0.3923)

Ejemplo 77.1 g) Suponga que n = 200 estudiantes es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total poblacional con una precisión del 5 % del total
preliminar y con una confiabilidad de 95 %?

N 2 Zα/2
2
k
n= 2
d 2 + N Zα/2 k
donde:

N = 8, 000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
d = (0.05)(700) = 35 ! "
1 1 2
k= − 0.0875 − = 0.3923
16 (5/6 − 1/2)2 2

Por lo tanto:

(8, 000)2 (1.962 )(0.3923)


n= = 330.3 estudiantes (unidades muestrales)
(352 ) + (8000)(1.962 )(0.3923)

Ejemplo 7.2 En el Estado de Colima se realiza una encuesta para estimar la proporción de perso-
nas que han robado alguna vez en su vida. Hay una población de N = 15, 000. Dado
que se trata de una pregunta delicada se usó el método de respuesta aleatorizada con
p = 5/6. Se entrevistó aleatoriamente a n = 250 ciudadanos. Los resultados arrojaron
80 respuestas de sí de entre los 250 entrevistados.

Ejemplo 77.1 a) Calcule la proporción de interés poblacional.

p −1 a
π̂ = +
2p − 1 (2p − 1)n
#
donde a = ni=1 y i = 80, p = 5/6 y n = 250.

199
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 Por lo tanto:

5/6 − 1 80
π̂ = + = 0.23 ó 23 % de ciudadanos que han robado
2(5/6) − 1 (2(5/6) − 1)250

Ejemplo 77.1 b) Calcule el total de ciudadanos que alguna vez han robado.

τ̂ = N π̂

donde N = 15, 000 y π̂ = 0.23.

Por lo tanto:

τ̂ = (15, 000)(0.23) = 3,450 ciudadanos

Ejemplo 77.1 c) Estime la varianza y la desviación estándar de la proporción.


! " # ! " $
N −n 1 1 1 2
S π̂2 = − π̂ −
N n 16(p − 1/2)2 2
donde N = 15, 000, π̂ = 0.23 y n = 250.

Por lo tanto:
! " # ! " $
15, 000 − 250 1 1 1 2
S π̂2 = − 0.23 − = 0.00192576
15, 000 250 16(5/6 − 1/2)2 2
% "
S π̂ = S π̂2 = 0.00192576 = 0.043883482

Ejemplo 77.1 d) Construya un IC de la proporción de interés con una confiabilidad de 95 %.


%
π̂ ± Zα/2 S π̂2

donde π̂ = 0.23, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.043883482.

Ejemplo 77.1 Por lo tanto:

0.23 ± (1.96)(0.0438)
0.23 ± 0.086011625
0.143988375 ≤ π ≤ 0.316011625

Esto significa que la proporción de ciudadanos que han robado alguna vez en su vida
está entre 0.143988375 y 0.316011625, es decir, entre 14.39 y 31.60 %.

200
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 e) Contruya un IC para el total con una confiabilidad de 95 %.


!
τ̂ ± N Zα/2 S π̂2

donde τ̂ = 3,450, N = 15,000, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.043883482.

Por lo tanto:

(15, 000)(0.23) ± (15, 000)(1.96)(0.0438)


3450 ± 1290.17437
2,159.82563 ≤ τ ≤ 4, 4740.17437

Esto significa que el total de ciudadanos que alguna vez han robado se encuentra en-
tre 2,159.82563 y 4,740.17437.

Ejemplo 77.1 f) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción verdadera con una precisión de 3 % de la propor-
ción preliminar y una confiabilidad de 95 %?
2
N (Zα/2 )k
n= 2
N d 2 + N Zα/2 k
donde:

N = 15, 000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
π̂ = 0.23
d = (0.03)(0.23) = 0.0069
" #
1 1 2
k= − 0.23 − = 0.4896
16(5/6 − 1/2)2 2

Ejemplo 77.1 Por lo tanto:

(15, 000)(1.962 )(0.4896)


n= = 268 ciudadanos
(15, 000)(0.0069)2 + (1.962 )(0.4896)

Ejemplo 77.1 g) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total poblacional con una precisión de 3 % del total
preliminar y con una confiabilidad de 95 %?

N 2 Zα/2
2
k
n= 2
d 2 + N Zα/2 k

201
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

donde:

N = 15, 000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
τ̂ = 3, 450
d = (0.03)(3, 450) = 103.5
! "
1 1 2
k= − 0.23 − = 0.4896
16(5/6 − 1/2)2 2

Por lo tanto:

(15, 000)2 (1.962 )(0.4896)


n= = 268 ciudadanos (muestra)
(103.52 ) + (15,000)(1.962 )(0.4896)

Ejemplo 7.3 En el Estado de Colima se realiza una encuesta con la intención de estimar la propor-
ción de ciudadanos que han usado juguetes sexuales alguna vez en su vida. Se supone
N = 7, 000. Como es una pregunta delicada se usó el método de respuesta aleatori-
zada con p = 5/6. Se entrevistó aleatoriamente a n = 160 ciudadanos. Los resultados
indican 40 respuestas de sí de entre los 160 entrevistados.

Ejemplo 77.1 a) Calcule la proporción de interés.

p −1 a
π̂ = +
2p − 1 (2p − 1)n

donde a = Σni=1 y i = 40, p = 5/6 y n = 160.

Por lo tanto:

5/6 − 1 40
π̂ = + = 0.125 ó 12.5 % de ciudadanos
2(5/6) − 1 (2(5/6) − 1)160
Esto significa que la proporción de ciudadanos que alguna vez en su vida han usado
juguetes sexuales es de 0.125, es decir, 12.5 %

Ejemplo 77.1 b) Realice la estimación del total de ciudadanos que alguna vez han usado juguetes
sexuales.

τ̂ = N π̂

donde N = 7, 000 y π̂ = 0.125.

202
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Por lo tanto:

τ̂ = (7, 000)(0.125) = 875 ciudadanos

Ejemplo 77.1 c) Obtenga la varianza y la desviación estándar de la proporción.


! " # ! " $
N −n 1 1 1 2
S π̂2 = − π̂ −
N n 16(5/6 − 1/2)2 2

donde N = 7, 000, π̂ = 0.125, p = 5/6 y n = 160.

Por lo tanto:
! " # ! " $
7, 000 − 160 1 1 1 2
S π̂2= − 0.125 − = 0.00257645
7, 000 160 16(5/6 − 1/2)2 2
% "
S π̂ = S π̂2 = 0.00257645 = 0.050758752

Ejemplo 77.1 d) Construya un IC para la proporción de interés con una confiabilidad de 95 %.


%
π̂ ± Zα/2 S π̂2

donde π̂ = 0.125, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.050758752.

Por lo tanto:

0.125 ± (1.96)(0.05007)
0.125 ± 0.099487154
0.025512846 ≤ π ≤ 0.224487154

Esto significa que la proporción de ciudadanos que alguna vez en su vida han usa-
do juguetes sexuales está entre 0.02551 y 0.2244, o sea, entre 2.55 y 22.44 %.

Ejemplo 77.1 e) Obtenga un IC del total con una confiabilidad de 95 %.


%
τ̂ ± N Zα/2 S π̂2

donde τ̂ = 875, N = 7, 000, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.050758.

Por lo tanto:

(7, 000)(0.125) ± (7, 000)(1.96)(0.09948)


875 ± 696.4100
178.5899 ≤ τ ≤ 1571.41008

203
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Esto significa que el total verdadero de ciudadanos que alguna vez han usado juguetes
sexuales se encuentra entre 178.58 y 1,571.41.

Ejemplo 77.1 f) Suponga que n = 160 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar la proporción poblacional con una precisión de 5 %
de la proporción preliminar y una confiabilidad de 95 %?
2
N Zα/2 k
n= 2
N d 2 + Zα/2 k
donde:

π̂ = 0.125
N = 7, 000: el tamaño de la población
Zα/2 = 1.96
p = 5/6
d = (0.05)(0.125) = 0.00625
! "
1 1 2
k= − 0.125 − = 0.4218
16(5/6 − 1/2)2 2

Por lo tanto:

(7, 000)(1.962 )(0.4218)


n= = 250 ciudadanos (muestra)
(7, 000)(0.05075)2 + (1.962 )(0.4218)

Ejemplo 77.1 g) Suponga que n = 160 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total con una precisión de 5 % del total preliminar
y una confiabilidad de 95 %?

N 2 Zα/2
2
k
n= 2
d 2 + N Zα/2 k
donde:

N = 7, 000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
τ̂ = 875
d = (0.05)(875) = 43.75
! "
1 1 2
k= − 0.125 − = 0.421875
16(5/6 − 1/2)2 2

204
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 Por lo tanto:

(7, 000)2 (1.962 )(0.4218)


n= = 250 ciudadanos (muestra)
(43.75)2 + (7, 000)(1.962 )(0.4218)

Ejemplo 7.4 En el Estado de Colima se realiza una encuesta con la intención de calcular la propor-
ción de ciudadanos N = 5,000 que han vendido su voto alguna vez en su vida. Dado
que se trata de una pregunta delicada, se empleó el método de respuesta aleatorizada
con p = 5/6. Se tomó una muestra aleatoria simple de 250 ciudadanos a quienes se les
entrevistó. En los resultados se encontraron 60 respuestas de sí.

Ejemplo 77.1 a) Estime la proporción poblacional de interés.

p −1 a
π̂ = +
2p − 1 (2p − 1)n
5
donde a = Σni=1 y i = 60, p = y n = 250.
6
Por lo tanto:

(5/6) − 1 60
π̂ = + = 0.11
2(5/6) − 1 [2(5/6) − 1]250
Esto significa que la proporción de ciudadanos en el Estado de Colima que alguna
vez en su vida han vendido su voto es de 0.11, es decir, 11 %.

Ejemplo 77.1 b) Calcule el total de ciudadanos que alguna vez han vendido su voto.

τ̂ = N π̂

donde: N = 5, 000 y π̂ = 0.11

Por lo tanto:

τ̂ = (5, 000)(0.11) = 550 ciudadanos


Ejemplo 77.1 c) Haga la estimación de la varianza y la desviación estándar de la proporción.
! " # ! " $
N −n 1 1 1 2
S π̂2 = − π̂ −
N n 16(p − 1/2)2 2
donde N = 5, 000, π̂ = 0.11, p = 5/6 y n = 250.

Por lo tanto:
! " # ! " $
5, 000 − 250 1 1 1 2
S π̂2= − 0.11 − = 0.00156
5, 000 250 16(5/6 − 1/2)2 2
% "
S π̂ = S π̂2 = 0.00156 = 0.039490758

205
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 d) Haga un IC de la proporción de interés con una confianza de 95 %.


!
π̂ ± Zα/2 S π̂2

donde: π̂ = 0.11, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.039490758.

Por lo tanto:

0.11 ± (1.96)(0.0395)
0.11 ± 0.077401886
0.032598114 ≤ π ≤ 0.187401886

Por lo tanto, la proporción de ciudadanos que alguna vez en su vida han vendido su
voto está entre 0.03259 y 0.1874, es decir, entre 3.25 y 18.74 %.

Ejemplo 77.1 e) Cree un IC del total con una confiabilidad de 95 %.


!
τ̂ ± N Zα/2 S π̂2

donde: τ̂ = 550, N = 5, 000, Zα/2 = Z0.025 = 1.96 y S π̂ = 0.039490758

Por lo tanto:

(5, 000)(0.11) ± (5, 000)(1.96)(0.0395)


550 ± 387.0094
162.9905 ≤ τ ≤ 937.0094

Esto significa que el total de ciudadanos que alguna vez ha vendido su voto está entre
162.9905 y 937.0094 personas.

Ejemplo 77.1 f) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción verdadera con una precisión de 5 % de la propor-
ción preliminar y una confiabilidad de 95 %?
2
N Zα/2 k
n= 2
N d 2 + Zα/2 k
donde:

π̂ = 0.11 N = 5, 000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
d = (0.05)(0.11) = 0.0055

206
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA
! "
1 1 2
k= − 0.11 − = 0.4104
16(5/6 − 1/2)2 2

Por lo tanto:

(5, 000)(1.962 )(0.4104)


n= = 271 ciudadanos (muestra)
(5, 000)(0.0055)2 + (1.962 )(0.4104)

Ejemplo 77.1 g) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total verdadero con una precisión de 5 % del total
preliminar con una confiabilidad de 95 %?

N 2 Zα/2
2
k
n= 2
d 2 + N Zα/2 k
donde:

N = 5000: el tamaño de la población


Zα/2 = 1.96
p = 5/6
τ̂ = 550
d = (0.05)(550) = 27.5
! "
1 1 2
k= − 0.11 − = 0.4104
16(5/6 − 1/2)2 2

Por lo tanto:

(5000)2 (1.962 )(0.4104)


n= = 271
(27.5)2 + (5, 000)(1.962 )(0.4104)

Ejemplo 77.1 Por lo tanto, el número estimado de unidades muestrales (ciudadanos) de la muestra
para tener una precisión de ±27.5 con 0.95 de probabilidad de incluir en el intervalo
de estimación al total, es de 272 ciudadanos.

207
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejercicios
En los siguientes ejercicios estimar el IC para la proporción y el total con una confiabilidad de 95 %.
Asimismo, suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño
de muestra para estimar la proporción y el total de tal manera que sean estimados con una precisión
de 5 % de la proporción y el total preliminar con una confiabilidad de 95 %?

Ejercicio 7.1 Un psicólogo está realizando un estudio para conocer el número de homosexuales
en el Estado de Colima (N = 28, 000). Dado que se trata de una pregunta delicada, se
usó el método de respuesta aleatorizada con p = 5/6. Se tomó una muestra aleatoria
simple de n = 200 hombres. En los resultados se encontraron 45 respuestas con sí de
los entrevistados.

Ejercicio 7.2 En el Estado de Colima se está realizando un estudio de personas que alguna vez han
tenido tendencias de robo menor (N = 50, 000). Dado que se trata de una pregun-
ta delicada, se usó el método de respuesta aleatorizada con p = 5/6. Se tomó una
muestra aleatoria simple de n = 200 personas. Hubo 37 respuestas afirmativas de los
entrevistados.

Ejercicio 7.3 Un psicólogo está realizando un estudio para conocer el número de mujeres que han
sufrido algún tipo de abuso sexual por parte de un familiar (N = 10, 000). Dado que
se trata de una pregunta delicada, se usó el método de respuesta aleatorizada con
p = 5/6. Se tomó una muestra aleatoria simple de n = 500 mujeres. Se encontraron 20
respuestas con sí de los entrevistados.

Ejercicio 7.4 Un médico desea hacer un estudio para conocer el número de personas que han con-
sumido algún tipo de droga prohibida en el municipio de Coquimatlán del Estado de
Colima (N = 5, 000). Dado que se trata de una pregunta delicada, se usó el método de
respuesta aleatorizada con p = 5/6. Se tomó una muestra aleatoria simple de n = 150
personas. De las respuestas, 90 afirmaron que sí.

208
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

7.4. El modelo de respuesta aleatorizada bajo el MAE


Cuando la población es heterogénea, se sugiere formar estratos para mejorar la precisión
de las estimaciones. Los criterios para formar los estratos son exactamente los mismos que
en el MAE. Por lo tanto, para cada estrato se debe conocer su tamaño, no deben traslapar-
se y además se debe contar con un marco de muestreo confiable para tener una tasa de
respuesta en blanco muy cercana a cero. Por otro lado, ya que se determine el tamaño de
muestra con la expresión correspondiente, la asignación de la muestra se realizará en for-
ma proporcional, por su simplicidad y aceptación práctica. El procedimiento del método
de respuesta aleatorizada en MAE es exactamente el mismo que en MAS. Por lo tanto, a ca-
da individuo que conformará la muestra se entrevistará con el mismo procedimiento del
método de respuesta aleatorizada bajo el MAS, con la diferencia de que ahora el tamaño de
muestra n se asigna en forma proporcional a cada estrato, es decir, n = n 1 + n 2 + ... + n E .

El estimador de la proporción y el total poblacional

N1 π̂1 + N2 π̂2 + .... + NE π̂E


π̂st =
N

τ̂st = N π̂st
1
Si p ̸= es igual en cada estrato, el estimador de máxima verosimilitud de πh es :
2
p −1 ah
π̂h = + ; h = 1, 2, ..., E
2p − 1 (2p − 1)n h

donde p es la fracción de letras en el mazo de cartas marcadas con la letra A y a h es el total


de respuestas afirmativas (sí) de los n h entrevistados en el estrato h. Se necesita la varianza
de estos estimadores para determinar la dispersión de los datos y saber la precisión de las
estimaciones.

La varianza de los estimadores de la proporción y total poblacional

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S π̂2 st = − π̂h −
h=1 N Nh n h 16(p − 1/2)2 2

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S τ̂2st =N 2
− π̂h −
h=1 N Nh n h 16(p − 1/2)2 2

209
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Con los estimadores de las varianzas de π̂st y τ̂st se puede calcular intervalos que con-
tengan el valor del parámetro con una probabilidad preestablecida.

El intervalo de confianza para el promedio y total poblacional

Los intervalos de confianza para πst y τst son:

!
π̂st ± Zα/2 S π̂2
st

!
τ̂st ± Zα/2 S τ̂2
st

El tamaño de la muestra para estimar la proporción y el total

El tamaño de muestra para estimar la proporción


"! #
Fijando la precisión d = Zα/2 S π̂2 se tiene que:
st

2 $E
N Zα/2 W K
h=1 h h
n= 2 $E
2
N d + Zα/2 h=1 Wh K h
donde:
% &
1 1 2
Kh = − π̂h −
16(p − 1/2)2 2
N = el tamaño de la población
π̂h = la proproción de interés en el estrato h
Zα/2 = el valor de tablas de la distribución normal estándar
p = la proporción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador

El tamaño de muestra para estimar el total

N 2 (Z α/2)2 ΣEh=1Wh K h
n=
d 2 + N (Zα/2 )2 ΣEh=1Wh K h

210
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

donde:
! "
1 1 2
Kh = − π̂h −
16(p − 1/2)2 2
N = el tamaño de la población
π̂h = la proproción de interés en el estrato h
Zα/2 = el valor de tablas de la distribución normal estándar
p= la proporción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador

Ejemplos
Ejemplo 7.5 Una investigadora de la U de C está interesada en estimar la proporción de mujeres
infieles en el Estado (se encontró que las mujeres que están casadas por lo civil es
de N = 10, 000). Obviamente, es una pregunta delicada y por eso se usó el método
de respuesta aleatorizada. Además, la investigadora cree que el nivel socioeconómi-
co influye en la infidelidad, por lo que clasificó a la población en tres estratos: clase
baja, (estrato 1), media (estrato 2) y alta (estrato 3). La población de cada estrato es
de N1 = 4, 500, N2 = 3, 500 y N3 = 2, 000. Para el estudio se tomó una muestra alea-
toria simple de n = 200 señoras distribuidas de la siguiente manera: n 1 = 80, n 2 = 65
y n 3 = 55 señoras. Las respuestas con sí en las entrevistas por estrato son: 14 para el
primer estrato, 16 para el segundo y 17 para el tercero. En este caso, p = 5/6.

Ejemplo 77.1 a) Calcule la proporción de mujeres infieles en el Estado.

N1 π̂1 + N2 π̂2 + .... + NE π̂E


π̂st =
N
donde:

p −1 ah
π̂h = +
2p − 1 2p − 1
h = 1, 2, ..., E
N1 = 4, 500, N2 = 3, 500, N3 = 2, 000
n 1 = 80, n 2 = 65, n 3 = 55
a 1 = 14, a 2 = 16, a 3 = 17
p = 5/6

Por lo tanto:

5/6 − 1 14
π̂1 = + = 0.0125
2(5/6) − 1 (2(5/6) − 1)80
5/6 − 1 16
π̂2 = + = 0.1199
2(5/6) − 1 (2(5/6) − 1)65

211
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

5/6 − 1 17
π̂3 = + = 0.2136
2(5/6) − 1 (2(5/6) − 1)55
(4, 500)(0.0125) + (3, 500)(0.1199) + (2, 000)(0.2136)
π̂st = = 0.0901 ó 9 % infieles
10, 000

Ejemplo 77.1 b) Determine el total de mujeres infieles en el Estado

τ̂st = N π̂st

donde:

N = 10, 000: el total de mujeres casadas por lo civil en el Estado de Colima


π̂st = 0.0901: la proporción de mujeres infieles en el Estado

Por lo tanto:

τ̂st = (10, 000)(0.090) = 900.8304

Esto significa que el total de mujeres infieles en el Estado de Colima es de 900.8304.

Ejemplo 77.1 c) Estime la varianza y la desviación estándar de la proporción.

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S π̂2 st = − π̂h −
h=1 N Nh n h 16(p − 1/2)2 2
donde:

N = 10, 000 el total de mujeres casadas por lo civil en el Estado


E = 3 los estratos en los que está dividida la población en estudio
N1 = 4, 500, N2 = 3, 500, N3 = 2, 000
n 1 = 80, n 2 = 65, n 3 = 55
a 1 = 14, a 2 = 16, a 3 = 17
p = 5/6
π̂1 = 0.0125
π̂2 = 0.1192
π̂3 = 0.2136

Por lo tanto:
" # " # $ " # %
4, 500 2 4, 500 − 80 1 1 1 2
S π̂2 = − 0.0125 −
st 10, 000 4, 500 80 16 (5/6 − 1/2)2 2
" #2 " # $ " # %
3, 500 3, 500 − 65 1 1 1 2
+ − 0.1192 −
10, 000 3, 500 65 16 (5/6 − 1/2)2 2

212
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA
! "2 ! " # ! " $
2, 000 2, 000 − 55 1 1 1 2
+ − 0.2136 −
10, 000 2, 000 55 16 (5/6 − 1/2)2 2
= 0.0019
% "
S π̂st = S π̂2 = 0.0019 = 0.0438
st

Ejemplo 77.1 d) Construya un IC para la proporción de interés con una confiabilidad de 95 %.


%
π̂st ± Zα/2 S π̂2
st

donde:

π̂st = 0.0901: la proporción de mujeres infieles en el Estado


α = 0.05
Zα/2 = 1.96
%
S π̂2 = 0.0438
st

Por lo tanto:

0.0901 ± (1.96)(0.0438)
0.0901 ± 0.0859
0.0042 ≤ πst ≤ 0.1760

Esto significa que la proporción de mujeres infieles casadas por lo civil en el Esta-
do de Colima está entre 0.0042 y 0.1760.

Ejemplo 77.1 e) Haga un IC del total de interés con una confiabilidad de 95 %.


%
τ̂st ± Zα/2 S τ̂2
st

donde:

τ̂st = 900.83042
N = 10,000 el total de mujeres casadas por lo civil en el Estado de Colima
%
S π̂2 = 0.0438
st
α = 0.05
Zα/2 = 1.96
%
S τ̂2 = (10, 000)(0.0438) = 438.1468
st

Por lo tanto:

900.8304 ± (1.96)(438.1468)
42.0785 ≤ τst ≤ 1, 759.5824

213
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Esto significa que el total de mujeres infieles casadas por lo civil está entre 42.0785 y
1,759.5824.

Ejemplo 77.1 f) Suponga que n = 200 mujeres es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción poblacional con una precisión de 75 % de la pro-
porción preliminar y una confiabilidad de 95 %?
2
N Zα/2 ΣEh=1Wh K h
n= 2
N d 2 + Zα/2 ΣEh=1Wh K h
donde:
! "
1 1 2
Kh = − π̂ h −
16(p − 1/2)2 2
Wh = Nh /N ; h = 1, 2, 3
N = 10, 000: total de mujeres casadas por lo civil en el Estado de Colima
Zα/2 = 1.96
p = 5/6
! "
1 1 2
K1 = − 0.0125 − = 0.3248
16 (5/6 − 1/2)2 2
! "
1 1 2
K2 = − 0.1192 − = 0.4175
16 (5/6 − 1/2)2 2
! "
1 1 2
K3 = − 0.2136 − = 0.4805
16 (5/6 − 1/2)2 2
#E 4, 500 3, 500 2, 000
W k =
h=1 h h
(0.3248) + (0.4175) + (0.4805) = 0.3884
10, 000 10, 000 10, 000
d = (0.75)(0.0901) = 0.0676

Por lo tanto:

(10, 000)(1.96)2 0.3884


n= = 317 mujeres casadas (muestra)
(10, 000)(0.0676)2 + (1.96)2 (0.3884)

Ejemplo 77.1 La asignación de la muestra en forma proporcional

N1 4, 500
n1 = n= (317) = 143
N 10, 000
N2 3, 500
n2 = n= (317) = 111
N 10, 000
N3 2, 000
n3 = n= (317) = 63
N 10, 000
La muestra requerida para cada estrato queda distribuida de la siguiente manera: en
el primer estrato 143 mujeres, en el segundo 111 y en el tercero 63.

214
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 g) Suponga que n = 200 mujeres es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el total verdadero con una precisión de 75 % del total preliminar
y una confiabilidad de 95 %?

N 2 (Zα/2 )2 ΣEh=1Wh K h
n=
d 2 + N (Zα/2 )2 ΣEh=1Wh K h
donde:
! "
1 1 2
Kh = − π̂h −
16(p − 1/2)2 2
Wh = Nh /N ; h = 1, 2, 3
N = 10, 000 el total de mujeres casadas por lo civil en el Estado de Colima
α = 0.05
Zα/2 = 1.96
p = 5/6
! "
1 1 2
K1 = − 0.0125 − = 0.3248
16 (5/6 − 1/2)2 2
! "
1 1 2
K2 = − 0.1192 − = 0.4175
16 (5/6 − 1/2)2 2
! "
1 1 2
K3 = − 0.2136 − = 0.4805
16 (5/6 − 1/2)2 2
#E 4,500 3, 500 2, 000
W k =
h=1 h h
(0.3248) + (0.4175) + (0.4805) = 0.3884
10, 000 10, 000 10, 000
τ̂st = 900.83042
d = (0.75)(900.83042) = 675.6228

Por lo tanto:

(10, 000)2 (1.96)2 (0.3884)


n= = 317 mujeres casadas (muestra)
(675.6228)2 + (10, 000)(1.96)2 (0.3884)

Ejemplo 77.1 Como el tamaño de muestra es el mismo, la distribución queda con 143 mujeres para
el primer estrato, 111 para el segundo y 63 para el tercero.

Ejemplo 7.6 Una persona está interesada en estimar la proporción de mujeres jóvenes que han
abortado en Manzanillo (el total de jóvenes es N = 15,000). Además, la persona cree
que el nivel social influye en tal problema y clasificó a la población en dos estratos:
clase baja (estrato 1) y clase alta (estrato 2); la población de cada estrato es N1 = 10, 000
y N2 = 5, 000. Se tomó una muestra aleatoria simple (n = 300) de la población, y se
distribuyó de la siguiente manera: n 1 = 200 y n 2 = 100 jóvenes. Las respuestas con sí
fue de 50 para el estrato uno y de 30 para el estrato dos. En este caso p = 5/6.

215
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 a) Realice la estimación de la proporción de mujeres que han abortado en Manzanillo.

N1 π̂1 + N2 π̂2 + .... + NE π̂E


π̂st =
N
p −1 ah
π̂h = + ; h = 1, 2, ..., E
2p − 1 (2p − 1)n h
donde:

N1 = 10, 000 y N2 = 5, 000


n 1 = 200 y n 2 = 100
a 1 = 50 y a 2 = 30
p = 5/6

Por lo tanto:

5/6 − 1 50
π̂1 = + = 0.125
(2 (5/6) − 1) (2 (5/6) − 1) 200
5/6 − 1 30
π̂2 = + = 0.2
(2 (5/6) − 1) (2 (5/6) − 1) 100
(10, 000) (0.125) + (5, 000) (0.2)
π̂st = = 0.15
15, 000
Esto significa que la proporción de mujeres que han abortado en Manzanillo es de
0.15, es decir, el 15 %

Ejemplo 77.1 b) Calcule el total de mujeres que han abortado en Manzanillo.

τ̂st = N π̂st

donde:

N = 15, 000 el total de jóvenes en Manzanillo


π̂st = 0.15 la proporción de jóvenes que han abortado

Por lo tanto:

τ̂st = (15, 000)(0.15) = 2,250 mujeres que han abortado

Ejemplo 77.1 c) Obtenga la varianza y la desviación estándar de la proporción.

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S π̂2 st = − π̂ h −
h=1 N Nh n h 16(p − 1/2)2 2

216
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 donde:

N = 15, 000: el total de jóvenes en Manzanillo


E = 2: los estratos en los que está dividida la población del estudio
N1 = 10, 000 y N2 = 5, 000
n 1 = 200 y n 2 = 100
a 1 = 50 y a 2 = 30
p = 5/6
π̂1 = 0.125
π̂2 = 0.2

Por lo tanto:
! "2 ! " # ! " $
10, 000 10, 000 − 200 1 1 1 2
S π̂2 = − 0.125 −
st 15, 000 10, 000 200 16 (5/6 − 1/2)2 2
! "2 ! " # ! "2 $
5, 000 5, 000 − 100 1 1 1
+ 2
− 0.2 − = 0.0014
15, 000 5, 000 100 16 (5/6 − 1/2) 2
La desviación estándar de la proporción es igual a 0.0379.

Ejemplo 77.1 d) Elabore un IC para la proporción de interés con una confiabilidad de 95 %.


%
π̂st ± Zα/2 S π̂2
st

donde:

π̂st = 0.15: la proporción de jóvenes que han abortado


α = 0.05
Zα/2 = 1.96
%
S π̂2 = 0.0379
st

Por lo tanto:

(0.15) ± (1.96)(0.0379)
(0.15) ± (0.0742)
0.0758 ≤ πst ≤ 0.2242

Entonces, se estima que la proporción de mujeres jóvenes que han abortado en Man-
zanillo está entre 0.0758 y 0.2242.

Ejemplo 77.1 e) Haga un IC del total de interés con una confiabilidad de 95 %.


%
τ̂st ± Zα/2 S τ̂2
st

217
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

donde:

!st = 2, 250!
τ̂
S τ̂2 = N S π̂2
st st
N = 15, 000: el total de jóvenes
!
S π̂2 = 0.0379
st
α = 0.05
Zα/2 = 1.96
!
S τ̂2 = (15, 000)(0.379) = 567.8743
st

Por lo tanto:

2, 250 ± (1.96)(567.8743)
2, 250 ± 1, 113.0132
1, 136.9868 ≤ τst ≤ 3, 363.0132

Por lo tanto, el total de mujeres jóvenes que han abortado está entre 1,136.9868 y
3,363.0132.

Ejemplo 77.1 f) Suponga que n = 300 mujeres jóvenes es una muestra preliminar. ¿Cuál es el tama-
ño de muestra para estimar la proporción verdadera con una precisión de 49 % de la
proporción preliminar y una confiabilidad de 95 %?
2
N Zα/2 ΣEh=1Wh K h
n= 2
N d 2 + Zα/2 ΣEh=1Wh K h
donde:
$ %
1 1 2
Kh = " #2 − π̂ h −
16 p − 1/2 2
Nh
Wh = ; h = 1, 2, 3
N
N = 15, 000: el total jóvenes
Zα/2 = 1.96
p = 5/6
$ %
1 1 2
K1 = − 0.125 − = 0.4219
16 (5/6 − 1/2)2 2
$ %
1 1 2
K2 = − 0.2 − = 0.4725
16 (5/6 − 1/2)2 2
10, 000 5, 000
ΣEh=1Wh k h = (0.4219) + (0.4725) = 0.4388
15, 000 15, 000
d = (0.49)(0.15) = 0.0735

218
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 Por lo tanto:

(15, 000)2 (1.96)2 (0.4388)


n= = 306 mujeres jóvenes (muestra)
(15, 000)(0.0735)2 + (1.96)2 (0.4388)

Ejemplo 77.1 La asignación de la muestra en forma proporcional

N1 10, 000
n1 = n= (306) = 204 para el estrato 1
N 15, 000
N2 5, 000
n2 = n= (306) = 102 para el estrato 2
N 15, 000

Ejemplo 77.1 g) Suponga que n = 300 jóvenes es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el total con una precisión de 49 % del total preliminar y una
confiabilidad de 95 %?

N 2 Zα/2
2
ΣEh=1Wh K h
n= 2
d 2 + N Zα/2 ΣEh=1Wh K h
donde:
# $
1 1 2
Kh = ! "2 − π̂ h −
16 p − 1/2 2
Nh
Wh = ; h = 1, 2, 3
N
N = 15, 000: el total de jóvenes
α = 0.05
Zα/2 = 1.96
p = 5/6
# $
1 1 2
K1 = − 0.125 − = 0.4219
16 (5/6 − 1/2)2 2
# $
1 1 2
K2 = − 0.2 − = 0.4725
16 (5/6 − 1/2)2 2
%E 10, 000 5, 000
W k =
h=1 h h
(0.4219) + (0.4725) = 0.4388
15, 000 15, 000
τ̂st = 2250
d = (0.49)(2250) = 1, 102.50

Por lo tanto:

(15, 000)2 (1.962 )(0.4388)


n= = 306 mujeres jóvenes (muestra)
(1, 102.50)2 + (15, 000)(1.962 )(0.4388)
Dado que el tamaño de muestra es el mismo, la distribución queda con 204 jóvenes
para el estrato 1 y 102 para el estrato 2.

219
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 7.7 Un sexólogo desea realizar una investigación para conocer el número de mujeres que
han tenido relaciones sexuales premaritales en la ciudad de Colima (se encontró que
el número de mujeres era de N = 40, 000). Además, se piensa que el nivel de vida influ-
ye en la decisión de tener relaciones sexuales antes del matrimonio, por lo que se cla-
sificó a la población en tres estratos: pobres (estrato 1), nivel medio (estrato 2) y ricas
(estrato 3). La población de cada estrato es N1 = 19, 000, N2 = 16, 000 y N3 = 5, 000. Para
el estudio se tomó una muestra aleatoria simple de la población de mujeres distribui-
das de la siguiente manera: n 1 = 2, 000, n 2 = 1, 400 y n 3 = 600 mujeres. Las respuestas
con sí en las entrevistas por estrato son: 520 para el estrato 1, 360 para el estrato 2 y
180 para el estrato 3. En este caso p = 3/4.

Ejemplo 77.1 a) Calcule la proporción de mujeres que han tenido relaciones premaritales.

N1 π̂1 + N2 π̂2 + .... + NE π̂E


π̂st =
N
p −1 ah
π̂h = + ; h = 1, 2, ..., E
2p − 1 (2p − 1)n h
donde:

N1 = 19, 000, N2 = 16, 000, N3 = 5, 000


n 1 = 2, 000, n 2 = 1, 400, n 3 = 600
a 1 = 520, a 2 = 360, a 3 = 180
p = 3/4

Por lo tanto:

3/4 − 1 520
π̂1 = + = 0.02
2 (3/4) − 1 (2 (3/4) − 1) 2, 000
3/4 − 1 360
π̂2 = + = 0.0142
2 (3/4) − 1 (2 (3/4) − 1) 1, 400
3/4 − 1 180
π̂3 = + = 0.1
2 (3/4) − 1 (2 (3/4) − 1) 600
(19, 000) (0.02) + (16, 000) (0.0142) + (5, 000) (0.1)
π̂st = = 0.0277
40, 000
Por lo tanto, se estima que la proporción de mujeres que han tenido relaciones an-
tes del matrimonio es de 0.0277 ó 2.77 %.

Ejemplo 77.1 b) Determine el total de mujeres que han tenido relaciones premaritales.

τ̂st = N π̂st

220
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 donde:

N = 40, 000 : el total de mujeres en el Estado de Colima


π̂st = 0.0277 : la proporción de mujeres que han tenido relaciones premaritales

Por lo tanto:

τ̂st = (40, 000)(0.0277) = 1, 108.5714 mujeres

Ejemplo 77.1 c) Estime la varianza y la desviación estándar de la proporción.

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S π̂2 st = − π̂h −
h=1 N Nh n h 16(p − 1/2)2 2
donde:

N = 40, 000 : el total de mujeres en el Estado de Colima


E = 3 : los estratos en los que está dividida la población bajo estudio
N1 = 19, 000, N2 = 16, 000, N3 = 5, 000
n 1 = 2, 000, n 2 = 1, 400, n 3 = 600
a 1 = 520, a 2 = 360, a 3 = 180
p = 3/4
π̂1 = 0.02
π̂2 = 0.0142
π̂3 = 0.1

Por lo tanto:
" #2 " # $ " # %
19, 000 19, 000 − 2, 000 1 1 1 2
S π̂2 = − 0.02 −
st 40, 000 19, 000 2, 000 16 (3/4 − 1/2)2 2
" #2 " # $ " # %
16, 000 16, 000 − 1, 400 1 1 1 2
+ − 0.0142 −
40, 000 16, 000 1, 400 16 (3/4 − 1/2)2 2
" #2 " # $ " #2 %
5, 000 5, 000 − 600 1 1 1
+ 2
− 0.01 −
40, 000 5, 000 600 16 (3/4 − 1/2) 2
= 0.0002
"
S π̂st = (0.0002) = 0.0133

Ejemplo 77.1 d) Haga un IC para la proporción de interés con una confiabilidad de 95 %.


&
π̂st ± Zα/2 S π̂2
st

221
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 donde:

π̂st = 0.0277 : la proporción de mujeres que han tenido relaciones premaritales


α = 0.05
Zα/2 = 1.96
!
S π̂2 = 0.0133
st

Por lo tanto:

0.0277 ± (1.96)(0.0133)
0.0277 ± 0.0260
0.0017 ≤ πst ≤ 0.0538

Por lo que se estima que la proporción de mujeres que han tenido relaciones sexuales
antes del matrimonio está entre 0.0017 y 0.0538.

Ejemplo 77.1 e) Construya un IC para el total de interés con una confiabilidad de 95 %.


!
τ̂st ± Zα/2 S τ̂2
st

donde:

τ = 412.7946
τ̂st = N π̂st
N = 40, 000 : el total de mujeres en el Estado de Colima
!
S π̂2 = 0.0133
st
α = 0.05
Zα/2 = 1.96
!
S τ̂2 = (40, 000)(0.0133) = 531.5853
st

Por lo tanto:

1, 108.5714 ± (1.96)(531.5853)
1, 108.5714 ± 1041.8879
66.6835 ≤ τst ≤ 2, 150.4594.

Esto es, se estima que el total de mujeres que han tenido relaciones sexuales antes
del matrimonio está entre 66.6835 y 2,1501.4594.

Ejemplo 77.1 f) Suponga que n = 4, 000 personas es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción poblacional con una precisión de 75 % de la pro-
porción preliminar y una confiabilidad de 95 %?
2
N Zα/2 ΣEh=1Wh K h
n= 2
N d 2 + Zα/2 ΣEh=1Wh K h

222
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 donde:


! "
1 1 2
Kh = − π̂ h −
16(p − 1/2)2 2
Nh
Wh = ; h = 1, 2, 3
N
N = 5, 000 : el total de mujeres
Zα/2 = 1.96
p = 3/4
! "
1 1 2
K1 = − 0.02 − = 0.7696
16(3/4 − 1/2)2 2
! "
1 1 2
K2 = − 0.0142 − = 0.7641
16(3/4 − 1/2)2 2
! "
1 1 2
K3 = − 0.1 − = 0.8400
16(3/4 − 1/2)2 2
#E 19, 000 16, 000 5, 000
W k =
h=1 h h
(0.7696) + (0.7641) + (0.84) = 0.7762
40, 000 40, 000 40, 000
d = (0.75)(0.0277) = 0.0208

Por lo tanto:

(40, 000)(1.96)2 0.7762


n= = 5, 886 mujeres (muestra)
(40, 000)(0.0208)2 + (1.96)2 (0.7762)

Ejemplo 77.1 La asignación de la muestra en forma proporcional

N1 19, 000
n1 = n= (5886) = 2, 796 para el estrato 1
N 40, 000
N2 16, 000
n2 = n= (5886) = 2, 354 para el estrato 2
N 40, 000
N2 5, 000
n2 = n= (5886) = 736 para el estrato 3
N 40, 000

Ejemplo 77.1 g) Suponga que n = 4, 000 es una muestra preliminar. ¿Cuál es el tamaño de muestra
para estimar el total con una precisión de 75 % del total preliminar y una confiabilidad
de 95 %?

N 2 (Zα/2 )2 ΣEh=1Wh K h
n=
d 2 + N (Zα/2 )2 ΣEh=1Wh K h
donde:
! "
1 1 2
Kh = − π̂h −
16(p − 1/2)2 2

223
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Nh
Wh = ; h = 1, 2, 3
N
N = 40, 000 : el total de mujeres en el Estado de Colima
α = 0.05
Zα/2 = 1.96
p = 3/4
! "
1 1 2
K1 = − 0.02 − = 0.7696
16(3/4 − 1/2)2 2
! "
1 1 2
K2 = − 0.0142 − = 0.7641
16(3/4 − 1/2)2 2
! "
1 1 2
K3 = − 0.1 − = 0.8400
16(3/4 − 1/2)2 2
#E 19, 000 16, 000 5, 000
W k =
h=1 h h
(0.7696) + (0.7641) + (0.84) = 0.7762
40, 000 40, 000 40, 000
τ̂st = 1, 108.5714

d = (0.75)(1, 108.5714) = 831.4286

Por lo tanto:

(40, 000)2 (1.962 )(0.7762)


n= = 5, 886
(831.4286)2 + (40, 000)(1.962 )(0.7762)
Dado que el tamaño de muestra es el mismo que el obtenido en f), la distribución
queda con 2,796 mujeres para el primer estrato, 2,354 para el segundo y 736 para el
tercero.

Ejemplo 7.8 Mensex está interesada en estimar la proporción de hombres con disfunción eréctil. El
número de hombres es de N = 10, 000 en el municipio de Temaltepec. Además, Men-
sex cree que los vicios que posea la persona influyen en la disfunción eréctil, por lo
que clasificó a la población en tres estratos: fumadores (estrato 1), alcohólicos (estra-
to 2) y estresados (estrato 3). La población de cada estrato es N1 = 4, 000, N2 = 4, 000
y N3 = 2, 000. Para el estudio se tomó una muestra aleatoria de la población de hom-
bres distribuida de la siguiente manera: n 1 = 100, n 2 = 200 y n 3 = 100. El número de
respuestas de sí en las entrevistas es de 55 para el estrato uno, 70 para el estrato dos y
30 para el estrato tres. Para este caso p = 3/4.

Ejemplo 77.1 a) Calcule la proporción de hombres con disfunción eréctil en Temaltepec.

N1 π̂1 + N2 π̂2 + .... + NE π̂E


π̂st =
N

224
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

p −1 ah
π̂h = + ; h = 1, 2, ..., E
2p − 1 (2p − 1)n h
donde:

N1 = 4, 000, N2 = 4, 000, N3 = 2, 000


n 1 = 100, n 2 = 200, n 3 = 100
a 1 = 55, a 2 = 70, a 3 = 30
p = 3/4

Por lo tanto:

3/4 − 1 55
π̂1 = + = 0.6
2 (3/4) − 1 (2 (3/4) − 1) 100
3/4 − 1 70
π̂2 = + = 0.2
2 (3/4) − 1 (2 (3/4) − 1) 200
3/4 − 1 30
π̂3 = + = 0.1
2 (3/4) − 1 (2 (3/4) − 1) 100
(4, 000) (0.6) + (4, 000) (0.2) + (2, 000) (0.1)
π̂st = = 0.34
10, 000
Se estima que la proporción de hombres con disfunción eréctil en el Municipio de
Temaltepec es de 0.34 ó 34 %.

Ejemplo 77.1 b) Calcule el total de hombres con disfunción eréctil en Temaltepec.

τ̂st = N π̂st

donde:

N = 10, 000 : el total de hombres en el municipio


π̂st = 0.34

Por lo tanto:

τ̂st = (10, 000)(0.34) = 3, 400

Por lo que el total de hombres con disfunción eréctil en Temaltepec es igual a 3,400.

Ejemplo 77.1 c) Determine la varianza y la desviación estándar de la proporción.

!E " N #2 " N − n # 1 $ 1
" # %
1 2
h h h
S π̂2 st = − π̂h −
h=1 N Nh n h 16(p − 1/2)2 2

225
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

donde:

N = 10, 000 : el total de hombres


E = 3 : los estratos en los que se divide la población en estudio
N1 = 4, 000, N2 = 4, 000, N3 = 2, 000
n 1 = 100, n 2 = 200, n 3 = 100
a 1 = 55, a 2 = 70, a 3 = 30
P = 3/4
π̂1 = 0.6
π̂2 = 0.2
π̂3 = 0.1

Por lo tanto:
! " ! " # ! " $
4, 000 2 4, 000 − 100 1 1 1 2
S π̂2 = − 0.6 −
st 10, 000 4, 000 100 16 (3/4 − 1/2)2 2
! "2 ! " # ! " $
4, 000 4, 000 − 200 1 1 1 2
+ − 0.2 −
10, 000 3, 500 200 16 (3/4 − 1/2)2 2
! "2 ! " # ! " $
2, 000 2, 000 − 100 1 1 1 2
+ − 0.1 − = 0.0026
10, 000 2, 000 100 16 (3/4 − 1/2)2 2
Y así, la desviación estándar es igual a S π̂st = 0.0505

Ejemplo 77.1 d) Construya un IC para la proporción de interés con una confiabilidad de 90 %.


%
π̂st ± Zα/2 S π̂2
st

donde:

π̂st = 0.34 : proporción de hombres con disfunción eréctil en Temaltepec


α = 0.10
Zα/2 = 1.645
%
S π̂2 = 0.0505
st

Por lo tanto:

0.34 ± (1.645)(0.0505)
0.34 ± 0.0831
0.2569 ≤ πst ≤ 0.4231

Esto significa que la proporción de hombres con disfunción eréctil del municipio de
Temaltepec está entre 0.2569 y 0.4231

226
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 e) Haga un IC para el total de interés con una confiabilidad de 90 %.


!
τ̂st ± Zα/2 S τ̂2
st

donde:

!st = 3, 400!
τ̂
S τ̂2 = N S π̂2
st st
N = 10, 000 : el total de hombres en el municipio de Temaltepec
!
S τ̂2 = (10, 000)(0.0505) = 505.4899
st

Por lo tanto:

3, 400 ± (1.645)(505.4899)
3, 400 ± 831.4568
2, 568.5432 ≤ τst ≤ 4, 231.4568

Esto significa que el total de hombres con disfunción eréctil está entre 2,568.5432 y
4,231.4568.

Ejemplo 77.1 f) Suponga que n = 400 hombres es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la proporción poblacional con una precisión de 18 % de la pro-
porción preliminar y una confiabilidad de 90 %?

N (Zα/2 )2 ΣEh=1Wh K h
n=
N d 2 + (Zα/2 )2 ΣEh=1Wh K h
donde:
" #
1 1 2
Kh = − π̂ h −
16(p − 1/2)2 2
Nh
Wh = ; h = 1, 2, 3
N
N = 10, 000 : el total de hombres en el municipio de Temaltepec
Zα/2 = 1.645
p = 3/4
" #
1 1 2
K1 = − 0.6 − = 0.9900
16(3/4 − 1/2)2 2
" #
1 1 2
K2 = − 0.2 − = 0.9100
16(3/4 − 1/2)2 2
" #
1 1 2
K3 = − 0.1 − = 0.8400
16(3/4 − 1/2)2 2
$E 4, 000 4, 000 2, 000
W k =
h=1 h h
(0.99) + (0.91) + (0.84) = 0.9280
10, 000 10, 000 10, 000

227
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

d = (0.18)(0.34) = 0.0612

Por lo tanto:

(10, 000)(1.645)2 0.9280


n= = 628
(10, 000)(0.0612)2 + (1.645)2 (0.9280)
Entonces, 628 es el número estimado de unidades muestrales (hombres) que deben
constituir a la muestra para tener una precisión de ±0.0612 con 0.90 de probabilidad
de incluir en el intervalo de estimación la proporción verdadera.

La asignación de la muestra en forma proporcional

N1 4, 000
n1 = n= (628) = 251 para el estrato 1
N 10, 000
N2 4, 000
n2 = n= (628) = 251 para el estrato 2
N 10, 000
N3 2, 000
n2 = n= (628) = 126 para el estrato 3
N 10, 000

Ejemplo 77.1 g) Suponga que n = 400 hombres es una muestra preliminar. ¿Cuál es el tamaño de
muestra necesario para estimar el total verdadero con una precisión de 18 % del total
preliminar y una confiabilidad de 90 %?

N 2 Zα/2
2
ΣEh=1Wh K h
n= 2
d 2 + N Zα/2 ΣEh=1Wh K h
donde: ! "
1 1 2
Kh = − π̂ h −
16(p − 1/2)2 2
Nh
Wh = ; h = 1, 2, 3
N
N = 10, 000: el total de hombres en el municipio de Temaltepec
Zα/2 = 1.645; p = 3/4
! "
1 1 2
K1 = − 0.6 − = 0.9900
16(3/4 − 1/2)2 2
! "2
1 1
K2 = − 0.2 − = 0.9100
16(3/4 − 1/2)2 2
! "
1 1 2
K3 = − 0.1 − = 0.8400
16(3/4 − 1/2)2 2
#E 4, 000 4, 000 2, 000
W k =
h=1 h h
(0.99) + (0.91) + (0.84) = 0.9280
10, 000 10, 000 10, 000
τst = 3, 400

d = (0.18)(3, 400) = 612

228
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Por lo tanto:

(10, 000)2 (1.6452 )(0.9982)


n= = 628
(612)2 + (10, 000)(1.6452 )(0.9280)

Ejercicios
En los siguientes ejercicios estime un IC para la proporción y el total con una confiabilidad de 95 %, y
suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es el tamaño de muestra
para estimar la proporción y el total, de tal manera que la proporción y el total sean estimados con
una precisión de 9 % de la proporción y el total preliminar con una confiabilidad de 95 %?

Ejercicio 7.5 Una persona está interesada en estimar la proporción de jóvenes menores de 18 años
que han tenido relaciones sexuales en el Estado de Colima (N = 35, 000). Dado que se
trata de una pregunta delicada, se usó el método de respuesta aleatorizada. Además,
la persona cree que el nivel social influye, por lo que clasificó a la población en tres
estratos: clase baja (estrato 1), clase media (estrato 2), clase alta (estrato 3), donde la
población de cada estrato es N1 = 15, 000, N2 = 11, 000 y N3 = 9, 000. Para el estudio se
tomó una muestra aleatoria simple (n = 800) de la población objetivo, se distribuyó
de la siguiente manera: n 1 = 200, n 2 = 250 y n 3 = 350 jóvenes. El número de respues-
tas de sí por estrato fue de 70 para estrato uno, 130 para el estrato dos y 200 para el
estrato tres. Para este caso p = 5/6.

Ejercicio 7.6 La Secretaría de Salud desea hacer un estudio para estimar la proporción de perso-
nas menores a 45 años que han contraído algún tipo de enfermedad de transmisión
sexual en el municipio de Manzanillo, Colima (N = 20, 000). Dado que se trata de una
pregunta delicada, se usó el método de respuesta aleatorizada. Además, se cree que
el nivel socioeconómico influye, por lo que clasificó a la población en tres estratos:
nivel bajo (estrato 1), nivel medio (estrato 2) y nivel alto (estrato 3), donde la pobla-
ción de cada estrato es N1 = 4, 000, N2 = 10, 000 y N3 = 6, 000, respectivamente. Para
el estudio se tomó una muestra aleatoria simple (n = 2,000) de la población objetivo
que se distribuyó de la siguiente manera: n 1 = 500, n 2 = 900 y n 3 = 600 personas. El
número de respuestas con sí por estrato fue de 60 para el estrato 1, 100 para el estrato
2 y 123 para el estrato 3. Para este caso p = 5/6.

Ejercicio 7.7 Un psicólogo de la Universidad de Guadalajara está interesado en estimar la propor-


ción de jóvenes estudiantes de dicha universidad menores de 20 años que han sufrido
algún tipo de maltrato por parte de sus padres (N = 5,000). Dado que se trata de una
pregunta delicada, se usó el método de respuesta aleatorizada. Además, se cree que
el nivel social influye, por lo que se clasificó a la población en tres estratos: clase baja
(estrato 1), clase media (estrato 2) y clase alta (estrato 3), donde la población de cada

229
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

estrato es N1 = 1, 000, N2 = 2, 500, N3 = 1, 500. Para el estudio se tomó una muestra


aleatoria simple (n = 300) de la población objetivo que se distribuyó de la siguiente
manera: n 1 = 50, n 2 = 100, n 3 = 150 personas. El número de respuestas con sí por es-
trato fue de 20 para el estrato uno, 60 para el estrato dos y 70 para el estrato tres. Para
este caso p = 5/6.

Ejercicio 7.8 Un sociólogo de la Universidad de Arizona está interesado en estimar la proporción


de mujeres del Estado de Guanajuato menores a 25 años que han tenido tendencias
suicidas (N = 50, 000). Dado que se trata de una pregunta delicada, se usó el método
de respuesta aleatorizada. Además, se cree que el nivel social influye, por lo que se
clasificó a la población en tres estratos: clase baja (estrato 1), clase media (estrato 2) y
clase alta (estrato 3), donde la población de cada estrato es N1 = 15, 000, N2 = 25, 000,
N3 = 10, 000. Para el estudio se tomó una muestra aleatoria simple (n = 1, 000) de la
población objetivo, la cual se distribuyó de la siguiente manera: n 1 = 200, n 2 = 500 y
n 3 = 300 personas. El número de respuestas con sí por estrato fue de 8 para el estrato
uno, 10 para el estrato dos y 9 para el estrato tres. Para este caso p = 5/6.

230
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

7.5. Alternativa al modelo de respuesta aleatorizada


Como alternativa al método de Warner (1965), Horvitz et al. (1967) sugirierón que la coope-
ración de los entrevistados podría mejorar si el segundo enunciado (pregunta 2) no fuése
delicado y no tuviése relación con el primero. A continuación se presenta esta variación de
la idea original de Warner (1965) propuesta por Horvitz et al. (1967):

1. Se construye un mazo de cartas, pero una fracción de ellas (p) se marca con la letra A
(grupo A) y la fracción restante (1 − p) con las letras faltantes del abecedario (grupo
B ).

2. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reempla-


zo de tamaño n de la población (N ).

3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que
las cartas están marcadas con las letras del abecedario.

4. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que


seleccione una carta, pero que no diga con qué letra está marcada.

5. A continuación se le explica que se le va a hacer una pregunta y que la responda con


sí o no, pero restaltando que ponga mucha atención a la pregunta.

6. Responda a la pregunta delicada, por ejemplo: ¿ha consumido droga alguna vez? Si
la carta que obtuvo está marcada con la letra A, por el contrario responda a la pre-
gunta inocua, por ejemplo: ¿naciste el mes de abril? si obtuvo cualquier otra letra del
abecedario.

7. Se tiene que hacer enfasis en que debe de responder con la verdad a las preguntas y
que solamente tiene que responder una de ellas dependiendo de la letra que obtuvo,
es decir, si la la carta que obtuvo esta marcada con la letra A debe responder con
la verdadad a la pregunta delicada y esta sería su única respuesta, lo mismo que si le
toco cualquier otra letra del abecedario debe de responder con la verdad a la pregunta
inocua y esta sería la única respuesta.

8. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la
siguiente persona.

9. Este procedimiento se aplica a todos los n individuos de la muestra.

10. Con las n respuestas de sí y no se hacen las estimaciones correspondientes con los
estimadores propuestos en éste capítulo.

231
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

7.6. Respuesta aleatorizada: versión de Horvitz bajo MAS

Estimador de la proporción y del total

φ̂ − (1 − p)p I
π̂ =
p
! "
φ̂ − (1 − p)p I
τ̂ = N π̂ = N
p

donde φ̂ = a/n, a = el total de respuestas afirmativas (s) en la muestra de tamaño n.

Varianza del estimador de la proporción y el total

! " ! "
N − n V̂ (φ̂) N − n φ̂(1 − φ̂)
V̂ (π̂) = =
N p2 N p 2n
! " ! "
2 2 N − n V̂ (φ̂) N −n φ̂(1 − φ̂)
V̂ (τ̂) = N V̂ (π̂) = N 2
= N2
N p N p 2n

Intervalo de confianza de la proporción y el total

#
π̂ ± Zα/2 V̂ (π̂)
#
τ̂ ± Zα/2 N V̂ (π̂)

Tamaño de muestra para estimar la proporción

! "
2 φ̂(1 − φ̂)
N Zα/2
p2
n= ! "
2 2 φ̂(1 − φ̂)
N d + Zα/2
p2

232
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Tamaño de muestra para estimar el total

! "
2 φ̂(1 − φ̂)
2
N Zα/2
p2
n= ! "
2 2 φ̂(1 − φ̂)
d + N Zα/2
p2

Ejemplos
Ejemplo 7.9 Se elige una muestra aleatoria simple de 350 de los 1,800 alumnos del bachillerato de
la Universidad de Colima. Cada estudiante de la muestra recibe una ficha con las si-
guientes preguntas:

Pregunta 1: ¿has fumado marihuana alguna vez?


Pregunta 2: ¿cumples años el primero de enero?

Se tiene de los expedientes de todos los alumos del bachillerato que p I = 1/365. Su-
ponga que el mecanismo de aleatorización es una baraja con una fracción de cartas
marcadas con la letra A igual a p = 0.7 y la fracción restante con las letras sobrantes
del abecedario. De los resultados de la encuesta se tiene que 125 contestaron sí.

Ejemplo 77.1 a) Estime la proporción de estudiantes que han fumado marihuana.

φ̂ − (1 − p)p I
π̂ =
p
donde p I = 1/365, p = 0.7 y φ̂ = 125/350 = 0.3571.

Por lo tanto,

125 1
− (1 − 0.7)
π̂ = 350 365 = 0.509.
0.7

Ejemplo 77.1 b) Estime la varianza de la proporción muestral.


! "
N − n φ̂(1 − φ̂)
V̂ (π̂) =
N p 2n
donde N = 1, 800, n = 350, p = 0.7 y φ̂ = 125/350.

233
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 Por lo tanto,


! "
125 125
! " 1−
1, 800 − 350 350 350
V̂ (π̂) = = 0.00109.
1, 800 0.72 (350)
Ejemplo 77.1 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.
#
π̂ ± Zα/2 V̂ (π̂)

donde π̂ = 0.5090, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00109.

Por lo tanto,
"
0.5090 ± (1.96)( 0.00109)
0.5090 ± (1.96)(0,0330)
0.4443 ≤ π ≤ 0.5737

Ejemplo 77.1 d) Estime el total de estudiantes que ha fumado marihuana.

τ̂ = N π̂

donde N = 1, 800 y π̂ = 0.5090.

Por lo tanto,

τ̂ = 1, 800(0.5090) = 916.

Así, se tiene que el número de estudiantes del bachillerato de la Universidad de Coli-


ma que alguna vez han fumado marihuana es de 916.

Ejemplo 77.1 e) Estime un intervalo de confianza de 95 % para el total poblacional.


#
τ̂ ± Zα/2 N V̂ (π̂)

donde N = 1, 800, τ̂ = 916, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00109.

Por lo tanto,
"
916 ± (1.96)(1, 800)( 0.00109)
799.7226 ≤ τ ≤ 1032.6774

234
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 f) Suponga que los 350 estudiantes encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la proporción de tal manera que
sea estimada con una precisión de d = 0.05 y una confiabilidad de 95 %?
! "
2 φ̂(1 − φ̂)
N Zα/2
p2
n= ! "
2 2 φ̂(1 − φ̂)
N d + Zα/2
p2
donde N = 1, 800, Zα/2 = Z0.025 = 1.96, d = 0.05, p = 0.7 y φ̂ = 125/350.

Por lo tanto,
! "
(125/350)(1 − 125/350)
2
(1, 800)(1.96)
(0.7)2
n= ! " = 515
2 2
(125/350)(1 − 125/350)
(1, 800)(0.05) + (1.96)
(0.7)2

Ejemplo 77.1 g) Suponga que los 350 estudiantes encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar el total de tal manera que sea esti-
mado con una precisión de d = 90 y una confiabilidad de 95 %?
! "
2 2φ̂(1 − φ̂)
N Zα/2
p2
n= ! "
2 φ̂(1 − φ̂)
d 2 + N Zα/2
p2
donde N = 1800, Zα/2 = Z0.025 = 1.96, d = 90, p = 0.7 y φ̂ = 125/350.

Por lo tanto,
! "
2 (125/350)(1 − 125/350)
2
(1800 )(1.96)
(0.7)2
n= ! " = 515
2 2
(125/350)(1 − 125/350)
(90) + (1800)(1.96)
(0.7)2

Ejemplo 7.10 En una empresa automotriz se elige una muestra aleatoria simple de 180 empleadas
(N = 1, 500). Cada empleada recibe una ficha con las siguientes preguntas:

Pregunta 1: ¿se te ha escapado una flatulencia o gas en una reunión importante?

Pregunta 2: ¿está el minutero de tu reloj entre 0 y 5?

Sabemos que p I = 1/12. Suponga que el mecanismo de aleatorización es una ba-


raja con una fracción de cartas marcadas con la letra A igual a p = 0.75 y la fracción
restante con las letras sobrantes del abecedario. De los resultados de la encuesta se
tiene que 130 contestaron sí a la pregunta correspondiente.

235
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Ejemplo 77.1 a). Estime la proporción de empleadas que se les ha escapado un gas en una reunión
importante.

φ̂ − (1 − p)p I
π̂ =
p
donde p I = 1/12, p = 0.75 y φ̂ = 130/180 = 0.7222.

Por lo tanto,

130 1
− (1 − 0.75)
π̂ = 180 12 = 0.9352.
0.75

Ejemplo 77.1 b) Estime la varianza de la proporción muestral.


! "
N − n φ̂(1 − φ̂)
V̂ (π̂) =
N p 2n
donde N = 1, 500, n = 180, p = 0.75 y φ̂ = 130/180.

Por lo tanto,
! "
130 130
! "1−
1, 500 − 180 180 180
V̂ (π̂) = 2
= 0.00174.
1, 500 0.75 (180)

Ejemplo 77.1 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.


#
π̂ ± Zα/2 V̂ (π̂)

donde π̂ = 0.9352, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00174.

Por lo tanto,
"
0.9352 ± (1.96)( 0.00174)
0.8534 ≤ π ≤ 1

Ejemplo 77.1 d) Estime el total de empleadas que se le ha escapado un gas.

τ̂ = N π̂

donde N = 1, 500 y π̂ = 0.9352.

236
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 Por lo tanto,

τ̂ = 1, 500(0.9352) = 1, 402.8. Así, se tiene que el número de empleadas en dicha


empresa que se les ha escapado un gas en una reunión importante es de 1403.

Ejemplo 77.1 e) Estime un intervalo de confianza de 95 % para el total poblacional.


!
τ̂ ± Zα/2 N V̂ (π̂)

donde N = 1, 500, τ̂ = 1, 402.8, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00174.

Por lo tanto,
!
1, 402.8 ± (1.96)(1, 500)( 0.00174)
1, 280.163 ≤ τ ≤ 1, 500

Ejemplo 77.1 f) Suponga que las 180 empleadas encuestadas son una muestra preliminar. ¿Cuál se-
ría el tamaño de muestra necesario para estimar la proporción de tal manera que sea
estimada con una precisión de d = 0.07 y una confiabilidad de 95 %?
" #
2 φ̂(1 − φ̂)
N Zα/2
p2
n= " #
2 2 φ̂(1 − φ̂)
N d + Zα/2
p2
donde N = 1, 500, Zα/2 = Z0.025 = 1.96, d = 0.07, p = 0.75 y φ̂ = 130/180.

Por lo tanto,
" #
(130/180)(1 − 130/180)
2
(1500)(1.96)
(0.75)2
n= " # = 236
2 2
(130/180)(1 − 130/180)
(1, 500)(0.07) + (1.96)
(0.75)2

Ejemplo 77.1 g) Suponga que las 180 empleadas encuestadas son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar el total de tal manera que sea es-
timado con una precisión de d = 105 y una confiabilidad de 95 %?
" #
2 φ̂(1 − φ̂)
2
N Zα/2
p2
n= " #
2 φ̂(1 − φ̂)
d 2 + N Zα/2
p2
donde N = 1, 500, Zα/2 = Z0.025 = 1.96, d = 105, p = 0.75 y φ̂ = 130/180.

237
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto,
! "
2 (130/180)(1 − 130/180)
2
(1, 500 )(1.96)
(0.75)2
n= ! " = 235.692
2 2
(130/180)(1 − 130/180)
(105) + (1, 500)(1.96)
(0.75)2

Ejemplo 7.11 Una investigadora de la Universidad de Colima desea estimar el porcentaje de alum-
nas de nivel medio y superior de la institución que abortaron durante el 2007. Se
toma una muestra aleatoria simple de 210 mujeres de la población estudiantil de es-
tos niveles (N = 4, 000). Cada una de estas mujeres recibe una ficha con las siguientes
preguntas:

Pregunta 1: ¿tuvo un aborto provocado durante el 2007?


Pregunta 2: ¿su matrícula en la U de C es impar?

Sabemos que p I = 1/2. Suponga que el mecanismo de aleatorización es una bara-


ja con una fracción de cartas marcadas con la letra A igual a p = 0.7 y la fracción
restante con las letras sobrantes del abecedario. De los resultados de la encuesta se
tiene que 39 contestaron sí a la pregunta correspondiente.

Ejemplo 77.1 a). Estime la proporción de alumnas que han tenido un aborto provocado en el 2007.

φ̂ − (1 − p)p I
π̂ =
p
donde p I = 1/2, p = 0.7 y φ̂ = 39/210 = 0.1857.

Por lo tanto,

39 1
− (1 − 0.7)
π̂ = 210 2 = 0.051.
0.7

Ejemplo 77.1 b) Estime la varianza de la proporción muestral.


! "
N − n φ̂(1 − φ̂)
V̂ (π̂) =
N p 2n
donde N = 4, 000, n = 210, p = 0.7 y φ̂ = 39/210.

Por lo tanto,
! "
39 39
! "1−
4, 000 − 210 210 210
V̂ (π̂) = 2
= 0.00139.
4, 000 0.7 (210)

238
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.


!
π̂ ± Zα/2 V̂ (π̂)

donde π̂ = 0.051, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00139.

Por lo tanto,
!
0.051 ± (1.96)( 0.00139)
0 ≤ π ≤ 0.1241

Ejemplo 77.1 d) Estime el total alumnas que han tenido un aborto provocado.

τ̂ = N π̂

donde N = 4, 000 y π̂ = 0.051.

Por lo tanto,

τ̂ = 4, 000(0.051) = 204. Así, se tiene que el número de alumnas que han tenido
un aborto provocado es de 204.

Ejemplo 77.1 e) Estime un intervalo de confianza de 95 % para el total poblacional.


!
τ̂ ± Zα/2 N V̂ (π̂)

donde N = 4, 000, τ̂ = 204, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00139.

Por lo tanto,
!
204 ± (1.96)(4, 000)( 0.00139)
0 ≤ τ ≤ 496.2964

Ejemplo 77.1 f) Suponga que las 210 alumnas encuestadas son una muestra preliminar. ¿Cuál sería
el tamaño de muestra necesario para estimar la proporción de tal manera que sea es-
timada con una precisión de d = 0.07 y una confiabilidad de 95 %?
" #
2φ̂(1 − φ̂)
N Zα/2
p2
n= " #
2 2 φ̂(1 − φ̂)
N d + Zα/2
p2
donde N = 4000, Zα/2 = Z0.025 = 1.96, d = 0.07, p = 0.7 y φ̂ = 39/210.

239
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto,
! "
(39/210)(1 − 39/210)
2
(4000)(1.96)
(0.7)2
n= ! " = 229
2 2
(39/210)(1 − 39/210)
(4000)(0.07) + (1.96)
(0.7)2

Ejemplo 77.1 g) Suponga que las 210 alumnas encuestadas son una muestra preliminar. ¿Cuál sería
el tamaño de muestra necesario para estimar el total de tal manera que sea estimado
con una precisión de d = 280 y una confiabilidad de 95 %?
! "
2 φ̂(1 − φ̂)
2
N Zα/2
p2
n= ! "
2 φ̂(1 − φ̂)
d 2 + N Zα/2
p2
donde N = 4000, Zα/2 = Z0.025 = 1.96, d = 280, p = 0.7 y φ̂ = 39/210.

Por lo tanto,
! "
2 (39/210)(1 − 39/210)
2
(4000 )(1.96)
(0.7)2
n= ! " = 229
2 2
(39/210)(1 − 39/210)
(280) + (4000)(1.96)
(0.7)2

Ejemplo 7.12 Se elige una muestra aleatoria simple de 135 funcionarios del gobierno federal de
N = 2, 000, quienes reciben una ficha con las siguientes preguntas:

Pregunta 1: ¿alguna vez ha conducido en estado de ebriedad?


Pregunta 2: ¿le gusta el fútbol?

Sabemos que p I = 0.7, el cual se obtuvo de un estudio previo reciente realizado a


esta misma población. Suponga que el mecanismo de aleatorización es una baraja
con una fracción de cartas marcadas con la letra A igual a p = 0.75 y la fracción res-
tante con las letras sobrantes del abecedario. De los resultados de la encuesta, 100
contestaron sí a la pregunta correspondiente.

Ejemplo 77.1 a). Estime la proporción de funcionarios que han conducido en estado de ebriedad.

φ̂ − (1 − p)p I
π̂ =
p
donde p I = 0.7, p = 0.75 y φ̂ = 100/135 = 0.7407.

240
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejemplo 77.1 Por lo tanto,

π̂ = {(100/135) − (1 − 0.75)0.7} /(0.75) = 0.7543.

Ejemplo 77.1 b) Estime la varianza de la proporción muestral.


! "
N − n φ̂(1 − φ̂)
V̂ (π̂) =
N p 2n
donde N = 2, 000, n = 135, p = 0.75 y φ̂ = 100/135.

Por lo tanto,
! "
100 100
! " 1−
2, 000 − 135 135 135
V̂ (π̂) = = 0.00235.
2, 000 0.752 (135)

Ejemplo 77.1 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.


#
π̂ ± Zα/2 V̂ (π̂)

donde π̂ = 0.7543, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00235.

Por lo tanto,
"
0.7543 ± (1.96)( 0.00235)
0.6593 ≤ π ≤ 0.8493

Ejemplo 77.1 d) Estime el total de funcionarios que han conducido en estado de ebriedad.

τ̂ = N π̂

donde N = 2, 000 y π̂ = 0.7543.

Por lo tanto,

τ̂ = 2, 000(0.7543) = 1508.6 funcionarios.

Ejemplo 77.1 e) Estime un intervalo de confianza de 95 % para el total poblacional.


#
τ̂ ± Zα/2 N V̂ (π̂)

donde N = 2, 000, τ̂ = 1508.6, Zα/2 = Z0.025 = 1.96 y V̂ (π̂) = 0.00235.

241
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Por lo tanto,
!
1, 508.6 ± (1.96)(2, 000)( 0.00235)
1, 318.571 ≤ τ ≤ 1, 698.629

Ejemplo 77.1 f) Suponga que los 135 funcionarios encuestados son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar la proporción de tal manera que
sea estimada con una precisión de d = 0.08 y una confiabilidad de 95 %?
! "
2 φ̂(1 − φ̂)
N Zα/2
p2
n= ! "
2 2 φ̂(1 − φ̂)
N d + Zα/2
p2
donde N = 2, 000, Zα/2 = Z0.025 = 1.96, d = 0.08, p = 0.75 y φ̂ = 100/135.

Por lo tanto,
! "
(100/135)(1 − 100/135)
(2, 000)(1.96)2
(0.75)2
n= ! " = 186
(100/135)(1 − 100/135)
(2, 000)(0.08)2 + (1.96)2
(0.75)2

Ejemplo 77.1 g) Suponga que los 135 funcionarios encuestadas son una muestra preliminar. ¿Cuál
sería el tamaño de muestra necesario para estimar el total de tal manera que sea es-
timado con una precisión de d = 160 y una confiabilidad de 95 %?
! "
2 φ̂(1 − φ̂)
2
N Zα/2
p2
n= ! "
2 2 φ̂(1 − φ̂)
d + N Zα/2
p2
donde N = 2, 000, Zα/2 = Z0.025 = 1.96, d = 160, p = 0.75 y φ̂ = 100/135.

Por lo tanto,
! "
2 (100/135)(1 − 100/135)
2
(2, 000 )(1.96)
(0.75)2
n= ! " = 186
2 2
(100/135)(1 − 100/135)
(160) + (2, 000)(1.96)
(0.75)2

242
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

Ejercicios
En los siguientes ejercicios calcular un intervalo de confianza para la proporción y el total con una
confiabilidad de 95 %. Suponer que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál es
el tamaño de muestra para estimar la proporción y el total de tal manera que sean estimados con
una precisión del 10 % con respecto a la proporción y el total preliminar, respectivamente?

Ejercicio 7.90 Una investigadora desea estimar el porcentaje y total de mujeres casadas que sufrie-
ron de maltrato por parte de su pareja durante 2007. Supóngase que en el municipio
de Colima, Colima, se tiene una población de matrimonios de N = 10, 000, de la cual
se toma una muestra aleatoria simple de n = 138 parejas (pero sólo se pregunta a los
esposos). Cada esposo recibe una ficha con las siguientes preguntas:

Pregunta 1: ¿golpeo alguna vez a su esposa durante 2007?


Pregunta 2: ¿el número de su credencial es par?

Sabemos que p I = 0.5. Supóngase que el mecanismo de aleatorización es una ba-


raja con una fracción de cartas marcadas con la letra A igual a p = 0.8 y la fración
restante con las letras sobrantes del abecedario. De los resultados se tiene que 65
respondieron que sí.

Ejercicio 7.10 Un investigador desea estimar el porcentaje y total de mujeres de 24 años han tenido
relaciones sexuales con dos o más hombres (en distintos momentos). Se toma una
muestra aleatoria simple de n = 160 mujeres de esta edad de un total de N = 15, 000.
Cada mujer de la muestra recibe una ficha con las siguientes preguntas:

Pregunta 1: ¿has tenido relaciones sexuales con 2 o más hombres?


Pregunta 2: ¿naciste el 9 de Junio de 1984?

A partir de un censo preliminar se determinó que del total de esas mujeres 9 % nació
el 9 de junio de 1984. Por lo tanto, p I = 0.09. Supóngase que el mecanismo de alea-
torización es una baraja con una fracción de cartas marcadas con la letra A igual a
p = 0.85 y la fración restante con las letras sobrantes del abecedario. De los resulta-
dos de la encuesta se tiene que 40 respondieron que sí.

Ejercicio 7.11 Una investigadora desea estimar el porcentaje de hombres (de cierto municipio)
de entre 40 y 55 años que padecen o alguna vez padecieron disfunción eréctil. Se
toma una muestra aleatoria simple de n = 186 hombres del total de la población
(N = 8, 000). A cada hombre se le preguntó (en fichas):

Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil?


Pregunta 2: ¿usted tiene 43 años?

243
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

De los registros del centro de salud municipal se obtuvo que 19 % de esos hombres
tienen 43 años. Por lo tanto, p I = 0.19. Supóngase que el mecanismo de aleatoriza-
ción es una baraja con una fracción de cartas marcadas con la letra A igual a p = 0.90
y la fración restante con las letras sobrantes del abecedario. De los resultados de la
encuesta se tiene que 48 respondieron que sí.

Ejercicio 7.12 Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad) entre 16
y 20 años que padecen o alguna vez padecieron bulimia o anorexia. Se toma una
muestra aleatoria simple de n = 210 mujeres del total de la población (mujeres de
entre 16 y 20 años, N = 4, 000). Cada uno de las mujeres de la muestra recibe una
ficha con las siguientes preguntas:

Pregunta 1: ¿padece o ha padecido alguna vez bulimia o anorexia?


Pregunta 2: ¿tu signo zodiacal es tauro?

Se cuenta con un marco de muestreo que específica la fecha de nacimiento de las


mujeres, del cual se obtuvo que el 13 % de estas mujeres pertence al signo tauro. Por
lo tanto, p I = 0.13. Supóngase que el mecanismo de aleatorización es una baraja con
una fracción de cartas marcadas con la letra A igual a p = 0.75 y la fración restante
con las letras sobrantes del abecedario. De los resultados de la encuesta se tiene que
100 respondieron que sí.

244
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

7.7. Respuesta aleatorizada: versión de Horvitz bajo MAE


De igual manera, cuando la población es heterogénea se sugiere formar estratos para mejo-
rar la precisión. Por ello, a continuación se presentan los estimadores versión Horvitz bajo
MAE .

Estimador de la proporción y el total estratificado

N1 π̂1 + N2 π̂2 + · · · + NE π̂E


π̂st =
N
τ̂ = N π̂st
donde:

φ̂h − (1 − p)p I
π̂h =
p
ah
φ̂h =
nh
p = fracción de letras en el mazo de cartas marcadas con la letra A
a h = total de respuestas afirmativas de los n h entrevistados en el estrato h
h = 1, 2, ..., E

Varianza de la proporción y el total estratificado

!E " N #2 " N − n # φ̂ (1 − φ̂ )
h h h h h
S π̂2 st= 2
h=1 N Nh p nh
" # " #
!E Nh 2 Nh − n h φ̂h (1 − φ̂h )
S τ̂2st = N2
h=1 N Nh p 2 nh

Intervalo de confianza para la proporción y el total

$
π̂st ± Zα/2 S π̂2
st
$
τ̂st ± Zα/2 N S π̂2
st

245
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

El tamaño de muestra para estimar la proporción y el total

Para estimar la proporción

2 !E φ̂h (1 − φ̂h )
N Zα/2 h=1
Wh
p2
n=
2 !E φ̂h (1 − φ̂h )
N d 2 + Zα/2 h=1
Wh
p2

donde:

N = el tamaño de la población
Zα/2 = el valor de tablas de la distribución normal estándar
p = la fracción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador

Nh
Wh =
N
ah
φ̂ =
nh

Para estimar el total

!E φ̂h (1 − φ̂h )
N 2 Zα/2
2
h=1
Wh
p2
n=
2 !E φ̂h (1 − φ̂h )
d 2 + N Zα/2 W
h=1 h p2

donde:

N = el tamaño de la población
Zα/2 = el valor de tablas de la distribución normal estándar
p = la fracción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador

Nh
Wh =
N
ah
φ̂ =
nh

246
M UESTREO BASADO EN EL MÉTODO DE RESPUESTA ALEATORIZADA

¿Cuál método de respuesta aleatorizada es mejor?

Dowling y Shachtman (1975) han mostrado que la varianza del estimador de interés (π̂) de
la versión Horvitz et al. (1967) es menor que la propuesta originalmente por Warner (1965).
Esto significa que usando la versión propuesta por Horvitz (1967) se obtienen estimaciones
de la proporción y el total más precisas, por lo que se sugiere que el investigador use esta
versión para realizar sus estudios.

247
Apéndice. Tablas de la distribución
normal y la distribución t -Student
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

1D 2

Z0
! Z0 ! Z0
1 z2
P (Z < Z0 ) = f Z (z)d z = # e − 2 d z = 1 − α/2
−∞ −∞ 2π

Cuadro A.1 Distribución normal estándar acumulada

Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

250
TABLAS DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR Y LA DISTRIBUCIÓN t -S TUDENT

1D 2

t0

!t 0 !t 0 " #−(ν+1)/2
1 [(ν + 1)/2]! t 2
P (T < t 0 ) = f T (t )d t = # +1 dt
−∞ −∞ νπ [ν/2]! ν

Cuadro A.2 Puntos porcentuales de la distribución t -Student

α/2

ν 0.25 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005

1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192


2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995 4.0293 4.7853 5.4079
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.2224 3.6458 3.9651
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.1966 3.6105 3.9216
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453 3.1534 3.5518 3.8495
21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.1352 3.5272 3.8193
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787 3.0669 3.4350 3.7066
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739
29 0.6830 1.3114 1.6991 2.0452 2.4620 2.7564 3.0380 3.3962 3.6594
30 0.6828 1.3104 1.6973 2.0423 2.4573 2.7500 3.0298 3.3852 3.6460
40 0.6807 1.3031 1.6839 2.0211 2.4233 2.7045 2.9712 3.3069 3.5510
60 0.6786 1.2958 1.6706 2.0003 2.3901 2.6603 2.9146 3.2317 3.4602
120 0.6765 1.2886 1.6577 1.9799 2.3578 2.6174 2.8599 3.1595 3.3735
180 0.6759 1.2863 1.6534 1.9732 2.3472 2.6034 2.8421 3.1361 3.3454
210 0.6757 1.2856 1.6521 1.9713 2.3442 2.5994 2.8370 3.1295 3.3375

251
M UESTREO ESTADÍSTICO : TAMAÑO DE MUESTRA Y ESTIMACIÓN DE PARÁMETROS

Cuadro A.3 Tabla de números aleatorios

1 2 3 4 5 6 7 8 9 10

51 75382 51664 50906 54843 32905 00326 27504 54471 00639 59454
52 92841 20566 69880 83226 06380 12130 29205 47054 12072 75769
53 12323 18644 05090 44424 18839 28290 08163 94933 10957 56948
54 08602 51296 74600 68975 37789 00555 68290 57422 73964 47549
55 80399 82376 00388 44573 39881 65838 95955 74046 67407 08054
56 59343 66130 36434 15838 26049 30525 19053 73768 88440 88518
57 00157 82067 71231 57445 33793 42351 01015 04516 60531 83546
58 12069 46302 58624 11725 55014 78605 23840 36910 83589 31919
59 78768 48680 07404 03965 06590 12564 87693 24586 85125 26639
10 12291 50741 29658 33636 40345 67222 33055 58750 21024 15078
11 38758 14871 30273 22217 25539 75232 02119 20767 17775 49060
12 64359 06412 56553 50521 49695 27291 19963 81782 39570 33457
13 67085 90221 12143 24797 40468 70393 59830 85755 65445 08335
14 46890 59592 77610 36664 62336 94456 94958 60791 60083 35078
15 75896 47732 00256 56919 88753 99865 98709 22575 63238 85008
16 87252 46135 80751 05987 36320 41249 73544 75104 86853 59982
17 33171 33551 76533 27365 49256 07832 90820 94734 63906 58669
18 53214 65370 56121 68027 03850 02720 56545 93593 25249 44074
19 67284 19394 95100 96675 06348 36950 17983 57583 93635 37879
20 94800 27736 44906 45537 53098 02820 63161 93488 14455 84774
21 55743 86547 55519 98759 91388 55747 73916 68889 08697 94903
22 60847 43456 64951 08092 58965 98844 89869 81876 35354 72294
23 54218 34014 69127 97810 31995 62818 83871 49159 15614 15023
24 95910 92814 99051 46006 95474 70557 77123 35273 81916 45520
25 92038 24983 32726 99122 24716 98556 26547 06054 46048 52676
26 61866 31950 75273 31815 08289 12285 78943 16326 85289 52314
27 18192 71986 58539 66858 23643 60033 85983 28576 78315 79695
28 11947 43172 24672 02783 88966 31306 33822 95164 31097 68762
29 77536 03361 46239 07783 07028 43727 18278 51924 49441 95899
30 61195 52546 15404 56659 04906 45803 40089 18752 35955 97595
31 96086 37247 47876 29096 05979 50278 12486 37933 70894 53595
32 57948 88044 09427 31507 29869 53686 61184 51042 01733 37122
33 00071 45330 31633 34998 05337 65871 98680 76361 76444 79152
34 64131 60054 68308 67086 66028 98994 10238 90929 65631 21799
35 74871 16848 81178 58108 66976 31938 37952 52266 13064 50615
36 32490 27246 07531 63193 48241 89570 57062 24051 37501 42452
37 54114 09886 60690 50105 01333 74612 13895 81015 90443 09726
38 75639 00336 43295 47260 37433 49422 65098 81849 14698 17194
39 02171 92713 13839 79191 30050 84055 43180 14378 17322 21188
40 38573 98474 59606 04698 83919 03702 69763 15985 06710 86808
41 78406 23706 48524 56716 26576 50599 98923 61473 83705 58718
42 15989 96405 66295 10264 85656 80210 62378 15065 64875 91762
43 11058 02658 33542 43663 44334 73636 11795 03577 93330 00162
44 39694 08359 38053 52340 71901 12748 72159 90238 90203 41173
45 45041 34528 79417 27992 11550 90446 13282 98381 80568 96066
46 33618 12142 65407 58142 65625 92494 29931 32828 84419 58729
47 01547 38640 65101 26159 53347 73750 04059 29580 30011 62774
48 46120 97243 30236 27911 13340 43979 01488 28199 19023 00411
49 26199 00214 58641 65512 86399 58314 42240 25969 87060 15186
50 72431 70513 14583 24788 53413 26620 44690 40453 50362 74107

252
TABLAS DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR Y LA DISTRIBUCIÓN t -S TUDENT
! "
Figura A.1 Varianzas de distribuciones infinitas S 2 , en función de su forma y rango
(h = rango = máximo X i − mínimo X i )

h h

Normal Uniforme discreta


h2 h2 h
S2 = S2 = +
36 12 6

h
h

Uniforme continua Elipse


h2 h2
S2 = S2 =
12 16

h h

Triangular simétrica Triangular asimétrica


h2 h2
S2 = S2 =
24 18

Triangular doble
2 h2
S =
8

253
Referencias bibliográficas

Azorin, F. (1972), Curso de muestreo y aplicaciones, 1a. edición, España: Ediciones Aguilar, SA.

Bradburn, N. M., S. Sudman (1988), Polls and Surveys: Understanding What They Tells Us, Estados
Unidos: Jossey-Bass Publishers.

Cochran, W. (1985), Técnicas de muestreo, México, DF: Compañía Editorial Continental.

Danger, S., N. Huizing, A. Walker, A. Rowland, R. Anderson, R. Sciaccaluga (1996), EU Information


Society Guide, Bruselas, Bélgica: The EU Committee on the American Chamber of Commerce in
Belgium.

Deming, W. E. (1950), Some Theory of Sampling, Nueva York: John Wiley & Sons.

Dowling, F. A. y R. H. Shachtman (1975), “On the Relative Efficiency of Randomized Response Mo-
dels”, Journal of the American Statistical Association, vol. 70, pp. 84 − 87.

Horvitz, D. G., B. V. Shah y W. R. Simmons (1967), “The Unrelated Question Randomized Response
Model”, Proceedings of the Social Statistics Section, pp. 65 − 72.

Kish, L. (1972), Muestreo de encuestas, México, DF: Editorial Trillas.

Lohr, S. L. (2000), Muestreo: diseño y análisis, México, DF: International Thomson Editores.

Méndez, C. E. y C. R. Quintana (2007), “Muestreo: respuesta aleatorizada”, disponible en <http://ww


w.dpye.iimas.unam.mx/finales2007/MuestreoRespuestaAleatorizada.ppt>, IIMAS, UNAM, Méxi-
co, DF.

255
R EFERENCIAS BIBLIOGRÁFICAS

Méndez, I., G. Eslava y P. Romero (1972), “Conceptos básicos de muestreo”, Monografías, IIMAS,
UNAM , vol. 12, núm. 27, México, DF .

Mood, A. M., A. F. Graybill y D. Boes (1974), Introduction to Theory of Statistics, Estados Unidos:
McGraw-Hill.

Pérez, L. C. (2000), Técnicas de muestreo estadístico. Teoría, práctica y aplicaciones informáticas, Mé-
xico, DF: Editorial Alfaomega-Rama.

Raj, D. (1972), The Design of Sample Surveys, Nueva York: McGraw-Hill.

Rendón, S. G. (1997), Métodos estadísticos. Muestreo, diseños experimentales, estadística no paramé-


trica, México, DF: Universidad Autónoma de Chapingo.

Scheaffer, R. L., W. Mendenhall y O. Lyman (1987), Elementos de muestreo, México, DF: Grupo Edito-
rial Iberoamérica.

Siegel, S. (1977), Estadística no paramétrica, México, DF: Editorial Trillas.

Warner, S. L. (1965), “A Survey Technique for Eliminating Evasive Answer Bias”, Journal of the Ame-
rican Statistical Association, vol. 60, núm. 309, pp. 63 − 69.

256
Muestreo estadístico: tamaño de
muestra y estimación de parámetros,
cuya edición estuvo a cargo de Miguel
Ángel Tinoco Zermeño, se terminó
de imprimir en enero de 2010 en los
talleres de la Dirección General de Pu-
blicaciones de la Universidad de Colima
en Colima, México. El tiraje fue de 500
ejemplares.

View publication stats

También podría gustarte